HU231329B1 - Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére - Google Patents

Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére Download PDF

Info

Publication number
HU231329B1
HU231329B1 HUP1900166A HUP1900166A HU231329B1 HU 231329 B1 HU231329 B1 HU 231329B1 HU P1900166 A HUP1900166 A HU P1900166A HU P1900166 A HUP1900166 A HU P1900166A HU 231329 B1 HU231329 B1 HU 231329B1
Authority
HU
Hungary
Prior art keywords
pauses
probability
unit
filled
sound
Prior art date
Application number
HUP1900166A
Other languages
English (en)
Inventor
Gosztolya Gábor dr.
Hoffmann Ildikó dr.
Kálmán János dr.
Pákáski Magdolna dr.
Tóth László Dr.
Vincze Veronika dr.
Original Assignee
Szegedi Tudományegyetem
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Szegedi Tudományegyetem filed Critical Szegedi Tudományegyetem
Priority to HUP1900166A priority Critical patent/HU231329B1/hu
Priority to ES19861241T priority patent/ES2964507T3/es
Priority to US17/415,418 priority patent/US20220039741A1/en
Priority to EP19861241.8A priority patent/EP3899938B1/en
Priority to PCT/HU2019/000043 priority patent/WO2020128542A1/en
Publication of HUP1900166A2 publication Critical patent/HUP1900166A2/hu
Publication of HU231329B1 publication Critical patent/HU231329B1/hu

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére
A jelen találmány a különböző eredetű humán kognitív hanyatlás korai felismeréséhez kapcsolódik. A kognitív hanyatlást kísérő bármiféle kognitív zavart, beleértve az ún. enyhe kognitív zavart (EKZ) itt és a továbbiakban „neurokognitív zavar” megjelöléssel illetjük.
A találmány tárgya elsősorban a neurokognitív zavar hangminta alapján történő automatizált, orvosi beavatkozás nélküli felismerésére vonatkozó eljárás, továbbá az eljárást végrehajtó adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység.
Az időskor kitolódása társadalmi jelenség. Ugyanakkor a dementálódás (kóros leépülés) folyamata már negyven éves kor körül elkezdődhet enyhe kognitív zavar (EKZ) kíséretében, ami összefoglalóan az Alzheimer-kór, vaszkuláris demenciák és más neurodegeneratív, metabolikus, toxikus és traumás demencia-formák, illetve ezek korai állapotait jelenti. Az EKZ felismerése a klinikum (háziorvos, pszichiáter, neurológus, gerontológus) legnehezebb feladatai közé tartozik. A nemzetközi gyakorlatban léteznek teszteljárások, amelyek a korai felismerést és diagnosztizálást célozzák, azonban ezek eredményessége, illetve maguk a teszteredmények sokszor nem mutatnak hasonlóságot. Ezen teszteljárások ráadásul vagy túlságosan időigényesek, vagy nem adnak pontos felmérést a preklinikai állapotokról.
Az általánosan alkalmazott teszteljárások közé tartozik például - a teljesség igénye nélkül - az általános kognitív képességeket felmérő, gyors, kb. 15 percet igénybe vevő 'Mini Mental Test' (MMSE: Mini-Mental State Examination), amit elsősorban a demenciák azonosítására és súlyossági fokuk megítélésére használnak (a részletek megtalálhatók pl. M. F. Folstein, S. E. Folstein, P. R. McHugh szerzők „ Mini-mental state, A practical method for grading the cognitive state of patients for the clinician” c., J. Psychiatr. Res. 12; 189-198. (1975), valamint Janka és mtsai
- 2 „Dementia szűrővizsgálat cognitív gyors teszt segítségével” c., Orvosi Hetilap 129, 2797 (1988) munkájában), vagy a praxist, gnózist, térészlelést, sebességet és stratégiát mérő órarajzolási teszt (ld. pl. J. Kálmán és mtsai „Óra rajzolási teszt: gyors és egyszerű demencia szűrő módszer” c., Psych. Hung 10; 11-18. (1995) munkáját), vagy az Alzheimer-kórral foglalkozó és pszichofarmakológiai kutatásokban nemzetközileg elfogadott mérőeszközként használatos ADAS-Cog teszt (Alzheimer's Disease Assessment Scale-Cognitive alskála; l. pl. W. G. Rosen, R. C. Mohs, K. L. Davis szerzők „A new rating scale for Alzheimer's disease” c. Am. J. Psychiatry 141(11) 1356-1364. (1984) munkáját). Különböző jellemzőkön keresztül a tekintett teszteljárások mindegyike azt méri, hogy milyen eltérés van egy vélhetően neurokognitív zavarral bíró páciens kognitív képességeiben az egészséges személyek kognitív képességeihez képest. Az említett neuropszichológiai teszteljárások minden esetben tartalmaznak nyelvi funkciókat mérő feladatokat is (pl. verbális fluencia, mondatutánmondás vagy konfrontációs megnevezés); ezekben a tesztekben a nyelvi funkciók alatt a nyelvi szinteket értik, vagyis a fonetikai/fonológiai, morfológiai, szintaktikai, szemantikai és pragmatikai szintet.
A jelenleg használatos teszteljárások közös jellemzői, hogy bonyolultak, igen időés munkaigényesek, elvégzésük nagy tapasztalattal rendelkező szakember közreműködését igényli, valamint szűrővizsgálatok céljára nem alkalmazhatók. Mindez a mindennapi orvosi gyakorlatban jelentős problémát okoz. További probléma, hogy internet alapú változatuk nem ismert, így a tekintett teszteket általában manuálisan kell elvégezni és kiértékelni. Annak ellenére, hogy a nyelvi és emlékezeti funkciózavarok korai tünetek, a neurokognitív zavar (pl. Alzheimer prodróma) nyelvi aspektusait mérő szűrőteszt ezidáig nem került kifejlesztésre, az ismert afázia-tesztek pedig erre a célra nem elég érzékenyek (ld. K. Forbes-McKay, A. Venneri szerzők „Detecting subtle spontaneous language decline in early Alzheimer's disease with a picture description task” c., Neurol. Sci. 26: 243-254. (2005) munkáját).
Korábban történtek már kísérletek arra, hogy az Alzheimer-kór diagnosztizálására spontán emberi beszédben fellelhető paramétereket (ún. biomarkereket) keressenek és használjanak fel. Megállapításra került, hogy a spontán beszéd temporális elemzése diagnosztikus értékű lehet az enyhe Alzheimer-kór és az
- 3 egészséges kontroll csoport megkülönböztetésénél (ld. I. Hoffmann, D. Németh, D. C. Dye, M. Pákáski, T. Irinyi, J. Kálmán szerzők „Temporal parameters of spontaneous speech in Alzheimer's disease” c., International Journal of SpeechLanguage Pathology 12/1.29-34. (2010) munkáját).
Arra is történtek már kísérletek, hogy a diagnózis alapjául szolgáló, manuálisan elvégzésre kerülő és így igen időigényes, bonyolult, következésképpen az orvosi gyakorlatban mindennapos eszközként nem használható temporális elemzést többé-kevésbé automatizálják (ld. L. Tóth, G. Gosztolya, V. Vincze, I. Hoffmann, G. Szatlóczki, E. Biró, F. Zsura, M. Pákáski, J. Kálmán szerzők „Automatic Detection of Mild Cognitive Impairment from Spontaneous Speech using ASR”, Proc. Interspeech, pp. 2694-2698 (2015) munkáját). Ezen vizsgálat során a hangmintákban nem szavakat, hanem hangokat, fonémákat azonosítottak, és a kitöltött szüneteket, amely az EKZ-re jellemző hezitációknál gyakran előfordul, mint speciális fonémákat azonosították. A vizsgálat alapján megállapították, hogy az automatizált beszédelemzés csak kis mértékben ad rosszabb eredményt a kézi kiértékelésnél, tehát a cikkben ismertetett automatizált, gépi elemzési technika alkalmazható beszédelemzésre az EKZ detektálásának céljára. A cikk kitér arra is, hogy a beszédelemzés során nem szükséges az egyes fonémák meghatározása, beazonosítása. A megoldás hátránya, hogy nem fordít kiemelkedő figyelmet a hezitációs, kitöltött szünetek azonosítására, amelyeket így sok esetben tévesen azonosítanak, például egy-egy hangzóként, miközben a kitöltött szünetek az EKZ detektálása szempontjából kiemelkedően fontosak.
A hangminták alapján történő neurokognitív zavarok automatizált, gépi kiértékeléssel történő detektálhatóságával foglalkozik továbbá Laszlo Toth, Ildiko Hoffmann, Gabor Gosztolya, Veronika Vincze, Greta Szatloczki, Zoltan Banreti, Magdolna Pakaski, Janos Kalman szerzők „A Speech Recognition-based Solution for the Automatic Detection of Mild Cognitive Impairment from Spontaneous Speech” c., Curr. Alzheimer Res. 15:(2) 130-138 (2018) munkája. A cikkben alkalmazott eljárás során hangmintákat a fonémák felismerésével szegmentálnak, és a szegmentálás során a beszédközi szüneteket, továbbá a valamilyen hangzóval kitöltött hezitációs szüneteket is azonosítják, vagyis ezeket a kitöltött szüneteket mint speciális fonémákat vizsgálják. A fonémák azonosítása során a beazonosítás pontosságát nem vizsgálják, ezen belül különösen nem értékelik ki az alkalmazott
- 4 beszédfelismerő rendszer által az adott szegmensre meghatározott (legvalószínűbb) fonéma valószínűségét. A szegmentálás után akusztikai biomarkereket számítanak, majd ezeket az akusztikai jellemzőket gépi tanuló algoritmussal feldolgozzák és kiértékelik annak eldöntésére, hogy a páciens EKZben szenved-e vagy sem. Ez a tanulmány is kiemeli, hogy az eljárás során az akusztikai jellemzők meghatározásához nem szükséges az egyes fonémák konkrét beazonosítása. Ezen megoldás szerinti eljárás sem foglalkozik a kitöltött szünetek pontos azonosításával, és az emiatt tévesen azonosított szegmentumok kezelésével.
A fenti cikkben hivatkozott publikáció, K. López-de-Ipina és szerzőtársai „On the Selection of Non-Invasive Methods Based on Speech Analysis Oriented to Automatic Alzheimer Disease Diagnosis” c., Sensors 13, 6730-6745 (2013) munkája is hangminták alapján történő automatikus Alzheimer-kór diagnosztizálásával foglalkozik. A szerzők a hangmintákat a spontán beszéd folytonosságával, továbbá Higuchi fraktáldimenzió, érzelmi beszédanalízis és érzelmi hőfok meghatározásával vizsgálták. A cikk szerint a spontán beszéd folytonosságára vonatkozó jellemzők hisztogram számítását is tartalmazzák a hangminták beszédet tartalmazó és beszédet nem tartalmazó (szünet) szegmentumainak átlagára, továbbá a beszéd és a szünet százalékos arányára. A szerzők által hisztogramnak nevezett grafikonokra példák egy korábbi, jelen cikk szerzőihez köthető és jelen cikkben meghivatkozott publikációjában (K. López-deIpina és szerzőtársai „New Approaches for Alzheimer’s Disease Diagnosis Based on Automatic Spontaneous Speech Analysis and Emotional Temperature” c. Ambient Assist. Living Home Care, 7657, 407-414 (2012)) találhatók. K. López-deIpina 2012-es publikációjában a grafikonok (3. és 4. ábra) nyolc alany 60 másodperc hosszú hangmintái tekintetében hasonlítják össze a beszéd és a szünetek százalékos arányát, továbbá a beszédet és a szünetet tartalmazó időszakaszok átlagos hosszát. Megállapítható, hogy a jelzett grafikonok nem hisztogramokat, hanem oszlopdiagramokat mutatnak, mivel azok nem egy változó különböző értékeihez, értéktartományaihoz tartozó értékeket ábrázolják, hanem egymástól független alanyokhoz tartozó hangminták jellemzőit. A grafikonokon meghatározott jellemzőket továbbá nem használják fel automatikus döntési információ előállítására, hanem mindössze kvalitatív módon megállapítják, hogy az Alzheimer
- 5 kórban szenvedő alanyok beszédének folytonossága csökken a kontrollcsoporthoz képest, azaz gyakrabban tartanak szünetet, és szintén csökken a beszéddel kitöltött szakaszok átlagos hossza.
A fenti 2013-as cikkben vizsgálják a diagnózis pontosságát az egyes jellemzőcsoportok, illetve ezek kombinációinak alkalmazásával. A jellemző-csoportok közül a spontán beszéd folytonosságára vonatkozó jellemzők alkalmazásával volt a legalacsonyabb a diagnózis pontossága, amely pontosság csak más típusú további jellemzők alkalmazásával emelkedett. A cikk 6. ábráján szereplő, a különböző típusú jellemzők és azok kombinálásával meghozott döntések összesített hibaszázalékait bemutató oszlopdiagramon is látható, hogy a kizárólag a spontán beszéd folytonosságára vonatkozó jellemzők kiértékelésével a hangminták besorolása közel 180%-os összesített hibaszázalékkal rendelkezik, amely hibaszázalék legjelentősebb része az első fázisú, azaz korai stádiumú (ES, early stage) Alzheimer-kór téves felismeréséből adódik. Mindez azt mutatja, hogy a cikk kifejezetten hátrányosnak állítja be a hisztogramnak nevezett oszlopdiagramok bevonását a döntési algoritmusba.
A technika állása szerinti automatizált beszédfelismerő algoritmusok, szoftverek, például HTK (http://htk.eng.cam.ac.uk/) vagy PRAAT (http://www.praat.org/) általában egy valószínűségi modellt, például rejtett Markov modellt alkalmaznak a hangminta egyes fonémáinak vagy szavainak felismerésére, azaz meghatározzák, hogy egy adott időszegmensben milyen szó vagy fonéma hallható a legnagyobb valószínűséggel. Az algoritmusok kimenete alapértelmezett beállításokkal csak a meghatározott szavakat vagy fonémákat adja vissza, a felismerés során meghatározott valószínűségi értékeket azonban nem, így ezen valószínűség értékek további analízisre való felhasználása nem ismert a technika állása szerint.
Az US 5,867,816 dokumentum egy automatikus beszédfelismerő rendszert mutat be, amely a digitalizált beszédet fonémákra osztja fel, és azokat megjelöli. A beszéd feldolgozását előnyösen 20-25 ms hosszú időablakokban végzik, melyek akár át is fedhetnek egymással. Az átfedés előnyösen 5-10 ms nagyságrendű. Az egyes időablakokon végzett transzformáció, például gyors Fourier-transzformáció (FFT) után betanított neurális hálóval határozzák meg az egyes időablakokba eső
- 6 fonémákat. A találmány hátránya, hogy az automatikus szegmentálás során a beszédben előforduló szüneteket nem veszik figyelembe, hanem eliminálják.
Az US 2009/0076817 A1 dokumentum egy beszédfelismerő eljárást ismertet, mely meghatározza az egymás utáni hangok közti határokat, majd valószínűségi becslést ad az adott intervallumban található fonémákra.
Az US 5,333,275 dokumentum spontán beszéd hangfelvételének időzített lejegyzésével foglalkozó eljárást mutat be. A hangfelvételek hossza tipikusan 5-10 perc, mely során a spontán beszédből adódó hezitáció is nehezíti az időzítést. Az eljárás során a hangzók felismerésén túl a megfelelő időzítéshez a hangfelvételek beszéden kívüli részeit, például külső zajokat vagy a spontán beszédből eredő jellemzőket is kezelni kell. Az eljárás külön rejtett Markov-modellek segítségével azonosítja a beszédhangokat és a beszéden kívüli jellemzők közül a szüneteket, a be- és kilégzés hangjait és a beszéd közbeni ajaknedvesítést; egyéb beszéden kívüli jellemzőket, például hezitációs, kitöltött szüneteket az eljárás nem modellez. Az eljárás szimultán két beszélő hangjainak elkülönítésére kumulatív hisztogramot használ.
Az US 7,835,909 B2 dokumentum olyan beszédfelismerő eljárást ismertet, mely visszafelé számított kumulatív hisztogramot használ a hangok jellemzővektorának normalizálására. A hagyományos módon, a kisebb értékek felől a nagyobbak felé számított kumulatív hisztogramok hátránya, hogy a zajokat is erősen kumulálja. Visszafelé, azaz a nagyobb értékektől a kisebbek felé számított kumulatív hisztogramokkal a zajos környezetben készített hangfelvételekben a zajok kevésbé dominánsan jelennek meg, így azok a tiszta körülmények között felvettekhez hasonlók lesznek.
Az ismert megoldások fényében felmerült az igény olyan beszédelemzési eljárás kidolgozására, amely egyszerűen, hatékonyan, továbbá gyorsan és objektív módon, szakember vagy orvos közreműködése nélkül, bárki számára hozzáférhetően teszi lehetővé neurokognitív zavarok korai felismerését, illetve szűrését.
A találmány szerinti megoldás célja olyan neurokognitív zavar felismerésére szolgáló automatizált beszédelemzési eljárás kidolgozása, amely a lehető legnagyobb mértékben mentes a technika állása szerinti megoldások hátrányaitól.
- 7 A találmány elsődleges célja olyan automatizált eljárás létrehozása, amely hatékonyan, a lehető legkisebb hibaszázalékkal, gyors feldolgozást lehetővé tevően, objektív módon biztosítja neurokognitív zavarok korai felismerését.
A találmány további célja olyan eljárás létrehozása, amely egyszerű, olcsó, szakképzettségtől vagy iskolai végzettségtől függetlenül bárki által végrehajtható, és a szükséges adaptációk, kalibrációk elvégzését követően bármely nyelv esetében alkalmazható.
A találmány céljai közé tartozik még olyan eljárás létrehozása is, amely farmakológiai vizsgálatokban is alkalmazható neurokognitív zavarok felismerésére, illetve a neurokognitív zavar súlyosságának megállapítására, ami által egyes neurokognitív zavarok kezelésében alkalmazott gyógyszerek, gyógyászati készítmények hatásossága felmérhető.
A találmány céljai kiterjednek az eljárást megvalósító adatfeldolgozó rendszerre, számítógépes programtermékre és számítógéppel olvasható tárolóegységre is.
A találmány vonatkozásában kitűzött célokat az 1. igénypont szerinti automatizált neurokognitív zavart felismerő eljárással, a 16. igénypont szerinti adatfeldolgozó rendszerrel, a 18. igénypont szerinti számítógépes programtermékkel és a 19. igénypont szerinti számítógéppel olvasható tárolóegységgel valósítottuk meg. A találmány előnyös kiviteli alakjai az aligénypontokban vannak meghatározva.
A találmány szerinti megoldás előnye, hogy az eljárás egy humán hangmintából teljesen automatizáltan határoz meg döntési információt, amely alapján eldönthető, hogy a hangmintát szolgáltató alany neurokognitív zavarban szenved-e. A neurokognitív zavarok korai felismerése, illetve valószínűsítése lehetőséget biztosít arra, hogy a feltételezett beteg időben szakorvoshoz forduljon.
Általában a bármilyen felismerést végző gépi tanuló algoritmusok esetén nagy szerepe van a tanításhoz használt adatok minőségének és információtartalmának. Amennyiben egy felismerő algoritmus részére gazdag információtartalommal bíró adatokat tudunk betáplálni, úgy hatékony és pontos felismerési folyamatokhoz jutunk. Példaképpen a képfelismerési algoritmusoknál alkalmazható a felismerendő kép valamilyen transzformáltjának, például az éleket kiemelő vagy a hátteret elnyomó változatának a betáplálása, ami javítja a felismerés pontosságát.
- 8 Hasonlóképpen, hangfelismerés esetén is célszerű alkalmazni olyan, az eredeti hangmintából származtatott, aggregált információt, amelyet a felismerő algoritmusba betáplálva a felismerés pontossága megnövelhető. A technika állása a hangfelismerés tekintetében ismertet néhány, beszédfelismerő algoritmusba betáplálható származtatott, aggregált jellemzőt, de ezek alkalmazása mégsem hozott áttörő jellegű előrelépést a találmány szerinti területen a felismerési, döntési pontosság javítása terén.
A bevezetőben említett módon a technika állása szerint a döntésbe, felismerésbe nem viszik be azokat a valószínűség értékeket, amelyek az egyes vizsgált szegmenseket/fonémákat jellemzik, hanem a valószínűség értékeket kizárólag arra használják, hogy a legnagyobb valószínűséghez tartozó fonémát válasszák relevánsnak. Az általános szakmai gondolkodás szerint ugyanis, a valószínűség értékek, ezeken belül különösen az alacsonyabb valószínűség értékek éppen a felismerés bizonytalanságát tükrözik, így azok betáplálása egy döntési folyamatba a bizonytalanság, pontatlanság irányába hat. Ugyanígy nem merült fel a technika állásában a hangmintára vonatkozó olyan aggregált információ előállítása, amely nem csupán egyetlen aggregált paramétert jelent, hanem amely a hangminta egészére kiterjedően, de azon belül minden releváns időszakaszra vonatkozóan is tartalmaz járulékos információt. Ennek megfelelően ilyen jellegű többlet-információt a technika állása szerinti megoldások nem is veszenek figyelembe a döntésekben.
Kísérleteink során felismertük, hogy a hangminta fizikai paramétereire, például szüneteire számított valószínűség értékek felhasználásával meghatározott hisztogramok a fizikailag megjelenő hangminta olyan újszerű, aggregált reprezentációit jelentik, amely hisztogramok adataiból pontosabb döntési információ állítható elő, és a többletszámítással és információvesztéssel járó hátrányt bőven meghaladják a pontosabb döntési információ nyújtotta előnyök. A technika állásának kitanításával és az általános műszaki gondolkodással szembemenően azt is felismertük, hogy a találmány szerint, a hangminta fizikai jellemzőiből, szüneteiből számított hisztogramot a döntési információ előállításához felhasználva pontos, megbízható és gyors döntés hozható, ami szükségtelenné teszi további, többletszámítással járó jellemzők, például a technika állása szerinti fraktáldimenziók, érzelmi hőfok, stb. meghatározását és felhasználását. A találmány további előnye, hogy az eljárás alkalmas farmakológiai vizsgálatokban való
- 9 felhasználásra, mivel az eljárással a korábban ismert eljárásoknál kisebb mértékű kognitív változások is érzékelhetők.
A továbbiakban a találmány példaképpeni előnyös kiviteli alakjait rajzokkal ismertetjük, ahol az
1. ábra a találmány szerinti eljárást megvalósító rendszer egy előnyös kiviteli példájának felépítése, a
2. ábra néma szünetre, kitöltött szünetre és bármilyen típusú szünetre összesen becsült valószínűség diagramja egy hangminta egy időtartományára, a
3. ábra a 2. ábra szerinti hangminta kitöltött szünetekre vonatkozó becsült valószínűsége, vízszintes vonalakkal jelölve a valószínűségi értékhatárokat, a
4. ábra a 3. ábra értékeiből számított hisztogram és kumulatív hisztogram, az
5. ábra a 4. ábra szerinti hisztogramokból a 2. ábra szerinti valószínűségekre számított szignifikancia értékek a 3. ábrán jelölt valószínűségi értékhatárok függvényében, a
6. ábra az MMSE, az ADAS-Cog és az órarajzolási tesztek eredményei Alzheimer-kór terápiájára vonatkozó farmakológiai vizsgálatokban, és a 7A-7F ábrák a 6. ábra szerinti terápiára vonatkozó vizsgálati eredmények a találmány szerinti eljárás alkalmazásával, egyes akusztikai paraméterek tekintetében.
Az eljárás során hangminta előállítási lépésben hangmintát állítunk elő, célszerűen mikrofonnal.
A hangmintát szegmentálási és címkézési lépésben feldolgozzuk, amely során a hangmintából beszédfelismerő egységgel címkézett szegmentumsorozatot állítunk elő. Beszédfelismerő egységként előnyösen tetszőleges, akár technika állása szerinti beszédfelismerő rendszer is alkalmazható. A beszédfelismerő egység jellemzőit és a vele szemben támasztott elvárásokat az 1. ábra kapcsán ismertetjük részletesebben.
A címkézett szegmentumsorozat címkékként fonéma címkét, továbbá néma szünet címkét és kitöltött szünet címkét tartalmaz, és minden címkéhez tartalmazza annak kezdő és záró időpontjait is. Előnyösen fonémánként külön fonéma címkéket
- 10 alkalmazunk, de a találmány megfelelően működik olyan egyszerűsített megoldással is, amelyben minden fonémára közös fonéma címkét használunk, amellyel az egyes fonémák között nem teszünk különbséget, és csak azt jelezzük, hogy a beszédben nem kitöltött vagy kitöltetlen szünetről van szó. Néma szünetnek nevezzük a hangminta azon időszakaszait, amelyekben nem hallható beszéd, csend van. A kitöltött szünetek a hangminta azon időszakaszai, amelyek nem csendesek, azonban beszéd nem történik. Ezek, a tipikusan valamilyen beszédhanggal kitöltött szünetek a beszélő, felhasználó hezitációját fejezik ki. Kitöltött szünetnek számít például a hümmögés (hmmm, ühm, stb.), illetve az egyéb hezitációs hangzók alkalmazása (magyar nyelvben az őőő-zés, vagy angol nyelvterületen ’um’, ’uh’, ’er’ alkalmazása). A címkék előnyösen az adott hangmintának megfelelő nyelv beszédhangjainak megfelelő fonéma címkék, kiegészítve a néma szünet és kitöltött szünet címkékkel.
A címkézett szegmentumsorozatból akusztikai paraméterszámítási lépésben a hangmintára jellemző akusztikai paramétereket állítunk elő, amely akusztikai paraméterek kiértékelési lépésben gépi tanuló algoritmust alkalmazó kiértékelő egységbe lesznek betáplálva döntési információ előállítására. A döntési információ alapján lehet meghatározni, hogy a hangmintát biztosító személy neurokognitív zavarok szempontjából veszélyeztetett csoportba tartozik-e. A döntési információt meghatározó kiértékelő egységet is az 1. ábra leírásánál mutatjuk be részletesebben.
A hangminta feldolgozása során valószínűség-analitikai lépésben az egy meghatározott időfelosztásában időszakaszokra bontott hangminta egyes időszakaszaira meghatározzuk a néma szünetre, kitöltött szünetre és bármilyen (azaz akár néma, akár kitöltött) szünetre vonatkozó valószínűség értékeket.
A valószínűség-analitikai lépésben meghatározott valószínűség értékeket előnyösen a szegmentálási és címkézési lépésben a címkézett szegmentumsorozat előállításához felhasználjuk, amely során a címkézett szegmentumsorozat címkéit a legmagasabb valószínűségű fonémák (beleértve a néma és kitöltött szüneteket is) alapján határozzuk meg, a szegmentumhatárokat pedig az azonosan címkézhető, összefüggő időszakaszok határai adják.
- 11 A valószínűség-analitikai lépésben meghatározott valószínűség értékekből járulékos jellemzőszámítási lépésben hisztogramot számítunk, amelynek során a meghatározott valószínűség értékekből a valószínűség-tartomány résztartományokra történő felosztásával és az egyes résztartományokba eső valószínűség értékekhez tartozó időszakaszok időtartamának összegzésével járulékos hisztogram-adatsort állítunk elő. A kiértékelési lépésben a döntési információ előállításához az akusztikai paramétereket és a járulékos hisztogramadatsort a gépi tanuló algoritmust alkalmazó kiértékelő egységbe betáplálva állítjuk elő a döntési információt. A hangmintából meghatározott akusztikai paraméterek és a járulékos hisztogram-adatsor együttes kiértékelése a kiértékelési lépésben jelentősen megnöveli a döntési információ pontosságát.
Az 1. ábra a találmány szerinti eljárás eljárási lépéseit végrehajtó adatfeldolgozó rendszer egy előnyös kiviteli alakját ismerteti. Az adatfeldolgozó rendszer az eljárási lépések végrehajtására tartalmaz 22 hangmintából 26 címkézett szegmentumsorozatot előállító 24 beszédfelismerő egységet, és a 24 beszédfelismerő egység kimenetéhez csatlakoztatott, a 26 címkézett szegmentumsorozatból 30 akusztikai paramétereket meghatározó 28 jellemzőkinyerő egységet. Az adatfeldolgozó rendszer tartalmaz továbbá a 24 beszédfelismerő egység kimenetéhez csatlakoztatott, 42 járulékos hisztogramadatsort előállító 40 járulékos jellemzőkinyerő egységet, és a 28 jellemzőkinyerő egység és a 40 járulékos jellemzőkinyerő egység kimeneteihez csatlakoztatott, a 30 akusztikai paraméterek és a 42 járulékos hisztogram-adatsor kiértékelését végrehajtó 32 kiértékelő egységet.
Az adatfeldolgozó rendszer előnyösen tartalmaz a 24 beszédfelismerő egység bemenetére kapcsolt 20 hangrögzítő egységet és/vagy a 32 kiértékelő egység kimenetére kapcsolt 36 megjelenítő egységet, és/vagy adatbázist, amely adatbázis a 20 hangrögzítő egységgel, a 24 beszédfelismerő egységgel, a 28 jellemzőkinyerő egységgel, a 40 járulékos jellemzőkinyerő egységgel, a 32 kiértékelő egységgel és/vagy a 36 megjelenítő egységgel van összekapcsolva.
Az eljárás hangminta előállítási lépésében emberi beszédből előnyösen a 20 hangrögzítő egységgel 22 hangmintát rögzítünk, majd a rögzített 22 hangmintát továbbítjuk a 24 beszédfelismerő egység és/vagy az adatbázis felé, amely
- 12adatbázis az ábrán nincs megjelenítve. A 20 hangrögzítő egység előnyösen telefonkészülék, mobil telefonkészülék, még előnyösebben okostelefon vagy tablet, továbbá a 20 hangrögzítő egység megvalósítható mikrofon vagy diktafon formában is. A 20 hangrögzítő egység előnyösen a 22 hangminta kondicionálására és/vagy erősítésére is alkalmas.
A rögzített 22 hangmintát a 24 beszédfelismerő egység dolgozza fel, amely a 22 hangmintát vagy a 20 hangrögzítő egységből vagy az adatbázisból nyeri ki. A 24 beszédfelismerő egységként a technika állásában ismert, kereskedelmi forgalomban is kapható, beszéd felismerésére alkalmas hardvert, szoftvert vagy ezek kombinációját tartalmazó beszédfelismerő rendszer alkalmazható. A beszédfelismerő rendszerek tipikusan statisztikai alakfelismerést végeznek, amely során tanítási fázisban nagy mennyiségű tanítóadat alapján egyes osztályokba tartozó adatok, például beszédhangok eloszlását becsülik meg, majd tesztelési fázisban egy ismeretlen osztályú új adatpont osztályát határozzák meg általában az ún. Bayes döntési szabály, vagyis a legnagyobb valószínűségek alapján. A találmány szerinti eljárásban alkalmazott beszédfelismerő rendszerrel szemben elvárás, hogy az ne szavakból álló kimenetet, hanem fonémákból, beszédhangokból álló kimenetet hozzon létre, továbbá megadja az egyes fonémák kezdő- és végidőpontját is. A 24 beszédfelismerő egység tehát a fonémák kezdőés végidőpontjaival szegmentált, a 22 hangminta adott szegmentumában található fonémával felcímkézett 26 címkézett szegmentumsorozatot ad a kimenetén (szegmentálási és címkézési lépés). A 24 beszédfelismerő egység továbbá úgy van kialakítva, hogy a 22 hangminta nyelvének megfelelő fonémákon túl a néma szüneteket és a kitöltött szüneteket is felcímkézze, így a néma és kitöltött szünetekre vonatkozó címke és szegmentuminformáció is szerepel a 26 címkézett szegmentumsorozatban.
Előnyösen 24 beszédfelismerő egységként alkalmazható például a szakterületen HTK néven ismert publikus és ingyenesen hozzáférhető beszédfelismerő rendszer (http://htk.enq.cam.ac.uk/).
A 24 beszédfelismerő egység a 26 címkézett szegmentumsorozatot a 28 jellemzőkinyerő egységnek és/vagy az adatbázisnak továbbítja.
- 13 A 24 beszédfelismerő egység a fent ismertetetteken túl valószínűség-analitikai lépésben a 22 hangminta egy meghatározott időfelosztásában, annak egyes időszakaszain néma szünetre, kitöltött szünetre és bármilyen szünetre vonatkozó 38 valószínűség értékeket határoz meg. A 38 valószínűség értékek meghatározásához a 24 beszédfelismerő egység a 22 hangmintát előre meghatározott módon időszakaszokra, előnyösen azonos hosszúságú időszakaszokra, még előnyösebben egymással átlapoló időszakaszokra osztja. Különösen előnyös megvalósítást eredményez, amennyiben a 22 hangmintát a 24 beszédfelismerő egység 10-50 ms hosszúságú, egymással előnyösen 20-50%-ban átlapoló időszakaszokra osztja. Példaképpen egymással 10 ms időtartamban átlapoló 25 ms hosszúságú időszakaszokat alkalmazunk.
A 24 beszédfelismerő egység akusztikus modellje minden időszakaszra meghatározza minden egyes fonéma, illetve a néma és kitöltött szünetek valószínűségeit. A 22 hangminta egy időtartományára meghatározott, néma szünetre, kitöltött szünetre, és összesen bármely szünetre vonatkozó 38 valószínűség értékeket ábrázolja az idő függvényében a 2. ábra.
Egy előnyös kiviteli példában a valószínűség-analitikai lépésben meghatározott 38 valószínűség értékek felhasználásra kerülnek a szegmentálási és címkézési lépésben a címkék és a szegmentumhatárok meghatározásához. Ebben az esetben az egyes időszakaszokhoz tartozó legnagyobb valószínűségű fonémák (kiegészítve a néma és kitöltött szünetekkel) lesznek a 26 címkézett szegmentumsorozat címkéi, és az időszakaszok határaiból pedig a szegmentumhatárokat lehet meghatározni. Egy másik előnyös kiviteli alakban a 26 címkézett szegmentumsorozat címkéi és szegmentumhatárai tetszőlegesen más, ismert eljárással is meghatározhatók.
A 28 jellemzőkinyerő egység a 22 hangmintára jellemző 30 akusztikai paramétereket állít elő a 26 címkézett szegmentumsorozatból, amely 26 címkézett szegmentumsorozatot a 24 beszédfelismerő egységből vagy az adatbázisból nyer ki. Az előállított 30 akusztikai paramétereket a 28 jellemzőkinyerő egység az adatbázis vagy a 32 kiértékelő egység felé továbbítja.
A 28 jellemzőkinyerő egység által előállított 30 akusztikai paraméterekre jellemző, hogy azok a 26 címkézett szegmentumsorozat egyes szegmentumainak hosszából
- 14 számíthatók, és a 30 akusztikai paraméterek legalább egyikének értéke szignifikánsan eltér az egészséges és feltételezett neurokognitív zavart mutató betegek esetében. A 30 akusztikai paraméterek ezért az egészséges és feltételezett neurokognitív zavart mutató betegek elkülönítésére alkalmas információtartalommal rendelkeznek. A 30 akusztikai paramétereket neurokognitív zavart mutató betegek és kontrollcsoport 22 hangmintáira összehasonlítottuk, amely összehasonlítást statisztikai módszerrel végeztük. Statisztikai módszerként előnyösen kétmintás statisztikai t-próbát alkalmaztunk. A neurokognitív zavart mutató betegek és a kontrollcsoport 30 akusztikai paramétereire számított kétmintás statisztikai t-próba szignifikancia értékeit az 1. táblázat foglalja össze. Az 1. táblázatban szereplő 30 akusztikai paraméterek definícióit a 2. táblázat foglalja össze. Az 1. táblázatban vastagon szedtük azokat a 30 akusztikai paramétereket, amelyekre a szignifikancia értékek 0,05-nél kisebbek, vagyis amely esetekben szignifikáns eltérés tapasztalható a neurokognitív zavart mutató betegek és a kontrollcsoport között.
- 15 1. táblázat: A 30 akusztikai paraméterek és azok szignifikancia szintje.
Akusztikai paraméterek szignifikancia értékek
hangminta teljes hossza (ms) 0,0005
beszédtempó (1/s) 0,1346
artikulációs tempó (1/s) 0,1073
néma szünetek száma (db) 0,0018
kitöltött szünetek száma (db) 0,0011
összes szünet száma (db) 0,0008
néma szünetek teljes időtartama (ms) 0,0037
kitöltött szünetek teljes időtartama (ms) 0,0011
összes szünet időtartama (ms) 0,0014
néma szünet / hangminta teljes hossza (%) 0,3850
kitöltött szünet / hangminta teljes hossza (%) 0,0398
összes szünet / hangminta teljes hossza (%) 0,2294
néma szünetek száma / hangminta teljes hossza (%) 0,1607
kitöltött szünetek száma / hangminta teljes hossza (%) 0,1160
összes szünet száma / hangminta teljes hossza (%) 0,3861
néma szünetek átlagos hossza (ms) 0,1247
kitöltött szünetek átlagos hossza (ms) 0,1308
összes szünet átlagos hossza (ms) 0,0913
2. táblázat: A 30 akusztikai paraméterek definíciói.
Változók Definíció
artikulációs tempó egy másodpercre eső hangok száma a jelidő alatt a szünetek időtartamát kivéve (1/s)
beszédtempó a szüneteket is tekintetbe vevő ejtéssebesség (1/s)
szünetek száma az összes szünet száma a hangminta teljes hossza alatt (db)
szünetek időtartama az összes szünet időtartama a hangminta teljes hossza alatt (ms)
szünet / hangminta teljes hossza az összes szünet hossza/ hangminta teljes hossza (%)
szünetarány az összes szünet darabszámának aránya a hangminta teljes időtartamában (%)
szünetek átlagos összes hossza szünet időtartama az összes szünet számát tekintve (ms)
Amint az az 1. táblázatból látható, a néma szünetek, a kitöltött szünetek és összesen bármely szünet száma, továbbá ezen szünetek teljes időtartama szignifikáns eltérést mutat a neurokognitív zavart mutató és a kontrollcsoport között. Szignifikáns eltérést mutató 30 akusztikai paraméter még a kitöltött szünetek hossza és a 22 hangminta teljes időtartamának hányadosa, ezért a kitöltött szünetek további vizsgálata különösen előnyös. Mivel a kitöltött szünetek bizonyos beszédhangokkal, a magyar nyelvben különösen az ’ö’, ’m’, és ’n’ hangokkal, az angol nyelvben különösen az ’ah’ vagy ’uh’ (fonetikusan /λ/), ’er’ (fonetikusan /3:/), és ’um’ (fonetikusan /Λm/) könnyen összetéveszthetők, ezért előnyös ezekre a fonémákra is meghatározni a kitöltött szünetekhez hasonló jellemzőket (előfordulások száma, előfordulások összes hossza, átlagos hossza, hosszok szórása), és ezekkel a 30 akusztikai paraméterek körét bővíteni.
A találmány szerint járulékos jellemzőszámítási lépésben a 22 hangmintára jellemző további, járulékos jellemzőket számítunk, amely számítás során a 38 valószínűség értékekből 42 járulékos hisztogram-adatsort állítunk elő. Az 1. ábra szerinti előnyös kiviteli példában a 42 járulékos hisztogram-adatsor előállítása a 40 járulékos jellemzőkinyerő egységgel valósul meg. A 40 járulékos jellemzőkinyerő
- 17 egység előnyösen számítási kapacitással rendelkező eszköz, például számítógép, tablet vagy mobiltelefon. Egy előnyös kiviteli példában a 40 járulékos jellemzőkinyerő egység és a 28 jellemzőkinyerő egység egy eszközben is kialakítható, amelyben az akusztikai paraméterszámítási lépés és a járulékos jellemzőszámítási lépés számítási műveletei egymást követően vagy egymással párhuzamosan vannak végrehajtva. A 42 járulékos hisztogram-adatsor előállításának lépéseit részletesen a 2-5. ábrák alapján ismertetjük.
A 32 kiértékelő egység vagy az adatbázisból vagy a 28 jellemzőkinyerő egységből és a 40 járulékos jellemzőkinyerő egységből nyeri ki a 30 akusztikai paramétereket és a 42 járulékos hisztogram-adatsort, amelyekből 34 döntési információt állít elő. A 34 döntési információ alapján eldönthető, hogy a vizsgált 22 hangmintát adó személy egészséges-e vagy feltételezhető, hogy neurokognitív zavarral rendelkezik. A 34 döntési információ előnyösen döntési határértéket és annak hibahatárait is tartalmazza, ami kifinomultabb döntéshozási lehetőséget enged meg. A 34 döntési információt előnyösen egy 36 megjelenítő egység jeleníti meg, amely előnyösen képernyővel rendelkező eszköz, például okostelefon vagy tablet.
A 34 döntési információ előállításához használt 32 kiértékelő egység előnyösen betanított gépi tanuló algoritmust alkalmaz, még előnyösebben „Naive Bayes” (NB), lineáris „Support Vector Machine” (SVM) vagy „Random Forest” (RF) alapú gépi tanuló algoritmust alkalmaz. Az ismerten neurokognitív zavarban szenvedő betegektől származó 22 hangminták alacsony száma miatt a 32 kiértékelő egység tanulási fázisában előnyösen olyan gépi tanuló algoritmus alkalmazandó, amely már kis mennyiségű, tipikusan 100 darab alatti betanításra alkalmas adat esetén is megbízhatóan alkalmazható. Ilyen, kis számú betanító adat esetében gépi tanuló algoritmusként az SVM és RF algoritmusok alkalmazása előnyös. A gépi tanuló algoritmusokat neurokognitív zavart mutató betegektől és egészséges kontrollcsoporttól vett 22 hangminták segítségével kell betanítani. A gépi tanuló algoritmusok hatékonysága általában megnövelhető többféle, jól megválasztott jellemzőket tartalmazó betanító adat rendelkezésére állása esetén. Felismertük, hogy a 42 járulékos hisztogram-adatsor képes a 22 hangmintát olyan módon leírni, amely a 32 kiértékelő egységben alkalmazott gépi tanuló algoritmus döntésének helyességét és hatékonyságát megnöveli. A 42 járulékos hisztogram-adatsor a 22 hangminta hosszától független, valószínűségi értékek szerint elosztott jellemzőkkel
- 18 írja le a 22 hangmintát, amely a korábbi 30 akusztikai paraméterekhez képest eltérő megközelítést, a 22 hangmintában lévő szünetekre vonatkozóan járulékos betanítási információt jelent. A 30 akusztikai paraméterek és a 42 járulékos hisztogram-adatsor együttes alkalmazásával betanítva a gépi tanuló algoritmus hatékonyabban és jobb döntéseket hozva működik.
A gépi tanuló algoritmus betanítása után a 32 kiértékelő egység a betanított algoritmust alkalmazza, amely alapján a 34 döntési információt előállítja. Az eljárás megbízhatóságának növelése érdekében, az eljárás során az adatbázisban eltárolt új adatokkal a gépi tanuló algoritmus időről-időre tovább tanítható.
A 32 kiértékelő egység a 34 döntési információ előállításával meghatározza, hogy a vizsgált 22 hangminta 30 akusztikai paraméterei és a 42 járulékos hisztogramadatsor a neurokognitív zavarral rendelkező csoport vagy a kontrollcsoport 22 hangmintáira meghatározott azonos jellemzőkhöz állnak közelebb. Előnyösen a 32 kiértékelő egységben alkalmazott betanított gépi tanuló algoritmus egy-egy valószínűséggel (0 és 1 közötti értékkel) jellemzi a két lehetséges döntési csoportba tartozást, amely valószínűségek összege 1. A 32 kiértékelő egység betanított gépi tanuló algoritmusa előnyösen a 34 döntési információhoz tartozó döntési határértéket és annak hibahatárait is meghatározza, így a 34 döntési információ előnyösen a meghatározott döntési határértéket és annak hibahatárait is tartalmazza. A döntési határérték az a valószínűségi értékhatár, amelynél nagyobb értékek esetén a 22 hangmintát szolgáltató alany az egyik csoportba, például a neurokognitív zavarral rendelkezők csoportjába, míg ennél kisebb értékek esetén a másik csoportba, például az egészségesek csoportjába tartozik. A döntési határérték alatt a továbbiakban a neurokognitív zavarral rendelkező csoport tekintetében meghatározott döntési határértéket értjük, tehát 0,5-es döntési határérték esetén, amennyiben a 32 kiértékelő egység betanított gépi tanuló algoritmusa a neurokognitív zavarral rendelkezők csoportjába tartozás tekintetében 0,5-nél alacsonyabb valószínűségértéket határoz meg, akkor az adott 22 hangmintát szolgáltató alany a kontrollcsoporthoz tartozónak, vagyis egészségesnek lesz minősítve. Amennyiben ez a valószínűségérték 0,5 vagy annál nagyobb érték, akkor az alany a neurokognitív zavarral rendelkezők csoportjába lesz besorolva.
- 19 Amennyiben a betanított gépi tanuló algoritmus elfogult az egyik csoport irányába, például a betanítás során alkalmazott betanító adatokban az egyik csoporthoz tartozó minták nagyobb számban fordulnak elő, akkor a döntési határérték előnyösen a 0,5-es értéknél magasabbra vagy alacsonyabbra választandó attól függően, hogy melyik irányba elfogult a betanított gépi tanuló algoritmus. Példaképpen a kontrollcsoport irányába történő elfogultság esetén (több kontrollcsoportból származó minta a betanító adatokban) a döntési határértéket célszerűen 0,5-nél alacsonyabb értékre kell beállítani, egy másik példában, amikor a betanítási adatok több mintát tartalmaznak a neurokognitív zavarral rendelkező csoportból, akkor a döntési határértéket célszerűen 0,5-nél magasabb értékre kell beállítani.
A döntési határérték meghatározásánál előnyösen további megfontolásokat is figyelembe lehet venni, például a téves döntések valószínűségeit, azaz a döntés szenzitivitását és specificitását. Amennyiben a téves pozitív döntések kerülendők, azaz el akarjuk kerülni, hogy egy egészséges alany 22 hangmintáját a neurokognitív zavarral rendelkezők csoportjához soroljuk, akkor a döntési határértéket célszerű 0,5-nél magasabbra, például előnyösen 0,6-es értékre állítani. Amennyiben éppen ellenkezőleg, minél több neurokognitív zavarral rendelkező alanyt szeretnénk azonosítani akár azon az áron is, hogy néhány egészséges alanyt is közéjük sorolunk, akkor a döntési határértéket 0,5-nél alacsonyabb értékre, például előnyösen 0,4 értékre kell beállítani.
A döntési határérték meghatározása előnyösen a döntés tekintetében elvárt szenzitivitás és specificitás alapján történik, előnyösen a gépi tanuló algoritmus betanítására alkalmazott adatoktól eltérő, elkülönített teszt adathalmaz segítségével.
A 2-5. ábrák a járulékos jellemzőszámítási lépés egy előnyös kiviteli módjára vonatkozó példát mutatnak be. A példában a vizsgált 22 hangmintát 25 ms hosszúságú, egymással 10 ms időtartamban átlapoló időszakaszokra osztottunk fel, és a valószínűség-analitikai lépés során minden egyes időszakaszra meghatároztuk a néma szünetre, kitöltött szünetre és összesen bármilyen szünetre vonatkozó 38 valószínűség értékeket. Ezeket a 38 valószínűség értékeket mutatja be a 2. ábra a vizsgált 22 hangminta egy időtartományára, egészen pontosan a 22
- 20 hangminta 9 - 16 másodperc közötti időtartományára. A néma szünet valószínűségeinek és a kitöltött szünet valószínűségeinek összege adja a bármilyen szünet valószínűségeit.
A 2. ábrán szereplő, kitöltött szünetekre vonatkozó valószínűséget mutatja be a 3. ábra, amelyen a valószínűség-tartomány egyenletesen húsz résztartományra van felosztva, így 0,05 lépésközzel követik egymást a valószínűségi tartományhatárok. Az egyes valószínűségi tartományhatároknak megfelelő értékeket az ábrán vízszintes vonalak jelzik azokon a helyeken, ahol a valószínűségi görbe meghaladja az egyes valószínűségi tartományhatárok értékét.
A 4. ábra a 3. ábrából számított 42 járulékos hisztogram-adatsorra mutat be két példát. Az első példában a 42 járulékos hisztogram-adatsort a 3. ábrán feltüntetett valószínűségi tartományhatárok közé eső valószínűségű időszakokból képezzük, előnyösen a 42 járulékos hisztogram-adatsor megadja a szomszédos valószínűségi tartományhatárok közé eső valószínűségű időszakaszok arányát a 22 hangminta teljes időtartamához képest, vagyis a járulékos jellemzőszámítási lépésben a kitöltött szünetre vonatkozó 38 valószínűség értékekből hisztogramot számítunk. Példaképpen a 42 járulékos hisztogram-adatsor 0,4-es valószínűségi tartományhatárhoz tartozó értéke megadja azon időszakaszok arányát a 22 hangminta teljes időtartamához viszonyítva, amely időszakaszokban a kitöltött szünetre vonatkozó 38 valószínűség értékek legalább 0,4 értékűek, azonban nem érik el az eggyel magasabb valószínűségi tartományhatárt, a 0,45 értéket.
Második példában a járulékos jellemzőszámítási lépésben a 42 járulékos hisztogram-adatsort a 3. ábrán feltüntetett valószínűségi tartományhatároknál nagyobb valószínűségű időszakokból képezzük, előnyösen a 42 járulékos hisztogram-adatsor megadja az egyes valószínűségi tartományhatároknál nagyobb valószínűségű időszakaszok arányát a 22 hangminta teljes időtartamához képest, vagyis a járulékos jellemzőszámítási lépésben a kitöltött szünetre vonatkozó 38 valószínűség értékekből kumulatív hisztogramot számítunk. Példaképpen a 42 járulékos hisztogram-adatsor 0,4-es valószínűségi tartományhatárhoz tartozó értéke megadja azon időszakaszok arányát a 22 hangminta teljes időtartamához viszonyítva, amely időszakaszokban a kitöltött szünetre vonatkozó 38 valószínűség értékek legalább 0,4 értékűek. A második példa szerinti kumulatív hisztogram az
- 21 első példa szerint számított hisztogram adatsorából is meghatározható olyan módon, hogy a hisztogram egyes valószínűségi tartományhatárhoz tartozó osztályaiba eső mennyiségek összesített értékét meghatározzuk minden, az adott osztálynál nagyobb osztályra.
A 42 járulékos hisztogram-adatsor továbbá előállítható olyan módon is (a 4. ábrán nincs ábrázolva), hogy azt a 3. ábrán feltüntetett valószínűségi tartományhatároknál kisebb valószínűségű időszakokból képezzük, vagyis előnyösen a 42 járulékos hisztogram-adatsor megadja az egyes valószínűségi tartományhatároknál kisebb valószínűségű időszakaszok arányát a 22 hangminta teljes időtartamához képest. Ebben az esetben is kumulatív hisztogram számítása történik, azonban ekkor az összegzés a kisebb valószínűségi értékek felől van végrehajtva, azaz az első példa szerinti hisztogram egyes osztályaiba eső mennyiségek összesített értékét meghatározzuk minden, az adott osztálynál nem nagyobb osztályra.
A 42 járulékos hisztogram-adatsor a 30 akusztikai paraméterekhez hasonlóan alkalmasan jellemzi a 22 hangmintát, illetve a 22 hangmintát szolgáltató alanyt a neurokognitív zavar meglétével kapcsolatosan. A 42 járulékos hisztogram-adatsor minden egyes elemére szignifikancia-értékek vannak meghatározva. A szignifikancia-értékek meghatározása szintén tetszőleges statisztikai módszerrel, előnyösen kétmintás statisztikai t-próbával történik. A 42 járulékos hisztogramadatsor azonban a 30 akusztikai paramétereknél általában nagyobb számú adatot tartalmaz, például húsz valószínűség-tartomány alkalmazása esetén a 42 járulékos hisztogram-adatsor számossága 57, ötven valószínűség-tartomány esetén pedig 147, mivel a 4. ábrán szereplő hisztogramot és/vagy kumulatív hisztogramot a kitöltött szüneteken felül néma szünetekre, és összesítve bármilyen szünetre is meg kell határozni.
A kumulatív hisztogram számításával előállított 42 járulékos hisztogram-adatsor elemeiből kétmintás statisztikai t-próbával számított szignifikancia értékeket célszerű nem táblázatos formában, hanem grafikonon ábrázolni.
Az 5. ábra kumulatív hisztogram számításával létrehozott 42 járulékos hisztogramadatsorra vonatkozó szignifikancia-értékeket mutatja be a valószínűségi tartományhatárok függvényében, külön görbéken ábrázolva a különböző típusú szünetekhez tartozó értékeket. A 42 járulékos hisztogram-adatsor meghatározása
- 22 a 2. ábrán bemutatott 22 hangminta kitöltött szüneteire, néma szüneteire és összesen bármely szüneteire, húsz valószínűség-tartomány alkalmazásával számított kumulatív hisztogram számításával történt.
Az 5. ábrán látható, hogy néma szünet esetén (szaggatott vonallal ábrázolva) elsősorban a kb. 0,75 és 0,95 valószínűségi tartományhatárok közötti jellemzők mutatnak szignifikáns eltérést (p < 0,05) a kontrollcsoport és a neurokognitív zavart mutató betegek 22 hangmintáira. Ennek oka, hogy a 24 beszédfelismerő egység a néma szüneteket könnyen azonosítja, így a valódi néma szünetekre vonatkozó 38 valószínűség értékek magasak, gyakran meghaladják a 0,8 valószínűségi értékhatárt.
Ezzel szemben a kitöltött szünetek esetén (pontozott vonallal ábrázolva) szignifikáns eltérést (p < 0,05) legfeljebb 0,15 valószínűségi tartományhatárig kapunk a kontrollcsoport és a neurokognitív zavart mutató betegek 22 hangmintáira. Ennek oka, hogy a kitöltött szünetek azonosítása sokkal nehezebb, mivel azok a hezitációkat kifejező fonémákkal (például ’ö’, ’m’, és ’n’) könnyen összekeverhetők. Emiatt a kitöltött szünetre gyakran adódik viszonylag magas, de 0,5-nél kisebb 38 valószínűség érték. Ilyen esetekben fennáll a veszélye, hogy a 26 címkézett szegmentumsorozatban a kitöltött szünet nem kitöltött szünetként lesz felcímkézve, hanem az adott időszakasz valamilyen beszédhangnak megfelelő fonémával lesz felcímkézve, ezáltal a 30 akusztikai paraméterek számításánál a kitöltött szünetre vonatkozó jellemzők nem megfelelően lesznek meghatározva. Ezzel szemben ezek a kitöltött szünetek a 42 járulékos hisztogram-adatsorban megjelennek.
A találmány szerinti eljárás előnyösen farmakológiai vizsgálatokban is alkalmazható, mivel a korábbi megoldásoknál érzékenyebben határozza meg a neurokognitív zavarok előfordulását, ezáltal a terápia során a beteg fejlődésének és a terápia hatásosságának mérésére is használható.
Példaképpen ismertetjük a találmány szerinti eljárás alkalmazását az Alzheimer-kór terápiájának monitorozására. Az Alzheimer-kór terápiájának jelenleg kitűzhető célja a progresszió lassítása. A jelenleg piacon lévő gyógyszerek egyik leggyakrabban használt képviselője az acetilkolinészteráz-bénító donepezil, így enyhe stádiumú Alzheimer-kóros betegek donepezil-terápiájának hatékonyságát vizsgáltuk a találmány szerinti eljárással. Az Alzheimer-kór diagnózisát DSM-5 kritériumai
- 23 szerint állítottuk fel (American Psychiatric Association, 2013). A beválasztott betegek (n=10) átlagéletkora 75 év volt, átlagos iskolázottságuk 11,5 év, a nemek aránya pedig 70% nő, 30% férfi volt, amely tükrözi az Alzheimer-kór általános előfordulási arányát. A vizsgálat során két alkalommal, a terápia kezdetén és 3 hónapos donepezil szedést követően végeztünk el kognitív teszteket. A standard pszichometriai tesztek közül a bevezetőben említett MMSE, ADAS-Cog és az órarajzolási teszt került felvételre. A tesztek eredményét a 6. ábra ismerteti. Az önkontrollos vizsgálat alkalmával az MMSE-ben nyújtott teljesítmény nem változott a 3 hónapos kolinészteráz-gátló szedést követően, hasonlóképpen nem sikerült a terápia hatékonyságát kimutatni az ADAS-Cog és az órateszt alkalmazása során sem.
A 7A-7F ábrák a találmány szerinti eljárással számított jellemzők értékében bekövetkezett változásokat mutatják be. A 3 hónapos donepezil-terápia szignifikánsan megnövelte a 22 hangminták időtartamát (7A ábra) és a beszédtempót (7B ábra), vagyis a betegek átlagosan többet és gyorsabban beszéltek a vizsgálat során. A néma szünetek száma az alkalmazott terápia hatására csökkent, míg a kitöltött szünetek száma ugyan kis mértékben nőtt (7C ábra), azonban a néma szünetek és a kitöltött szünetek összes időtartama (7D ábra) és ezek aránya a 22 hangminta teljes időtartamához viszonyítva (7F ábra) is csökkent. Tehát a kitöltött szünetek számának 7C ábra szerint kis mértékű növekedése csak a beszéd megnövekedett időtartama miatt adódott. A 7E ábra szerint a teljes 22 hangminta időtartamára eső összes szünet száma (a néma és kitöltött szünetek száma együttesen) az alkalmazott terápia hatására szignifikánsan csökkent.
Összefoglalva megállapítható, hogy a találmány szerinti eljárás szignifikáns különbséget tud kimutatni a 3 hónapos donepezil-terápia alatt, szemben a hagyományos eljárásokkal. Ezek alapján az is megállapítható, hogy a találmány szerinti eljárás érzékenysége meghaladja a jelenleg szokásosan alkalmazott teszteljárások érzékenységét.
A találmány szerinti számítógépes programtermék olyan utasításokat tartalmaz, amelyeket számítógéppel végrehajtva a számítógép a találmány szerinti eljárás lépéseit hajtja végre.
- 24 A találmány szerinti számítógéppel olvasható tárolóegység olyan utasításokat tartalmaz, amelyeket számítógéppel végrehajtva a számítógép a találmány szerinti eljárás lépéseit hajtja végre.
A fenti ismertetés szerinti megoldás jellegéből következik a találmány ipari alkalmazhatóságának módja. A fentiekből látható módon a találmány a technika állásához képest rendkívül előnyösen éri el a kitűzött feladatot. A találmány természetesen nem korlátozódik a részletesen bemutatott előnyös kiviteli alakokra, hanem további változatok, módosítások és továbbfejlesztések is lehetségesek az igénypontok által meghatározott oltalmi körben.

Claims (19)

1. Eljárás neurokognitív zavar automatizált felismerésére, amelynek során
- szegmentálási és címkézési lépésben hangmintából (22) beszédfelismerő egységgel (24) címkézett szegmentumsorozatot (26) állítunk elő; és
- akusztikai paraméterszámítási lépésben a címkézett szegmentumsorozatból (26) a hangmintára (22) jellemző akusztikai paramétereket (30) állítunk elő;
azzal jellemezve, hogy
- valószínűség-analitikai lépésben a hangminta (22) egy meghatározott időfelosztásában, annak egyes időszakaszain néma szünetre, kitöltött szünetre és bármilyen szünetre vonatkozó valószínűség értékeket (38) határozunk meg;
- járulékos jellemzőszámítási lépésben hisztogramot számítunk, amelynek során a meghatározott valószínűség értékekből (38) a valószínűségtartomány résztartományokra történő felosztásával és az egyes résztartományokba eső valószínűség értékekhez tartozó időszakaszok időtartamának összegzésével járulékos hisztogram-adatsort (42) állítunk elő; és
- kiértékelési lépésben az akusztikai paramétereket (30) és a járulékos hisztogram-adatsort (42) gépi tanuló algoritmust alkalmazó kiértékelő egységbe (32) betáplálva döntési információt (34) állítunk elő.
2. Az 1. igénypont szerinti eljárás, azzal jellemezve, hogy a szegmentálási és címkézési lépésben címkeként fonéma címkét, néma szünet címkét és kitöltött szünet címkét alkalmazunk.
3. A 2. igénypont szerinti eljárás, azzal jellemezve, hogy a szegmentálási és címkézési lépésben fonémánként külön fonéma címkéket alkalmazunk.
4. Az 1-3. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a valószínűség-analitikai lépéshez a hangmintát (22) azonos hosszúságú időszakaszokra osztjuk.
5. A 4. igénypont szerinti eljárás, azzal jellemezve, hogy a hangmintát (22) egymással átlapoló időszakaszokra osztjuk.
6. Az 5. igénypont szerinti eljárás, azzal jellemezve, hogy 10-50 ms hosszúságú, egymással 20 - 50%-ban átlapoló időszakaszokat alkalmazunk.
7. A 4-6. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a szegmentálási és címkézési lépésben a címkézett szegmentumsorozat (26) elemeit és címkéit az egyes időszakaszokban előforduló legnagyobb valószínűség alapján határozzuk meg.
8. Az 1-7. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a járulékos jellemzőszámítási lépésben a hisztogram-számításhoz a teljes valószínűség-tartományt egyenlő nagyságú résztartományokra, előnyösen legalább tíz résztartományra, még előnyösebben húsz vagy ötven résztartományra osztjuk fel.
9. Az 1-8. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a járulékos jellemzőszámítási lépésben kumulatív hisztogramot számítunk, ennek keretében a járulékos hisztogram-adatsor (42) elemeit
- az egyes valószínűségi résztartományok alsó határánál nagyobb valószínűségű időszakokból, vagy
- az egyes valószínűségi résztartományok felső határánál kisebb valószínűségű időszakokból képezzük.
10. Az 1-9. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a kiértékelési lépésben a döntési információ (34) előállítására statisztikai módszert, előnyösen kétmintás statisztikai t-próbát alkalmazunk.
11. Az 1-10. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a döntési információ (34) részeként döntési határértéket és a döntési határérték hibahatárait is meghatározzuk.
12. A 11. igénypont szerinti eljárás, azzal jellemezve, hogy a döntési határértéket a kiértékelő egység (32) gépi tanuló algoritmusával határozzuk meg, előnyösen a gépi tanuló algoritmus elfogultságának figyelembevételével, még előnyösebben a gépi tanuló algoritmus egyes döntési csoportjaihoz tartozó betanító adatok számosságának figyelembevételével és/vagy előre meghatározott szenzitivitás és specificitás szerint.
13. Az 1-12. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy akusztikai paraméterként (30) a hangminta (22) teljes hossza, beszédtempó, artikulációs tempó, néma szünetek száma, kitöltött szünetek száma, összes szünet száma, néma szünetek teljes hossza, kitöltött szünetek teljes hossza, összes szünet teljes hossza, néma szünetek átlagos hossza, kitöltött szünetek átlagos hossza, összes szünet átlagos hossza, néma szünet aránya a hangmintában (22), kitöltött szünet aránya a hangmintában (22), összes szünet aránya a hangmintában (22), néma szünetek számának és a hangminta (22) teljes hosszának hányadosa, kitöltött szünetek számának és a hangminta (22) teljes hosszának hányadosa, összes szünet számának és a hangminta (22) teljes hosszának hányadosa alkotta csoportból választott legalább egy mennyiséget használunk.
14. Az 1-13. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a kiértékelési lépésben „Naive Bayes” (NB), lineáris „Support Vector Machine” (SVM) vagy „Random Forest” (RF) alapú gépi tanuló algoritmust alkalmazó kiértékelő egységet (32) használunk.
15. Az 1-14. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy a hangmintát (22) hangminta előállítási lépésben biztosítjuk.
16. Adatfeldolgozó rendszer, azzal jellemezve, hogy az 1. igénypont szerinti eljárási lépések végrehajtására tartalmaz
- hangmintából (22) címkézett szegmentumsorozatot (26) előállító beszédfelismerő egységet (24),
- a beszédfelismerő egység (24) kimenetéhez csatlakoztatott, a címkézett szegmentumsorozatból (26) akusztikai paramétereket (30) meghatározó jellemzőkinyerő egységet (28),
- a beszédfelismerő egység (24) kimenetéhez csatlakoztatott, járulékos hisztogram-adatsort (42) előállító járulékos jellemzőkinyerő egységet (40), és
- a jellemzőkinyerő egység (28) és a járulékos jellemzőkinyerő egység (40) kimeneteihez csatlakoztatott, az akusztikai paraméterek (30) és a járulékos hisztogram-adatsor (42) kiértékelését végrehajtó kiértékelő egységet (32).
17. A 16. igénypont szerinti adatfeldolgozó rendszer, azzal jellemezve, hogy a rendszer továbbá tartalmaz a beszédfelismerő egység (24) bemenetére kapcsolt hangrögzítő egységet (20) és/vagy a kiértékelő egység (32) kimenetére kapcsolt megjelenítő egységet (36), és/vagy adatbázist, amely adatbázis a hangrögzítő egységgel (20), a beszédfelismerő egységgel (24), a jellemzőkinyerő egységgel (28), a járulékos jellemzőkinyerő egységgel (40), a kiértékelő egységgel (32) és/vagy a megjelenítő egységgel (36) van összekapcsolva.
18. Számítógépes programtermék, azzal jellemezve, hogy olyan utasításokat tartalmaz, amelyeket számítógéppel végrehajtva a számítógép az 1. igénypont szerinti eljárás lépéseit hajtja végre.
19. Számítógéppel olvasható tárolóegység, azzal jellemezve, hogy olyan utasításokat tartalmaz, amelyeket számítógéppel végrehajtva a számítógép az 1. igénypont szerinti eljárás lépéseit hajtja végre.
HUP1900166A 2018-12-18 2019-05-17 Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére HU231329B1 (hu)

Priority Applications (5)

Application Number Priority Date Filing Date Title
HUP1900166A HU231329B1 (hu) 2019-05-17 2019-05-17 Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére
ES19861241T ES2964507T3 (es) 2018-12-18 2019-12-16 Detección automática del deterioro neurocognitivo en función de una muestra de habla
US17/415,418 US20220039741A1 (en) 2018-12-18 2019-12-16 Automatic Detection Of Neurocognitive Impairment Based On A Speech Sample
EP19861241.8A EP3899938B1 (en) 2018-12-18 2019-12-16 Automatic detection of neurocognitive impairment based on a speech sample
PCT/HU2019/000043 WO2020128542A1 (en) 2018-12-18 2019-12-16 Automatic detection of neurocognitive impairment based on a speech sample

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
HUP1900166A HU231329B1 (hu) 2019-05-17 2019-05-17 Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére

Publications (2)

Publication Number Publication Date
HUP1900166A2 HUP1900166A2 (hu) 2020-08-28
HU231329B1 true HU231329B1 (hu) 2022-11-28

Family

ID=89992905

Family Applications (1)

Application Number Title Priority Date Filing Date
HUP1900166A HU231329B1 (hu) 2018-12-18 2019-05-17 Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére

Country Status (1)

Country Link
HU (1) HU231329B1 (hu)

Also Published As

Publication number Publication date
HUP1900166A2 (hu) 2020-08-28

Similar Documents

Publication Publication Date Title
Lopez-de-Ipina et al. Advances on automatic speech analysis for early detection of Alzheimer disease: a non-linear multi-task approach
Tóth et al. A speech recognition-based solution for the automatic detection of mild cognitive impairment from spontaneous speech
EP3899938B1 (en) Automatic detection of neurocognitive impairment based on a speech sample
Ko et al. Entrainment of prosody in the interaction of mothers with their young children
Mekyska et al. Robust and complex approach of pathological speech signal analysis
Jessen Forensic phonetics
US9576593B2 (en) Automated verbal fluency assessment
Al-Hameed et al. Simple and robust audio-based detection of biomarkers for Alzheimer’s disease
Luz Longitudinal monitoring and detection of Alzheimer's type dementia from spontaneous speech data
CN111315302A (zh) 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序
Orozco‐Arroyave et al. Spectral and cepstral analyses for Parkinson's disease detection in Spanish vowels and words
Mirheidari et al. An avatar-based system for identifying individuals likely to develop dementia
Linz et al. Predicting dementia screening and staging scores from semantic verbal fluency performance
JP6312014B1 (ja) 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム
Selvakumari et al. A voice activity detector using SVM and Naïve Bayes classification algorithm
Hashim et al. Analysis of timing pattern of speech as possible indicator for near-term suicidal risk and depression in male patients
Kothalkar et al. Automatic screening to detect’at risk’child speech samples using a clinical group verification framework
Gong et al. Towards an Automated Screening Tool for Developmental Speech and Language Impairments.
Lustyk et al. Evaluation of disfluent speech by means of automatic acoustic measurements
Bone et al. Acoustic-Prosodic and Physiological Response to Stressful Interactions in Children with Autism Spectrum Disorder.
US20240023877A1 (en) Detection of cognitive impairment
HU231329B1 (hu) Eljárás, adatfeldolgozó rendszer, számítógépes programtermék és számítógéppel olvasható tárolóegység neurokognitív zavar automatizált felismerésére
Duenser et al. Feasibility of technology enabled speech disorder screening
Kumar et al. Can you hear me now? Clinical applications of audio recordings
Syed et al. Static vs. dynamic modelling of acoustic speech features for detection of dementia