FI128000B - Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen - Google Patents

Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen Download PDF

Info

Publication number
FI128000B
FI128000B FI20156000A FI20156000A FI128000B FI 128000 B FI128000 B FI 128000B FI 20156000 A FI20156000 A FI 20156000A FI 20156000 A FI20156000 A FI 20156000A FI 128000 B FI128000 B FI 128000B
Authority
FI
Finland
Prior art keywords
word
wake
alarm
identified
audio
Prior art date
Application number
FI20156000A
Other languages
English (en)
Swedish (sv)
Other versions
FI20156000A (fi
Inventor
Tapio Koivuniemi
Tuomas Tuononen
Teijo Kinnunen
Jarkko Koivikko
Original Assignee
Code Q Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Code Q Oy filed Critical Code Q Oy
Priority to FI20156000A priority Critical patent/FI128000B/fi
Publication of FI20156000A publication Critical patent/FI20156000A/fi
Application granted granted Critical
Publication of FI128000B publication Critical patent/FI128000B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Esillä olevassa keksinnössä esitetään puheentunnistusjärjestelmiä varten menetelmä, laite ja tietokoneohjelma, joissa käytetään herätyssanaa ja parannetaan sen toimintaa algoritmisesti. Menetelmässä tarkistetaan ensin tuleva audiovirta, ja kun ilmaistaan ehdokkaana oleva herätyssana, verrataan sitä herätyssanojen positiiviseen akustiseen malliin ja herätyssanojen negatiiviseen akustiseen malliin. Jos päätös on negatiivinen, tarkistetaan, onko negatiivisesti identifioitu ääninäyte lähellä aikaisemmin ilmaistua negatiivisesti identifioitua ääninäytettä, jotka molemmat vastaanotettiin tietyn aikajakson sisällä. Tämä suoritetaan vertaamalla kahden vastaanotetun ääninäytteen, jotka molemmat ilmaistaan mahdollisina herätyssanoina, varmuustasoja. Jos ehdokkaana olevaa herätyssanaa koskeva päätös on positiivinen, päätetään, että herätyssana sanottiin todella ja tarkoituksellisesti, ja laite menee komentojenkuuntelumoodiin.

Claims (25)

  1. Patenttivaatimukset
    1. Menetelmä puheentunnistukseen kykenevässä laitteessa (31) käytettävän herätyssanan tunnistuksen laadun parantamiseksi ja laitteen (31) tai ulkoisen laitteen ohjaamiseksi ihmisäänikomennoilla, jolloin menetelmä käsittää vaiheen, jossa -asetetaan laite (31) aktiiviseen kuuntelumoodiin tai pidetään laite (31) aktiivisessa kuuntelumoodissa, jolloin on määritelty ennalta ainakin yksi herätyssana ja sen akustinen malli laitteen (31) käytettävissä olevaan muistiin (42);
    tunnettu siitä, että menetelmä käsittää lisäksi vaiheet, joissa
    - identifioidaan ainakin yksi herätyssana (11) audioympäristöstä aktiivisen kuuntelumoodin aikana vertaamalla vastaanotettuja ääninäytteitä aikaisemmin määriteltyyn akustiseen malliin ja ilmaistaan positiivisesti identifioitu herätyssana, kun vastaanotetun ääninäytteen identifiointivastaavuus ylittää asetetun kynnysarvon, päättämällä (12), onko ilmaistu ääninäyte lähempänä positiivista herätyssanamallia vai negatiivista herätyssanamallia, ja tehdään päätös positiivisesti identifioidusta herätyssanasta siinä tapauksessa, että ilmaistu ääninäyte on lähempänä positiivista herätyssanamallia; ja kun positiivisesti identifioitua herätyssanaa seuraa laitteelle (31) tai ulkoisen laitteen ohjaamiseen tarkoitettu tunnistettavissa oleva audiokomento (16) ennalta asetetussa ensimmäisessä aikajaksossa positiivisesti identifioidun herätyssanan ilmaisemisen jälkeen,
    -annetaan komento laitteelle (31) tai ulkoiselle laitteelle laitteen (31) tai ulkoisen laitteen suorittaman toimenpiteen käynnistämiseksi.
  2. 2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmä lisäksi käsittää, että
    - määritetään (22), onko negatiivisesti identifioitu ääninäyte lähellä herätyssanan akustista mallia, ja jos on,
    -verrataan (25) negatiivisesti identifioitua ääninäytettä aikaisemmin ilmaistuun negatiivisesti identifioituun ääninäytteeseen, jotka molemmat vastaanotettiin ennalta asetetun toisen aikajakson aikana audioympäristöstä, ja siinä tapauksessa, että näiden kahden negatiivisesti identifioidun ääninäytteen välillä on keskinäinen vastaavuus,
    - muunnetaan (26) negatiivisesti identifioitu jälkimmäinen ääninäyte positiivisesti identifioiduksi herätyssanaksi.
    20156000 prh 26 -03- 2019
  3. 3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmässä kerätään positiivisia ja negatiivisia herätyssanamalleja kumulatiivisesti ja/tai käyttäjäkohtaisesti menetelmän toiminnan aikana, mistä on seurauksena herätyssanojen ja komentojen käyttäjäkohtainen ja ympäristön mukaan säädettävä identifiointi.
  4. 4. Patenttivaatimuksen 2 mukainen menetelmä, tunnettu siitä, että negatiivisesti identifioitu ääninäyte, jonka määritetään olevan lähellä, tallennetaan (24) väliaikaiseen sanatietokantaan.
  5. 5. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että jos negatiivisesti identifioitu ääninäyte ei ole lähellä oikeaa herätyssanaa,
    - negatiivisesti identifioitu ääninäyte tallennetaan negatiiviseen herätyssanamalliin (23); ja
    - menetelmä palaa audioympäristön aktiiviseen kuuntelumoodiin.
  6. 6. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että positiivisesti identifioitu herätyssana tallennetaan positiiviseen herätyssanamalliin (21), kun tunnistettavissa oleva audiokomento on vastaanotettu ennalta asetetussa ensimmäisessä aikajaksossa.
  7. 7. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, tunnettu siitä, että identifiointi-, määritys- ja vertailuvaiheet perustuvat herätyssanan varmuustasoon; ja jolloin varmuustaso on jatkuvasti säädettävissä kunkin vastaanotetun ääninäytteen perusteella.
  8. 8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että jos on suoritettu negatiivisesti identifioidun jälkimmäisen ääninäytteen muuntaminen positiivisesti identifioiduksi herätyssanaksi,
    - säädetään herätyssanan varmuustasoa ja tallennetaan molemmat mainitut ääninäytteet positiiviseen herätyssanamalliin.
  9. 9. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että laitteen (31) muistissa (42) on tallennettuna informaatiota ainakin kahdesta eri herätyssanasta ja niiden akustisista malleista; ja menetelmä käsittää lisäksi vaiheen, jossa
    20156000 prh 26 -03- 2019
    - kerätään vastaavat positiiviset herätyssanamallit ja negatiiviset herätyssanamallit muistiin (42) erikseen kunkin herätyssanan osalta.
  10. 10. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että laitteen (31) muistissa (42) on tallennettuna informaatiota ainakin kahdesta eri herätyssanasta ja niiden akustisista malleista; ja menetelmä käsittää lisäksi vaiheen, jossa
    - asetetaan ja säädetään varmuustasoja erikseen kunkin herätyssanan osalta.
  11. 11. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että varmuustasot voidaan tallentaa ja säätää erikseen laitteen kunkin eri ihmiskäyttäjän osalta.
  12. 12. Laite (31) herätyssanan tunnistuksen laadun parantamiseksi, jolloin laite (31) kykenee puheentunnistukseen, ja laitteen (31) tai ulkoisen laitteen ohjaamiseksi ihmisäänikomennoilla, jolloin
    -laite (31) on konfiguroitu asetettavaksi aktiiviseen kuuntelumoodiin tai pidettäväksi aktiivisessa kuuntelumoodissa, jolloin on määritelty ennalta ainakin yksi herätyssana ja sen akustinen malli laitteen (31) käytettävissä olevaan muistiin (42); tunnettu siitä, että laite (31) käsittää
    - prosessointivälineet (41), jotka on konfiguroitu identifioimaan ainakin yksi herätyssana (11) audioympäristöstä aktiivisen kuuntelumoodin aikana vertaamalla vastaanotettuja ääninäytteitä aikaisemmin määriteltyyn akustiseen malliin ja ilmaisemaan positiivisesti identifioitu herätyssana, kun vastaanotetun ääninäytteen identifiointivastaavuus ylittää asetetun kynnysarvon, jossa laite (31) käsittää lisäksi positiivisen herätyssanamallin ja negatiivisen herätyssanamallin, jolloin prosessointivälineet (41) on edelleen konfiguroitu päättämään (12), onko ilmaistu ääninäyte lähempänä positiivista herätyssanamallia vai negatiivista herätyssanamallia, ja tekemään päätös positiivisesti identifioidusta herätyssanasta siinä tapauksessa, että ilmaistu ääninäyte on lähempänä positiivista herätyssanamallia; ja kun positiivisesti identifioitua herätyssanaa seuraa laitteelle (31) tai ulkoisen laitteen ohjaamiseen tarkoitettu tunnistettavissa oleva audiokomento (16) ennalta asetetussa ensimmäisessä aikajaksossa positiivisesti identifioidun herätyssanan ilmaisemisen jälkeen, prosessointivälineet (41) on edelleen konfiguroitu
    -antamaan komento laitteelle (31) tai ulkoiselle laitteelle laitteen (31) tai ulkoisen laitteen suorittaman toimenpiteen käynnistämiseksi.
    20156000 prh 26 -03- 2019
  13. 13. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että prosessointivälineet (41) on edelleen konfiguroitu
    - määrittämään (22), onko negatiivisesti identifioitu ääninäyte lähellä herätyssanan akustista mallia, ja jos on, prosessointivälineet (41) on edelleen konfiguroitu
    -vertaamaan (25) negatiivisesti identifioitua ääninäytettä aikaisemmin ilmaistuun negatiivisesti identifioituun ääninäytteeseen, jotka molemmat vastaanotettiin ennalta asetetun toisen aikajakson aikana audioympäristöstä, ja siinä tapauksessa, että näiden kahden negatiivisesti identifioidun ääninäytteen välillä on keskinäinen vastaavuus, prosessointivälineet (41) on edelleen konfiguroitu
    - muuntamaan (26) negatiivisesti identifioitu jälkimmäinen ääninäyte positiivisesti identifioiduksi herätyssanaksi.
  14. 14. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että laite (31) on konfiguroitu keräämään positiivisia ja negatiivisia herätyssanamalleja kumulatiivisesti ja/tai käyttäjäkohtaisesti laitteen (31) käytön aikana, mistä on seurauksena herätyssanojen ja komentojen käyttäjäkohtainen ja ympäristön mukaan säädettävä identifiointi.
  15. 15. Patenttivaatimuksen 13 mukainen laite, tunnettu siitä, että laite (31) käsittää väliaikaisen sanatietokannan, johon negatiivisesti identifioitu ääninäyte, jonka on määritetty olevan lähellä, tallennetaan (24).
  16. 16. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että jos negatiivisesti identifioitu ääninäyte ei ole lähellä oikeaa herätyssanaa,
    - negatiivisesti identifioitu ääninäyte tallennetaan negatiiviseen herätyssanamalliin (23); ja
    - laite (31) on konfiguroitu palaamaan audioympäristön aktiiviseen kuuntelumoodiin.
  17. 17. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että prosessointivälineet (41) on konfiguroitu tallentamaan positiivisesti identifioitu herätyssana positiiviseen herätyssanamalliin (21), kun tunnistettavissa oleva audiokomento on vastaanotettu ennalta asetetussa ensimmäisessä aikajaksossa.
    20156000 prh 26 -03- 2019
  18. 18. Patenttivaatimuksen 12 tai 13 mukainen laite, tunnettu siitä, että prosessointivälineet (41) on konfiguroitu identifioimaan, määrittämään ja vertaamaan herätyssanan varmuustasoon perustuen; ja jolloin varmuustaso on konfiguroitu olemaan jatkuvasti säädettävissä kunkin vastaanotetun ääninäytteen perusteella.
  19. 19. Patenttivaatimuksen 18 mukainen laite, tunnettu siitä, että jos on suoritettu negatiivisesti identifioidun jälkimmäisen ääninäytteen muuntaminen positiivisesti identifioiduksi herätyssanaksi,
    - prosessointivälineet (41) on konfiguroitu säätämään herätyssanan varmuustasoa ja tallentamaan molemmat mainitut ääninäytteet positiiviseen herätyssanamalliin.
  20. 20. Patenttivaatimuksen 12 mukainen laite, tunnettu siitä, että laitteen (31) muistissa (42) on tallennettuna informaatiota ainakin kahdesta eri herätyssanasta ja niiden akustisista malleista; ja prosessointivälineet (41) on edelleen konfiguroitu
    - keräämään vastaavat positiiviset herätyssanamallit ja negatiiviset herätyssanamallit muistiin (42) erikseen kunkin herätyssanan osalta.
  21. 21. Patenttivaatimuksen 18 mukainen laite, tunnettu siitä, että laitteen (31) muistissa (42) on tallennettuna informaatiota ainakin kahdesta eri herätyssanasta ja niiden akustisista malleista; ja prosessointivälineet (41) on edelleen konfiguroitu
    - asettamaan ja säätämään varmuustasoja erikseen kunkin herätyssanan osalta.
  22. 22. Patenttivaatimuksen 18 mukainen laite, tunnettu siitä, että laite (31) on konfiguroitu tallentamaan ja säätämään varmuustasot erikseen laitteen kunkin eri ihmiskäyttäjän osalta.
  23. 23. Tietokoneohjelma puheentunnistukseen kykenevässä laitteessa (31) käytettävän herätyssanan tunnistuksen laadun parantamiseksi ja laitteen (31) tai ulkoisen laitteen ohjaamiseksi ihmisäänikomennoilla, jolloin tietokoneohjelma käsittää koodin, joka on suoritettavissa prosessointivälineillä (41), ja tietokoneohjelma käsittää vaiheen, jossa
    -asetetaan laite (31) aktiiviseen kuuntelumoodiin tai pidetään laite (31) aktiivisessa kuuntelumoodissa, jolloin on määritelty ennalta ainakin yksi herätyssana ja sen akustinen malli laitteen (31) käytettävissä olevaan muistiin (42);
    tunnettu siitä, että tietokoneohjelma käsittää lisäksi vaiheet, joissa
    20156000 prh 26 -03- 2019
    - identifioidaan ainakin yksi herätyssana (11) audioympäristöstä aktiivisen kuuntelumoodin aikana vertaamalla vastaanotettuja ääninäytteitä aikaisemmin määriteltyyn akustiseen malliin ja ilmaistaan positiivisesti identifioitu herätyssana, kun vastaanotetun ääninäytteen identifiointivastaavuus ylittää asetetun kynnysarvon, päättämällä (12), onko ilmaistu ääninäyte lähempänä positiivista herätyssanamallia vai negatiivista herätyssanamallia, ja tehdään päätös positiivisesti identifioidusta herätyssanasta siinä tapauksessa, että ilmaistu ääninäyte on lähempänä positiivista herätyssanamallia; ja kun positiivisesti identifioitua herätyssanaa seuraa laitteelle (31) tai ulkoisen laitteen ohjaamiseen tarkoitettu tunnistettavissa oleva audiokomento (16) ennalta asetetussa ensimmäisessä aikajaksossa positiivisesti identifioidun herätyssanan ilmaisemisen jälkeen,
    -annetaan komento laitteelle (31) tai ulkoiselle laitteelle laitteen (31) tai ulkoisen laitteen suorittaman toimenpiteen käynnistämiseksi.
  24. 24. Patenttivaatimuksen 23 mukainen tietokoneohjelma, tunnettu siitä, että tietokoneohjelma käsittää lisäksi vaiheet, joissa
    - määritetään (22), onko negatiivisesti identifioitu ääninäyte lähellä herätyssanan akustista mallia, ja jos on,
    -verrataan (25) negatiivisesti identifioitua ääninäytettä aikaisemmin ilmaistuun negatiivisesti identifioituun ääninäytteeseen, jotka molemmat vastaanotettiin ennalta asetetun toisen aikajakson aikana audioympäristöstä, ja siinä tapauksessa, että näiden kahden negatiivisesti identifioidun ääninäytteen välillä on keskinäinen vastaavuus,
    - muunnetaan (26) negatiivisesti identifioitu jälkimmäinen ääninäyte positiivisesti identifioiduksi herätyssanaksi.
  25. 25. Patenttivaatimuksen 23 tai 24 mukainen tietokoneohjelma, tunnettu siitä, että tietokoneohjelma on toteutettu tietokoneella luettavaan välineeseen.
    1/3
FI20156000A 2015-12-22 2015-12-22 Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen FI128000B (fi)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FI20156000A FI128000B (fi) 2015-12-22 2015-12-22 Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FI20156000A FI128000B (fi) 2015-12-22 2015-12-22 Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen

Publications (2)

Publication Number Publication Date
FI20156000A FI20156000A (fi) 2017-06-23
FI128000B true FI128000B (fi) 2019-07-15

Family

ID=59285510

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20156000A FI128000B (fi) 2015-12-22 2015-12-22 Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen

Country Status (1)

Country Link
FI (1) FI128000B (fi)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11749267B2 (en) 2020-11-20 2023-09-05 Google Llc Adapting hotword recognition based on personalized negatives

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320733B (zh) * 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN109872713A (zh) * 2019-03-05 2019-06-11 深圳市友杰智新科技有限公司 一种语音唤醒方法及装置
CN110534099B (zh) * 2019-09-03 2021-12-14 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
CN113658593B (zh) * 2021-08-14 2024-03-12 普强时代(珠海横琴)信息技术有限公司 基于语音识别的唤醒实现方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11749267B2 (en) 2020-11-20 2023-09-05 Google Llc Adapting hotword recognition based on personalized negatives

Also Published As

Publication number Publication date
FI20156000A (fi) 2017-06-23

Similar Documents

Publication Publication Date Title
FI128000B (fi) Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen
AU2018241137B2 (en) Dynamic thresholds for always listening speech trigger
US10438595B2 (en) Speaker identification and unsupervised speaker adaptation techniques
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
JP6251343B2 (ja) 複数のデバイスにおけるホットワードの検出
EP3353677B1 (en) Device selection for providing a response
KR101752119B1 (ko) 다수의 디바이스에서의 핫워드 검출
CN113095798B (zh) 社交提醒
CN112074900B (zh) 用于自然语言处理的音频分析
US20180122372A1 (en) Distinguishable open sounds
JP5996603B2 (ja) サーバ、発話制御方法、発話装置、発話システムおよびプログラム
BR112015018905B1 (pt) Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
CN106558307A (zh) 智能对话处理设备、方法和系统
JP2016126330A (ja) 音声認識装置及び音声認識方法
JP2010232780A (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
JP7140523B2 (ja) 介護行為推定システム
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
CN109271480B (zh) 一种语音搜题方法及电子设备
JP2011221101A (ja) コミュニケーション装置
JP2013257448A (ja) 音声認識装置
JP2015102667A (ja) 電子機器

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 128000

Country of ref document: FI

Kind code of ref document: B