JP6759370B2 - 呼出音認識装置および呼出音認識方法 - Google Patents

呼出音認識装置および呼出音認識方法 Download PDF

Info

Publication number
JP6759370B2
JP6759370B2 JP2019003317A JP2019003317A JP6759370B2 JP 6759370 B2 JP6759370 B2 JP 6759370B2 JP 2019003317 A JP2019003317 A JP 2019003317A JP 2019003317 A JP2019003317 A JP 2019003317A JP 6759370 B2 JP6759370 B2 JP 6759370B2
Authority
JP
Japan
Prior art keywords
ringing tone
detection unit
voice
tone
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019003317A
Other languages
English (en)
Other versions
JP2019124937A (ja
Inventor
チェー,ミンソク
ハン,イクサン
ジョン,カンレ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2019124937A publication Critical patent/JP2019124937A/ja
Application granted granted Critical
Publication of JP6759370B2 publication Critical patent/JP6759370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)

Description

本出願は、呼出音認識装置および呼出音認識方法に関し、特に、ユーザの音声を認識して端末装置などを活性化できる呼出音認識装置および呼出音認識方法に関する。
人間同士の意志伝達方法には、文字、身振りおよび音声などのような様々な方法がある。特に、音声は、人間の意志伝達の最も便利な方法のうちの一つである。それに比して、人間と機械装置間の意思疎通方法は、主に、キーボードおよびマウスを介した入力と入力に対するスピーカーおよびディスプレイ装置を介した出力による方法であり、非常に制限的である。
人間と装置間の意志伝達を向上させるために、音声を介した人間と装置間の意志伝達方法が試みられている。このような音声を介した人間と装置間の意志伝達のために先行する技術が音声認識技術である。人間と装置間の音声を介した意志伝達のためには、人間が発話した音声を装置が認識しなければならない。このために様々な音声認識技術が研究されており、携帯電話のような移動通信端末、機械、コンピュータの制御およびナビゲーション装置などのように様々な分野に適用されている。
通常、隠れマルコフモデル(Hidden Markov Model:HMM)および動的時間伸縮法(Dynamic Time Warping:DTW)および人工神経網などのような音声認識方法が主に用いられている。
韓国登録特許第10−1070442号公報
本出願は、ユーザの音声を認識して端末装置などを活性化できる呼出音認識装置および呼出音認識方法を提供する。
本出願は、検知特性が互いに異なる複数の呼出音検知部を用いてユーザが呼出音を発話するか否かを判別できる呼出音認識装置および呼出音認識方法を提供する。
本出願は、一度の試みによるキーワード認識時には他の認識装置で追加の誤認識検証をし、ユーザが二度の連続試みをした場合には追加の検証過程を省略することによって、FAR(False Acceptance Rate)の増加がなくてもFRR(False Rejection Rate)を減少できる呼出音認識装置および呼出音認識方法を提供する。
本発明の一実施形態による呼出音認識装置は、ユーザの音声を受信して音声信号に変換する音声受信部、第1検知特性に応じて、前記音声信号内で既に設定された呼出音の有無を判別する第1呼出音検知部、前記第1呼出音検知部が前記呼出音が含まれていると判別すれば、第2検知特性に応じて、前記音声信号内で前記呼出音の有無を再検査する第2呼出音検知部、および前記第2呼出音検知部が前記呼出音が含まれていると判別すれば、既に設定されたウェイクアップ(wake−up)信号を生成する制御部を含む。
本発明の一実施形態による呼出音認識装置は、ユーザの音声を受信して音声信号に変換する音声受信部、第1検知特性に応じて、前記音声信号内で既に設定された呼出音の有無を判別する第1呼出音検知部、第2検知特性に応じて、前記音声信号内で前記呼出音の有無を判別する第2呼出音検知部、および前記第1呼出音検知部の検知結果、第2呼出音検知部の検知結果および設定された保留時間に基づいて既に設定されたウェイクアップ信号を生成する制御部を含む。ここで、前記保留時間は、前記第1呼出音検知部が前記呼出音が含まれていると判別し、前記第2呼出音検知部が前記呼出音が含まれていないと判別した場合に設定される。
本発明の一実施形態による呼出音認識方法は、音声受信部がユーザの音声を受信して音声信号に変換するステップ、第1検知特性を有する第1呼出音検知部を用いて、前記音声信号内で既に設定された呼出音の有無を判別するステップ、前記第1呼出音検知部が前記呼出音が含まれていると判別すれば、第2検知特性を有する第2呼出音検知部を用いて、前記音声信号内で前記呼出音の有無を再検査するステップ、および前記第2呼出音検知部が前記呼出音が含まれていると判別すれば、制御部が既に設定されたウェイクアップ信号を生成するステップを含む。
本発明の一実施形態による呼出音認識方法は、音声受信部がユーザの音声を受信して音声信号に変換するステップ、第1検知特性を有する第1呼出音検知部を用いて、前記音声信号内で既に設定された呼出音の有無を判別するステップ、第2検知特性を有する第2呼出音検知部を用いて、前記音声信号内で前記呼出音の有無を判別するステップ、および前記第1呼出音検知部の検知結果、第2呼出音検知部の検知結果および設定された保留時間に基づいて、制御部が既に設定されたウェイクアップ信号を生成するステップを含む。ここで、前記保留時間は、前記第1呼出音検知部が前記音声信号に前記呼出音が含まれていると判別し、前記第2呼出音検知部が前記音声信号に前記呼出音が含まれていないと判別した場合に設定される。
なお、上記課題の解決手段は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴とそれに伴う長所と効果は下記の具体的な実施形態を参照してより詳しく理解できるものである。
本発明の一実施形態による呼出音認識装置および呼出音認識方法によれば、検知特性が互いに異なる複数の呼出音検知部を用いてユーザの音声に含まれた呼出音を検知するため、ユーザが発話した呼出音、特に連続呼出音に対する認識率を高めることができる。
本発明の一実施形態による呼出音認識装置および呼出音認識方法によれば、ユーザが連続した呼出音を発話する場合、呼出音の検知可否に対する追加の検証なしに端末装置などを活性化することができる。すなわち、周辺騒音や雑音が激しい場合などユーザが発話した呼出音を認識し難い環境においても、ユーザの連続した呼び出し試みに対する認識率を向上させることができる。
本発明の一実施形態による呼出音認識装置および呼出音認識方法によれば、FARが低い認識装置の性能を維持しながらもFRRを下げるという効果がある。
但し、本発明の実施形態による呼出音認識装置および呼出音認識方法が達成できる効果は以上で言及したものに制限されず、言及していないまた他の効果は下記の記載によって本発明が属する技術分野で通常の知識を有する者に明らかに理解できるものである。
本発明の一実施形態による呼出音認識装置を示す概略図である。 本発明の一実施形態による呼出音検知部におけるFARおよびFRRの関係を示す概略図である。 本発明の一実施形態による呼出音認識方法を示すフローチャートである。
以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面符号に関係なく同一または類似した構成要素には同一の参照番号を付し、それに対する重複する説明は省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけが考慮されて付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「部」という用語はソフトウェア、FPGAまたはASICのようなハードウェア構成要素を意味し、「部」はある役割を行う。ところが、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる格納媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。よって、一例として「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中から提供される機能は、さらに小さい数の構成要素および「部」で結合されるか、または追加の構成要素と「部」にさらに分離されてもよい。
また、本明細書に開示された実施形態を説明するにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨を濁す恐れがあると判断される場合には、その詳細な説明は省略する。また、添付された図面は本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が制限されるものではなく、本発明の思想および技術範囲に含まれる全ての変更、均等物乃至代替物を含むものとして理解しなければならない。
図1は、本発明の一実施形態による呼出音認識システムを示す概略図である。図1を参照すれば、本発明の一実施形態による呼出音認識システムは、端末装置200および呼出音認識装置100を含むことができる。
以下では、図1を参照して、本発明の一実施形態による呼出音認識システムについて説明する。
端末装置200は、スピーカー、ディスプレイ装置、コンピュータ、サーバなどの様々な種類の装置であってもよく、ユーザAの命令に対応する動作を行うものであってもよい。ここで、端末装置200は、節電モードまたはスリップモード(sleep mode)として待機中にあってもよく、呼出音認識装置100が転送するウェイクアップ信号に応じて節電モードまたはスリップモードから動作モード(active mode)に転換することができる。
呼出音認識装置100は、ユーザAが発話する音声を認識し、認識した音声内で既に設定された呼出音が含まれるか否かを判別することができる。呼出音認識装置100は、ユーザが発話した音声内に呼出音が含まれていると判別された場合には、端末装置200にウェイクアップ信号を転送することができる。すなわち、認識したユーザの音声命令に対応して、端末装置200が動作モードに転換するように制御することができる。ここで、呼出音は、スリップモードの端末装置200を動作モードに変換するために予め設定されたキーワードであってもよい。
実施形態に応じて、呼出音認識装置100が、呼出音の他に、ユーザが入力する様々な命令語などを認識することもできる。すなわち、呼出音認識装置100は、ユーザが音声として入力する命令語を認識した後、各々の命令語に対応する制御信号を生成して端末装置200に転送することができる。例えば、呼出音認識装置100は、ユーザが音声として発話するTVのチャンネル変更やボリューム調節などに対する命令語を認識し、認識した命令語に対応する制御信号を生成してTVに転送することができる。この場合、TVは、受信した制御信号に応じてチャンネル変更やボリューム調節などを行うことができる。
図1では端末装置200と呼出音認識装置100が別に実現されるものになっているが、実施形態に応じて、呼出音認識装置100が端末装置200内に含まれていてもよい。
一方、図1を参照すれば、呼出音認識装置100は、音声受信部110、第1呼出音検知部120、第2呼出音検知部130および制御部140を含むことができる。
音声受信部110は、ユーザAの音声を受信して音声信号に変換することができる。音声受信部110はマイクロホン(microphone)などであってもよく、ユーザが発話した音声を電気的信号である音声信号に変換することができる。ユーザの音声は特定の周波数および振幅を有するアナログ形態の信号に該当し、音声受信部110は、入力される音声をアナログ−デジタルコンバータ(図示せず)などを介してデジタル信号である音声信号に変換することができる。ここで、音声受信部110は、変換した音声信号を第1呼出音検知部120に提供することができる。図1では音声受信部110が音声信号を第1呼出音検知部120にのみ提供するものとして示されているが、場合に応じて、音声受信部110が第2呼出音検知部130にも音声信号を伝達することができる。
第1呼出音検知部120は、第1検知特性に応じて、音声信号内で既に設定された呼出音が含まれるか否かを判別することができる。また、第1呼出音検知部120が呼出音が含まれていると判別すれば、第2呼出音検知部130は、第2検知特性に応じて、音声信号内で呼出音の有無を再検査することができる。すなわち、互いに異なる検知特性を有する第1呼出音検知部120および第2呼出音検知部130を用いて呼出音の有無を判別することによって、呼出音の認識性能を向上させることができる。
具体的には、第1呼出音検知部120はFARが高くFRRが低い第1検知特性を有してもよく、第2呼出音検知部130はFRRが高くFARが低い第2検知特性を有してもよい。ここで、FARは、音声信号に実際には呼出音が含まれていないものの、含まれたものに誤って判断する割合であり、FRRは、音声信号に実際には呼出音が含まれているものの、含まれていないものに誤って判断する割合に該当する。FARが高い場合には、端末装置200がユーザの意図に関わらず反応するのでユーザの不便をもたらし、FRRが高い場合には、ユーザが端末装置200を呼び出しても応答しないので不便をもたらす。
ここで、FARとFRRは、図2に示すように、互いにトレードオフ(trade−off)にあるため、二つの性能を同時に全て満たすことは難しい。したがって、ここでは、互いに異なる検知特性を有する二つの呼出音検知部を用いて、音声信号内での呼出音の有無を判別するようにすることができる。この時、好ましくは、第1呼出音検知部120のFARを第2呼出音検知部130より相対的に高くするか、または第1呼出音検知部120のFRRを第2呼出音検知部130より相対的に低くすることができる。
第1呼出音検知部120は、FARが高い第1検知特性を有するため、実際には呼出音が含まれていない場合にも呼出音を含むと判別する確率が高い。但し、FRRは低いため、第1呼出音検知部120を用いて、呼出音が含まれる可能性がある音声信号を一次的に判別することができる。その後、FRRが高い第2検知特性を有する第2呼出音検知部130を用いて、第1呼出音検知部120により呼出音が含まれたものに判断された音声信号を再検査することができる。すなわち、第1呼出音検知部120が呼出音が含まれるものに判断した場合にも、第2呼出音検知部130が再検査して呼出音が含まれていないと判別すれば、最終的に呼出音が含まれていないものと判別することができる。それにより、FARが高い第1呼出音検知部120の短所を補完することができる。
実施形態に応じて、図2に示すように、第1呼出音検知部120はFARがFA1、FRRがFR1であってもよく、第2呼出音検知部130はFARがFA2、FRRがFR2であってもよい。ここで、各々の呼出音検知部のFARとFRRは図2のグラフに応じて設定されてもよく、この時、各々の第1検知特性および第2検知特性を維持するためには、少なくともFA1はFA2より高く、FR2はFR1より高くなるように選択することができる。図2は一つのカーブだけを例示しているが、実現方法に応じて、各々の呼出音検知部が互いに異なる誤差カーブを持ち、その中の一つの点を選択することができるである。
一方、第1呼出音検知部120と第2呼出音検知部130のFARおよびFRRは、各々の第1呼出音検知部120および第2呼出音検知部130に適用されたアルゴリズムなどに応じて決定されることができる。
以下では、互いに異なる検知特性の呼出音検知部を作る幾つかの実施形態について説明する。
一つの実施形態によれば、呼出音検知部の認識閾値(threshold)を変更してFARおよびFRRを調節することができる。呼出音検知部の実現方法に応じて、0(false)または1(true)でない呼出音が含まれたか否かに対する確率値が認識結果に決定されることができる。この時、この確率値に基づいて認識有無を決定する認識閾値を変更してFARとFRRの割合を調節することができる。
具体的な実現方法の一例として、第1呼出音検知部120と第2呼出音検知部130は音声信号から呼出音に対応する音声波形の有無を確認して呼出音が含まれるか否かを判別することができ、音声信号内に呼出音に対応する音声波形の有無は確率値で計算することができる。ここで、確率値が既に設定された臨界確率値以上であれば呼出音が含まれていると判別することができ、臨界確率値の設定に応じて各々の第1呼出音検知部120と第2呼出音検知部130の検知特性が選択されることができる。例えば、臨界確率値を下げる場合には、FARが高くなるので第1検知特性に近くなり、臨界確率値を高める場合には、FRRが高くなるので第2検知特性に近くなる。
また他の方法として、呼出音検知部の言語モデルを変更することによって互いに異なる検知特性を有する呼出音検知部を作ることができる。一例として、各々の第1呼出音検知部120および第2呼出音検知部130に設定される発音変異の認定範囲に応じて各々の検知特性が決定されることができる。例えば、「クローバー」が呼出音である場合、「クローバー」と類似した発音である「クローヴァー」、「クローヴァ」、「クローバ」などが検知される場合には、呼出音が入力されたものと判別することができる。このような発音変異の認定範囲を広げるほどFARが高くなるが、発音変異の認定範囲を縮めるほどFRRが高くなるようになる。したがって、発音変移の認定範囲を設定する発音モデルまたは発音グラフなどを調節して検知特性を設定することができる。
また他の方法として、類似語フィルタを適用する方法を利用することができる。検知しようとする呼出音と類似した発音であるが、他の単語を予め学習して類似語によるFARを減少させることである。すなわち、音声信号内に類似語が含まれる場合には、呼出音の入力でないものと判別することができる。例えば、「クローバー」が呼出音である場合、「グローバー」、「クラバー」などの類似語は、発音が一部類似しているものの、実際には他の意味を持つものであつて、ユーザが呼出音の入力を意図しないものと判別することができる。したがって、類似語を拡張して設定する場合には、FARは下げることができるものの、FRRが高くなり、類似語を縮めるかまたは類似語フィルタを設定しない場合には、FRRは下げることができるものの、FARが高くなる。
また、呼出音の前または後に含まれる黙音を検知するアルゴリズムを適用することもできる。一般に、ユーザが呼出音を発話する場合には、黙音を含むようになるため、入力された音声信号から黙音が含まれるか否かを確認し、黙音が含まれる場合に限って呼出音に認定することができる。この場合、FARは大幅に減らすことができるが、ユーザAが発話する環境に雑音などが多く混ざっている場合には、黙音の有無を判別し難いため、FRRが増加するなどの問題が発生する。
一方、実施形態に応じて、第1呼出音検知部120および第2呼出音検知部130に対して機械学習などを適用することができる。例えば、呼出音を含む音声信号と含まない音声信号を様々な環境で繰り返して出力した後、第1呼出音検知部120および第2呼出音検知部130が持続的に判別するようにすることができる。この時、判別結果をフィードバックして各々の第1呼出音検知部120および第2呼出音検知部130を学習させることができる。この場合、第1呼出音検知部120または第2呼出音検知部130に対し、雑音が激しい環境での学習結果を追加すれば、雑音環境でのFRRを下げることができる。
したがって、第1呼出音検知部120および第2呼出音検知部130に上述のアルゴリズムなどを適用して、第1呼出音検知部120および第2呼出音検知部130が各々第1検知特性と第2検知特性を有するように実現することができる。以上で記述した実施形態は、独立に使用してもよく、または一つ以上の方法を結合して使用してもよい。
制御部140は、第2呼出音検知部130が呼出音が含まれていると判別すれば、既に設定されたウェイクアップ信号を生成することができる。制御部140は、生成したウェイクアップ信号を端末装置200に転送することができ、ユーザの呼出音の発話に対応して端末装置200が動作モードで動作するようにすることができる。すなわち、制御部140は、第1呼出音検知部120および第2呼出音検知部130がいずれも呼出音が含まれていると判別した場合に限って、ウェイクアップ信号を生成することができる。それにより、ユーザの発話に過度に多く反応して端末装置200が動作するなどの問題点を防止することができる。
但し、第2呼出音検知部130が音声信号内に呼出音が含まれていないと判別すれば、制御部140は、一定の時間間隔の保留時間を設定することができる。すなわち、第2呼出音検知部130は、FRRが高いため、保留時間を設定して保留時間内にユーザがさらに呼出音を含む音声を発話するか否かを確認することができる。仮に保留時間内に音声受信部110がユーザの音声を再受信し、第1呼出音検知部120が再受信した音声に対応する音声信号から呼出音が含まれていると判別すれば、制御部140はウェイクアップ信号を生成することができる。これは、ユーザが端末装置200の動作のために呼出音を繰り返して入力する場合に該当するため、FRRが高い第2呼出音検知部130による再検査は省略し、第1呼出音検知部120における判別だけでウェイクアップ信号を生成するようにすることができる。それにより、呼出音の認識が難しい環境などにおいても、ユーザの連続試みに応じた認識率を向上させることができる。ここで、保留時間は5秒に設定されてもよいが、これに限定されず、実施形態に応じて多様に設定可能である。
制御部140は、第1呼出音検知部120が常時動作するようにして、入力される音声信号に対して即刻に反応するようにすることができる。すなわち、ユーザが発話する呼出音をいつでも検知することができるように、第1呼出音検知部120は常時に動作するようにすることができる。その反面、第2呼出音検知部130は、第1呼出音検知部120における判別結果を再検査する機能をするものであり、FRRが低い第1呼出音検知部120により呼出音が含まれていないと判別された音声信号に対しは、再検査を行わないように制御されることができる。また、第2呼出音検知部130は、保留時間の間にも動作しないように制御されることができる。
本発明のまた他の実施形態によれば、第1呼出音検知部120および第2呼出音検知部130が常時に動作するようにすることができる。第1呼出音検知部120の動作後に第2呼出音検知部130が動作する場合、演算に追加時間が必要であるため、各々の呼出音検知部が入力される音声信号に対して動作を行い、その結果に基づいて最終的に呼出音の有無を決定することができる。
最終結果は、第1呼出音検知部120および第2呼出音検知部130の検知特性および性能を考慮して最終結果を決めるように設定されることができる。一例として、第1呼出音検知部120および第2呼出音検知部130の検知可否および前述した保留時間以内であるか否かに応じて最終結果が次の表のように決定されることができる。
Figure 0006759370
図3は、本発明の一実施形態による呼出音認識方法を示すフローチャートである。図3を参照すれば、先ず、音声処理部がユーザの音声を受信して音声信号に変換することができる(S10)。その後、第1検知特性を有する第1呼出音検知部を用いて、音声信号内で既に設定された呼出音の有無を判別することができる(S20)。ここで、第1呼出音検知部は、FARが高くFRRが低い第1検知特性を有することができる。
第1呼出音検知部が呼出音が含まれていると判別した場合には(S30)、第2検知特性を有する第2呼出音検知部が音声信号内に呼出音が含まれるか否かを再検査することができる(S50)。ここで、第2呼出音検知部は、FRRが高くFARが低い第2検知特性を有することができる。
第2呼出音検知部が音声信号内に呼出音が含まれていると判別した場合には(S60)、制御部が既に設定されたウェイクアップ信号を生成することができる(S70)。制御部が生成したウェイクアップ信号は端末装置などに転送されることができ、ウェイクアップ信号によってスリップモード(sleep mode)または節電モードの端末装置を動作モード(active mode)に転換させることができる。
一方、第2呼出音検知部が音声信号内に呼出音が含まれていないと判別した場合には(S60)、制御部が既に設定された保留時間を設定することができる(S80)。すなわち、保留時間内にユーザが繰り返して呼出音を出力するか否かを確認することができる。このために、保留時間を設定した後(S80)、ユーザが発話する音声を再受信して音声信号を生成することができ(S10)、第1呼出音検知部は、再受信した音声信号内に呼出音が含まれるか否かを再び判別することができる(S20)。ここで、第1呼出音検知部が呼出音が含まれていると判別すれば(S30)、音声信号が保留時間内に受信されたものであるか否かを確認することができる(S40)。保留時間内に受信した音声信号である場合には、制御部がウェイク業信号を生成することができる(S70)。すなわち、保留時間内にユーザが再び発話した音声内に第1呼出音検知部が呼出音が含まれたものに判断した場合には、第2呼出音検知部による追加の再検査を行わず、ウェイクアップ信号を生成するようにすることができる。それにより、ユーザの連続試みに応じた認識率を向上させることができる。
本発明は、前述した実施形態および添付された図面によって限定されるものではない。本発明が属する技術分野で通常の知識を有した者であれば、本発明の技術的思想を逸脱しない範囲内で本発明に係る構成要素を置換、変形および変更できることは明らかである。
200 端末装置
100 呼出音認識装置
110 音声受信部
120 第1呼出音検知部
130 第2呼出音検知部
140 制御部

Claims (9)

  1. ユーザの音声を受信して音声信号に変換する音声受信部、
    第1検知特性に応じて、前記音声信号内で既に設定された呼出音の有無を判別する第1呼出音検知部、
    前記第1呼出音検知部が前記呼出音が含まれていると判別すれば、第2検知特性に応じて、前記音声信号内で前記呼出音の有無を再検査する第2呼出音検知部、および
    前記第2呼出音検知部が前記呼出音が含まれていると判別すれば、既に設定されたウェイクアップ信号を生成する制御部を含み、
    前記第1呼出音検知部はFARが高くFRRが低い第1検知特性を有し、
    前記第2呼出音検知部はFRRが高くFARが低い第2検知特性を有することを特徴とする呼出音認識装置。
  2. ユーザの音声を受信して音声信号に変換する音声受信部、
    第1検知特性に応じて、前記音声信号内で既に設定された呼出音の有無を判別する第1呼出音検知部、
    第2検知特性に応じて、前記音声信号内で前記呼出音の有無を判別する第2呼出音検知部、および
    前記第1呼出音検知部の検知結果、第2呼出音検知部の検知結果および設定された保留時間に基づいて既に設定されたウェイクアップ信号を生成する制御部を含み、
    前記保留時間は、前記第1呼出音検知部が前記呼出音が含まれていると判別し、前記第2呼出音検知部が前記呼出音が含まれていないと判別した場合に設定されることを特徴とする呼出音認識装置。
  3. 前記第1呼出音検知部はFARが高くFRRが低い第1検知特性を有し、
    前記第2呼出音検知部はFRRが高くFARが低い第2検知特性を有することを特徴とする、請求項に記載の呼出音認識装置。
  4. 前記第1呼出音検知部は第1FARおよび第1FRRを有し、前記第2呼出音検知部は第2FARおよび第2FRRを有し、
    前記第1FARは前記第2FAR以上であり、前記第2FRRは前記第1FRR以上であることを特徴とする、請求項3に記載の呼出音認識装置。
  5. ユーザの音声を受信して音声信号に変換する音声受信部、
    第1検知特性に応じて、前記音声信号内で既に設定された呼出音の有無を判別する第1呼出音検知部、
    前記第1呼出音検知部が前記呼出音が含まれていると判別すれば、第2検知特性に応じて、前記音声信号内で前記呼出音の有無を再検査する第2呼出音検知部、および
    前記第2呼出音検知部が前記呼出音が含まれていると判別すれば、既に設定されたウェイクアップ信号を生成する制御部を含み、
    前記制御部は、前記第2呼出音検知部が前記呼出音が含まれていないと判別すれば、保留時間を設定することを特徴とする、請求項1に記載の呼出音認識装置。
  6. 前記制御部は、
    前記保留時間内で前記第1呼出音検知部がユーザの音声を再受信し、前記再受信した音声内に前記呼出音が含まれていると判別すれば、前記ウェイクアップ信号を生成することを特徴とする、請求項5に記載の呼出音認識装置。
  7. 前記第1呼出音検知部は常時動作し
    前記第2呼出音検知部は、前記保留時間に該当するか、または前記第1呼出音検知部が前記音声信号内に前記呼出音が含まれていないと判別した場合には動作しないことを特徴とする、請求項6に記載の呼出音認識装置。
  8. 音声受信部がユーザの音声を受信して音声信号に変換するステップ、
    第1検知特性を有する第1呼出音検知部を用いて、前記音声信号内で既に設定された呼出音の有無を判別するステップ、
    前記第1呼出音検知部が前記呼出音が含まれていると判別すれば、第2検知特性を有する第2呼出音検知部を用いて、前記音声信号内で前記呼出音の有無を再検査するステップ、および
    前記第2呼出音検知部が前記呼出音が含まれていると判別すれば、制御部が既に設定されたウェイクアップ信号を生成するステップを含み、
    前記第1呼出音検知部はFARが高くFRRが低い第1検知特性を有し、
    前記第2呼出音検知部はFRRが高くFARが低い第2検知特性を有することを特徴とする呼出音認識方法。
  9. 音声受信部がユーザの音声を受信して音声信号に変換するステップ、
    第1検知特性を有する第1呼出音検知部を用いて、前記音声信号内で既に設定された呼出音の有無を判別するステップ、
    第2検知特性を有する第2呼出音検知部を用いて、前記音声信号内で前記呼出音の有無を判別するステップ、および
    前記第1呼出音検知部の検知結果、第2呼出音検知部の検知結果および設定された保留時間に基づいて、制御部が既に設定されたウェイクアップ信号を生成するステップを含み、
    前記保留時間は、前記第1呼出音検知部が前記音声信号に前記呼出音が含まれていると判別し、前記第2呼出音検知部が前記音声信号に前記呼出音が含まれていないと判別した場合に設定されることを特徴とする呼出音認識方法。
JP2019003317A 2018-01-15 2019-01-11 呼出音認識装置および呼出音認識方法 Active JP6759370B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180005064A KR102052634B1 (ko) 2018-01-15 2018-01-15 호출음 인식장치 및 호출음 인식방법
KR10-2018-0005064 2018-01-15

Publications (2)

Publication Number Publication Date
JP2019124937A JP2019124937A (ja) 2019-07-25
JP6759370B2 true JP6759370B2 (ja) 2020-09-23

Family

ID=67398741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019003317A Active JP6759370B2 (ja) 2018-01-15 2019-01-11 呼出音認識装置および呼出音認識方法

Country Status (2)

Country Link
JP (1) JP6759370B2 (ja)
KR (1) KR102052634B1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
JP6276513B2 (ja) * 2013-04-12 2018-02-07 株式会社レイトロン 音声認識装置および音声認識プログラム
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device

Also Published As

Publication number Publication date
KR20190086928A (ko) 2019-07-24
KR102052634B1 (ko) 2019-12-06
JP2019124937A (ja) 2019-07-25

Similar Documents

Publication Publication Date Title
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN106992015B (zh) 语音激活系统
US20220295194A1 (en) Interactive system for hearing devices
JP3363630B2 (ja) 音声認識方法
US7209880B1 (en) Systems and methods for dynamic re-configurable speech recognition
US9571617B2 (en) Controlling mute function on telephone
US5657425A (en) Location dependent verbal command execution in a computer based control system
US6411927B1 (en) Robust preprocessing signal equalization system and method for normalizing to a target environment
US20060074658A1 (en) Systems and methods for hands-free voice-activated devices
WO2018039045A1 (en) Methods and systems for keyword detection using keyword repetitions
US20070118380A1 (en) Method and device for controlling a speech dialog system
KR20200025226A (ko) 전자 장치 및 그 제어 방법
CN116601598A (zh) 基于检测序列的热门短语触发
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN116420188A (zh) 从呼叫和音频消息中对其他说话者进行语音过滤
JP2019184809A (ja) 音声認識装置、音声認識方法
CN116615779A (zh) 冻结词
JP6759370B2 (ja) 呼出音認識装置および呼出音認識方法
KR102308022B1 (ko) 호출음 인식장치 및 호출음 인식방법
US20230223014A1 (en) Adapting Automated Speech Recognition Parameters Based on Hotword Properties
JP2006251061A (ja) 音声対話装置および音声対話方法
US11205433B2 (en) Method and apparatus for activating speech recognition
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same
CN112399004B (zh) 声音输出的调整方法及执行该调整方法的电子装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200902

R150 Certificate of patent or registration of utility model

Ref document number: 6759370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350