JP2005107384A - 音声認識装置および方法、プログラム並びに記録媒体 - Google Patents

音声認識装置および方法、プログラム並びに記録媒体 Download PDF

Info

Publication number
JP2005107384A
JP2005107384A JP2003343259A JP2003343259A JP2005107384A JP 2005107384 A JP2005107384 A JP 2005107384A JP 2003343259 A JP2003343259 A JP 2003343259A JP 2003343259 A JP2003343259 A JP 2003343259A JP 2005107384 A JP2005107384 A JP 2005107384A
Authority
JP
Japan
Prior art keywords
input
image
recognition
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003343259A
Other languages
English (en)
Inventor
Toshiaki Iimura
俊昭 飯村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003343259A priority Critical patent/JP2005107384A/ja
Publication of JP2005107384A publication Critical patent/JP2005107384A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】音声認識を利用する機器において、同時に画像認識機能を付加した誤認識の少ない音声認識装置を提供する。
【解決手段】音声入力装置1に入力された音声は、音声認識部2により認識処理され判定部6で判定される。また、画像入力装置3と画像認識部4を用いて同時に画像認識機能を付加するため、音声のみによる認識よりも認識精度を向上させることができる。更に、計時装置5を用いて、画像が入力された時間情報を検出することによりノイズ等を時間的に分離することができ認識精度の向上をさせることができる。
【選択図】 図1

Description

この発明は、音声認識装置特に認識精度を向上させることができる音声認識装置および方法、プログラム並びに記録媒体に関する。
従来より、人の話し声を入力し、音声を自動的に認識する音声認識装置が知られており、パーソナルコンピュータ、電話機、カーナビゲーション等の多くの機器に応用されている。
音声認識装置のひとつの課題として、誤認識率の低減特に周囲のノイズによる誤認識の防止が挙げられる。誤認識の原因として、例えばマイク等の音声入力手段から入力される抽出したい音声以外のノイズによる影響や、抽出目標の音声が周囲に反射して時間的遅れをもって検出されるエコー音等が考えられる。誤認識率の低減を目的とする音声認識装置については下記の特許文献1に記載されている。
特開2001−215996号公報
従来の音声認識装置では、規則的、定常的なバックグラウンドノイズや、エコー音などはデジタル処理で低減、キャンセルすることが可能である。しかしながら、音声入力のみの認識システムでは誤認識率を低減することに限界があり、特に、突発的、不規則なノイズの影響を低減させることが容易でない。
したがって、この発明の目的は、音声入力による認識システムに加え、画像入力による認識システムおよび入力される音声情報と画像情報に関する時間情報を併用することにより、認識精度を向上させることができる音声認識装置および方法、プログラム並びに記録媒体を提供することである。
上述した課題を解決するために、請求項1の発明は
外部から入力される音声を認識する音声認識装置において、
音声を入力する音声入力装置と、
入力された音声を認識処理する音声認識部と、
音声の発生源の画像を入力する画像入力装置と、
入力された画像を認識処理する画像認識部と、
音声認識部および画像認識部から出力される情報に基づいて、外部から入力される音声を認識する判定部とからなる音声認識装置である。
請求項8の発明は、
外部から入力される音声を認識する音声認識方法において、
音声を入力する音声入力ステップと、
入力された音声を認識処理する音声認識ステップと、
音声の発生源の画像を入力する画像入力ステップと、
入力された画像を認識処理する画像認識ステップと、
認識処理された情報に基づいて、外部から入力される音声を認識する判定ステップとからなる音声認識方法である。
請求項15の発明は、
コンピュータに
入力された音声を認識処理する音声認識ステップと、
音声の発生源の画像を入力する画像入力ステップと、
入力された画像を認識処理する画像認識ステップと、
認識処理された情報に基づいて、外部から入力される音声を認識する判定ステップを実行させるプログラムである。
請求項22の発明は、
コンピュータに
入力された音声を認識処理する音声認識ステップと、
音声の発生源の画像を入力する画像入力ステップと、
入力された画像を認識処理する画像認識ステップと、
認識処理された情報に基づいて、外部から入力される音声を認識する判定ステップを実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体である。
この発明によれば、音声認識装置の認識精度の向上、特に、突発的、不規則なノイズの影響を低減することができる。
この発明によれば、時間情報を利用することにより、音声または画像を認識すべき時間が明確になることにより、不要な雑音を時間的に分離することができ、音声認識の精度を向上させることができる。
この発明によれば、音声または画像の認識結果が良好でない場合でも、認識動作を再度実行できる情報を確保することができ、より音声認識の精度を向上させることができる。
この発明によれば、画像または音声情報からは、必ずしも具体的言葉(入力情報)を検出せずに、音声(または画像)認識に対する検出タイミングを提供するだけでも音声認識の精度を向上させることができる。
この発明によれば、従来の誤認識の低減を図る音声認識装置に比べコストの低減を図ることができる。更にこの発明の音声認識装置は、パーソナルコンピュータ、カーナビゲーション、携帯電話機等の一般家電機器はもとより福祉機器、バリアフリー製品などにも幅広く応用することができる。
以下、図面を参照しながらこの発明の一実施形態について説明する。図1はこの発明の音声認識装置の構成の一例を示す。音声認識装置は、参照符号1で示す音声入力装置、参照符号2で示す音声認識部、参照符号3で示す画像入力装置、参照符号4で示す画像認識部並びに参照符号6で示す判定部を備える。またこの一実施形態における音声認識装置は、更に参照符号5で示す計時装置を備えている。
ここで音声認識の動作の流れの一例について概説する。音声入力装置1は、人間若しくはそれにかわるもの(以下、ユーザという。)がその音声により装置に何らかの情報を入力する場合の音声を、A/D(Analog to Digital)変換することにより電気信号等に変換し、音声認識部2に出力する。
電気信号を受けた音声認識部2は、例えば辞書部(図示せず)に蓄えられたデータ(以下、適宜認識辞書とも称する。)や音韻規則(調音結合などによる音素の変形規則)を用いることにより処理し、結果を音声認識結果リストとして判定部6に出力する。
音声認識結果リストの一例について図2Aを用いて説明する。図2Aに示すように音声認識結果リストには入力された音声の入力候補、合致指数及びその入力情報が検出され始めた時刻と検出され終わった時刻(以下、時間情報という。)が含まれている。ここで合致指数とは、入力された音声に対して音声認識部が認識処理した入力候補とがどれだけ確からしいかを示す指数を意味する。
時間情報は計時装置5から音声認識部2に対して出力される。計測される時間情報は絶対的な時間情報および相対的な時間情報の何れでも良い。時間情報は、システム内において単一の時間軸により規定される。
同様に、画像認識部4は画像入力装置が検出した画像、例えばユーザの口の動きに関する情報と、計時装置5からの時間情報をもとに画像認識結果リストを判定部6に出力する。図2Bは、画像認識結果リストの一例を示す。音声認識結果リストと同様に、入力候補、合致指数、時間情報が出力される。
音声認識部2および画像認識部4から出力される入力候補に関する情報に基づいて、判定部6が入力された音声を認識する。認識した結果を参照符号7で示す決定入力情報としてパーソナルコンピュータやカーナビゲーション等の各種装置8に出力する。
音声認識部2および画像認識部4から出力された情報に基づいて判定部6が最終的な入力情報を認識する処理方法として以下の方法が考えられる。
第1の方法として、音声認識部2と画像認識部4から出力される結果リストの中から、合致指数が最大の候補を認識結果とする方法が挙げられる。
第2の方法として、音声認識部2と画像認識部4が出した結果候補が、音声入力装置1および画像入力装置3のそれぞれに入力された時間情報を比較し、時間情報の一致度も考慮して各々の候補の中から最適候補を認識結果とする方法が挙げられる。
第3の方法として、画像認識部4が検出した入力情報のタイミングを考慮し、音声認識部2が認識処理を行い、判定部6が決定入力情報を決定する方法が挙げられる。ここでタイミングとは、開始時間、終了時間等のことである。
第4の方法としては、第3の方法とは逆に音声認識部4が検出した入力情報のタイミングを考慮し、画像認識部2が認識処理を行い、判定部6が決定入力情報を決定する方法が挙げられる。
第5の方法としては、上述した第1から第4の方法において、音声認識部2および画像認識部4が出力した入力候補が一致せず、または合致指数が一定レベルに達しない場合、画像認識装置3が検出した入力情報のタイミングでサンプリングした音声情報で再度音声認識処理を行う方法が挙げられる。
第6の方法としては、第5の方法とは逆に、音声認識部2および画像認識部4が出力した入力候補が一致せず、または合致指数が一定レベルに達しない場合、音声認識装置1が検出した入力情報のタイミングでサンプリングした画像情報で再度画像認識処理を行う方法が挙げられる。
尚、判定部6が入力情報を認識する処理方法は、上述した方法に限られず、また各々の方法を組み合わせて認識する処理方法も可能である。
この発明の音声認識装置の構成については、図3の参照符号9で示すように判定部が音声認識部に包括されるようにしてもよい。これにより、機器の小型化、コストダウンを図ることができる。
図4A〜図4Dは入力される音声のタイミングを利用して音声認識を実行する一例を示す図である。図4Aは、音声入力装置1(画像入力装置3でもよい)によって入力された音声がA/D変換され、電気信号へと変化された音声波形を示す。外部から音声が入力された箇所が上下の振動の幅が大きくなる。
この一例では、外部から「おはよう」という音声が入力され、「は」と「よ」の間に図4Aのaで示すノイズが混入したものとする。図4Bは、音声認識部2が認識した音声認識結果を示す。音声認識部2は、ノイズaのため入力された音声を「おはかう」と誤認識したものとする。
図4Cは、計時装置5が音声入力装置1が認識した音声について検出した時刻を示す。t1からt2は「お」、t3からt4は「は」、t5からt6は雑音a、t7からt8は「よ」、t9からt10は「う」のそれぞれの音声が入力された音声を示す。図4Dは画像認識部4が認識した結果を示す。画像認識部4は、入力された音声を「おはよう」と認識したものとする。
音声入力のみを情報源とする音声認識部2は、ノイズaを入力情報「おはよう」の「よ」の部分の一部として誤認識してしまい、「よ」を「か」と判定しまう。この結果、音声認識部2に「おはよう」という単語が認識辞書にあったとしても、合致指数は低いものとなってしまう。ここで、この発明による音声認識装置によれば、画像認識機能が同時に動作するために、音声認識部2は高い合致指数で「おはよう」を入力候補にあげることができる。
一例として上述した第3の判定方法を利用する例について説明する。「よ」という単語が入力された時間は開始時間t7から終了時間t8までの時間である。画像認識部4は口の動き等から「よ」が入力されたt7からt8までの時間情報を正確に認識している。音声認識部2は画像認識部4が「よ」を認識した時間(認識すべき時刻t7からt8)で入力候補をあげるため、t5からt6までの時間、即ちノイズaが混入された時間を考慮しない。このため高い合致指数で「おはよう」を入力候補にあげることができる。
また、第5の判定方法を利用した例について説明する。音声認識部2と画像認識部4がそれぞれ「おはかう」と「おはよう」を認識し、候補が一致しないとする。この場合に画像認識装置が検出した入力情報、具体的にはt1からt2、t3からt4t7からt8、t9からt10のタイミングでサンプリングした入力された音声情報で再度音声認識を行う。
この発明は、上述した一実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内でさまざまな変形や応用が可能である。例えば、音声認識部2が音声を認識する方法は、上述した一実施形態では、認識辞書を利用したが他にも音素を利用したりする方法など種々の方法があり、この発明に適用することができる。
また、時間情報については、上述した実施例については一文字ずつについて開始時間および終了時間を検出することとしたが複数の文字をまとめて検出するなど種々の方法を用いることができる。
この発明の音声認識装置の構成の一例を示す略線図である。 音声認識結果リストおよび画像認識結果リストの一例を示す略線図である。 この発明の音声認識装置の構成の他の一例を示す略線図である。 この発明の音声認識の方法の一例を示す略線図である。
符号の説明
1 音声入力装置
2 音声認識部
3 画像入力装置
4 画像認識部
5 計時装置
6 判定部

Claims (28)

  1. 外部から入力される音声を認識する音声認識装置において、
    音声を入力する音声入力装置と、
    上記入力された音声を認識処理する音声認識部と、
    上記音声の発生源の画像を入力する画像入力装置と、
    上記入力された画像を認識処理する画像認識部と、
    上記音声認識部および上記画像認識部から出力される情報に基づいて、上記外部から入力される音声を認識する判定部とからなる音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    上記入力される画像についての時間情報を検出、出力する計時装置を更に備える音声認識装置。
  3. 請求項2に記載の音声認識装置において、
    上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間である音声認識装置。
  4. 請求項2に記載の音声認識装置において、
    上記計時装置が検出した上記画像についての時間情報に基づいて上記音声認識部が認識処理し、認識結果を上記判定部に供給し、上記判定部が入力される音声を認識する音声認識装置。
  5. 請求項2に記載の音声認識装置において、
    上記計時装置が検出した上記音声についての時間情報に基づいて上記画像認識部が認識処理し、認識結果を上記判定部に供給し、上記判定部が入力される音声を認識する音声認識装置。
  6. 請求項4に記載の音声認識装置において、
    上記音声認識部および上記画像認識部から出力される情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記音声認識部が上記入力された音声をサンプリングし、サンプリングされた音声により再度音声認識処理を行う音声認識装置。
  7. 請求項5に記載の音声認識装置において、
    上記音声認識部および上記画像認識部から出力される情報が一致しないときは、上記計時装置が検出した上記音声が入力される時間情報に基づいて、上記画像認識部が上記入力された音声をサンプリングし、サンプリングされた音声により再度画像認識処理を行う音声認識装置。
  8. 外部から入力される音声を認識する音声認識方法において、
    音声を入力する音声入力ステップと、
    上記入力された音声を認識処理する音声認識ステップと、
    上記音声の発生源の画像を入力する画像入力ステップと、
    上記入力された画像を認識処理する画像認識ステップと、
    上記認識処理された情報に基づいて、上記外部から入力される音声を認識する判定ステップとからなる音声認識方法。
  9. 請求項8に記載の音声認識方法において、
    上記入力される画像についての時間情報を計時装置が検出、出力する時間検出ステップを更に有する音声認識方法。
  10. 請求項9に記載の音声認識方法において、
    上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間である音声認識方法。
  11. 請求項9に記載の音声認識方法において、
    上記計時装置が検出した上記画像についての時間情報に基づいて音声を認識処理する音声認識処理ステップと、上記音声認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識する音声認識方法。
  12. 請求項9に記載の音声認識方法において、
    上記計時装置が検出した上記音声についての時間情報に基づいて入力された画像を認識処理する画像認識処理ステップと、上記画像認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識する音声認識方法。
  13. 請求項11に記載の音声認識方法において、
    上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度音声認識処理を行う音声認識ステップを更に有する音声認識方法。
  14. 請求項12に記載の音声認識方法において、
    上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記音声が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度画像認識処理を行う画像認識ステップを更に有する音声認識方法。
  15. コンピュータに
    入力された音声を認識処理する音声認識ステップと、
    上記音声の発生源の画像を入力する画像入力ステップと、
    上記入力された画像を認識処理する画像認識ステップと、
    上記認識処理された情報に基づいて、上記外部から入力される音声を認識する判定ステップを実行させるプログラム。
  16. 請求項15に記載のプログラムにおいて、
    上記コンピュータに入力される画像についての時間情報を計時装置が検出、出力する時間検出ステップを更に実行させるプログラム。
  17. 請求項16に記載のプログラムにおいて、
    上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間であるプログラム。
  18. 請求項16に記載のプログラムにおいて、
    上記コンピュータに、上記計時装置が検出した上記画像についての時間情報に基づいて音声を認識処理する音声認識処理ステップと、上記音声認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラム。
  19. 請求項16に記載のプログラムにおいて、
    上記コンピュータに、上記計時装置が検出した上記音声が入力される時間情報に基づいて画像を認識処理する画像認識処理ステップと、上記画像処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラム。
  20. 請求項18に記載のプログラムにおいて、
    上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度音声認識処理を行う音声認識ステップを更に実行させるプログラム。
  21. 請求項19に記載のプログラムにおいて、
    上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記音声が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度画像認識処理を行う画像認識ステップを更に実行させるプログラム。
  22. コンピュータに
    入力された音声を認識処理する音声認識ステップと、
    上記音声の発生源の画像を入力する画像入力ステップと、
    上記入力された画像を認識処理する画像認識ステップと、
    上記認識処理された情報に基づいて、上記外部から入力される音声を認識する判定ステップを実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
  23. 請求項22に記載の記録媒体において、
    上記コンピュータに入力される画像についての時間情報を計時装置が検出、出力する時間検出ステップを更に実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
  24. 請求項23に記載の記録媒体において、
    上記時間情報は、上記入力される音声および画像が入力される開始時間および終了時間である記録媒体。
  25. 請求項23に記載の記録媒体において、
    上記コンピュータに、上記計時装置が検出した上記画像についての時間情報に基づいて音声を認識処理する音声認識処理ステップと、上記音声認識処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
  26. 請求項23に記載の記録媒体において、
    上記コンピュータに、上記計時装置が検出した上記音声が入力される時間情報に基づいて画像を認識処理する画像認識処理ステップと、上記画像処理ステップで得られた認識結果に基づき上記判定ステップにおいて、入力された音声を認識させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
  27. 請求項25に記載の記録媒体において、
    上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度音声認識処理を行うステップを更に実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
  28. 請求項26に記載の記録媒体において、
    上記コンピュータに、上記音声認識ステップおよび上記画像認識ステップで得られた情報が一致しないときは、上記計時装置が検出した上記画像が入力される時間情報に基づいて、上記入力された音声をサンプリングするサンプリングステップと、サンプリングされた音声により再度画像認識処理を行う画像認識ステップを更に実行させるプログラムが記録されたコンピュータが読み取り可能な記録媒体。
JP2003343259A 2003-10-01 2003-10-01 音声認識装置および方法、プログラム並びに記録媒体 Pending JP2005107384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003343259A JP2005107384A (ja) 2003-10-01 2003-10-01 音声認識装置および方法、プログラム並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003343259A JP2005107384A (ja) 2003-10-01 2003-10-01 音声認識装置および方法、プログラム並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2005107384A true JP2005107384A (ja) 2005-04-21

Family

ID=34537287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003343259A Pending JP2005107384A (ja) 2003-10-01 2003-10-01 音声認識装置および方法、プログラム並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2005107384A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037050A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 対話装置と対話用プログラム
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
WO2015018253A1 (zh) * 2013-08-03 2015-02-12 Yuan Zhi’Xian 智能操控及报警的无线汽车音响设备
US11657821B2 (en) 2018-07-26 2023-05-23 Sony Corporation Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037050A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 対話装置と対話用プログラム
JP2010185975A (ja) * 2009-02-10 2010-08-26 Denso Corp 車載音声認識装置
WO2015018253A1 (zh) * 2013-08-03 2015-02-12 Yuan Zhi’Xian 智能操控及报警的无线汽车音响设备
US11657821B2 (en) 2018-07-26 2023-05-23 Sony Corporation Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user

Similar Documents

Publication Publication Date Title
EP2994910B1 (en) Method and apparatus for detecting a target keyword
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
US9922640B2 (en) System and method for multimodal utterance detection
KR101229034B1 (ko) 디바이스 인터페이싱을 위한 다중모드 조음 통합
JP6654611B2 (ja) 成長型対話装置
US10621985B2 (en) Voice recognition device and method for vehicle
WO2017154282A1 (ja) 音声処理装置および音声処理方法
KR20200025226A (ko) 전자 장치 및 그 제어 방법
JP4682700B2 (ja) 音声認識装置
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
US11823669B2 (en) Information processing apparatus and information processing method
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6613382B2 (ja) 通信端末装置、プログラム及び情報処理方法
JP2006208486A (ja) 音声入力装置
JP2005107384A (ja) 音声認識装置および方法、プログラム並びに記録媒体
JP2011039222A (ja) 音声認識システム、音声認識方法および音声認識プログラム
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
KR102075399B1 (ko) 스피치 인식 장치
JP2012155301A (ja) 状況認知型音声認識方法
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP2000311077A (ja) 音声情報入力装置
WO2019030810A1 (ja) 音声認識装置および音声認識方法
US11195545B2 (en) Method and apparatus for detecting an end of an utterance