JP6351440B2 - 音声認識装置及びコンピュータプログラム - Google Patents
音声認識装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6351440B2 JP6351440B2 JP2014173553A JP2014173553A JP6351440B2 JP 6351440 B2 JP6351440 B2 JP 6351440B2 JP 2014173553 A JP2014173553 A JP 2014173553A JP 2014173553 A JP2014173553 A JP 2014173553A JP 6351440 B2 JP6351440 B2 JP 6351440B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- recognition
- input character
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。
図示するように、情報処置システムは、マイクロフォン1、音声認識エンジン2、音声認識辞書3、音声入力制御部4、アプリケーション部5、GUI制御部6、表示装置7、入力装置8を備えている。
図2に、音声入力処理の手順を示す。
図示するように、音声入力処理において音声入力制御部4は、まず、動作モードとして自動確定モードを設定する(ステップ202)。
そして、入力装置8を用いたユーザからの音声入力開始の指示の入力を待ち(ステップ204)、音声入力開始の指示が発声したならば音声認識エンジン2に音声認識開始を指示し(ステップ206)、当該指示に応答して音声認識エンジン2で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する(ステップ208)。
すなわち、動作モードとして自動確定モードが設定されている場合には(ステップ210)、音声認識エンジン2から得られた認識候補のうちスコアが最大の認識候補を第1候補、スコアが2番目に大きな認識候補を第2候補として、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きいかどうかを調べる(ステップ212)、
そして、スコアの差がしきい値Thdより大きい場合には(ステップ212)、第1候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ214)。
言い直しとは、ユーザが入力文字列として認識された発話をやり直すことであり、入力文字列としてアプリケーション部5に出力した文字列が誤認識であった場合に発生する。また、言い直しの発生の検出は、たとえば、以下のように検出する。
そして、音声入力制御部4において、入力文字列を出力したアプリケーション部5から、音声入力再実行指示を受け付けた場合に、言い直しの発生を検出し、入力文字列を出力したアプリケーション部5から、音声入力成功を通知された場合に、言い直し無しを検出するようにする。
一方、言い直しが発生した場合には(ステップ216)、動作モードとして選択受付モードを設定した上で(ステップ218)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
そして、キャンセル操作が発生したならば(ステップ222)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
そして、ユーザのキャンセル操作(ステップ230)とリスト内の認識候補の選択の受付(ステップ232)との発生を監視し、キャンセル操作が発生したならば(ステップ230)、動作モードを自動確定モードに復帰した上で(ステップ236)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
以下、このような音声入力処理の処理例を示す。
いま、自動確定モードにあるときのユーザの「スターバイク」との発話に対して、図3aに示すように認識候補/スコアが、「スターブック」/90点、「スターバイク」/84点、「スカイブック」/79点、「スターバス」/64点と、音声認識エンジン2によって算出されたものとする。
この場合、自動確定モードが設定されており、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=5より大きいので、第1候補「スターブック」が入力文字列として自動的に確定しアプリケーション部5に出力されることとなる。
そして、選択受付モードにおいて、ユーザが再度「スターバイク」と発話し、音声認識エンジン2によって、さきほどと同様に図3aに示した認識候補/スコアが算出されたものとする。
以上、音声入力処理の処理例を示した。
なお、以上の音声入力処理は、ステップ212、220-226を廃すると共に、ステップ210を自動確定モードと判定されたときにステップ214に進む処理に変更し、自動確定モードが設定されているときには、無条件にスコアが最大の認識候補を入力文字列として確定する処理としてもよい。
以上のように、本実施形態に係る音声入力処理によれば、自動確定モードで、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列がユーザの発話の誤認識であるために、ユーザの言い直しが発生した場合には、選択受付モードを設定し、ユーザの再発話に対しては、スコアの高い複数の認識候補のリストを表示し、リスト中から入力文字列として確定する認識候補の選択を受け付ける。
ところで、以上の実施形態において音声入力制御部4は、音声入力処理としては、図2に示した音声入力処理に代えて、図4に示す音声入力処理を行うようにしてもよい。
すなわち、音声入力制御部4は、音声入力処理において、まず、しきい値Thdを予め定めた標準値に設定する(ステップ402)。
そして、入力装置8を用いたユーザからの音声入力開始の指示の入力を待ち(ステップ404)、音声入力開始の指示が発声したならば音声認識エンジン2に音声認識開始を指示し(ステップ406)、当該指示に応答して音声認識エンジン2で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する(ステップ408)。
そして、スコアの差がしきい値Thdより大きい場合には(ステップ410)、第1候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ412)。
言い直しが発生していなければ(ステップ414)、ステップ402からの処理を行う。
いま、ユーザの「スターバイク」との発話に対して、図3aに示すように認識候補/スコアが、「スターブック」/90点、「スターバイク」/84点、「スカイブック」/79点、「スターバス」/64点と、音声認識エンジン2によって算出されたものとする。
この場合、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=5より大きいので、第1候補「スターブック」が入力文字列として自動的に確定しアプリケーション部5に出力されることとなる。
すると、今度は、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=10以内であるので、第1候補「スターブック」と第1候補「スターブック」とスコア差がしきい値Thd=10以内の認識候補「スターバイク」とのリストが図3cに示すように表示される。
以上、図4に示した音声入力処理の処理例を示した。
このように、図4に示した音声入力処理によっても正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストが表示され易くして、ユーザが、当該次回の発話によって正しい発話内容である認識候補の入力文字列として確定を、より確実に行えるようすることができる。
Claims (5)
- ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第1のモードと、
当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、
当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うことを特徴とする音声認識装置。 - 請求項1記載の音声認識装置であって、
前記入力文字列確定手段は、前記第2のモードにおいて、
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することを特徴とする音声認識装置。 - ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
当該入力文字列確定手段は、
前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とする音声認識装置。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第1のモードと、
当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、
当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うことを特徴とするコンピュータプログラム。 - コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
当該入力文字列確定手段は、
前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014173553A JP6351440B2 (ja) | 2014-08-28 | 2014-08-28 | 音声認識装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014173553A JP6351440B2 (ja) | 2014-08-28 | 2014-08-28 | 音声認識装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016048338A JP2016048338A (ja) | 2016-04-07 |
JP6351440B2 true JP6351440B2 (ja) | 2018-07-04 |
Family
ID=55649263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014173553A Active JP6351440B2 (ja) | 2014-08-28 | 2014-08-28 | 音声認識装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6351440B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200168221A1 (en) * | 2017-08-08 | 2020-05-28 | Mitsubishi Electric Corporation | Voice recognition apparatus and method of voice recognition |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08160988A (ja) * | 1994-12-07 | 1996-06-21 | Sony Corp | 音声認識装置 |
JP2003036094A (ja) * | 2001-07-23 | 2003-02-07 | Oki Electric Ind Co Ltd | 音声対話装置及び音声対話処理方法 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
JP2008051895A (ja) * | 2006-08-22 | 2008-03-06 | Casio Comput Co Ltd | 音声認識装置および音声認識処理プログラム |
JP2008164809A (ja) * | 2006-12-27 | 2008-07-17 | Denso Corp | 音声認識装置 |
JP2010079103A (ja) * | 2008-09-26 | 2010-04-08 | Brother Ind Ltd | 音声対話装置及びそのプログラム並びに音声対話処理方法 |
JP2010197669A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
-
2014
- 2014-08-28 JP JP2014173553A patent/JP6351440B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016048338A (ja) | 2016-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10497373B1 (en) | Providing pre-computed hotword models | |
US10847147B2 (en) | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition | |
CN106796788B (zh) | 基于用户反馈来改善自动语音识别 | |
JP2006048628A5 (ja) | ||
JP4867622B2 (ja) | 音声認識装置、および音声認識方法 | |
US11416593B2 (en) | Electronic device, control method for electronic device, and control program for electronic device | |
JP6351440B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP2009031328A (ja) | 音声認識装置 | |
JP6805431B2 (ja) | 音声認識装置 | |
AU2019100034A4 (en) | Improving automatic speech recognition based on user feedback | |
JP2017102320A (ja) | 音声認識装置 | |
JP2018163295A (ja) | 音声対話装置および音声対話方法 | |
JP2006039383A (ja) | 音声認識装置 | |
JP2005267399A (ja) | 音声辞書検索システム及び音声辞書検索プログラム | |
JP2010008607A (ja) | 音声認識装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170303 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180227 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180605 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6351440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |