JP6719127B2

JP6719127B2 - 音声認識装置、音声認識方法及びコンピュータプログラム

Info

Publication number: JP6719127B2
Application number: JP2016135355A
Authority: JP
Inventors: 陽子砂山; 良典山西; 淳一福本
Original assignee: Ritsumeikan Trust
Current assignee: Ritsumeikan Trust
Priority date: 2016-07-07
Filing date: 2016-07-07
Publication date: 2020-07-08
Anticipated expiration: 2036-07-07
Also published as: JP2018005120A

Description

本発明は、音声認識に関する。

人の発話には、フィラー(filler)が含まれることがある。日本においては、フィラーには、例えば、「えー」「えーと」「あのー」「まあ」などの言い淀みが含まれる。フィラーは、発話者によって意識的に又は無意識的に用いられ、発言の間を埋める。フィラーは、発話者の口癖として発せられることが多い。

発話された音声の認識においては、発話中のフィラーの検出が行われることがある。例えば、特許文献１は、フィラーを目的言語に翻訳するために、発話された原言語中のフィラーを検出する装置を開示している。

特開２００９−１４６０４３号公報

フィラーは、一般的に、モーラ（mora）数が小さいため、音声認識において、フィラーが他の語であると誤認識され易い。例えば、「えー」というフィラーは、音声認識において、「米（べい）」又は「ねえ」などの非フィラーとして誤認識されることがある。

音声認識においては、フィラーが非フィラーとして誤認識されるのを抑制することが望まれる。

本発明の一の態様は、音声認識処理を実行する音声認識装置である。実施形態において、音声認識処理は、発話におけるフィラーを検出する検出処理と、前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、テーブルに基づいて評価する評価処理と、を含む。前記テーブルは、１又は複数の誤認識リストを有する。前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある１又は複数の誤認識候補を有する。

本発明の他の態様は、音声認識方法である。本発明の他の対象は、コンピュータプログラムである。

音声認識装置の構成図である。音声認識処理のフローチャートである。フィラーリストを示す図である。辞書を示す図である。誤認識リストを示す図である。誤認識リスト変更処理のフローチャートである。誤認識リスト変更処理のフローチャートである。

［１．実施形態の概要］

（１）実施形態に係る音声認識装置は、プロセッサと、メモリと、を備える。前記プロセッサは、音声認識処理を実行するよう構成されている。音声認識処理は、発話におけるフィラーを検出する検出処理と、前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、前記メモリに記憶されたテーブルに基づいて評価する評価処理と、を含む。検出処理によって非フィラーとして誤って検出されたとしても、非フィラーとして誤認識されるのを評価処理によって抑制できる。前記テーブルは、１又は複数の誤認識リストを有する。前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある１又は複数の誤認識候補を有する。誤認識リストは、誤認識候補を有するため、誤認識の評価を容易にする。

（２）前記音声認識処理は、前記非フィラー直前の音及び前記非フィラー直後の音が無音である場合に、前記非フィラーを、前記評価処理の対象として決定する決定処理を更に含むことができる。フィラーは、その直前及び直後の音が無音である場合が多いため、非フィラー直前の音及び非フィラー直後の音が無音である場合には、非フィラーはフィラーを誤認識したものである可能性がある。誤認識の可能性の高い非フィラーを評価処理の対象とすることで、効率的に評価を行うことができる。

（３）前記決定処理は、前記非フィラー直前の音及びフィラー直後の音が無音であることを、発話から検出された文字列において非フィラーの直前及び直後に位置する文字に基づいて判定することができる。発話から検出された文字列に基づく判定は、決定処理を容易にする。

（４）前記テーブルは、複数の前記誤認識リストを有することができる。前記音声認識処理は、前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性に基づいて、複数の前記誤認識リストから、前記評価処理に用いられる誤認識リストを選択する選択処理を更に含むことができる。非フィラーと誤認識リストにおけるフィラーとの音の近似性に基づいた誤認識リストの選択により、適切な誤認識リストを用いて評価処理を行うことができる。

（５）前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性は、前記非フィラーに含まれる母音と前記誤認識リストにおけるフィラーに含まれる母音に基づいて判定されるのが好ましい。母音の共通性は、誤認識を招き易い。このため、母音に基づく音の近似性の判定は、選択処理をより適切なものとする。

（６）前記音声認識処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストを変更する変更処理を更に含むことができる。誤認識リストを変更することで、評価処理における評価を調整できる。

（７）前記変更処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストに含まれる前記誤認識候補を変更することを含むのが好ましい。誤認識候補の変更は、評価処理における評価結果に影響を与えることができる。

（８）前記評価処理は、前記非フィラーが、前記誤認識リストに含まれる前記誤認識候補と一致するかどうかを判定することを含むことができる。非フィラーが誤認識候補と一致していると、誤認識である可能性が高い。

（９）前記誤認識リストは、前記誤認識リストに含まれる各誤認識候補が、フィラーを誤認識したものである確率を示す確率情報を有することができる。前記評価処理は、前記確率情報を用いて、前記非フィラーが、フィラーを誤認識したものであるかを評価することを含むことができる。確率情報を用いることで、より精度良く評価をすることができる。

（１０）前記音声認識処理は、前記確率情報を変更することを更に含むことができる。確率情報の変更は、評価処理における評価結果に影響を与えることができる。

（１１）実施形態に係る音声認識方法は、発話におけるフィラーを音声認識装置が検出すること、発話に含まれる非フィラーがフィラーを誤認識したものであるかを、前記音声認識装置がテーブルに基づいて評価すること、を含む。発話された内容が非フィラーとして誤って検出されたとしても、非フィラーとして誤認識されるのを評価処理によって抑制できる。

（１２）実施形態に係るコンピュータプログラムは、コンピュータに、音声認識処理を実行させる。前記音声認識処理は、発話におけるフィラーを検出する検出処理と、前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、テーブルに基づいて評価する評価処理と、を含む。

［２．実施形態の詳細］

［２．１音声認識装置］

図１に示す音声認識装置１０は、音声認識処理を実行する。実施形態の音声認識処理は、発話中のフィラーを認識することができる。音声認識装置１０は、例えば、コンピュータを備える。コンピュータは、プロセッサ２０及びメモリ３０を備える。音声認識処理は、例えば、音声認識のためのコンピュータプログラムをコンピュータが実行することにより実現される。音声認識のためのコンピュータプログラムは、メモリ３０に格納されており、プロセッサ２０によって実行される。音声認識処理の実行は、ハードウェアロジックによって実現されてもよい。

音声認識装置１０には、例えば、マイク４０が接続される。マイク４０は、ユーザの発した音声を、電気信号である音声信号に変換し、音声認識装置１０に与える。音声認識装置１０は、マイクから与えられた音声信号を音声認識の対象とする。音声認識装置１０は、例えば通信ネットワークを介して、取得したデジタル音声信号を、音声認識の対象としてもよい。

［２．２音声認識処理］

図１に示すように、実施形態の音声認識処理は、音声解析処理２１を含む。音声解析処理２１は、音声信号を解析し、発話に対応した音素列を出力する。音素列は、音素を示す文字の列である。例えば、日本の「えー」に対応する音素列は、「ｅ：」である。

実施形態の音声認識処理は、フィラー検出処理２２を含む。検出処理２２は、発話中のフィラーを検出する処理である。実施形態において、検出処理２２は、例えば、音声解析処理２１によって生成された音素列に基づいて行われる。検出処理２２は、例えば、メモリ３０に格納されたフィラーリスト３１に基づいて行われる。フィラーリスト３１には、１又は複数のフィラーが登録されている。ユーザがフィラーリスト３１に登録されているフィラーを発話すると、検出処理２２によって、フィラーが発話されたことが検出される。実施形態の検出処理２２の詳細は、後述する。なお、検出処理２２は、本明細書において開示するものに限られず、フィラー検出のための公知の様々なアルゴリズムを利用可能である。

実施形態の音声認識処理は、形態素解析処理２３を含む。解析処理２３は、発話内容の形態素解析をする。実施形態において、解析処理２３は、フィラー検出処理２２においてフィラーとして検出されなかった音素列に対して行われる。解析処理２３は、メモリ３０に格納された辞書３２に基づいて行われる。辞書３２は、形態素解析のための辞書であり、音素列に対応する形態素が登録されている。

実施形態の音声認識処理は、誤認識評価処理２６を含む。評価処理２６は、非フィラーが、フィラーを誤認識したものであるかを評価する。非フィラーは、ユーザの発話においてフィラーでないものである。つまり、非フィラーは、検出処理２２によってフィラーとして検出されたもの以外である。評価処理２６の対象となる非フィラーの表現形式は限定されない。例えば、評価処理２６の対象となる非フィラーは、音素列であってもよいし、形態素であってもよいし、単語であってもよい。なお、単語は、１又は複数の形態素から構成される。

評価処理２６は、例えば、メモリ３０に格納された誤認識テーブル３３に基づいて行われる。誤認識テーブル３３は、１又は複数の誤認識リスト３３−１，・・，３３−ｎを有する。誤認識リスト３３−１，・・，３３−ｎは、フィラーと、そのフィラーを誤認識して得られ可能性のある１又は複数の誤認識候補を含む。実施形態の評価処理２６の詳細は、後述する。

実施形態の音声認識処理は、評価対象決定処理２４を含む。決定処理２４は、非フィラーを、評価処理２６の対象とするか否かを決定する。実施形態においては、決定処理２４によって評価対象として決定された非フィラーが評価処理２６の対象となり、評価対象として決定されなかった非フィラーは評価処理２６の対象とならない。決定処理２４によって、全ての非フィラーが評価処理２６の対象となることを回避でき、処理負荷を軽減できる。実施形態の決定処理２４の詳細は、後述する。

実施形態の音声認識処理は、誤認識リスト選択処理２５を含む。選択処理２５は、複数の誤認識リスト３３−１，・・，３３−ｎから、評価処理２６に用いられる誤認識リストを選択する。選択処理２５では、評価対象の非フィラーに適した誤認識リストが選択される。実施形態の選択処理２５の詳細は、後述する。

図２は、実施形態の音声認識処理の例を示している。図２に示す音声認識処理は、ステップＳ１１からステップＳ２２までを含む。ステップＳ１１において、音声認識装置１０は、音声信号の入力を受け付ける。音声信号は、例えば、ユーザの発話に基づく。

ステップＳ１２において、音声認識装置１０は、音声信号に対して音声解析処理２１を行う。音声解析処理２１によって、入力された音声信号に対応する音素列が生成される。

ステップＳ１３、ステップＳ１４及びステップＳ１５において、音声認識装置１０は、フィラー検出処理２２を行う。ステップＳ１３においては、フィラー候補判定処理が行われる。フィラー候補判定処理は、音素列がフィラー候補であるか否かを判定する。フィラー候補は、ステップＳ１４のフィラー評価の対象となる音素列である。フィラー候補でない音素列は、ステップＳ１６の形態素解析処理２３の対象となる。

フィラーは、一般的に、音素数が少なく、フィラーの前後には、無音区間が生じやすい。そこで、実施形態のフィラー候補判定処理では、直前及び直後に無音区間に対応する音素があり、無音区間対応する音素に挟まれた音素の数が閾値以下である音素列が、フィラー候補として判定される。閾値は、例えば、３〜５程度の音素数に設定される。

ユーザが、例えば、「これから、えー、発表します」と発話したとする。この発話において、フィラーは、「えー」であり、「、」は、発話において無音区間であったことを示す。図３において、発話「、えー、」に対する音声解析の結果、例えば、音素列「_e:_」が生成される。音素列「_e:_」において、「e:」は、発話「えー」に対応し、「_」は、無音区間に対応する音素である。「e:」は、無音区間に対応する音素に挟まれ、音素数が閾値以下であるため、フィラー候補として判定される。

一方、発話「これから」に対応する音素列「korekara」は、無音区間に挟まれた音素数が閾値よりも多いため、ステップＳ１３では、非フィラーとして検出される。音素列「korekara」からは、ステップＳ１６の形態素解析処理２３によって、例えば、形態素「これ」及び形態素「から」が生成される。

ステップＳ１３においてフィラー候補と判定された音素列「e:」は、ステップＳ１４の処理の対象となる。ステップＳ１４において、音声認識装置１０は、フィラー候補「e:」が、フィラーかどうかを、フィラーリスト３１に基づいて評価する。フィラーリスト３１は、図３Ａに示すように、複数のフィラー文字列３１１と、複数の音素列３１２とを有する。フィラー文字列３１１には、フィラーに対応する音素列３１２が対応付けられている。例えば、フィラー文字列「えー」には、「えー」に対応する音素列「e:」が対応付けられている。一つのフィラー文字列３１１に、複数の音素列３１２が対応付けられていても良い。

ステップＳ１４の処理では、フィラー候補「e:」が、フィラーリスト３１に音素列３１２として登録されているか否かが判定される。図３Ａのフィラーリスト３１には、音素列３１２として、「e:」が登録されているので、フィラー候補「e:」は、フィラーとして評価される。本実施形態では、フィラー候補がフィラーとして評価されることが、フィラー検出となっている。

ステップＳ１５では、検出されたフィラーを示す文字列が生成される。フィラーリスト３１において、音素列「e:」には、フィラー文字列３１１として「えー」が対応付けられているため、ステップＳ１５の処理では、「e:」に対応するフィラー文字列として「えー」が生成される。

フィラーリスト３１にフィラー候補に対応した音素列３１２が登録されていなければ、フィラー候補は、非フィラーとして検出される。例えば、フィラー候補が「be:」であり、
「be:」がフィラーリスト３１の音素列３１２として登録されていなければ、「be:」は、非フィラーとして検出される。

非フィラーの「be:」は、ステップＳ１６の形態素解析処理２３の対象となる。図３Ｂに示すように、形態素解析のための辞書３２には、音素列３２２として「be:」が登録されており、「be:」に対応する文字列３２１として「米」が登録されている。したがって、形態素解析処理２３によって、「be:」から形態素「米」が生成される。

ステップＳ１６の後のステップＳ１９において、音声認識装置１０は、誤認識評価処理２６を行う。実施形態の評価処理２６は、非フィラーを形態素解析して得られた形態素文字列に対して行われる。

ステップＳ１３又はステップＳ１４において、非フィラーとして検出された発話は、基本的には、非フィラーのはずである。しかし、ステップＳ１３又はステップＳ１４において、フィラーを誤って非フィラーとして誤認識することがある。特に、フィラー候補が非フィラーとして検出された場合には、誤認識である可能性がある。例えば、ユーザは、「えー」と発話したのに、音声解析処理２１の解析精度が十分でないために、誤って音素列「be:」が出力されることがある。音素列「be:」は、仮に、フィラー候補となっても、フィラーリスト３１にないため、ステップＳ１４において、非フィラーであると誤認識される。このため、ステップＳ１６において、音素列「be:」から形態素「米」が生成されたとしても、形態素「米」は、フィラー「えー」を誤認識したものである可能性がある。

誤認識評価処理２６は、このようなフィラーの誤認識の可能性を評価する。評価処理２６を行うことで、最終的な音声認識結果においては、フィラーが非フィラーとして誤認識されるのを抑制できる。

実施形態の音声認識装置１０は、ステップＳ１９の評価処理２６に先立つステップＳ１７において、決定処理２４を行う。決定処理２４は、非フィラーを評価処理２６の対象とするか否かを決定する。実施形態の決定処理２４は、形態素解析処理２３によって検出された発話内容文字列に基づいて行われる。発話内容文字列は、例えば、「これから、米、発表します」というように、発話から検出された文字列であって、発話内容を示す。前述のように、フィラーの前後には無音区間が生じやすい。したがって、形態素解析処理２３によって検出された発話文字列においては、フィラーを誤認識した非フィラーの直前及び直後には、無音に対応した文字「、」が存在する可能性が高い。

そこで、実施形態の決定処理２４では、発話内容文字列において、非フィラーである一つの形態素の直前及び直後に、無音に対応した文字「、」が存在するか否かによって判定する。発話内容文字列「これから、米、発表します」において、非フィラーである形態素「米」の前後には、文字「、」が存在するため、形態素「米」は、評価処理２６の対象として決定される。なお、評価処理対象として決定されなかった非フィラーへの評価処理２６は行われない。

ここで、文中の無音区間を示す文字は、読点「、」だけでなく、コンマ「，」であってもよいし、スペースであってもよい。無音は、発話文の冒頭及び文末においても生じる。文冒頭の無音は、例えば、文の開始を示す文字（文頭を示す制御記号を含む）によって示される。文末の無音は、例えば、句点「。」又はコンマ「．」によって示される。

実施形態の音声認識装置１０は、ステップＳ１９の評価処理２６に先立つステップＳ１８において、選択処理２５を行う。選択処理２５は、テーブル３３に含まれる複数の誤認識リスト３３−１，・・，３３−ｎから、評価処理２６に適した誤認識リストを選択する。評価処理２６に適した誤認識リストは、１つでも良いし、複数でも良い。

実施形態の選択処理２５では、評価対象の非フィラーと、各誤認識リスト３３−１，・・，３３−ｎに含まれるフィラーとの音の近似性に基づいて、評価処理２６に適した誤認識リストが選択される。

図３Ｃに示す誤認識リスト３３−１（３３−ｎ）は、フィラー３３ａを有する。図３Ｃでは、フィラー３３ａとして「えー」が示されている。誤認識リスト３３−１（３３−ｎ）は、フィラー３３ａに対応した音素列３３ｂを含む。図３Ｃでは、「えー」３３ａに対応した音素列として「e:」３３ｂが登録されている。

例えば、評価対象の非フィラーが「米」である場合、選択処理２５では、「米」の音素列「be:」と、各誤認識リスト３３−１，・・，３３−ｎに含まる音素列３３ｂと、を比較する。比較では、比較対象に含まれる母音の共通性が判定される。例えば、「米」の音素列「be:」と、誤認識リスト３３−１に含まる音素列「e:」３３ｂとでは、母音「e」が共通している。したがって、母音が共通している音素列３３ｂを有する誤認識リスト３３−１は、非フィラー「米」の評価処理に適したリストとして選択される。実施形態の選択処理２５では、評価対象の非フィラーと共通する母音を有しない音素列３３ｂを有する誤認識リストは選択されない。なお、選択処理２５においては、子音をも考慮して音の近似性が判定されてもよい。

非フィラー「米」の誤認識評価に用いられる誤認識リストとして、リスト３３−１が選択された場合、音声認識装置１０は、リスト３３−１に基づいて、ステップＳ１９の評価処理２６を行う。リスト３３−１は、フィラー３３ａを誤認識して得られる可能性のある１又は複数の誤認識候補３３ｃ，３３ｄ，３３ｅを有する。図３Ｃでは、「えー」３３ａに対応した誤認識候補として、例えば、「米」３３ｃ、「ねえ」３３ｄ、「例」３３ｅが登録されている。

実施形態の評価処理２６では、評価対象の非フィラー「米」が、選択されたリスト３３−１に含まれる誤認識候補３３ｃ，３３ｄ，３３ｅのいずれかと一致するかどうかが判定される。例えば、評価対象「米」は、リスト３３−１の誤認識候補「米」３３ｃと一致するため、評価対象「米」は、フィラー「えー」３３ａが、誤認識されたものであると評価される。

図３Ｃに示すように、実施形態の誤認識リスト３３−１（３３−ｎ）は、誤認識候補３３ｃ，３３ｄ，３３ｅが、それぞれ、フィラー３３ａを誤認識したものである確率（誤認識確率）を示す確率情報Ｐ_１，Ｐ_２，Ｐ_ｎを有する。評価処理２６は、確率情報Ｐ_１，Ｐ_２，Ｐ_ｎを用いてもよい。例えば、評価処理２６では、評価対象と誤認識候補とが一致し、かつ、確率情報が示す確率が、閾値よりも高い場合に、評価対象が誤認識されたものであると評価することができる。評価処理２６のための閾値の変更により、評価処理２６における評価基準を変更することもできる。

ステップＳ１９の評価処理２６において、評価対象がフィラーを誤認識されたものであると評価されると、ステップＳ２０において、音声認識装置１０は、正しいフィラーを生成する。正しいフィラーは、評価対象と一致する誤認識候補を有する誤認識リストにおけるフィラー３３ａに基づいて生成される。先の「米」の例の場合、フィラー「えー」が生成される。すなわち、発話中の「えー」は、正しくフィラーとして検出される。

例えば、評価処理２６の前に検出された発話文字列が、「これから、米、発表します」であった場合、評価処理２６によって、発話文字列が、「これから、えー、発表します」に修正され、フィラーが非フィラーとして誤って認識されることが回避される。

ステップＳ２１において、音声認識装置１０は、出力処理２８を行う。出力処理２８は、例えば、ステップＳ１５又はステップＳ２０において生成されたフィラー文字列を、ステップＳ１６において生成される他の発話文字列と同様に、出力する。文字列の出力は、例えば、コンピュータにおける他の処理への文字列の受け渡しである。他の処理は、例えば、音声認識処理の結果を利用する処理である。文字列の出力は、文字列のディスプレイへの出力でもよいし、メモリ３０への書き込みであってもよい。出力処理２８の際には、フィラーと非フィラーとが区別されるのが好ましい。出力処理２８は、ユーザが、フィラーを発話したことに対するユーザへの警告を含んでも良い。

［２．３誤認識リスト変更］
図１に示すように、実施形態の音声認識処理は、誤認識リスト３３−１，・・，３３−ｎの変更処理２７を含むことができる。音声認識装置１０は、図２のステップＳ２２において、ステップＳ１９において用いられる誤認識リスト３３−１，・・，３３−ｎの変更処理２７を実行する。変更処理２７によって、誤認識リストをカスタマイズできる。誤認識リストのカスタマイズは、評価処理２６の精度の向上に役立つ。

変更処理２７は、各誤認識リスト３３−１，・・，３３−ｎの内容を変更する。変更処理２７は、例えば、誤認識リスト中の誤認識候補３３ｃ，３３ｄ，３３ｅを変更することを含む。誤認識候補を変更することは、誤認識候補の削除であってもよいし、誤認識候補の追加であってもよいし、誤認識候補の変更であってもよい。変更処理２７は、例えば、誤認識候補３３ｃ，３３ｄ，３３ｅの誤認識確率を示す確率情報Ｐ_１，Ｐ_２，Ｐ_ｎを変更することを含む。確率情報Ｐ_１，Ｐ_２，Ｐ_ｎの変更は、確率を大きくすることであってもよいし、確率を下げることであってもよい。

図４Ａは、変更処理２７の一例を示している。図４Ａに示す変更処理２７は、ユーザの発話内容に基づいて、誤認識リストを変更する。ユーザの発話内容は、ユーザが発話する予定の内容であってもよいし、ユーザが既に発話した内容であってもよい。ユーザが発話する予定の内容は、例えば、プレゼンテーションにおける原稿の文字列である。ユーザが既に発話した内容は、例えば、ユーザが既に発話した内容の音声認識結果の文字列である。

図４ＡのステップＳ２２１において、音声認識装置１０は、発話内容の入力を受け付ける。音声認識装置１０は、ステップＳ２２２において、入力された発話内容を解析し、ステップＳ２２３において、解析結果に基づいて、誤認識リストの内容を変更する。発話内容の解析は、例えば、ユーザの発話内容に含まれる単語又は発話内容に関連する単語を解析することを含む。発話内容に関連する単語とは、発話内容には含まれないが、発話内容に含まれる単語に関連する単語である。発話内容に関連する単語は、例えば、コーパス（corpus）などの参照用言語データベースにおいて、発話内容に含まれる単語と共起する頻度が高い単語である。

発話内容に含まれる単語及び発話内容に関連する単語は、実際に発話される可能性が高く、フィラーの誤認識ではない可能性が高い。例えば、入力された発話内容に「米」という単語が含まれているのであれば、評価処理２６の対象が「米」であっても、その「米」は、フィラーが誤認識されたものではなく、正しく「米」と発話された結果である可能性が高い。そこで、ステップＳ２２３では、例えば、入力された発話内容に「米」という単語が含まれていれば、誤認識リスト３３−１，・・，３３−ｎから、誤認識候補「米」を削除する。ステップＳ２３３では、発話内容に関連する単語に対応する誤認識候補も、誤認識リスト３３−１，・・，３３−ｎから削除することができる。

発話内容の解析は、例えば、発話内容に含まれる単語の出現頻度を解析することを含んでも良い。単語の出現頻度は、フィラーの誤認識確率に影響する。発話において出現頻度の高い単語は、フィラーの誤認識である可能性が低い単語である。そこで、単語の出現頻度に応じて、その単語に対応する誤認識候補の誤認識確率Ｐ_ｉ（ｉは、１からｎの整数。ｎは誤認識リストの数。）を変更することで、評価処理２６の精度を向上できる。例えば、ステップＳ２２３では、ある単語の出現頻度が高いほど、その単語に対応する誤認識候補の誤認識確率Ｐ_ｉを低くすることができる。評価処理２６では、誤認識確率が閾値よりも高い場合に、誤認識であると評価することで、発話において出現頻度が高い単語を、フィラーの誤認識として評価してしまうことを抑制できる。誤認識確率Ｐ_ｉの変更は、発話内容に関連する単語が参照用言語データベースにおいて、発話内容に含まれる単語と共起する頻度に基づいて行っても良い。

発話内容の解析は、発話内容に含まれる単語末尾の音（末尾音）の出現頻度を解析することを含んでも良い。末尾音は、例えば、単語における最後の子音であるのが好ましい。単語の後にフィラーが発話された場合、フィラーは単語の最後の子音の影響を受けて認識されることがある。例えば、フィラー「えー」の直前に発話された単語の最後の子音が「ｂ」であった場合、子音「ｂ」の影響を受けて、フィラー「えー」は、「ベー（米）」と認識されることがある。ステップＳ２２３では、末尾音の出現頻度に応じて、その末尾音に対応する音を冒頭に有する誤認識候補の誤認識確率Ｐ_ｉを変更することができる。例えば、子音「ｂ」が末尾音としての出現頻度が高い場合、子音「ｂ」を冒頭音として有する誤認識候補「米」の誤認識確率が下げられる。

末尾音の解析は、発話内容全体に基づく解析であっても良いし、評価処理２６の評価対象となった非フィラー直前に出現した単語の末尾音の解析であってもよい。

図４Ｂは、変更処理２７の他の例を示している。図４Ｂに示す変更処理２７は、ユーザの指示に基づいて、誤認識リストを変更する。図４ＢのステップＳ２２４において、音声認識装置１０は、ユーザ指示を受け付ける。ユーザの指示は、キーボード又はマウスなどの入力装置から、音声認識装置１０へ与えられる。

ユーザ指示は、例えば、ユーザが既に行った発話に基づく音声認識結果に基づいて行われる。ユーザの指示は、例えば、誤認識リストから削除されるべき誤認識候補の指示として行われる。以下、削除指示された誤認識候補を指示語という。音声認識装置１０による音声認識処理結果において、誤ってフィラーとして認識された単語がある場合には、ユーザは、その単語を、指示語として音声認識装置１０へ指示する。この場合、ステップＳ２２５において、音声認識装置１０は、指示語を、誤認識リストの誤認識候補として削除する。音声認識装置１０は、指示語に対応する誤認識候補の誤認識確率Ｐ_ｉを下げても良い。なお、ユーザ指示は、誤認識リストに追加されるべき誤認識候補の指示であってもよい。

［２．４応用］
実施形態による音声認識装置１０では、フィラーリストを用いたフィラー検出精度が低くても、フィラーを精度良く認識することができる。フィラーの精度良い認識は、音声認識処理によるフィラー認識結果を利用するシステムにおいて有用である。フィラー認識結果は、例えば、話し方の改善支援システムとして利用される。意味のないフィラーを口癖として多発させると、聞き手にとって聞きづらいことが多い。聞き手にとって適切な話し方をするには、意味のないフィラーの抑制が望まれる。

フィラー認識に基づく話し方改善支援システムは、意味のないフィラーの抑制を支援する。つまり、話し方改善支援システムは、発話中にフィラーが含まれていると、フィラー認識結果に基づいて、そのことをユーザに指摘する。これにより、ユーザは、自分がどのようにフィラーを口癖として発話しているかを把握でき、話し方の改善を図ることができる。例えば、ユーザは、話し方改善システムを用いて、プレゼンテーションの練習をすることで、より良いプレゼンテーションが行える。

また、ユーザは、話し方改善システムを用いて、外国語の練習をすることもできる。フィラーの適切な使用の仕方は、話し方の流暢さに影響するが、フィラーは、言語によって異なることが多い。したがって、日本語が外国語である者にとっては、日本語らしいフィラーの適切な使用は容易ではない。日本語が外国語であるユーザは、話し方改善システムを用いて、日本語の発話練習をすることで、流暢さを向上させることができる。

さらに、フィラー認識結果は、発話内容の機械翻訳に用いられてもよいし、発話に基づく個人認証に用いられても良い。フィラーの使い方には、個人差があるため、フィラー認識結果に基づいて発話におけるフィラーの出現パターンを解析することで、個人認証が可能である。発話に基づく個人認証は、例えば、電話を用いた特殊詐欺において、電話の相手方が親族又は知人であるか否かを識別するために用いることができる。

［３．付記］
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。

１０音声認識装置
２０プロセッサ
２１音声解析処理
２２フィラー検出処理
２３形態素解析処理
２４評価対象決定処理
２５誤認識リスト選択処理
２６誤認識評価処理
２７誤認識リスト変更処理
２８出力処理
３０メモリ
３１フィラーリスト
３２辞書
３３誤認識テーブル
３３ａフィラー
３３ｂ音素列
３３ｃ誤認識候補
３３ｄ誤認識候補
３３ｅ誤認識候補
３３−１誤認識リスト
３３−ｎ誤認識リスト
４０マイク
３１１フィラー文字列
３１２音素列
３２１文字列
３２２音素列

Claims

プロセッサと、
メモリと、
を備えた音声認識装置であって、
前記プロセッサは、
発話におけるフィラーを検出する検出処理と、
前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、前記メモリに記憶されたテーブルに基づいて評価する評価処理と、
を含む音声認識処理を実行するよう構成され、
前記テーブルは、１又は複数の誤認識リストを有し、
前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある１又は複数の誤認識候補を有する
音声認識装置。
前記音声認識処理は、前記非フィラー直前の音及び前記非フィラー直後の音が無音である場合に、前記非フィラーを、前記評価処理の対象として決定する決定処理を更に含む
請求項１に記載の音声認識装置。
前記決定処理は、前記非フィラー直前の音及び前記非フィラー直後の音が無音であることを、発話から検出された文字列において非フィラーの直前及び直後に位置する文字に基づいて判定する
請求項２に記載の音声認識装置。
前記テーブルは、複数の前記誤認識リストを有し、
前記音声認識処理は、前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性に基づいて、複数の前記誤認識リストから、前記評価処理に用いられる誤認識リストを選択する選択処理を更に含む
請求項１〜３のいずれか１項に記載の音声認識装置。
前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性は、前記非フィラーに含まれる母音と前記誤認識リストにおけるフィラーに含まれる母音に基づいて判定される
請求項４に記載の音声認識装置。
前記音声認識処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストを変更する変更処理を更に含む
請求項１〜５のいずれか１項に記載の音声認識装置。
前記変更処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストに含まれる前記誤認識候補を変更することを含む
請求項６に記載の音声認識装置。
前記評価処理は、前記非フィラーが、前記誤認識リストに含まれる前記誤認識候補と一致するかどうかを判定することを含む
請求項１〜７のいずれか１項に記載の音声認識装置。
前記誤認識リストは、前記誤認識リストに含まれる各誤認識候補が、フィラーを誤認識したものである確率を示す確率情報を有し、
前記評価処理は、前記確率情報を用いて、前記非フィラーが、フィラーを誤認識したものであるかを評価することを含む
請求項１〜８のいずれか１項に記載の音声認識装置。
前記音声認識処理は、前記確率情報を変更することを更に含む
請求項９に記載の音声認識装置。
音声認識方法であって、
発話におけるフィラーを音声認識装置が検出すること、
発話に含まれる非フィラーがフィラーを誤認識したものであるかを、前記音声認識装置がテーブルに基づいて評価すること、
を含み、
前記テーブルは、１又は複数の誤認識リストを有し、
前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある１又は複数の誤認識候補を有する
音声認識方法。
コンピュータに、音声認識処理を実行させるためのコンピュータプログラムであって、
前記音声認識処理は、
発話におけるフィラーを検出する検出処理と、
前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、テーブルに基づいて評価する評価処理と、
を含み、
前記テーブルは、１又は複数の誤認識リストを有し、
前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある１又は複数の誤認識候補を有する
コンピュータプログラム。