JP6719127B2 - 音声認識装置、音声認識方法及びコンピュータプログラム - Google Patents

音声認識装置、音声認識方法及びコンピュータプログラム Download PDF

Info

Publication number
JP6719127B2
JP6719127B2 JP2016135355A JP2016135355A JP6719127B2 JP 6719127 B2 JP6719127 B2 JP 6719127B2 JP 2016135355 A JP2016135355 A JP 2016135355A JP 2016135355 A JP2016135355 A JP 2016135355A JP 6719127 B2 JP6719127 B2 JP 6719127B2
Authority
JP
Japan
Prior art keywords
filler
misrecognition
list
voice recognition
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016135355A
Other languages
English (en)
Other versions
JP2018005120A (ja
Inventor
陽子 砂山
陽子 砂山
良典 山西
良典 山西
淳一 福本
淳一 福本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ritsumeikan Trust
Original Assignee
Ritsumeikan Trust
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ritsumeikan Trust filed Critical Ritsumeikan Trust
Priority to JP2016135355A priority Critical patent/JP6719127B2/ja
Publication of JP2018005120A publication Critical patent/JP2018005120A/ja
Application granted granted Critical
Publication of JP6719127B2 publication Critical patent/JP6719127B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声認識に関する。
人の発話には、フィラー(filler)が含まれることがある。日本においては、フィラーには、例えば、「えー」「えーと」「あのー」「まあ」などの言い淀みが含まれる。フィラーは、発話者によって意識的に又は無意識的に用いられ、発言の間を埋める。フィラーは、発話者の口癖として発せられることが多い。
発話された音声の認識においては、発話中のフィラーの検出が行われることがある。例えば、特許文献1は、フィラーを目的言語に翻訳するために、発話された原言語中のフィラーを検出する装置を開示している。
特開2009−146043号公報
フィラーは、一般的に、モーラ(mora)数が小さいため、音声認識において、フィラーが他の語であると誤認識され易い。例えば、「えー」というフィラーは、音声認識において、「米(べい)」又は「ねえ」などの非フィラーとして誤認識されることがある。
音声認識においては、フィラーが非フィラーとして誤認識されるのを抑制することが望まれる。
本発明の一の態様は、音声認識処理を実行する音声認識装置である。実施形態において、音声認識処理は、発話におけるフィラーを検出する検出処理と、前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、テーブルに基づいて評価する評価処理と、を含む。前記テーブルは、1又は複数の誤認識リストを有する。前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある1又は複数の誤認識候補を有する。
本発明の他の態様は、音声認識方法である。本発明の他の対象は、コンピュータプログラムである。
音声認識装置の構成図である。 音声認識処理のフローチャートである。 フィラーリストを示す図である。 辞書を示す図である。 誤認識リストを示す図である。 誤認識リスト変更処理のフローチャートである。 誤認識リスト変更処理のフローチャートである。
[1.実施形態の概要]
(1)実施形態に係る音声認識装置は、プロセッサと、メモリと、を備える。前記プロセッサは、音声認識処理を実行するよう構成されている。音声認識処理は、発話におけるフィラーを検出する検出処理と、前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、前記メモリに記憶されたテーブルに基づいて評価する評価処理と、を含む。検出処理によって非フィラーとして誤って検出されたとしても、非フィラーとして誤認識されるのを評価処理によって抑制できる。前記テーブルは、1又は複数の誤認識リストを有する。前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある1又は複数の誤認識候補を有する。誤認識リストは、誤認識候補を有するため、誤認識の評価を容易にする。
(2)前記音声認識処理は、前記非フィラー直前の音及び前記非フィラー直後の音が無音である場合に、前記非フィラーを、前記評価処理の対象として決定する決定処理を更に含むことができる。フィラーは、その直前及び直後の音が無音である場合が多いため、非フィラー直前の音及び非フィラー直後の音が無音である場合には、非フィラーはフィラーを誤認識したものである可能性がある。誤認識の可能性の高い非フィラーを評価処理の対象とすることで、効率的に評価を行うことができる。
(3)前記決定処理は、前記非フィラー直前の音及びフィラー直後の音が無音であることを、発話から検出された文字列において非フィラーの直前及び直後に位置する文字に基づいて判定することができる。発話から検出された文字列に基づく判定は、決定処理を容易にする。
(4)前記テーブルは、複数の前記誤認識リストを有することができる。前記音声認識処理は、前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性に基づいて、複数の前記誤認識リストから、前記評価処理に用いられる誤認識リストを選択する選択処理を更に含むことができる。非フィラーと誤認識リストにおけるフィラーとの音の近似性に基づいた誤認識リストの選択により、適切な誤認識リストを用いて評価処理を行うことができる。
(5)前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性は、前記非フィラーに含まれる母音と前記誤認識リストにおけるフィラーに含まれる母音に基づいて判定されるのが好ましい。母音の共通性は、誤認識を招き易い。このため、母音に基づく音の近似性の判定は、選択処理をより適切なものとする。
(6)前記音声認識処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストを変更する変更処理を更に含むことができる。誤認識リストを変更することで、評価処理における評価を調整できる。
(7)前記変更処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストに含まれる前記誤認識候補を変更することを含むのが好ましい。誤認識候補の変更は、評価処理における評価結果に影響を与えることができる。
(8)前記評価処理は、前記非フィラーが、前記誤認識リストに含まれる前記誤認識候補と一致するかどうかを判定することを含むことができる。非フィラーが誤認識候補と一致していると、誤認識である可能性が高い。
(9)前記誤認識リストは、前記誤認識リストに含まれる各誤認識候補が、フィラーを誤認識したものである確率を示す確率情報を有することができる。前記評価処理は、前記確率情報を用いて、前記非フィラーが、フィラーを誤認識したものであるかを評価することを含むことができる。確率情報を用いることで、より精度良く評価をすることができる。
(10)前記音声認識処理は、前記確率情報を変更することを更に含むことができる。確率情報の変更は、評価処理における評価結果に影響を与えることができる。
(11)実施形態に係る音声認識方法は、発話におけるフィラーを音声認識装置が検出すること、発話に含まれる非フィラーがフィラーを誤認識したものであるかを、前記音声認識装置がテーブルに基づいて評価すること、を含む。発話された内容が非フィラーとして誤って検出されたとしても、非フィラーとして誤認識されるのを評価処理によって抑制できる。
(12)実施形態に係るコンピュータプログラムは、コンピュータに、音声認識処理を実行させる。前記音声認識処理は、発話におけるフィラーを検出する検出処理と、前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、テーブルに基づいて評価する評価処理と、を含む。
[2.実施形態の詳細]
[2.1 音声認識装置]
図1に示す音声認識装置10は、音声認識処理を実行する。実施形態の音声認識処理は、発話中のフィラーを認識することができる。音声認識装置10は、例えば、コンピュータを備える。コンピュータは、プロセッサ20及びメモリ30を備える。音声認識処理は、例えば、音声認識のためのコンピュータプログラムをコンピュータが実行することにより実現される。音声認識のためのコンピュータプログラムは、メモリ30に格納されており、プロセッサ20によって実行される。音声認識処理の実行は、ハードウェアロジックによって実現されてもよい。
音声認識装置10には、例えば、マイク40が接続される。マイク40は、ユーザの発した音声を、電気信号である音声信号に変換し、音声認識装置10に与える。音声認識装置10は、マイクから与えられた音声信号を音声認識の対象とする。音声認識装置10は、例えば通信ネットワークを介して、取得したデジタル音声信号を、音声認識の対象としてもよい。
[2.2 音声認識処理]
図1に示すように、実施形態の音声認識処理は、音声解析処理21を含む。音声解析処理21は、音声信号を解析し、発話に対応した音素列を出力する。音素列は、音素を示す文字の列である。例えば、日本の「えー」に対応する音素列は、「e:」である。
実施形態の音声認識処理は、フィラー検出処理22を含む。検出処理22は、発話中のフィラーを検出する処理である。実施形態において、検出処理22は、例えば、音声解析処理21によって生成された音素列に基づいて行われる。検出処理22は、例えば、メモリ30に格納されたフィラーリスト31に基づいて行われる。フィラーリスト31には、1又は複数のフィラーが登録されている。ユーザがフィラーリスト31に登録されているフィラーを発話すると、検出処理22によって、フィラーが発話されたことが検出される。実施形態の検出処理22の詳細は、後述する。なお、検出処理22は、本明細書において開示するものに限られず、フィラー検出のための公知の様々なアルゴリズムを利用可能である。
実施形態の音声認識処理は、形態素解析処理23を含む。解析処理23は、発話内容の形態素解析をする。実施形態において、解析処理23は、フィラー検出処理22においてフィラーとして検出されなかった音素列に対して行われる。解析処理23は、メモリ30に格納された辞書32に基づいて行われる。辞書32は、形態素解析のための辞書であり、音素列に対応する形態素が登録されている。
実施形態の音声認識処理は、誤認識評価処理26を含む。評価処理26は、非フィラーが、フィラーを誤認識したものであるかを評価する。非フィラーは、ユーザの発話においてフィラーでないものである。つまり、非フィラーは、検出処理22によってフィラーとして検出されたもの以外である。評価処理26の対象となる非フィラーの表現形式は限定されない。例えば、評価処理26の対象となる非フィラーは、音素列であってもよいし、形態素であってもよいし、単語であってもよい。なお、単語は、1又は複数の形態素から構成される。
評価処理26は、例えば、メモリ30に格納された誤認識テーブル33に基づいて行われる。誤認識テーブル33は、1又は複数の誤認識リスト33−1,・・,33−nを有する。誤認識リスト33−1,・・,33−nは、フィラーと、そのフィラーを誤認識して得られ可能性のある1又は複数の誤認識候補を含む。実施形態の評価処理26の詳細は、後述する。
実施形態の音声認識処理は、評価対象決定処理24を含む。決定処理24は、非フィラーを、評価処理26の対象とするか否かを決定する。実施形態においては、決定処理24によって評価対象として決定された非フィラーが評価処理26の対象となり、評価対象として決定されなかった非フィラーは評価処理26の対象とならない。決定処理24によって、全ての非フィラーが評価処理26の対象となることを回避でき、処理負荷を軽減できる。実施形態の決定処理24の詳細は、後述する。
実施形態の音声認識処理は、誤認識リスト選択処理25を含む。選択処理25は、複数の誤認識リスト33−1,・・,33−nから、評価処理26に用いられる誤認識リストを選択する。選択処理25では、評価対象の非フィラーに適した誤認識リストが選択される。実施形態の選択処理25の詳細は、後述する。
図2は、実施形態の音声認識処理の例を示している。図2に示す音声認識処理は、ステップS11からステップS22までを含む。ステップS11において、音声認識装置10は、音声信号の入力を受け付ける。音声信号は、例えば、ユーザの発話に基づく。
ステップS12において、音声認識装置10は、音声信号に対して音声解析処理21を行う。音声解析処理21によって、入力された音声信号に対応する音素列が生成される。
ステップS13、ステップS14及びステップS15において、音声認識装置10は、フィラー検出処理22を行う。ステップS13においては、フィラー候補判定処理が行われる。フィラー候補判定処理は、音素列がフィラー候補であるか否かを判定する。フィラー候補は、ステップS14のフィラー評価の対象となる音素列である。フィラー候補でない音素列は、ステップS16の形態素解析処理23の対象となる。
フィラーは、一般的に、音素数が少なく、フィラーの前後には、無音区間が生じやすい。そこで、実施形態のフィラー候補判定処理では、直前及び直後に無音区間に対応する音素があり、無音区間対応する音素に挟まれた音素の数が閾値以下である音素列が、フィラー候補として判定される。閾値は、例えば、3〜5程度の音素数に設定される。
ユーザが、例えば、「これから、えー、発表します」と発話したとする。この発話において、フィラーは、「えー」であり、「、」は、発話において無音区間であったことを示す。図3において、発話「、えー、」に対する音声解析の結果、例えば、音素列「_e:_」が生成される。音素列「_e:_」において、「e:」は、発話「えー」に対応し、「_」は、無音区間に対応する音素である。「e:」は、無音区間に対応する音素に挟まれ、音素数が閾値以下であるため、フィラー候補として判定される。
一方、発話「これから」に対応する音素列「korekara」は、無音区間に挟まれた音素数が閾値よりも多いため、ステップS13では、非フィラーとして検出される。音素列「korekara」からは、ステップS16の形態素解析処理23によって、例えば、形態素「これ」及び形態素「から」が生成される。
ステップS13においてフィラー候補と判定された音素列「e:」は、ステップS14の処理の対象となる。ステップS14において、音声認識装置10は、フィラー候補「e:」が、フィラーかどうかを、フィラーリスト31に基づいて評価する。フィラーリスト31は、図3Aに示すように、複数のフィラー文字列311と、複数の音素列312とを有する。フィラー文字列311には、フィラーに対応する音素列312が対応付けられている。例えば、フィラー文字列「えー」には、「えー」に対応する音素列「e:」が対応付けられている。一つのフィラー文字列311に、複数の音素列312が対応付けられていても良い。
ステップS14の処理では、フィラー候補「e:」が、フィラーリスト31に音素列312として登録されているか否かが判定される。図3Aのフィラーリスト31には、音素列312として、「e:」が登録されているので、フィラー候補「e:」は、フィラーとして評価される。本実施形態では、フィラー候補がフィラーとして評価されることが、フィラー検出となっている。
ステップS15では、検出されたフィラーを示す文字列が生成される。フィラーリスト31において、音素列「e:」には、フィラー文字列311として「えー」が対応付けられているため、ステップS15の処理では、「e:」に対応するフィラー文字列として「えー」が生成される。
フィラーリスト31にフィラー候補に対応した音素列312が登録されていなければ、フィラー候補は、非フィラーとして検出される。例えば、フィラー候補が「be:」であり、
「be:」がフィラーリスト31の音素列312として登録されていなければ、「be:」は、非フィラーとして検出される。
非フィラーの「be:」は、ステップS16の形態素解析処理23の対象となる。図3Bに示すように、形態素解析のための辞書32には、音素列322として「be:」が登録されており、「be:」に対応する文字列321として「米」が登録されている。したがって、形態素解析処理23によって、「be:」から形態素「米」が生成される。
ステップS16の後のステップS19において、音声認識装置10は、誤認識評価処理26を行う。実施形態の評価処理26は、非フィラーを形態素解析して得られた形態素文字列に対して行われる。
ステップS13又はステップS14において、非フィラーとして検出された発話は、基本的には、非フィラーのはずである。しかし、ステップS13又はステップS14において、フィラーを誤って非フィラーとして誤認識することがある。特に、フィラー候補が非フィラーとして検出された場合には、誤認識である可能性がある。例えば、ユーザは、「えー」と発話したのに、音声解析処理21の解析精度が十分でないために、誤って音素列「be:」が出力されることがある。音素列「be:」は、仮に、フィラー候補となっても、フィラーリスト31にないため、ステップS14において、非フィラーであると誤認識される。このため、ステップS16において、音素列「be:」から形態素「米」が生成されたとしても、形態素「米」は、フィラー「えー」を誤認識したものである可能性がある。
誤認識評価処理26は、このようなフィラーの誤認識の可能性を評価する。評価処理26を行うことで、最終的な音声認識結果においては、フィラーが非フィラーとして誤認識されるのを抑制できる。
実施形態の音声認識装置10は、ステップS19の評価処理26に先立つステップS17において、決定処理24を行う。決定処理24は、非フィラーを評価処理26の対象とするか否かを決定する。実施形態の決定処理24は、形態素解析処理23によって検出された発話内容文字列に基づいて行われる。発話内容文字列は、例えば、「これから、米、発表します」というように、発話から検出された文字列であって、発話内容を示す。前述のように、フィラーの前後には無音区間が生じやすい。したがって、形態素解析処理23によって検出された発話文字列においては、フィラーを誤認識した非フィラーの直前及び直後には、無音に対応した文字「、」が存在する可能性が高い。
そこで、実施形態の決定処理24では、発話内容文字列において、非フィラーである一つの形態素の直前及び直後に、無音に対応した文字「、」が存在するか否かによって判定する。発話内容文字列「これから、米、発表します」において、非フィラーである形態素「米」の前後には、文字「、」が存在するため、形態素「米」は、評価処理26の対象として決定される。なお、評価処理対象として決定されなかった非フィラーへの評価処理26は行われない。
ここで、文中の無音区間を示す文字は、読点「、」だけでなく、コンマ「,」であってもよいし、スペースであってもよい。無音は、発話文の冒頭及び文末においても生じる。文冒頭の無音は、例えば、文の開始を示す文字(文頭を示す制御記号を含む)によって示される。文末の無音は、例えば、句点「。」又はコンマ「.」によって示される。
実施形態の音声認識装置10は、ステップS19の評価処理26に先立つステップS18において、選択処理25を行う。選択処理25は、テーブル33に含まれる複数の誤認識リスト33−1,・・,33−nから、評価処理26に適した誤認識リストを選択する。評価処理26に適した誤認識リストは、1つでも良いし、複数でも良い。
実施形態の選択処理25では、評価対象の非フィラーと、各誤認識リスト33−1,・・,33−nに含まれるフィラーとの音の近似性に基づいて、評価処理26に適した誤認識リストが選択される。
図3Cに示す誤認識リスト33−1(33−n)は、フィラー33aを有する。図3Cでは、フィラー33aとして「えー」が示されている。誤認識リスト33−1(33−n)は、フィラー33aに対応した音素列33bを含む。図3Cでは、「えー」33aに対応した音素列として「e:」33bが登録されている。
例えば、評価対象の非フィラーが「米」である場合、選択処理25では、「米」の音素列「be:」と、各誤認識リスト33−1,・・,33−nに含まる音素列33bと、を比較する。比較では、比較対象に含まれる母音の共通性が判定される。例えば、「米」の音素列「be:」と、誤認識リスト33−1に含まる音素列「e:」33bとでは、母音「e」が共通している。したがって、母音が共通している音素列33bを有する誤認識リスト33−1は、非フィラー「米」の評価処理に適したリストとして選択される。実施形態の選択処理25では、評価対象の非フィラーと共通する母音を有しない音素列33bを有する誤認識リストは選択されない。なお、選択処理25においては、子音をも考慮して音の近似性が判定されてもよい。
非フィラー「米」の誤認識評価に用いられる誤認識リストとして、リスト33−1が選択された場合、音声認識装置10は、リスト33−1に基づいて、ステップS19の評価処理26を行う。リスト33−1は、フィラー33aを誤認識して得られる可能性のある1又は複数の誤認識候補33c,33d,33eを有する。図3Cでは、「えー」33aに対応した誤認識候補として、例えば、「米」33c、「ねえ」33d、「例」33eが登録されている。
実施形態の評価処理26では、評価対象の非フィラー「米」が、選択されたリスト33−1に含まれる誤認識候補33c,33d,33eのいずれかと一致するかどうかが判定される。例えば、評価対象「米」は、リスト33−1の誤認識候補「米」33cと一致するため、評価対象「米」は、フィラー「えー」33aが、誤認識されたものであると評価される。
図3Cに示すように、実施形態の誤認識リスト33−1(33−n)は、誤認識候補33c,33d,33eが、それぞれ、フィラー33aを誤認識したものである確率(誤認識確率)を示す確率情報P,P,Pを有する。評価処理26は、確率情報P,P,Pを用いてもよい。例えば、評価処理26では、評価対象と誤認識候補とが一致し、かつ、確率情報が示す確率が、閾値よりも高い場合に、評価対象が誤認識されたものであると評価することができる。評価処理26のための閾値の変更により、評価処理26における評価基準を変更することもできる。
ステップS19の評価処理26において、評価対象がフィラーを誤認識されたものであると評価されると、ステップS20において、音声認識装置10は、正しいフィラーを生成する。正しいフィラーは、評価対象と一致する誤認識候補を有する誤認識リストにおけるフィラー33aに基づいて生成される。先の「米」の例の場合、フィラー「えー」が生成される。すなわち、発話中の「えー」は、正しくフィラーとして検出される。
例えば、評価処理26の前に検出された発話文字列が、「これから、米、発表します」であった場合、評価処理26によって、発話文字列が、「これから、えー、発表します」に修正され、フィラーが非フィラーとして誤って認識されることが回避される。
ステップS21において、音声認識装置10は、出力処理28を行う。出力処理28は、例えば、ステップS15又はステップS20において生成されたフィラー文字列を、ステップS16において生成される他の発話文字列と同様に、出力する。文字列の出力は、例えば、コンピュータにおける他の処理への文字列の受け渡しである。他の処理は、例えば、音声認識処理の結果を利用する処理である。文字列の出力は、文字列のディスプレイへの出力でもよいし、メモリ30への書き込みであってもよい。出力処理28の際には、フィラーと非フィラーとが区別されるのが好ましい。出力処理28は、ユーザが、フィラーを発話したことに対するユーザへの警告を含んでも良い。
[2.3 誤認識リスト変更]
図1に示すように、実施形態の音声認識処理は、誤認識リスト33−1,・・,33−nの変更処理27を含むことができる。音声認識装置10は、図2のステップS22において、ステップS19において用いられる誤認識リスト33−1,・・,33−nの変更処理27を実行する。変更処理27によって、誤認識リストをカスタマイズできる。誤認識リストのカスタマイズは、評価処理26の精度の向上に役立つ。
変更処理27は、各誤認識リスト33−1,・・,33−nの内容を変更する。変更処理27は、例えば、誤認識リスト中の誤認識候補33c,33d,33eを変更することを含む。誤認識候補を変更することは、誤認識候補の削除であってもよいし、誤認識候補の追加であってもよいし、誤認識候補の変更であってもよい。変更処理27は、例えば、誤認識候補33c,33d,33eの誤認識確率を示す確率情報P,P,Pを変更することを含む。確率情報P,P,Pの変更は、確率を大きくすることであってもよいし、確率を下げることであってもよい。
図4Aは、変更処理27の一例を示している。図4Aに示す変更処理27は、ユーザの発話内容に基づいて、誤認識リストを変更する。ユーザの発話内容は、ユーザが発話する予定の内容であってもよいし、ユーザが既に発話した内容であってもよい。ユーザが発話する予定の内容は、例えば、プレゼンテーションにおける原稿の文字列である。ユーザが既に発話した内容は、例えば、ユーザが既に発話した内容の音声認識結果の文字列である。
図4AのステップS221において、音声認識装置10は、発話内容の入力を受け付ける。音声認識装置10は、ステップS222において、入力された発話内容を解析し、ステップS223において、解析結果に基づいて、誤認識リストの内容を変更する。発話内容の解析は、例えば、ユーザの発話内容に含まれる単語又は発話内容に関連する単語を解析することを含む。発話内容に関連する単語とは、発話内容には含まれないが、発話内容に含まれる単語に関連する単語である。発話内容に関連する単語は、例えば、コーパス(corpus)などの参照用言語データベースにおいて、発話内容に含まれる単語と共起する頻度が高い単語である。
発話内容に含まれる単語及び発話内容に関連する単語は、実際に発話される可能性が高く、フィラーの誤認識ではない可能性が高い。例えば、入力された発話内容に「米」という単語が含まれているのであれば、評価処理26の対象が「米」であっても、その「米」は、フィラーが誤認識されたものではなく、正しく「米」と発話された結果である可能性が高い。そこで、ステップS223では、例えば、入力された発話内容に「米」という単語が含まれていれば、誤認識リスト33−1,・・,33−nから、誤認識候補「米」を削除する。ステップS233では、発話内容に関連する単語に対応する誤認識候補も、誤認識リスト33−1,・・,33−nから削除することができる。
発話内容の解析は、例えば、発話内容に含まれる単語の出現頻度を解析することを含んでも良い。単語の出現頻度は、フィラーの誤認識確率に影響する。発話において出現頻度の高い単語は、フィラーの誤認識である可能性が低い単語である。そこで、単語の出現頻度に応じて、その単語に対応する誤認識候補の誤認識確率P(iは、1からnの整数。nは誤認識リストの数。)を変更することで、評価処理26の精度を向上できる。例えば、ステップS223では、ある単語の出現頻度が高いほど、その単語に対応する誤認識候補の誤認識確率Pを低くすることができる。評価処理26では、誤認識確率が閾値よりも高い場合に、誤認識であると評価することで、発話において出現頻度が高い単語を、フィラーの誤認識として評価してしまうことを抑制できる。誤認識確率Pの変更は、発話内容に関連する単語が参照用言語データベースにおいて、発話内容に含まれる単語と共起する頻度に基づいて行っても良い。
発話内容の解析は、発話内容に含まれる単語末尾の音(末尾音)の出現頻度を解析することを含んでも良い。末尾音は、例えば、単語における最後の子音であるのが好ましい。単語の後にフィラーが発話された場合、フィラーは単語の最後の子音の影響を受けて認識されることがある。例えば、フィラー「えー」の直前に発話された単語の最後の子音が「b」であった場合、子音「b」の影響を受けて、フィラー「えー」は、「ベー(米)」と認識されることがある。ステップS223では、末尾音の出現頻度に応じて、その末尾音に対応する音を冒頭に有する誤認識候補の誤認識確率Pを変更することができる。例えば、子音「b」が末尾音としての出現頻度が高い場合、子音「b」を冒頭音として有する誤認識候補「米」の誤認識確率が下げられる。
末尾音の解析は、発話内容全体に基づく解析であっても良いし、評価処理26の評価対象となった非フィラー直前に出現した単語の末尾音の解析であってもよい。
図4Bは、変更処理27の他の例を示している。図4Bに示す変更処理27は、ユーザの指示に基づいて、誤認識リストを変更する。図4BのステップS224において、音声認識装置10は、ユーザ指示を受け付ける。ユーザの指示は、キーボード又はマウスなどの入力装置から、音声認識装置10へ与えられる。
ユーザ指示は、例えば、ユーザが既に行った発話に基づく音声認識結果に基づいて行われる。ユーザの指示は、例えば、誤認識リストから削除されるべき誤認識候補の指示として行われる。以下、削除指示された誤認識候補を指示語という。音声認識装置10による音声認識処理結果において、誤ってフィラーとして認識された単語がある場合には、ユーザは、その単語を、指示語として音声認識装置10へ指示する。この場合、ステップS225において、音声認識装置10は、指示語を、誤認識リストの誤認識候補として削除する。音声認識装置10は、指示語に対応する誤認識候補の誤認識確率Pを下げても良い。なお、ユーザ指示は、誤認識リストに追加されるべき誤認識候補の指示であってもよい。
[2.4 応用]
実施形態による音声認識装置10では、フィラーリストを用いたフィラー検出精度が低くても、フィラーを精度良く認識することができる。フィラーの精度良い認識は、音声認識処理によるフィラー認識結果を利用するシステムにおいて有用である。フィラー認識結果は、例えば、話し方の改善支援システムとして利用される。意味のないフィラーを口癖として多発させると、聞き手にとって聞きづらいことが多い。聞き手にとって適切な話し方をするには、意味のないフィラーの抑制が望まれる。
フィラー認識に基づく話し方改善支援システムは、意味のないフィラーの抑制を支援する。つまり、話し方改善支援システムは、発話中にフィラーが含まれていると、フィラー認識結果に基づいて、そのことをユーザに指摘する。これにより、ユーザは、自分がどのようにフィラーを口癖として発話しているかを把握でき、話し方の改善を図ることができる。例えば、ユーザは、話し方改善システムを用いて、プレゼンテーションの練習をすることで、より良いプレゼンテーションが行える。
また、ユーザは、話し方改善システムを用いて、外国語の練習をすることもできる。フィラーの適切な使用の仕方は、話し方の流暢さに影響するが、フィラーは、言語によって異なることが多い。したがって、日本語が外国語である者にとっては、日本語らしいフィラーの適切な使用は容易ではない。日本語が外国語であるユーザは、話し方改善システムを用いて、日本語の発話練習をすることで、流暢さを向上させることができる。
さらに、フィラー認識結果は、発話内容の機械翻訳に用いられてもよいし、発話に基づく個人認証に用いられても良い。フィラーの使い方には、個人差があるため、フィラー認識結果に基づいて発話におけるフィラーの出現パターンを解析することで、個人認証が可能である。発話に基づく個人認証は、例えば、電話を用いた特殊詐欺において、電話の相手方が親族又は知人であるか否かを識別するために用いることができる。
[3.付記]
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。
10 音声認識装置
20 プロセッサ
21 音声解析処理
22 フィラー検出処理
23 形態素解析処理
24 評価対象決定処理
25 誤認識リスト選択処理
26 誤認識評価処理
27 誤認識リスト変更処理
28 出力処理
30 メモリ
31 フィラーリスト
32 辞書
33 誤認識テーブル
33a フィラー
33b 音素列
33c 誤認識候補
33d 誤認識候補
33e 誤認識候補
33−1 誤認識リスト
33−n 誤認識リスト
40 マイク
311 フィラー文字列
312 音素列
321 文字列
322 音素列

Claims (12)

  1. プロセッサと、
    メモリと、
    を備えた音声認識装置であって、
    前記プロセッサは、
    発話におけるフィラーを検出する検出処理と、
    前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、前記メモリに記憶されたテーブルに基づいて評価する評価処理と、
    を含む音声認識処理を実行するよう構成され、
    前記テーブルは、1又は複数の誤認識リストを有し、
    前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある1又は複数の誤認識候補を有する
    音声認識装置。
  2. 前記音声認識処理は、前記非フィラー直前の音及び前記非フィラー直後の音が無音である場合に、前記非フィラーを、前記評価処理の対象として決定する決定処理を更に含む
    請求項1に記載の音声認識装置。
  3. 前記決定処理は、前記非フィラー直前の音及び前記非フィラー直後の音が無音であることを、発話から検出された文字列において非フィラーの直前及び直後に位置する文字に基づいて判定する
    請求項2に記載の音声認識装置。
  4. 前記テーブルは、複数の前記誤認識リストを有し、
    前記音声認識処理は、前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性に基づいて、複数の前記誤認識リストから、前記評価処理に用いられる誤認識リストを選択する選択処理を更に含む
    請求項1〜3のいずれか1項に記載の音声認識装置。
  5. 前記非フィラーと前記誤認識リストにおけるフィラーとの音の近似性は、前記非フィラーに含まれる母音と前記誤認識リストにおけるフィラーに含まれる母音に基づいて判定される
    請求項4に記載の音声認識装置。
  6. 前記音声認識処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストを変更する変更処理を更に含む
    請求項1〜5のいずれか1項に記載の音声認識装置。
  7. 前記変更処理は、ユーザの発話内容又はユーザ指示に基づいて、前記誤認識リストに含まれる前記誤認識候補を変更することを含む
    請求項6に記載の音声認識装置。
  8. 前記評価処理は、前記非フィラーが、前記誤認識リストに含まれる前記誤認識候補と一致するかどうかを判定することを含む
    請求項1〜7のいずれか1項に記載の音声認識装置。
  9. 前記誤認識リストは、前記誤認識リストに含まれる各誤認識候補が、フィラーを誤認識したものである確率を示す確率情報を有し、
    前記評価処理は、前記確率情報を用いて、前記非フィラーが、フィラーを誤認識したものであるかを評価することを含む
    請求項1〜8のいずれか1項に記載の音声認識装置。
  10. 前記音声認識処理は、前記確率情報を変更することを更に含む
    請求項9に記載の音声認識装置。
  11. 音声認識方法であって、
    発話におけるフィラーを音声認識装置が検出すること、
    発話に含まれる非フィラーがフィラーを誤認識したものであるかを、前記音声認識装置がテーブルに基づいて評価すること、
    を含み、
    前記テーブルは、1又は複数の誤認識リストを有し、
    前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある1又は複数の誤認識候補を有する
    音声認識方法。
  12. コンピュータに、音声認識処理を実行させるためのコンピュータプログラムであって、
    前記音声認識処理は、
    発話におけるフィラーを検出する検出処理と、
    前記検出処理によってフィラーとして検出されなかった非フィラーが、フィラーを誤認識したものであるかを、テーブルに基づいて評価する評価処理と、
    を含み、
    前記テーブルは、1又は複数の誤認識リストを有し、
    前記誤認識リストは、フィラーと、前記フィラーを誤認識して得られる可能性のある1又は複数の誤認識候補を有する
    コンピュータプログラム。
JP2016135355A 2016-07-07 2016-07-07 音声認識装置、音声認識方法及びコンピュータプログラム Active JP6719127B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016135355A JP6719127B2 (ja) 2016-07-07 2016-07-07 音声認識装置、音声認識方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016135355A JP6719127B2 (ja) 2016-07-07 2016-07-07 音声認識装置、音声認識方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018005120A JP2018005120A (ja) 2018-01-11
JP6719127B2 true JP6719127B2 (ja) 2020-07-08

Family

ID=60946246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016135355A Active JP6719127B2 (ja) 2016-07-07 2016-07-07 音声認識装置、音声認識方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6719127B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020127131A (ja) * 2019-02-05 2020-08-20 オムロン株式会社 携帯端末、放送システム、表示装置、データ受信方法、およびデータ受信プログラム
JP7015408B1 (ja) * 2021-10-07 2022-02-02 真旭 徳山 端末装置、情報処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164656A (ja) * 2003-11-28 2005-06-23 Mitsubishi Electric Corp 音声認識装置及び音声認識プログラム
JP5148671B2 (ja) * 2010-09-15 2013-02-20 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Also Published As

Publication number Publication date
JP2018005120A (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US10319365B1 (en) Text-to-speech processing with emphasized output audio
US20150255069A1 (en) Predicting pronunciation in speech recognition
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
KR20010096490A (ko) 이동통신을 위한 철자 음성인식장치 및 방법
US20090182559A1 (en) Context sensitive multi-stage speech recognition
WO2007010680A1 (ja) 声質変化箇所特定装置
JP2002511154A (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
US9390709B2 (en) Voice recognition device and method, and semiconductor integrated circuit device
JP2016062069A (ja) 音声認識方法、及び音声認識装置
Savchenko et al. Towards the creation of reliable voice control system based on a fuzzy approach
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
US20020184016A1 (en) Method of speech recognition using empirically determined word candidates
JP2015530614A (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JP6719127B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2015049254A (ja) 音声データ認識システム及び音声データ認識方法
CN107610691B (zh) 英语元音发声纠错方法及装置
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2010197644A (ja) 音声認識システム
Guijarrubia et al. Text-and speech-based phonotactic models for spoken language identification of Basque and Spanish
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
Tjalve et al. Pronunciation variation modelling using accent features

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160729

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20180205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200609

R150 Certificate of patent or registration of utility model

Ref document number: 6719127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250