JP2019144355A

JP2019144355A - 決定装置、決定方法、決定プログラム及びモデル

Info

Publication number: JP2019144355A
Application number: JP2018027245A
Authority: JP
Inventors: 伸裕鍜治; Nobuhiro Kaji
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-02-19
Filing date: 2018-02-19
Publication date: 2019-08-29
Anticipated expiration: 2038-02-19
Also published as: JP6927905B2; JP2021177261A; JP7278340B2

Abstract

【課題】音声認識の精度を向上させること。【解決手段】本願に係る決定装置は、推定部と、決定部とを有する。推定部は、ユーザによって発話された音声に対応する発話内容を推定する。決定部は、推定部によって第１音声から推定された第１推定結果における推定精度と、第１音声に続いてユーザによって繰り返し発話された第２音声から推定された第２推定結果における推定精度とに基づいて、第１音声及び第２音声に対応する音声認識結果を決定する。例えば、推定部は、ユーザによって発話された１の音声に対応する複数の発話内容を推定し、決定部は、第１音声から推定された複数の第１推定結果におけるそれぞれの推定精度と、第２音声から推定された複数の第２推定結果におけるそれぞれの推定精度とに基づいて、複数の第１推定結果及び複数の第２推定結果のいずれか１つを第１音声及び第２音声に対応する音声認識結果として決定する。【選択図】図２

Description

本発明は、決定装置、決定方法、決定プログラム及びモデルに関する。

従来、ユーザの発話に対する音声認識に関する技術が提供されている。例えば、利用者からの音声が入力され、その音声認識結果が確信度不十分であるとき、利用者へ更なる入力を求める表示を行う技術が知られている。

特開２０００−１４８１８１号公報

しかしながら、上記の従来技術では、音声認識の精度を向上させることができるとは限らない。例えば、上記の従来技術では、利用者からの音声が入力され、その音声認識結果が確信度不十分であるとき、利用者へ更なる入力を求める表示を行うに過ぎず、音声認識の精度を向上させることができるとは限らない。

本願は、上記に鑑みてなされたものであって、音声認識の精度を向上させることができる決定装置、決定方法、決定プログラム及びモデルを提供することを目的とする。

本願に係る決定装置は、ユーザによって発話された音声に対応する発話内容を推定する推定部と、前記推定部によって第１音声から推定された第１推定結果における推定精度と、前記第１音声に続いて前記ユーザによって繰り返し発話された第２音声から推定された第２推定結果における推定精度とに基づいて、前記第１音声及び前記第２音声に対応する音声認識結果を決定する決定部と、を備えたことを特徴とする。

実施形態の一態様によれば、音声認識の精度を向上させることができるという効果を奏する。

図１は、実施形態に係る決定装置が実行する決定処理の一例を示す図である。図２は、実施形態に係る決定装置が実行する音声認識結果の決定処理の一例を示す図である。図３は、実施形態に係る決定装置の構成例を示す図である。図４は、実施形態に係る音声情報記憶部の一例を示す図である。図５は、実施形態に係る推定結果情報記憶部の一例を示す図である。図６は、実施形態に係るスコア情報記憶部の一例を示す図である。図７は、実施形態に係る決定装置が実行する決定処理の流れの一例を示すフローチャートである。図８は、実施形態に係る音声認識結果の決定の一例を示す図である。図９は、変形例に係る決定装置が実行する決定処理の一例を示す図である。図１０は、決定装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る決定装置、決定方法、決定プログラム及びモデルの実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法、決定プログラム及びモデルが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．決定装置が示す決定処理の一例〕
図１を用いて、実施形態に係る決定装置が実行する決定処理の一例について説明する。図１は、実施形態に係る決定装置が実行する決定処理の一例を示す図である。図１では、決定装置１００により決定処理が実行される例を示す。

図１に示すように、決定システム１は、端末装置１０と、決定装置１００とを含む。端末装置１０及び決定装置１００は、図示しない所定の通信網を介して、有線又は無線により通信可能に接続される。なお、図１に示す決定システム１には、複数台の端末装置１０や、複数台の決定装置１００が含まれてもよい。

端末装置１０は、ブラウザに表示されるウェブページやアプリケーションに表示されるコンテンツ等のウェブコンテンツにアクセスするユーザによって利用される情報処理装置である。例えば、端末装置１０は、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等である。また、端末装置１０は、ユーザによる操作や、端末装置１０が有する機能に応じて、ユーザによって発話される音声を取得し、端末装置１０の所定の記憶領域にかかる音声に関する情報を記憶する。

例えば、端末装置１０は、予め音声を取得可能なアプリケーションをインストールしているものとする。この場合、端末装置１０は、内蔵されたマイクにより、ユーザによって発話される音声を取得し、端末装置１０の所定の記憶領域にかかる音声に関する情報を記憶する。なお、端末装置１０による上記処理は、例えば、音声検索等の周知技術によって実現可能である。

決定装置１００は、ユーザによって発話される音声に対応する音声認識結果を決定し、かかる音声認識結果を端末装置１０に提供する決定装置であり、例えば、サーバ装置等により実現される。この点について説明する。従来の音声認識解析では、音声認識が困難だった場合、ユーザによって発話された音声に対応する音声認識結果がかかる音声と逸脱したものをユーザに提供してしまうことがある。また、従来の音声認識解析では、音声認識が困難だった場合、ユーザに対して発話を繰り返させたり、ユーザによって発話された音声に対して応答なしであったりする。この場合、ユーザは、同じ内容の音声を繰り返し発話することがある。この結果、ユーザに対して同じ内容の音声を繰り返し発話させるという負荷を強いることになる。そのため、実施形態に係る決定装置１００は、ユーザによって繰り返し発話された音声に対する音声認識の精度の向上を実現する。具体的には、決定装置１００は、ユーザによって最初に発話された音声（以下、第１音声と表記する場合がある）から推定された第１音声の推定結果とユーザによって続いて発話された音声（以下、第２音声と表記する場合がある）から推定された第２音声の推定結果との組み合わせ毎のスコアに基づいて、音声認識結果を決定する。この点について以下で詳細に説明する。なお、以下では、ユーザが端末装置１０に対して音声検索を行う場合に、ユーザによって複数回発話された音声が同じ内容の音声であるものとして説明する。

以下、図１を用いて、決定装置１００による音声認識結果の決定処理の一例を流れに沿って説明する。

まず、図１に示すように、ユーザは、端末装置１０に対して「連想ゲーム」と２回発話するものとする（ステップＳ１）。例えば、ユーザが「連想ゲーム」に関するゲームの種類を検索するために、端末装置１０に対して「連想ゲーム」と発話するものとする。この場合、ユーザは、端末装置１０に対してユーザ自身によって発話された音声が認識されたかどうか心配になり、自発的に「連想ゲーム」と２回発話するものとする。そして、端末装置１０は、ユーザによって２回発話された「連想ゲーム」を受け付ける。

なお、例えば、端末装置１０は、決定装置１００による音声認識が困難だった場合、決定装置１００によって通知された音声認識不可に関する情報に基づいて、「もう一度言ってください。」等の音声ナビゲーションによって、ユーザに繰り返し発話を促してもよい。

続いて、決定装置１００は、ユーザによって繰り返し発話された音声を受け付ける（ステップＳ２）。例えば、決定装置１００は、端末装置１０がユーザによって発話された音声を受け付けたことに関する情報を決定装置１００へ送信することに基づいて、ユーザによって繰り返し発話された音声を受け付ける。この場合、決定装置１００は、ユーザによって発話された音声が繰り返し発話されたものであるか否かを判定する。具体的には、決定装置１００は、ユーザによって発話された音声の音声波形と他の音声の音声波形との類似性に基づいて、ユーザによって発話された音声が繰り返し発話されたか否かを判定する。

例えば、決定装置１００は、ユーザによって発話された音声の音声波形と他の音声の音声波形との類似度が所定値以上である場合、ユーザによって発話された音声が繰り返し発話されたと判定する。なお、決定装置１００は、音声の音声波形と他の音声の音声波形との類似性に基づいて判定する前に、かかる音声の音声波形に対して振幅、位相、周波数等による補正を行ってもよい。これにより、決定装置１００は、タイミングや音量の異なる音声の音声波形同士の類似性を判定することができる。

なお、決定装置１００が実行する上記処理は、例えば、音声信号処理等に関する周知技術により、音声の音声波形に対する振幅、位相、周波数等の補正及び音声の音声波形同士の類似度を算出することで実現可能である。また、例えば、決定装置１００が実行する音声波形同士の類似性の決定処理は、機械学習等の周知技術により、ユーザによって発話された音声が繰り返しか否かを判定してもよい。

続いて、決定装置１００は、ユーザによって繰り返し発話された音声に対応する発話内容を推定し、かかる音声から推定された推定結果のランク付けを行う（ステップＳ３）。具体的には、決定装置１００は、ユーザによって繰り返し発話されたと判定された音声のうち、第１音声に対応する発話内容を推定する。そして、決定装置１００は、第１音声の発話内容を推定すると共に、第１音声の推定結果の正確性を示す情報である推定精度を算出する。また、決定装置１００は、ユーザによって繰り返し発話されたと判定された音声のうち、第２音声に対応する発話内容を推定する。そして、決定装置１００は、第２音声の発話内容を推定すると共に、第２音声の推定結果の推定精度を算出する。

例えば、決定装置１００は、ユーザによって発話された音声「連想ゲーム」に対応する第１音声から推定された推定結果として、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」を推定する。そして、決定装置１００は、第１音声の推定結果である「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」に対応する推定精度として、「１．０」、「０．９」、「０．８」と算出する。また、決定装置１００は、ユーザによって第１音声に続いて発話された音声「連想ゲーム」に対応する第２音声から推定された推定結果として、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」を推定する。そして、決定装置１００は、第２音声の推定結果である「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」に対応する推定精度として、「１．０」、「０．９」、「０．８」と算出する。

そして、決定装置１００は、ユーザによって発話された音声から推定された推定結果を、推定結果の推定精度に基づいて、ランク付けを行う。例えば、決定装置１００は、第１音声の推定結果に対応する推定精度に基づいて、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」の順でランク付けを行う。また、決定装置１００は、第２音声の推定結果に対応する推定精度に基づいて、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」の順でランク付けを行う。

なお、決定装置１００が実行する上記処理は、例えば、音声認識解析等に関する周知技術により、ユーザによって発話された音声に対応する発話内容を推定し、かかる音声から推定された推定結果の推定精度を算出することで実現可能である。

続いて、決定装置１００は、第１音声の推定結果と第２音声の推定結果との組み合わせ毎に、スコアを算出する（ステップＳ４）。例えば、決定装置１００は、以下のような式（１）によりスコアＳＣ１を算出する。

スコアＳＣ１＝Ａｃｃ１＋Ａｃｃ２＋Ｒｅｐ・・・（１）

上記式（１）では、「Ａｃｃ１」は、第１音声の推定結果の推定精度を示し、「Ａｃｃ２」は、第２音声の推定結果の推定精度を示し、「Ｒｅｐ」は、第１音声の推定結果と第２音声の推定結果とに含まれる単語が重複する度合いに関する情報（以下、重複度と表記する）を示す。そして、決定装置１００は、スコアＳＣ１が最も大きい第１音声の推定結果と第２音声の推定結果との組み合わせを決定する。

ここで、図２を用いて、音声認識結果を決定する処理の一例を説明する。図２は、第１音声の推定結果とかかる推定結果の推定精度と、第２音声の推定結果とかかる推定結果の推定精度とにおける組み合わせを示す図である。例えば、図２に示す例においては、第１音声の推定結果ＷＴ１に示すように「演奏ゲーム」は、推定精度「１．０」である。

図２に示す例では、決定装置１００は、上記式（１）により、第１音声の推定結果の推定精度と第２音声の推定結果の推定精度と重複度とを加味したスコアを算出する。例えば、第１音声の推定結果が「演奏ゲーム」であり、第２音声の推定結果が「清掃ゲーム」である組み合わせ（以下、「演奏ゲーム×清掃ゲーム」と表記する場合がある）において、形態素解析等により、「ゲーム」が一致していることから、重複度が「１．０」と算出されるものとする。この場合、決定装置１００は、図２中の算出式スコアＣＴ１に示す式により、第１音声の推定結果ＷＴ１「演奏ゲーム」の推定精度「１．０」と、第２音声の推定結果ＷＴ２「清掃ゲーム」の推定精度「１．０」と、重複度「１．０」とであることから、スコアＣＴ１「３．０」と算出する。

また、例えば、「連想ゲーム×連想ゲーム」は、形態素解析等により、「連想」と「ゲーム」とが一致していることから、重複度が「２．０」と算出されるものとする。この場合、決定装置１００は、図２中の算出式スコアＣＴ２に示す式により、第１音声の推定結果ＷＴ３「連想ゲーム」の推定精度「０．８」と、第２音声の推定結果ＷＴ４「連想ゲーム」の推定精度「０．９」と、重複度「２．０」とであるから、スコアＣＴ２「３．７」と算出する。

また、例えば、図２に示す例において、以下の組み合わせにおいて上記算出方法に基づいてスコアＣＴ３〜ＣＴ９を算出する。
スコアＣＴ３（「演奏ゲーム×連想ゲーム」）＝２．９・・・（２）
スコアＣＴ４（「演奏ゲーム×炎症ゲーム」）＝２．８・・・（３）
スコアＣＴ５（「塩素ゲーム×清掃ゲーム」）＝２．９・・・（４）
スコアＣＴ６（「塩素ゲーム×連想ゲーム」）＝２．８・・・（５）
スコアＣＴ７（「塩素ゲーム×炎症ゲーム」）＝２．７・・・（６）
スコアＣＴ８（「連想ゲーム×清掃ゲーム」）＝２．８・・・（７）
スコアＣＴ９（「連想ゲーム×炎症ゲーム」）＝２．６・・・（８）

そして、決定装置１００は、各スコアＣＴ１〜ＣＴ９を比較する。例えば、決定装置１００は、第１音声の推定結果ＷＴ３「連想ゲーム」と、第２音声の推定結果ＷＴ４「連想ゲーム」とのスコアＣＴ２が最も大きいため、第１音声の推定結果ＷＴ３及び第２音声の推定結果ＷＴ４から音声認識結果を選択し、「連想ゲーム」を音声認識結果として決定する。

図１に戻り、実施形態に係る決定処理の一例を説明する。決定装置１００は、スコアＳＣ１に基づいて、音声認識結果Ｃ１を「連想ゲーム」であると決定する（ステップＳ５）。例えば、決定装置１００は、「連想ゲーム×連想ゲーム」におけるスコアＳＣ１が「３．７」であり、「演奏ゲーム×清掃ゲーム」におけるスコアＳＣ１が「３．０」であることから、「連想ゲーム×連想ゲーム」のスコアＳＣ１が最も大きいため、第１音声の推定結果及び第２音声の推定結果から選択された「連想ゲーム」を音声認識結果として決定する。そして、決定装置１００は、音声認識結果Ｃ１「連想ゲーム」を端末装置１０に提供する（ステップＳ６）。例えば、決定装置１００は、音声認識結果Ｃ１「連想ゲーム」をテキスト化して端末装置１０に提供する。そして、端末装置１０は、ユーザに対して「連想ゲーム」というテキストを表示する。なお、端末装置１０は、音声読み上げ機能を用いて、ユーザに対して「連想ゲーム」と読み上げてもよい。

このように、実施形態に係る決定装置１００は、ユーザによって発話された音声に対応する第１音声から推定された推定結果とユーザによって第１音声に続いて発話された音声に対応する第２音声から推定された推定結果との組み合わせに対応するスコアに基づいて、音声認識結果を決定する。これにより、実施形態に係る決定装置１００は、音声認識の精度を向上させることができる。この点について説明する。図１の例を用いて説明すると、決定装置１００は、複数の第１音声の推定結果のうち、推定精度が高い第１音声の推定結果を選択し、複数の第２音声の推定結果のうち、推定精度が高い推定結果を選択する。そして、決定装置１００は、推定精度の高い第１音声の推定結果と第２音声の推定結果との組み合わせ毎に重複度に基づいてスコアを算出する。これにより、決定装置１００は、かかるスコアが高い組み合わせにおける第１音声の推定結果及び第２音声の推定結果を音声認識結果として決定するため、より高い精度で音声認識結果を決定することができる。したがって、決定装置１００は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。

〔２．決定装置の構成〕
次に、図３を用いて、実施形態に係る決定装置１００の構成について説明する。図３は、実施形態に係る決定装置１００の構成例を示す図である。図３に示すように、決定装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークと有線又は無線で接続され、端末装置１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、音声情報記憶部１２１と、推定結果情報記憶部１２２と、スコア情報記憶部１２３とを有する。

（音声情報記憶部１２１について）
実施形態に係る音声情報記憶部１２１は、ユーザによって発話された音声に関する情報を記憶する。ここで、図４に、実施形態に係る音声情報記憶部１２１の一例を示す。図４に示した例では、音声情報記憶部１２１は、「音声ＩＤ（Identifier）」、「音声」、「第１音声との類似度」といった項目を有する。

「音声ＩＤ」は、ユーザによって発話された音声を識別する識別子である。「音声」は、「音声ＩＤ」と対応付けられた音声の波形データである。「第１音声との類似度」は、「音声ＩＤ」と対応付けられた直前に受け付けた音声との類似度に関する情報である。例えば、図４では、音声ＩＤによって識別される「Ｖ２」は、音声が「ＷＶ２」であり、音声ＩＤ「Ｖ１」によって識別される音声「ＷＶ１」との類似度である第１音声との類似度が「０．９」である。

（音声認識結果情報記憶部１２２について）
実施形態に係る推定結果情報記憶部１２２は、ユーザによって発話された音声に対応する推定結果に関する各種情報を記憶する。ここで、図５に、実施形態に係る推定結果情報記憶部１２２の一例を示す。図５に示した例では、推定結果情報記憶部１２２は、「音声ＩＤ」、「推定結果ＩＤ」、「推定結果のランキング順位」、「推定結果」、「推定精度」といった項目を有する。

「音声ＩＤ」は、ユーザによって発話された音声を識別する識別子である。「推定結果ＩＤ」は、音声から推定された推定結果を識別するための識別情報を示す。「推定結果のランキング順位」は、音声に対応する推定結果と共に算出された推定精度の大きさによってランク付けされた順位を示す。「推定結果」は、ユーザによって発話された音声に対応する推定結果を示す。「推定精度」は、「推定結果」と共に算出された推定精度を示す。例えば、図５では、音声ＩＤによって識別される「Ｖ１」に対応し、かつ、推定結果ＩＤによって識別される「ＶＣ１」に対応する推定結果のランキング順位は「１位」であり、推定結果「演奏ゲーム」の推定精度は「１．０」である。

（スコア情報記憶部１２３について）
実施形態に係るスコア情報記憶部１２３は、第１音声の推定結果と第２音声の推定結果との組み合わせ毎のスコアに関する情報を記憶する。ここで、図６に、実施形態に係るスコア情報記憶部１２３の一例を示す。図６に示した例では、スコア情報記憶部１２３は、「スコアＩＤ」、「推定結果の組み合わせ」、「スコア」といった項目を有する。

「スコアＩＤ」は、第１音声の推定結果と第２音声の推定結果との組み合わせに対応するスコアを識別するための識別情報を示す。「推定結果の組み合わせ」は、第１音声の推定結果と第２音声の推定結果との組み合わせに対応するスコアを示す。例えば、図６では、スコアＩＤによって識別される「ＳＣＣ１」に対応する推定結果の組み合わせは「連想ゲーム×連想ゲーム」であり、かかる推定結果の組み合わせにおけるスコアは「３．７」であることを示す。

（制御部１３０について）
制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、決定装置１００内部の記憶装置に記憶されている各種プログラム（決定プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図３に示すように、制御部１３０は、受付部１３１と、判定部１３２と、推定部１３３と、算出部１３４と、決定部１３５と、提供部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

（受付部１３１について）
受付部１３１は、ユーザによって発話された音声を受け付ける。例えば、受付部１３１は、端末装置１０がユーザによって発話された音声を受け付けたことに関する情報を受付部１３１へ送信することに基づいて、ユーザによって発話された音声を受け付ける。そして、受付部１３１は、かかる音声の波形データを音声情報記憶部１２１に格納する。

（判定部１３２について）
判定部１３２は、受付部１３１によって受け付けられた第１音声と、受付部１３１によって第１音声の後に受け付けられた第２音声との類似性に基づいて、第２音声が第１音声に続いて繰り返し発話された音声であるかを判定する。具体的には、判定部１３２は、音声情報記憶部１２１を参照し、第１音声と第２音声との類似度を音声情報記憶部１２１に格納し、第２音声が第１音声に続いて繰り返し発話された音声であると判定する。

例えば、音声ＩＤにより識別される第１音声「ＷＶ１」と、第２音声「ＷＶ２」とであるとする。また、類似度の所定値が０．８であるとする。この場合、判定部１３２は、第１音声「ＷＶ１」の音声波形と第２音声「ＷＶ２」の音声波形との類似度「０．９」を音声情報記憶部１２１に格納する。そして、判定部１３２は、かかる類似度が所定値以上であるため、第１音声「ＷＶ１」と第２音声「ＷＶ２」とが繰り返し発話されたと判定する。

（推定部１３３について）
推定部１３３は、ユーザによって発話された音声に対応する発話内容を推定する。具体的には、推定部１３３は、音声情報記憶部１２１を参照して、ユーザによって最初に発話された音声である第１音声に対応する発話内容を推定する。そして、推定部１３３は、第１音声の発話内容を推定すると共に、第１音声の推定結果の推定精度を算出する。そして、推定部１３３は、かかる第１音声の推定結果と推定精度とを推定結果情報記憶部１２２に格納する。なお、推定部１３３は、例えば、音声の波形や振幅等のパラメータと文言との対応関係に関する情報に基づいて、発話内容を推定する。そして、推定部１３３は、例えば、音声の波形と推定結果の波形との一致度に基づいて、推定精度を算出する。

また、推定部１３３は、音声情報記憶部１２１を参照して、ユーザによって第１音声に続いて発話された音声である第２音声に対応する発話内容を推定する。そして、推定部１３３は、第２音声の発話内容を推定すると共に、第２音声の推定結果の推定精度を算出する。そして、推定部１３３は、かかる第２音声の推定結果と推定精度とを推定結果情報記憶部１２２に格納する。

例えば、音声ＩＤにより識別される第１音声「ＷＶ１」と、第２音声「ＷＶ２」とであるとする。この場合、推定部１３３は、音声情報記憶部１２１を参照し、第１音声「ＷＶ１」に対応する第１音声の推定結果として、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」を推定する。そして、推定部１３３は、第１音声の推定結果である「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」に対応する推定精度として、「１．０」、「０．９」、「０．８」と算出する。そして、推定部１３３は、かかる第１音声の推定結果と推定精度とを推定結果情報記憶部１２２に格納する。また、推定部１３３は、音声情報記憶部１２１を参照し、第２音声「ＷＶ２」に対応する第２音声の推定結果として、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」を推定する。そして、推定部１３３は、第２音声の推定結果である「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」に対応する推定精度として、「１．０」、「０．９」、「０．８」と算出する。そして、推定部１３３は、かかる第２音声の推定結果と推定精度とを推定結果情報記憶部１２２に格納する。

また、推定部１３３は、ユーザによって発話された音声から推定された推定結果を、推定結果の推定精度に基づいて、ランク付けを行う。そして、推定部１３３は、かかる推定結果のランキング情報を推定結果情報記憶部１２２に格納する。例えば、推定部１３３は、第１音声の推定結果に対応する推定精度に基づいて、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」の順でランク付けを行う。そして、推定部１３３は、かかる第１音声の推定結果のランキング情報を推定結果情報記憶部１２２に格納する。また、推定部１３３は、第２音声の推定結果に対応する推定精度に基づいて、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」の順でランク付けを行う。そして、推定部１３３は、かかる第２音声の推定結果のランキング情報を推定結果情報記憶部１２２に格納する。

（算出部１３４について）
算出部１３４は、推定部１３３によって推定された第１の推定結果（第１音声の推定結果に相当）と第２の推定結果（第２音声の推定結果に相当）との組み合わせ毎に、第１音声の推定結果の推定精度と第２音声の推定結果の推定精度とに基づいてスコアを算出する。例えば、算出部１３４は、推定結果情報記憶部１２２から、「連想ゲーム×連想ゲーム」と「演奏ゲーム×清掃ゲーム」とを読み出す。例えば、「連想ゲーム×連想ゲーム」において、形態素解析等により、「連想」と「ゲーム」とが一致していることから、重複度が「２．０」と算出されるものとする。この場合、算出部１３４は、「連想ゲーム×連想ゲーム」において、第１音声の推定結果「連想ゲーム」の推定精度が「０．８」であり、第２音声の推定結果「連想ゲーム」の推定精度が「０．９」であり、重複度が「２．０」であることから、スコアＳＣ１は「３．７」と算出する。また、例えば、「演奏ゲーム×清掃ゲーム」において、形態素解析等により、「ゲーム」が一致していることから、重複度が「１．０」と算出されるものとする。この場合、算出部１３４は、「演奏ゲーム×清掃ゲーム」において、第１音声の推定結果「演奏ゲーム」の推定精度が「１．０」であり、第２音声の推定結果「清掃ゲーム」の推定精度が「１．０」であり、重複度が「１．０」であることから、スコアＳＣ１は「３．０」と算出する。そして、算出部１３４は、各組み合わせに対応するスコアＳＣ１をスコア情報記憶部１２３に格納する。

（決定部１３５について）
決定部１３５は、推定部１３３によって第１音声から推定された第１推定結果（第１音声の推定結果に相当）における推定精度と、第１音声に続いてユーザによって繰り返し発話された第２音声から推定された第２推定結果（第２音声の推定結果に相当）における推定精度とに基づいて、第１音声及び第２音声に対応する音声認識結果を決定する。具体的には、決定部１３５は、スコア情報記憶部１２３に記憶されるスコアＳＣ１が最も大きい第１音声の推定結果と第２音声の推定結果との組み合わせから、第１音声及び第２音声に対応する音声認識結果を決定する。例えば、決定部１３５は、スコア情報記憶部１２３を参照して、「連想ゲーム×連想ゲーム」におけるスコアＳＣ１が「３．７」であり、「演奏ゲーム×清掃ゲーム」におけるスコアＳＣ１が「３．０」であることから、「連想ゲーム×連想ゲーム」のスコアＳＣ１が最も大きいため、第１音声の推定結果及び第２音声の推定結果から選択された「連想ゲーム」を音声認識結果として決定する。

（提供部１３６について）
提供部１３６は、決定部１３５によって決定された音声認識結果を端末装置１０に提供する。例えば、音声認識結果が「連想ゲーム」であるとする。この場合、提供部１３６は、「連想ゲーム」をテキスト化して端末装置１０に提供する。そして、端末装置１０は、ユーザに対して「連想ゲーム」というテキストを表示する。

〔３．決定処理のフローチャート〕
次に、図７を用いて、実施形態に係る決定装置１００が実行する決定処理の手順について説明する。図７は、実施形態に係る決定装置が実行する決定処理の流れの一例を示すフローチャートである。

図７に示すように、受付部１３１は、ユーザによって発話された音声を受け付ける（ステップＳ１０１）。そして、判定部１３２は、第１音声と第２音声との類似度が所定値以上である場合、第１音声と第２音声とが繰り返し発話されたと判定する（ステップＳ１０２）。判定部１３２は、ユーザによって繰り返し発話された音声であると判定しない場合（ステップＳ１０２；Ｎｏ）、ユーザによって発話された音声を受け付けるまで待機する。

一方、判定部１３２がユーザによって繰り返し発話された音声と判定した場合（ステップＳ１０２；Ｙｅｓ）、推定部１３３は、判定部１３２によって判定された第１音声と第２音声とに対応する発話内容を推定し、推定結果のランク付けを行う（ステップＳ１０３）。

決定部１３５は、算出部１３４が推定部１３３によって推定された推定結果の組み合わせにおいて算出したスコアが最も大きい第１音声の推定結果及び第２音声の推定結果を音声認識結果として決定する（ステップＳ１０４）。そして、提供部１３６は、決定部１３５によって決定された音声認識結果を端末装置１０に提供する（ステップＳ１０５）。

〔４．音声認識結果の決定処理〕
次に、図８を用いて、実施形態に係る決定システム１における音声認識結果の決定について説明する。図８は、実施形態に係る音声認識結果の決定の一例を示す図である。

図８を用いて第１音声の推定結果と第２音声の推定結果とが異なる場合について説明する。図８は、第１音声の推定結果とかかる推定結果の推定精度と、第２音声の推定結果とかかる推定結果の推定精度とにおける組み合わせを示す図である。図８に示す例においては、第１音声の推定結果ＷＴ５に示すように「まつしま」は、推定精度「１．０」である。

図８に示す例では、決定装置１００は、第１音声の推定結果の推定精度と第２音声の推定結果の推定精度と重複度とを加味したスコアを算出する。例えば、「まつしま×やつしま」において、文字の重複度を解析することにより、「つ」と「し」と「ま」が一致していることから、重複度が「３．０」と算出されるものとする。この場合、決定装置１００は、図８中の算出式スコアＣＴ２１に示す式により、第１音声の推定結果ＷＴ５「まつしま」の推定精度「１．０」と、第２音声の推定結果ＷＴ６「やつしま」の推定精度「０．９」と、重複度「３．０」であるから、スコアＣＴ２１「４．９」と算出する。

また、例えば、図８に示す例において、以下の組み合わせにおいて上記算出方法に基づいてスコアＣＴ２２〜ＣＴ２４を算出する。
スコアＣＴ２２（「まつしま×はつしま」）＝４．８・・・（９）
スコアＣＴ２３（「たつしま×やつしま」）＝４．８・・・（１０）
スコアＣＴ２４（「たつしま×はつしま」）＝４．６・・・（１１）

そして、決定装置１００は、各スコアＣＴ２１〜２４を比較する。例えば、決定装置１００は、第１音声の推定結果ＷＴ５「まつしま」と、第２音声の推定結果ＷＴ６「やつしま」とのスコアＣＴ２１が最も大きいため、第１音声の推定結果ＷＴ５及び第２音声の推定結果ＷＴ６を音声認識結果として決定する。

〔５．変形例〕
上述した決定装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、決定装置１００の他の実施形態について説明する。

〔５−１．決定装置（１）〕
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、決定装置１００は、受付部１３１と判定部１３２とで構成される受付装置と、推定部１３３と算出部１３４と決定部１３５と提供部１３６とで構成される決定装置とに分散させてもよい。

〔５−２．決定装置（２）〕
上記実施形態では、決定装置１００がユーザによって２回発話された音声に対応する推定結果の組み合わせにおけるスコアに基づいて、音声認識結果を決定する決定処理の一例を説明したが、決定装置１００は、これに限定されるものではない。例えば、決定装置１００が実行する決定処理は、端末装置１０がスタンドアローンで実行してもよい。

〔５−３．発話回数〕
上記実施形態では、決定装置１００の決定部１３５がユーザによって２回発話された音声に対応する推定結果の組み合わせ毎のスコアに基づいて、音声認識結果を決定する決定処理の一例を説明したが、発話回数は、これに限定されるものではない。例えば、決定部１３５は、ユーザによって３回以上発話された音声に対応する推定結果の組み合わせにおけるスコアに基づいて、音声認識結果を決定してもよい。

〔５−４．判定処理〕
上記実施形態では、決定装置１００の判定部１３２が第１音声と、第１音声の後に受け付けられた第２音声との類似性に基づいて、第２音声が第１音声に続いて繰り返し発話された音声であるかを判定する判定処理の一例を説明したが、判定部１３２は、判定処理を行う前に、ユーザによって発話された音声のうち、感嘆詞等と推定される音声波形を除去した音声に基づいて、第２音声が第１音声に続いて繰り返し発話された音声であるかを判定してもよい。例えば、第１音声「ＷＶ３」には「あっ」と推定される音声波形が含まれているとする。また、第１音声「ＷＶ４」には「えー」と推定される音声波形が含まれているとする。この場合、判定部１３２は、第１音声に含まれる「あっ」に対応する音声波形を削除し、第２音声に含まれる「えー」に対応する音声波形を削除する。そして、判定部１３２は、第１音声「ＷＶ３」と第２音声「ＷＶ４」との類似性に基づいて、第２音声が第１音声に続いて繰り返し発話された音声であるかを判定してもよい。

〔５−５．算出処理〕
上記実施形態では、決定装置１００の算出部１３４が推定結果の組み合わせ毎のスコアを算出する算出処理の一例を説明したが、算出部１３４は、重複度に限らず、単語の内容に基づいて、スコアを算出してもよい。例えば、算出部１３４は、以下のような式（１２）によりスコアＳＣ２を算出する。

スコアＳＣ２＝Ａｃｃ１＋Ａｃｃ２＋Ｃｏｎ・・・（１２）

上記式（１２）では、「Ａｃｃ１」は、第１音声の推定結果の推定精度を示し、「Ａｃｃ２」は、第２音声の推定結果の推定精度を示し、「Ｃｏｎ」は、第１音声の推定結果と第２音声の推定結果とに含まれる単語の意味に関する情報（以下、意味重複度と記載する）を示す。例えば、「写真アプリケーション×画像アプリケーション」と「演奏アプリケーション×清掃アプリケーション」とにおけるスコアＳＣ２を算出するとする。また、「写真アプリケーション×画像アプリケーション」において、意味解析等により、「写真」と「画像」の意味が一致していることと、「アプリケーション」が一致していることとから、意味重複度が「２．０」と算出されるものとする。この場合、「写真アプリケーション×画像アプリケーション」において、第１音声の推定結果「写真アプリケーション」の推定精度が「０．８」であり、第２音声の推定結果「画像アプリケーション」の推定精度が「０．９」であり、意味重複度が「２．０」であることから、スコアＳＣ２を「３．７」と算出する。また、例えば、「演奏アプリケーション×清掃アプリケーション」において、意味解析等により、「アプリケーション」が一致しているため、意味重複度が「１．０」と算出されるものとする。この場合、算出部１３４は、「演奏アプリケーション×清掃アプリケーション」において、第１音声の推定結果「演奏アプリケーション」の推定精度が「１．０」であり、第２音声の推定結果「清掃アプリケーション」の推定精度が「１．０」であり、意味重複度が「１．０」であることから、スコアＳＣ２は「３．０」と算出する。

〔５−６．決定処理〕
上記実施形態では、決定装置１００の決定部１３５がユーザによって２回発話された音声から推定された推定結果の組み合わせ毎のスコアに基づいて、音声認識結果を決定する決定処理の一例を説明したが、決定部１３５は、ユーザによって繰り返し発話された音声から推定された正しい推定結果とそれ以外の推定結果とに基づいて生成された学習モデルに基づいて、音声認識結果を決定してもよい。例えば、決定部１３５は、ユーザによって繰り返し発話された音声から推定された正しい推定結果を正例として学習し、それ以外の推定結果を負例として学習する。そして、決定部１３５は、ユーザによって繰り返し発話された音声が予測対象の音声として入力された場合に、推定結果に対応するスコアに基づいて、音声認識結果を決定する。

図９を用いて、変形例に係る決定装置１００が実行する決定処理の一例について説明する。図９は、変形例に係る決定装置１００が実行する決定処理の一例を示す図である。以下、図９を用いて、決定装置１００が実行する決定処理の一例を流れに沿って説明する。

まず、図９に示すように、決定装置１００は、ユーザによって繰り返し発話された音声から推定された正しい推定結果と、それ以外の推定結果とに基づいて、学習モデルＭ１を生成する（ステップＳ２１）。例えば、決定装置１００は、ユーザによって繰り返し発話された音声から推定された正しい推定結果を正例として学習し、それ以外の推定結果を負例として学習する。そして、決定装置１００は、予測対象の音声が入力された場合に、予測対象の音声に対するスコアを算出する学習モデルＭ１を生成する。そして、決定装置１００は、学習モデルＭ１に予測対象の音声を入力する（ステップＳ２２）。例えば、決定装置１００は、学習モデルＭ１にユーザによって繰り返し発話された音声を予測対象の音声として入力する。続いて、決定装置１００は、学習モデルＭ１に基づいて、推定結果に対応するスコアを算出する（ステップＳ２３）。例えば、決定装置１００は、学習モデルＭ１にユーザによって繰り返し発話された音声を予測対象の音声として入力し、正例のスコアを１として、負例のスコアを０として、予測対象の音声に対する推定結果に対応するスコアを０から１のスコアとして算出する。そして、決定装置１００は、スコアに基づいて、音声認識結果を決定する（ステップＳ２４）。

なお、決定装置１００は、いかなる学習アルゴリズムを用いて学習モデルＭ１を生成してもよい。例えば、決定装置１００は、ニューラルネットワーク（neural network）、サポートベクターマシン（support vector machine）、クラスタリング、強化学習等の学習アルゴリズムを用いて学習モデルＭ１を生成する。一例として、決定装置１００がニューラルネットワークを用いて学習モデルＭ１を生成する場合、学習モデルＭ１は、１以上のニューロンを含む入力層と、１以上のニューロンを含む中間層と、１以上のニューロンを含む出力層とを有する。

これにより、実施形態に係る決定装置１００の決定部１３５は、ユーザによって発話された音声の傾向を学習した学習モデルにより、予測対象として入力される繰り返し音声に対応する音声認識結果を高精度に決定することができる。

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る端末装置１０及び決定装置１００は、例えば図１０に示すような構成のコンピュータ１０００によって実現される。以下、決定装置１００を例に挙げて説明する。図１０は、決定装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００がネットワークＮを介して生成したデータを他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して生成したデータを出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile DiＳＣ１）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る決定装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、決定部は、決定手段や決定回路に読み替えることができる。

〔８．効果〕
上述してきたように、実施形態に係る決定装置１００は、推定部１３３と、決定部１３５とを有する。推定部１３３は、ユーザによって発話された音声に対応する発話内容を推定する。決定部１３５は、推定部１３３によって第１音声から推定された第１推定結果（第１音声の推定結果に相当）における推定精度と、第１音声に続いてユーザによって繰り返し発話された第２音声から推定された第２推定結果（第２音声の推定結果に相当）における推定精度とに基づいて、第１音声及び第２音声に対応する音声認識結果を決定する。

これにより、実施形態に係る決定装置１００は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。

また、実施形態に係る決定装置１００において、決定部１３５は、第１推定結果における推定精度と、第２推定結果における推定精度とに基づいて、第１推定結果及び第２推定結果のいずれかを第１音声及び第２音声に対応する音声認識結果として決定する。

これにより、実施形態に係る決定装置１００は、ユーザによって繰り返し発話された音声の組み合わせにおいて、第１音声の推定結果と第２音声の推定結果とが異なる場合、各推定結果の推定精度に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。

また、実施形態に係る決定装置１００において、推定部１３３は、ユーザによって発話された１の音声に対応する複数の発話内容を推定し、決定部１３５は、第１音声から推定された複数の第１推定結果におけるそれぞれの推定精度と、第２音声から推定された複数の第２推定結果におけるそれぞれの推定精度とに基づいて、複数の第１推定結果及び複数の第２推定結果のいずれか１つを第１音声及び第２音声に対応する音声認識結果として決定する。

これにより、実施形態に係る決定装置１００は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて決定された組み合わせにおいて、第１音声の推定結果と第２音声の推定結果とが異なる場合、各推定結果の推定精度に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。

また、実施形態に係る決定装置１００において、第１の推定結果と第２の推定結果との組み合わせ毎に、第１推定結果の推定精度と第２推定結果の推定精度とに基づいてスコアを算出する算出部１３４をさらに備え、決定部１３５は、算出部１３４によって算出されたスコアに基づいて選択される第１推定結果と第２推定結果との組み合わせに含まれる第１推定結果及び第２推定結果のいずれかを第１音声及び第２音声に対応する音声認識結果として決定する。

また、実施形態に係る決定装置１００において、算出部１３４は、第１推定結果と第２推定結果との組み合わせ毎に、第１推定結果と第２推定結果とが重複する度合いに基づいてスコアを算出する。

これにより、実施形態に係る決定装置１００は、ユーザによって繰り返し発話された同じ内容の音声を音声ごとの重複度に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。

また、実施形態に係る決定装置１００において、算出部１３４は、第１推定結果と第２推定結果との組み合わせ毎に、第１推定結果と第２推定結果とに含まれる類似の意味を有する単語に関する重複する度合いに基づいてスコアを算出する。

これにより、実施形態に係る決定装置１００は、ユーザによって複数回発話された同じ内容の音声を音声内に使用される単語の意味に関する類似性に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。

また、実施形態に係る決定装置１００において、ユーザによって発話された音声を受け付ける受付部１３１と、受付部１３１によって受け付けられた第１音声と、受付部１３１によって第１音声の後に受け付けられた第２音声との類似性に基づいて、第２音声が第１音声に続いて繰り返し発話された音声であるかを判定する判定部１３２とをさらに備え、決定部１３５は、判定部１３２によって第２音声が第１音声に続いて繰り返し発話された音声であると判定された場合に、第１音声及び第２音声に対応する音声認識結果を決定する。

これにより、実施形態に係る決定装置１００は、複数の音声がユーザによって複数回発話されたか否かを精密に判定することができるため、ユーザの負担が最小限に抑えられた状態で音声認識を行うことができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

１決定システム
１０端末装置
１００決定装置
１１０通信部
１２０記憶部
１２１音声情報記憶部
１２２推定結果情報記憶部
１２３スコア情報記憶部
１３０制御部
１３１受付部
１３２判定部
１３３推定部
１３４算出部
１３５決定部
１３６提供部

Claims

ユーザによって発話された音声に対応する発話内容を推定する推定部と、
前記推定部によって第１音声から推定された第１推定結果における推定精度と、前記第１音声に続いて前記ユーザによって繰り返し発話された第２音声から推定された第２推定結果における推定精度とに基づいて、前記第１音声及び前記第２音声に対応する音声認識結果を決定する決定部と、
を備えたことを特徴とする決定装置。
前記決定部は、
前記第１推定結果における推定精度と、前記第２推定結果における推定精度とに基づいて、前記第１推定結果及び前記第２推定結果のいずれかを前記第１音声及び前記第２音声に対応する音声認識結果として決定する、
ことを特徴とする請求項１に記載の決定装置。
前記推定部は、
ユーザによって発話された１の音声に対応する複数の発話内容を推定し、
前記決定部は、
前記第１音声から推定された複数の第１推定結果におけるそれぞれの推定精度と、前記第２音声から推定された複数の第２推定結果におけるそれぞれの推定精度とに基づいて、前記複数の第１推定結果及び前記複数の第２推定結果のいずれか１つを前記第１音声及び前記第２音声に対応する音声認識結果として決定する、
ことを特徴とする請求項１又は２に記載の決定装置。
前記第１推定結果と前記第２推定結果との組み合わせ毎に、前記第１推定結果の推定精度と前記第２推定結果の推定精度とに基づいてスコアを算出する算出部をさらに備え、
前記決定部は、
前記算出部によって算出されたスコアに基づいて選択される前記第１推定結果と前記第２推定結果との組み合わせに含まれる前記第１推定結果及び前記第２推定結果のいずれかを前記第１音声及び前記第２音声に対応する音声認識結果として決定する、
ことを特徴とする請求項１〜３のいずれか１つに記載の決定装置。
前記算出部は、
前記第１推定結果と前記第２推定結果との組み合わせ毎に、前記第１推定結果と前記第２推定結果とが重複する度合いに基づいて前記スコアを算出する、
ことを特徴とする請求項４に記載の決定装置。
前記算出部は、
前記第１推定結果と前記第２推定結果との組み合わせ毎に、前記第１推定結果と前記第２推定結果とに含まれる類似の意味を有する単語に関する重複する度合いに基づいて前記スコアを算出する、
ことを特徴とする請求項４に記載の決定装置。
前記ユーザによって発話された音声を受け付ける受付部と、
前記受付部によって受け付けられた前記第１音声と、前記受付部によって前記第１音声の後に受け付けられた前記第２音声との類似性に基づいて、前記第２音声が前記第１音声に続いて繰り返し発話された音声であるかを判定する判定部とをさらに備え、
前記決定部は、
前記判定部によって前記第２音声が前記第１音声に続いて繰り返し発話された音声であると判定された場合に、前記第１音声及び前記第２音声に対応する音声認識結果を決定する、
ことを特徴とする請求項１〜６のいずれか１つに記載の決定装置。
ユーザによって発話された音声に対応する発話内容を推定する推定工程と、
前記推定工程によって第１音声から推定された第１推定結果における推定精度と、前記第１音声に続いて前記ユーザによって繰り返し発話された第２音声から推定された第２推定結果における推定精度とに基づいて、前記第１音声及び前記第２音声に対応する音声認識結果を決定する決定工程と、
を備えたことを特徴とする決定方法。
ユーザによって発話された音声に対応する発話内容を推定する推定手順と、
前記推定手順によって第１音声から推定された第１推定結果における推定精度と、前記第１音声に続いて前記ユーザによって繰り返し発話された第２音声から推定された第２推定結果における推定精度とに基づいて、前記第１音声及び前記第２音声に対応する音声認識結果を決定する決定手順と、
をコンピュータに実行させることを特徴とする決定プログラム。
所定のユーザによって発話された第１音声から推定された第１推定結果と、前記第１音声に続いて前記ユーザによって繰り返し発話された第２音声から推定された第２推定結果とが入力される入力層と、
出力層と、
前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第１要素と、
前記第１要素と前記第１要素の重みとに基づいて値が算出される第２要素と、を含み、
前記入力層に入力された前記第１推定結果と前記第２推定結果に対し、前記出力層以外の各層に属する各要素を前記第１要素として、前記第１要素と前記第１要素の重みとに基づく演算を行うことにより、前記第１音声及び前記第２音声に対応する音声認識結果を前記出力層から出力するよう、
コンピュータを機能させるためのモデル。