JP2017167247A

JP2017167247A - 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム

Info

Publication number: JP2017167247A
Application number: JP2016050652A
Authority: JP
Inventors: 真悠横矢; Mayu Yokoya; 山上　勝義; Katsuyoshi Yamagami; 勝義山上
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2017-09-21
Anticipated expiration: 2036-03-15
Also published as: US10535337B2; EP3220388A1; CN107204190A; JP6675078B2; US20170270909A1

Abstract

【課題】音声認識結果の誤認識を削減することができる誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムを提供する。【解決手段】誤認識訂正方法は、ユーザの発話に対する音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定するステップ（Ｓ４）と、テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択するステップ（Ｓ５）と、選択した誤認識訂正処理方法を用いて、テキストデータの誤認識を訂正するステップ（Ｓ６）とを含む。【選択図】図１０

Description

本開示は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムに関するものである。

音声認識技術は、音声を文字列に変換する技術である。音声認識技術の応用により、音声で機器を制御する音声対話装置が検討されている。

音声認識技術を用いて音声を文字列に変換した場合、音声認識結果は、誤認識を含んでいる可能性がある。例えば、「テレビの電源点けて」と発話した音声の音声認識結果が「テレビの天元点けて」となる場合がある。そのため、音声認識の誤認識が原因で、ユーザが意図した通りに機器が動作しないという課題がある。

ユーザの発話音声により的確に機器を制御するために、ユーザが発話する文字列の想定に基づいて発話されやすい言い回し又は語彙に音声認識機能を適応させることにより、誤認識の出現頻度を低減させる技術がある。言い回し又は語彙に音声認識機能を自動的に適応させる技術としては、例えば、特許文献１及び特許文献２がある。

特開２００３−１４０６９１号公報特開２０１０−２５６４９８号公報

しかしながら、特許文献１及び特許文献２のいずれも、ユーザの発話内容に適応させた音声認識を行うためには、ユーザがどのような発話を行うかを、音声認識に先立って予測する必要がある。従って、ユーザの発話内容を予測するための情報が得られない場合は、ユーザの発話内容に適応した音声認識を行うことができず、音声認識結果の誤認識を削減することができないという課題が存在する。

本開示は、上記の問題を解決するためになされたもので、音声認識結果の誤認識を削減することができる誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムを提供することを目的とするものである。

本開示の一態様に係る誤認識訂正方法は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置における誤認識訂正方法であって、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定し、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた誤認識訂正処理方法を選択し、選択した前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する。

本開示によれば、音声認識結果の誤認識を削減することができる。

本開示の実施の形態１に係る音声制御システムの全体構成を示す図である。本開示の実施の形態１に係る音声入力装置の具体的な構成を示すブロック図である。本開示の実施の形態１に係るサーバの具体的な構成を示すブロック図である。本開示の実施の形態１に係る誤認識訂正装置の具体的な構成を示すブロック図である。音声認識結果から発話内容ＩＤを特定するための発話内容ＩＤ特定用データの一例を示す図である。発話内容ＩＤの詳細な内容を記載した発話内容ＩＤデータの一例を示す図である。発話内容ＩＤから誤認識訂正処理方法ＩＤを選択するための誤認識訂正処理方法ＩＤ選択用データの一例を示す図である。誤認識訂正処理方法ＩＤの詳細な内容を記載した誤認識訂正処理方法ＩＤデータの一例を示す図である。本開示の実施の形態１に係る音声対話装置の具体的な構成を示すブロック図である。本開示の実施の形態１に係る音声制御システムにおける処理の流れを示すシーケンス図である。本開示の実施の形態１に係る誤認識訂正処理方法選択処理の手順を示すフローチャートである。本開示の実施の形態１に係る誤認識訂正処理の手順を示すフローチャートである。本開示の実施の形態１に係る機器制御判定処理の手順を示すフローチャートである。音声認識結果又は誤認識訂正結果から機器制御ＩＤを判定するための機器制御ＩＤ判定用データの一例を示す図である。機器制御ＩＤの詳細な内容を記載した機器制御ＩＤデータの一例を示す図である。本開示の実施の形態１に係る音声制御システムにおいて、ユーザに音声認識結果及び誤認識訂正結果を提示する表示画面の一例を示す図である。本開示の実施の形態１に係る音声制御システムにおいて、ユーザに誤認識訂正結果を提示する出力音声の一例を示す図である。本開示の実施の形態１に係る音声制御システムにおいて、音声認識結果の誤認識を誤認識訂正装置で訂正することができずに機器制御が正しく行われなかった例を示す図である。本開示の実施の形態１に係る音声制御システムにおいて、音声認識結果を学習することにより、音声認識結果の誤認識を誤認識訂正装置で訂正することができて機器制御が正しく行われた例を示す図である。本開示の実施の形態２に係る誤認識訂正装置の具体的な構成を示すブロック図である。本開示の実施の形態３に係る誤認識訂正装置の具体的な構成を示すブロック図である。本開示の実施の形態４に係る誤認識訂正装置の具体的な構成を示すブロック図である。

（本開示の基礎となった知見）
前述した特許文献１には、ユーザの発話内容を予測するための情報に基づいて複数の音声認識エンジンから１つの音声認識エンジンを選択する、又は複数の音声認識エンジンを組み合わせることで、発話内容に適応させた音声認識を行い、誤認識を削減する音声利用システムが記載されている。例えば、端末装置がユーザに対して「４桁の機器の暗証番号をお話し下さい」と通知した場合、ユーザの次の発話には数字が含まれることが予測される。そのため、音声利用システムは、数字の認識率の高い音声認識エンジンを用いることで数字の誤認識を削減する。

特許文献２には、音声認識結果をどのような目的で変換するかによって定められている複数の用途における各用途に応じた変換モデルを生成し、生成した変換モデルを用いることで各用途に応じた変換処理が施されたテキストを得る音声認識結果変換システムが記載されている。

このように、特許文献１及び特許文献２のいずれも、ユーザの発話内容に適応させた音声認識を行うためには、ユーザの発話内容を、音声認識に先立って予測する必要がある。そのため、ユーザの発話内容を予測するための情報が得られない場合は、ユーザから発せられた発話内容に適応した音声認識を行うことができず、誤認識を削減することができないという課題が存在する。

例えば、音声認識でテレビを制御する場合、ユーザがテレビに対して操作していない状態では、次にユーザが行う操作（例えば、音量操作、チャンネル操作、又は番組検索操作など）が何であるかを予測するための情報が得られていないため、特許文献１及び特許文献２の方法では、発話内容に適応した音声認識で誤認識を削減することができない。

このような課題を解決するために、本開示の一態様に係る誤認識訂正方法は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置における誤認識訂正方法であって、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定し、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた誤認識訂正処理方法を選択し、選択した前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する。

この構成によれば、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定される。テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択される。選択された誤認識訂正処理方法を用いて、テキストデータの誤認識が訂正される。

したがって、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定され、特定された発話内容に応じた誤認識訂正処理方法が複数の誤認識訂正処理方法の中から選択されるので、ユーザの発話内容を予測するための情報を事前に得る必要がなく、音声認識結果の誤認識を削減することができる。

また、上記の誤認識訂正方法において、前記複数の誤認識訂正処理方法は、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のいずれかに変換する音韻類似型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のうちパラメータに関する単語に変換するパラメータ特化型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する文脈依存型誤認識訂正処理方法とのうちの少なくとも１つを含んでもよい。

この構成によれば、複数の誤認識訂正処理方法は、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のいずれかに変換する音韻類似型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のうちパラメータに関する単語に変換するパラメータ特化型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する文脈依存型誤認識訂正処理方法とのうちの少なくとも１つを含む。

したがって、発話内容に応じて選択された音韻類似型誤認識訂正処理方法とパラメータ特化型誤認識訂正処理方法と文脈依存型誤認識訂正処理方法とのうちの少なくとも１つを用いて、テキストデータの誤認識を訂正することができる。

また、上記の誤認識訂正方法において、前記誤認識訂正処理方法の選択において、前記発話内容を識別する情報と前記誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択してもよい。

この構成によれば、誤認識訂正処理方法の選択において、発話内容を識別する情報と誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した発話内容に応じた誤認識訂正処理方法が選択されるので、発話内容から誤認識訂正処理方法を容易に選択することができる。

また、上記の誤認識訂正方法において、さらに、前記ユーザの発話によって操作される機器の現在の状況を取得し、取得した前記機器の現在の状況に基づき前記発話内容を予測し、前記複数の誤認識訂正処理方法の中から、予測した前記発話内容に応じた前記誤認識訂正処理方法を選択してもよい。

この構成によれば、ユーザの発話によって操作される機器の現在の状況が取得される。取得された機器の現在の状況に基づき発話内容が予測される。そして、複数の誤認識訂正処理方法の中から、予測された発話内容に応じた誤認識訂正処理方法が選択されるので、より正確な発話内容に応じた誤認識訂正処理方法を選択することができる。

また、上記の誤認識訂正方法において、さらに、特定した前記発話内容に基づき、誤認識を訂正する必要があるか否かを判断し、誤認識を訂正する必要があると判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択し、誤認識を訂正する必要がないと判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択しなくてもよい。

この構成によれば、特定された発話内容に基づき、誤認識を訂正する必要があるか否かが判断される。誤認識を訂正する必要があると判断された場合、複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択される。また、誤認識を訂正する必要がないと判断された場合、複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択されない。

したがって、誤認識を訂正する必要がある場合にのみ、発話内容に応じた誤認識訂正処理方法が選択されるので、不要な選択処理が行われるのを防止することができる。

また、上記の誤認識訂正方法において、前記発話内容が、前記ユーザの発話によって操作される機器の制御に関する場合、誤認識を訂正する必要があると判断してもよい。

この構成によれば、発話内容が、ユーザの発話によって操作される機器の制御に関する場合、誤認識を訂正する必要があると判断される。機器を制御するための入力音声の音声認識結果に誤認識が含まれている場合、機器の操作性の悪化に繋がるおそれがある。そこで、発話内容が機器の制御に関する場合、誤認識を訂正することにより、正確な機器の制御が行われ、確実に機器を操作することができる。

また、上記の誤認識訂正方法において、前記発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断してもよい。

この構成によれば、発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断される。発話内容が雑談である場合、音声認識結果に誤認識が含まれていたとしても、機器の制御には影響はない。そのため、発話内容が雑談である場合、誤認識を訂正する誤認識訂正処理を行わないことにより、不要な処理が行われるのを防止することができる。

また、上記の誤認識訂正方法において、誤認識する頻度が所定値より高い文字列が前記テキストデータに含まれる場合、誤認識を訂正する必要があると判断してもよい。

この構成によれば、誤認識する頻度が所定値より高い文字列がテキストデータに含まれる場合、誤認識を訂正する必要があると判断される。したがって、誤認識する可能性が高い文字列がテキストデータに含まれる場合に、確実に誤認識を訂正することができる。

また、上記の誤認識訂正方法において、前記誤認識する頻度が所定値より高い文字列は、前記ユーザの発話によって操作される機器の操作に用いられるパラメータであってもよい。

この構成によれば、ユーザの発話によって操作される機器の操作に用いられるパラメータは誤認識される可能性が高いため、パラメータがテキストデータに含まれる場合には、確実に誤認識を訂正することができる。

また、上記の誤認識訂正方法において、前記パラメータは、数値であってもよい。

この構成によれば、数値は誤認識される可能性が高いため、数値がテキストデータに含まれる場合には、確実に誤認識を訂正することができる。

また、上記の誤認識訂正方法において、前記誤認識する頻度が所定値より高い単語列は、予め記憶されている単語列と音韻が類似する単語列であってもよい。

この構成によれば、予め記憶されている単語列と音韻が類似する単語列は誤認識される可能性が高いため、予め記憶されている単語列と音韻が類似する単語列がテキストデータに含まれる場合には、確実に誤認識を訂正することができる。

また、上記の誤認識訂正方法において、選択した前記誤認識訂正処理方法に応じて、前記音声認識結果及び前記発話の音声特徴量の少なくとも一方を用いて前記テキストデータの誤認識を訂正してもよい。

この構成によれば、選択された誤認識訂正処理方法に適した音声認識結果及び発話の音声特徴量の少なくとも一方を用いてテキストデータの誤認識を訂正することができる。

また、上記の誤認識訂正方法において、さらに、前記音声認識結果として取得された前記テキストデータ及び誤認識を訂正したテキストデータの少なくとも一方を前記ユーザに通知してもよい。

この構成によれば、音声認識結果として取得されたテキストデータ及び誤認識を訂正したテキストデータの少なくとも一方がユーザに通知されるので、ユーザは正しく音声認識が行われたかを確認することができる。

また、上記の誤認識訂正方法において、さらに、所定の予備的誤認識訂正処理方法を用いて、予備的に前記テキストデータの誤認識を訂正し、予備的に誤認識を訂正したテキストデータに基づき前記発話内容を特定してもよい。

この構成によれば、所定の予備的誤認識訂正処理方法を用いて、予備的にテキストデータの誤認識が訂正される。予備的に誤認識が訂正されたテキストデータに基づき発話内容が特定される。

したがって、まず、所定の予備的誤認識訂正処理方法を用いて、予備的にテキストデータの誤認識が訂正され、その後、発話内容に応じて選択された誤認識訂正処理方法を用いて、予備的に誤認識が訂正されたテキストデータの誤認識が再度訂正されるので、音声認識結果の誤認識が少なくとも２回訂正されることになり、より確実に音声認識結果の誤認識を削減することができる。

また、上記の誤認識訂正方法において、予備的に誤認識を訂正する場合、前記テキストデータに含まれる単語のうち、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正してもよい。

この構成によれば、まず、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正することができる。

本開示の他の態様に係る誤認識訂正装置は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置であって、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部と、を備える。

本開示の他の態様に係る誤認識訂正プログラムは、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正プログラムであって、前記コンピュータを、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部として機能させる。

以下、本開示の実施の形態について、図面を参照しながら説明する。

以下で説明する実施の形態は、いずれも本開示の一実施例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
図１は、本開示の実施の形態１に係る音声制御システムの全体構成を示す図である。

図１に示すように、本実施の形態１の音声制御システムは、音声入力装置１、サーバ２、誤認識訂正装置３及び音声対話装置４を備える。

音声入力装置１は、ユーザの発話による音声を取得し、取得した音声をサーバ２へ送信する。サーバ２は、音声入力装置１及び誤認識訂正装置３の各々とネットワーク５を介してデータを送受信する。サーバ２は、音声入力装置１によって送信された音声に対して音声認識処理を行い、音声認識結果を誤認識訂正装置３に送信する。誤認識訂正装置３は、サーバ２から受信した音声認識処理を行った結果である音声認識結果に基づいて、音声認識結果に含まれる誤認識を訂正し、誤認識訂正結果をサーバ２へ送信する。サーバ２は、誤認識訂正装置３によって送信された誤認識訂正結果に基づいて、音声対話装置４の制御内容を決定する。サーバ２は、決定した制御内容を音声対話装置４へ送信する。

音声対話装置４は、例えば、スマートフォンなどの携帯通信端末である。また、音声対話装置４は、例えば、テレビ又はエアコンなどの家電機器等である。音声対話装置４は、サーバ２から送信された音声認識結果、誤認識訂正結果及び制御内容に基づいて、音声、画像及び文字を出力するとともに、機器制御を実行する。ネットワーク５は、例えばインターネットである。音声入力装置１、サーバ２、誤認識訂正装置３及び音声対話装置４は、例えば、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮ又はＢｌｕｅｔｏｏｔｈ（登録商標）などの通信方法を用いてネットワーク５に接続している。

なお、本実施の形態１において、音声入力装置１、サーバ２及び誤認識訂正装置３のいずれか１つが音声対話装置４に組み込まれてもよい。また、音声入力装置１、サーバ２及び誤認識訂正装置３の全てが音声対話装置４に組み込まれてもよい。さらに、音声入力装置１、サーバ２及び誤認識訂正装置３のいずれか２つが音声対話装置４に組み込まれてもよい。

なお、本実施の形態１において、誤認識訂正装置３は、複数の音声対話装置４の全てを対象とした誤認識訂正処理を行ってもよい。あるいは、誤認識訂正装置３が各音声対話装置４に組み込まれることで、誤認識訂正装置３は、各音声対話装置４を対象とした誤認識訂正処理を行ってもよい。

図２は、本開示の実施の形態１に係る音声入力装置の具体的な構成を示すブロック図である。図２に示されるように音声入力装置１は、音声取得部１０１、音声検出部１０２、音声区間切り出し部１０３、特徴量算出部１０４及び通信部１０５を備える。

音声取得部１０１は、ユーザの発話した音声を取得する。音声検出部１０２は、音声を検出したか否かを判定する。取得した音声信号には雑音などが含まれている。そのため、音声区間切り出し部１０３は、ユーザが入力した音声が存在する区間を検出し、検出した音声区間を切り出す。特徴量算出部１０４は、切り出された音声区間に基づいて音声特徴量を算出する。通信部１０５は、特徴量算出部１０４によって算出された音声特徴量をサーバ２へ送信する。また、通信部１０５は、特徴量算出部１０４によって算出された音声特徴量をサーバ２及び誤認識訂正装置３に送信してもよい。

なお、音声入力装置１は、例えば、音声対話装置４に内蔵又は接続されているマイク、音声対話装置４などに付属されたリモコンに内蔵されているマイク、携帯通信端末に内蔵又は接続されているマイク、又は家の中に設置されている収音マイクなどである。

図３は、本開示の実施の形態１に係るサーバの具体的な構成を示すブロック図である。図３に示されるようにサーバ２は、通信部２０１、音声認識部２０２、発話コーパス格納部２０３、機器制御判定部２０４及び機器制御ＩＤ判定用データ格納部２０５を備える。なお、サーバ２は、音声認識装置の一例である。

通信部２０１は、音声入力装置１の通信部１０５から送信された音声特徴量を受信する。また、通信部２０１は、誤認識訂正装置３へ音声特徴量及び音声認識結果を送信する。また、通信部２０１は、誤認識訂正装置３の通信部３０１から送信された誤認識訂正結果を受信する。また、通信部２０１は、音声対話装置４へ音声認識結果、誤認識訂正結果及び制御内容を表す機器制御ＩＤを送信する。

なお、通信部２０１は、音声対話装置４へ誤認識訂正結果だけを送信してもよいし、機器制御ＩＤと誤認識訂正結果との両方を送信してもよい。また、通信部２０１は、音声対話装置４へ音声認識結果だけを送信してもよいし、機器制御ＩＤと音声認識結果との両方を送信してもよい。さらに、通信部２０１は、音声対話装置４へ音声認識結果と誤認識訂正結果との両方を送信してもよい。

音声認識部２０２は、発話コーパス格納部２０３に格納されている発話文の情報に基づいて、受信した音声特徴量を文字列及び単語列に変換する。発話コーパス格納部２０３は、一般に入手が容易な新聞記事又はＷＥＢ上のテキストファイル等に基づいて作成された発話文を予め格納する。なお、発話コーパス格納部２０３は、音声対話装置４に入力される可能性がある発話文を格納してもよい。また、発話コーパス格納部２０３は、新聞記事又はＷＥＢ上のテキストファイル等の発話文と、音声対話装置４に入力される可能性がある発話文との両方を格納してもよい。例えば、新聞記事又はＷＥＢ上のテキストファイル等の発話文の例としては、「おはよう」又は「今日の天気は？」などの雑談に使われる発話文が格納されている。音声対話装置４に入力される可能性がある発話文の例としては、「テレビ電源オン」、「テレビ電源点けて」又は「８チャンネルにして」などのテレビの機器制御に特有の発話文が格納されている。

機器制御判定部２０４は、音声認識部２０２によって認識された音声認識結果又は通信部２０１によって受信された誤認識訂正結果に基づいて、機器制御ＩＤ判定用データ格納部２０５を用いてユーザが入力した機器制御内容を判定する。機器制御ＩＤ判定用データ格納部２０５は、音声認識結果又は誤認識訂正結果と、機器制御内容を表す機器制御ＩＤとを対応付けた機器制御ＩＤ判定用データを格納する。機器制御判定部２０４は、音声認識部２０２によって認識された音声認識結果に対応付けられている機器制御ＩＤを機器制御ＩＤ判定用データ格納部２０５から読み出す。また、機器制御判定部２０４は、通信部２０１によって受信された誤認識訂正結果に対応付けられている機器制御ＩＤを機器制御ＩＤ判定用データ格納部２０５から読み出す。なお、本実施の形態１において、機器制御判定部２０４は、音声認識部２０２から音声認識結果を取得するのではなく、誤認識訂正装置３によって送信された音声認識結果を通信部２０１から取得する。

図４は、本開示の実施の形態１に係る誤認識訂正装置の具体的な構成を示すブロック図である。図４に示されるように誤認識訂正装置３は、通信部３０１、音声認識結果記憶部３０２、発話内容特定部３０３、データ格納部３０４、誤認識訂正処理方法選択部３０５、誤認識訂正部３０６及び誤認識訂正処理方法格納部３０７を備える。

通信部３０１は、サーバ２の通信部２０１から送信された音声特徴量及び音声認識結果を受信する。通信部３０１は、誤認識訂正結果をサーバ２へ送信する。

音声認識結果記憶部３０２は、通信部３０１によって受信された音声特徴量及び音声認識結果を記憶する。

データ格納部３０４は、音声認識結果と、発話内容を識別するための発話内容ＩＤとを対応付けた発話内容ＩＤ特定用データ、発話内容ＩＤと、発話内容に関する情報とを対応付けた発話内容ＩＤデータ、発話内容ＩＤと、誤認識訂正処理方法を識別するための誤認識訂正処理方法ＩＤとを対応付けた誤認識訂正処理方法ＩＤ判定用データ、及び誤認識訂正処理方法ＩＤと、誤認識訂正処理方法に関する情報とを対応付けた誤認識訂正処理方法ＩＤデータを格納する。

発話内容特定部３０３は、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する。発話内容特定部３０３は、データ格納部３０４を用いて発話内容を特定する。

誤認識訂正処理方法選択部３０５は、テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択する。誤認識訂正処理方法選択部３０５は、データ格納部３０４を用いて誤認識訂正処理方法を選択する。誤認識訂正処理方法選択部３０５は、誤認識訂正処理方法の選択において、発話内容を識別する情報と誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した発話内容に応じた誤認識訂正処理方法を選択する。

図５は、音声認識結果から発話内容ＩＤを特定するための発話内容ＩＤ特定用データの一例を示す図であり、図６は、発話内容ＩＤの詳細な内容を記載した発話内容ＩＤデータの一例を示す図である。

図７は、発話内容ＩＤから誤認識訂正処理方法ＩＤを選択するための誤認識訂正処理方法ＩＤ選択用データの一例を示す図であり、図８は、誤認識訂正処理方法ＩＤの詳細な内容を記載した誤認識訂正処理方法ＩＤデータの一例を示す図である。

例えば、音声認識結果が「テレビ電源オン」であった場合、発話内容特定部３０３は、図５に示す発話内容ＩＤ特定用データから発話内容ＩＤが「Ｃ００１」であると特定する。そして、誤認識訂正処理方法選択部３０５は、図７に示す誤認識訂正処理方法ＩＤ選択用データから、発話内容ＩＤ「Ｃ００１」に対応する誤認識訂正処理方法ＩＤ「ＲＩＤ００１」を選択する。これにより、「テレビ電源オン」の音声認識結果に対しては、誤認識訂正処理方法ＩＤ「ＲＩＤ００１」に対応する音韻類似型誤認識訂正処理方法を適応すればよいことがわかる。

誤認識訂正処理方法格納部３０７は、複数の誤認識訂正処理方法ＩＤのそれぞれに関連付けた複数の誤認識訂正処理方法を格納する。

誤認識訂正部３０６は、誤認識訂正処理方法選択部３０５によって選択された誤認識訂正処理方法を用いて、テキストデータの誤認識を訂正する。誤認識訂正部３０６は、誤認識訂正処理方法選択部３０５によって選択された誤認識訂正処理方法ＩＤに基づいて誤認識訂正処理方法格納部３０７から誤認識訂正処理方法を呼び出し、音声認識結果記憶部３０２に記憶された音声認識結果の誤認識箇所を訂正する。

なお、誤認識訂正部３０６は、通信部３０１によって受信された音声特徴量を用いて誤認識箇所を訂正してもよい。また、誤認識訂正部３０６は、音声認識結果記憶部３０２に記憶された音声認識結果と通信部３０１によって受信された音声特徴量の両方を用いて誤認識箇所を訂正してもよい。

図９は、本開示の実施の形態１に係る音声対話装置の具体的な構成を示すブロック図である。図９に示されるように音声対話装置４は、通信部４０１及び機器制御部４０２を備える。

通信部４０１は、サーバ２の通信部２０１から送信された機器制御ＩＤ、音声認識結果及び誤認識訂正結果を受信する。機器制御部４０２は、通信部４０１によって受信された機器制御ＩＤ、音声認識結果及び誤認識訂正結果の少なくとも１つを用いて音声、画像又は文字を出力する。また、機器制御部４０２は、機器制御ＩＤを用いて家電機器等の機器制御を実行する。

なお、機器制御部４０２は、機器制御ＩＤだけを用いて機器制御を行ってもよい。例えば、ユーザが「テレビ音量＋１」と発話し、サーバ２で機器制御ＩＤがテレビの音量調整であると判定された場合、機器制御部４０２は、機器制御ＩＤだけを用いて音量のレベルを１だけ大きくすることができる。

また、機器制御部４０２は、機器制御ＩＤと、音声認識結果及び誤認識訂正結果のいずれか一方とを用いて機器制御を行ってもよい。例えば、ユーザが「テレビ音量＋１」と発話し、サーバ２で「テレビ怨霊＋１」と音声認識され、誤認識訂正装置３で「テレビ音量＋１」と訂正され、サーバ２で機器制御ＩＤがテレビの音量調整であると判定された場合、機器制御部４０２は、機器制御ＩＤを用いてテレビの音量のレベルを１だけ大きくするとともに、音声認識結果の「テレビ怨霊＋１」をテレビ画面上に表示してもよい。また、この場合、機器制御部４０２は、機器制御ＩＤを用いてテレビの音量のレベルを１だけ大きくするとともに、誤認識訂正結果の「テレビ音量＋１」をテレビ画面上に表示してもよい。音声認識結果又は誤認識訂正結果をユーザに通知することで、ユーザの音声入力が成功したか否かを通知することが可能となる。

また、機器制御部４０２は、機器制御ＩＤと音声認識結果と誤認識訂正結果との全てを用いて機器制御を行ってもよい。例えば、ユーザが「テレビ音量＋１」と発話し、サーバ２で「テレビ怨霊＋１」と音声認識され、誤認識訂正装置３で「テレビ音量＋１」と訂正され、サーバ２で機器制御ＩＤがテレビの音量調整であると判定された場合、機器制御部４０２は、機器制御ＩＤを用いてテレビの音量のレベルを１だけ大きくするとともに、音声認識結果の「テレビ怨霊＋１」をテレビ画面上に表示してもよい。そして、機器制御部４０２は、音声認識結果を表示した後、誤認識訂正結果の「テレビ音量＋１」をテレビ画面上に表示してもよい。音声認識結果と誤認識訂正結果との両方をユーザに通知することで、音声認識処理の時では誤認識が含まれていたが、誤認識訂正処理を行うことで適切に訂正されたことをユーザに通知することが可能となる。

図１０は、本開示の実施の形態１に係る音声制御システムにおける処理の流れを示すシーケンス図である。

まず、ステップＳ１において、音声入力装置１の音声取得部１０１は、ユーザによる音声入力を受け付ける。

次に、ステップＳ２において、特徴量算出部１０４は、受け付けた音声から音声特徴量を算出する。通信部１０５は、特徴量算出部１０４によって算出された音声特徴量をサーバ２に送信する。

次に、ステップＳ３において、サーバ２の通信部２０１は、音声入力装置１によって送信された音声特徴量を受信する。音声認識部２０２は、発話コーパス格納部２０３に格納されている発話コーパスの情報に基づいて、受信された音声特徴量を文字列及び単語列からなるテキストデータに変換する音声認識処理を行う。通信部２０１は、音声特徴量及び音声認識結果を誤認識訂正装置３へ送信する。誤認識訂正装置３の通信部３０１は、サーバ２によって送信された音声特徴量及び音声認識結果を受信し、受信した音声特徴量及び音声認識結果を音声認識結果記憶部３０２に記憶する。

なお、本実施の形態１では、サーバ２が音声特徴量を音声認識結果とともに誤認識訂正装置３へ送信しているが、本開示は特にこれに限定されない。サーバ２が音声認識結果のみを誤認識訂正装置３へ送信し、音声入力装置１が音声特徴量を誤認識訂正装置３へ送信してもよい。

次に、ステップＳ４において、誤認識訂正装置３の発話内容特定部３０３は、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する。このとき、発話内容特定部３０３は、データ格納部３０４に格納されている発話内容ＩＤ特定用データを参照し、受信した音声認識結果に対応付けられている発話内容ＩＤを特定する。

次に、ステップＳ５において、誤認識訂正処理方法選択部３０５は、テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択する誤認識訂正処理方法選択処理を行う。このとき、誤認識訂正処理方法選択部３０５は、データ格納部３０４に格納されている誤認識訂正処理方法ＩＤ選択用データを参照し、特定された発話内容ＩＤに対応付けられている誤認識訂正処理方法ＩＤを選択する。誤認識訂正処理方法選択部３０５は、音声認識結果に含まれる誤認識に対する適切な誤認識訂正処理方法を選択する。誤認識訂正処理方法選択部３０５は、誤認識訂正処理方法ＩＤを誤認識訂正部３０６に出力する。ステップＳ５の誤認識訂正処理方法選択処理の詳細については図１１を用いて後述する。

なお、誤認識訂正処理方法選択部３０５は、発話内容特定部３０３によって特定された発話内容に基づき、誤認識を訂正する必要があるか否かを判断してもよい。誤認識訂正処理方法選択部３０５は、誤認識を訂正する必要があると判断した場合、複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択する。また、誤認識訂正処理方法選択部３０５は、誤認識を訂正する必要がないと判断した場合、誤認識訂正処理方法を選択しない。

誤認識訂正処理方法選択部３０５は、発話内容が機器の制御に関する場合、誤認識を訂正する必要があると判断してもよい。また、誤認識訂正処理方法選択部３０５は、発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断してもよい。さらに、誤認識訂正処理方法選択部３０５は、誤認識する頻度が所定値より高い文字列がテキストデータに含まれる場合、誤認識を訂正する必要があると判断してもよい。この場合、誤認識する頻度が所定値より高い文字列は、ユーザの発話によって操作される機器の操作に用いられるパラメータである。パラメータは、例えば数値である。また、誤認識する頻度が所定値より高い単語列は、予め記憶されている単語列と音韻が類似する単語列であってもよい。誤認識を訂正する必要がないと判断された場合、通信部３０１は、音声認識結果をサーバ２に送信してもよい。

次に、ステップＳ６において、誤認識訂正部３０６は、ステップＳ５で出力された誤認識訂正処理方法ＩＤに対応する誤認識訂正処理方法を誤認識訂正処理方法格納部３０７から呼び出し、呼び出した誤認識訂正処理方法を用いて音声認識結果に含まれる誤認識を訂正する誤認識訂正処理を行う。通信部３０１は、誤認識訂正結果をサーバ２に送信する。サーバ２の通信部２０１は、誤認識訂正装置３によって送信された誤認識訂正結果を受信する。なお、ステップＳ６の誤認識訂正処理の詳細については後述する。

次に、ステップＳ７において、サーバ２の機器制御判定部２０４は、ステップＳ５で送信された音声認識結果、又はステップＳ６で送信された誤認識訂正結果に対応する機器制御内容を判定する機器制御判定処理を行う。機器制御判定部２０４は、機器制御ＩＤ判定用データ格納部２０５に格納されている機器制御ＩＤ判定用データを参照し、音声認識結果又は誤認識訂正結果に対応付けられている機器制御ＩＤを抽出する。機器制御判定部２０４は、家電機器等の音声対話装置４に音声、画像又は文字を出力させるための機器制御ＩＤ又は音声対話装置４の機器制御を行うための機器制御ＩＤを判定する。通信部２０１は、機器制御ＩＤと音声認識結果と誤認識訂正結果とを音声対話装置４に送信する。音声対話装置４の通信部４０１は、サーバ２によって送信された機器制御ＩＤと音声認識結果と誤認識訂正結果とを受信する。なお、ステップＳ７の機器制御判定処理の詳細については後述する。

次に、ステップＳ８において、機器制御部４０２は、ステップＳ７において送信された機器制御ＩＤと音声認識結果と誤認識訂正結果とを用いて、音声対話装置４の動作を制御する。このとき、機器制御部４０２は、実際に機器制御を実行可能であるか否かを判断し、実行可能であれば機器制御を実行してもよい。例えば、テレビの電源がＯＦＦになっている状態で、音量を調整する機器制御に対応する機器制御ＩＤが受信された場合、機器制御を実行することは不可能であるため、機器制御部４０２は、機器制御を実行できないと判断する。

図１１は、本開示の実施の形態１に係る誤認識訂正処理方法選択処理の手順を示すフローチャートである。誤認識訂正処理方法選択処理では、音声認識結果に基づいて、音声認識結果に含まれる誤認識に対して適切な誤認識訂正処理方法の選択を実施する。

まず、ステップＳ３０１において、誤認識訂正処理方法選択部３０５は、発話内容特定部３０３によって特定された発話内容ＩＤを取得する。

次に、ステップＳ３０２において、誤認識訂正処理方法選択部３０５は、音声認識結果に対して誤認識訂正処理を行う必要があるか否かを判断する。判断方法としては、誤認識訂正処理方法選択部３０５は、図５の発話内容ＩＤ特定用データを用いて特定された発話内容ＩＤが誤認識訂正を行う必要がある発話内容ＩＤであるか否かによって判断する。例えば、音声認識結果に対応する発話内容ＩＤが、テレビの機器制御を示す場合、機器制御の誤認識は操作性の悪化につながる。そのため、発話内容ＩＤがテレビの機器制御を示す場合、誤認識訂正処理方法選択部３０５は、誤認識訂正処理を行う必要があると判断する。

一方、雑談のように誤認識が含まれていてもユーザの機器制御に影響の低い発話内容であれば、誤認識訂正処理方法選択部３０５は、誤認識訂正処理を行う必要がないと判断する。

なお、誤認識訂正処理方法選択部３０５は、誤認識が発生する可能性が高い文字列が音声認識結果に含まれるか否かによって誤認識訂正処理を行う必要があるか否かを判断してもよい。例えば、音声対話装置４に入力されることが既知である文字列以外の文字列が音声認識結果に含まれる場合、又は既知の文字列に比べて出現頻度の低い文字列が音声認識結果に含まれる場合、誤認識が発生する可能性が高い。そのため、誤認識訂正処理方法選択部３０５は、既知の文字列に比べて出現頻度の低い文字列が音声認識結果に含まれているか否かで誤認識訂正処理を行う必要があるか否かを判定してもよい。

具体的には、テレビの機器制御を行う際に、「テレビ天元点けて」と音声認識された場合、音声認識結果の「天元」は通常のテレビの機器制御では用いられない単語列であるため、「天元」が誤認識である可能性が高い。あるいは、数字又は音韻的に近い単語列等の誤認識を引き起こしやすい文字列又は単語列が音声認識結果に含まれている場合、誤認識が発生する可能性が高いと考えられる。そのため、誤認識訂正処理方法選択部３０５は、数字又は音韻的に近い単語列等の誤認識を引き起こしやすい文字列又は単語列が音声認識結果に含まれているか否かで誤認識訂正処理を行う必要があるか否かを判断してもよい。具体的には、音声認識結果に「オン」という単語列が含まれている場合、音韻的に近い「オフ」と誤認識している可能性が高い。

ここで、音声認識結果に対して誤認識訂正処理を行う必要があると判断された場合（ステップＳ３０２でＹＥＳ）、ステップＳ３０３の処理に移行し、音声認識結果に対して誤認識訂正処理を行う必要がないと判断された場合（ステップＳ３０２でＮＯ）、ステップＳ３０５の処理に移行する。

音声認識結果に対して誤認識訂正処理を行う必要があると判断された場合、ステップＳ３０３において、誤認識訂正処理方法選択部３０５は、図７の誤認識訂正処理方法ＩＤ選択用データを参照し、ステップＳ３０１で取得された発話内容ＩＤに対応する誤認識訂正処理方法ＩＤを呼び出す。

次に、ステップＳ３０４において、誤認識訂正処理方法選択部３０５は、ステップＳ３０３で呼び出した誤認識訂正処理方法ＩＤを誤認識訂正部３０６に出力する。

一方、音声認識結果に対して誤認識訂正処理を行う必要がないと判断された場合、ステップＳ３０５において、通信部３０１は、誤認識訂正処理を実行せずに、音声認識結果をサーバ２へ送信する。サーバ２は、音声認識結果を誤認識訂正装置３から受信した場合、受信した音声認識結果に基づいて、機器制御判定処理を行う。

なお、音声認識結果に対して誤認識訂正処理を行う必要がないと判断された場合、通信部３０１は、音声認識結果に対して誤認識訂正処理を行わないことを示す通知情報をサーバ２へ送信してもよい。この場合、サーバ２は、通知情報を誤認識訂正装置３から受信した場合、音声認識部２０２によって音声認識を行った音声認識結果に基づいて、機器制御判定処理を行ってもよい。

図５に示す発話内容ＩＤ特定用データは、音声認識結果と、音声認識結果に対応した入力音声と、発話内容ＩＤとを含む。また、図６に示す発話内容ＩＤデータは、発話内容ＩＤと、発話内容ＩＤに対応した発話内容と、制御対象機器種別と、機器制御詳細と、誤認識が生じやすい語彙を示す誤認識頻出語彙とを含む。なお、発話内容ＩＤ特定用データ及び発話内容ＩＤデータは音声対話装置４ごとに作成してもよい。

例えば、音声入力装置１に「テレビ電源オン」という音声が入力され、サーバ２で「テレビ電源オフ」と音声認識された場合、図５の発話内容ＩＤ特定用データから発話内容ＩＤ「Ｃ００１」が呼び出される。このとき、１つの入力音声について複数の音声認識結果が対応づけられていてもよい。これは、ユーザによって異なる誤認識の文字列又は単語列が出現する可能性があることや、音声認識エンジンによっては１つの入力音声に対して複数の音声認識結果を出力することがあるためである。また、１つの発話内容ＩＤに対して複数の入力音声が対応付けられていてもよい。これは、ユーザが音声入力によって機器の電源を入れる指示を行う際に、例えば、「テレビ電源オン」と発話する場合もあれば、「テレビ電源点けて」と発話する場合もあり、同じ操作を意図していても発話表現が異なることが想定されるためである。

図７に示す誤認識訂正処理方法ＩＤ選択用データは、発話内容ＩＤと、発話内容ＩＤに対応した誤認識訂正処理方法ＩＤとを含む。図８に示す誤認識訂正処理方法ＩＤデータは、誤認識訂正処理方法ＩＤと、誤認識訂正処理方法ＩＤに対応した誤認識訂正処理方法と、誤認識訂正処理に必要な入力データとを含む。なお、誤認識訂正処理方法ＩＤ選択用データ及び誤認識訂正処理方法ＩＤデータは音声対話装置４ごとに作成してもよい。

図８において、「音韻類似型誤認識訂正処理方法」とは、誤認識を訂正する対象となる単語を、所定のルールに基づいて音韻が類似する複数の単語のいずれかに変換する誤認識訂正処理方法である。音韻類似型誤認識訂正処理方法は、例えば、誤認識訂正処理に用いる誤認識訂正辞書において、単語と音韻とを対応付けて管理することにより実現することができる。音韻類似型誤認識訂正処理方法により誤認識訂正処理が行われる場合、音韻が類似する単語を特定する必要があるため、発話の音声特徴量が入力データとして用いられる。

また、図８において、「パラメータ特化型誤認識訂正処理方法」とは、誤認識を訂正する対象となる単語を、所定のルールに基づいて音韻が類似する複数の単語のうちパラメータに関する単語に変換する誤認識訂正処理方法である。パラメータは、例えば数字又はアルファベットである。パラメータ特化型誤認識訂正処理方法は、例えば、誤認識訂正処理に用いる誤認識訂正辞書において、音韻が類似する複数の単語のうちパラメータ（例えば、数字）に関する単語の優先度を高く設定することにより実現することができる。パラメータ特化型誤認識訂正処理方法により誤認識訂正処理が行われる場合、文字列又は音韻においてパラメータ（例えば、数字）に関連する単語を特定する必要があるため、音声認識結果及び音声特徴量が入力データとして用いられる。

また、図８において、「文脈依存型誤認識訂正処理方法」とは、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する誤認識訂正処理方法である。文脈依存型誤認識訂正処理方法は、例えば、誤認識訂正部３０６が、正解文と、正解文のうち一部の誤認識された文とのそれぞれから単語の並びを学習することにより実現することができる。文脈依存型誤認識訂正処理方法により誤認識訂正処理が行われる場合、認識された文字列から単語の並びを特定する必要があるため、音声認識結果が入力データとして用いられる。

例えば、音声入力装置１に「テレビ電源オン」という音声が入力され、サーバ２で「テレビ電源オフ」と音声認識され、図５に示す発話内容ＩＤ特定用データから発話内容ＩＤ「Ｃ００１」が呼び出された場合、図７及び図８より、「テレビ電源オフ」という音声認識結果には誤認識訂正処理方法ＩＤ「ＲＩＤ００１」の音韻類似型誤認識訂正処理方法を用いればよいことがわかる。このとき、１つの誤認識訂正処理方法ＩＤに対して複数の発話内容ＩＤが対応付けられていてもよい。また、１つの発話内容ＩＤに対して複数の誤認識訂正処理方法ＩＤが対応付けられていてもよい。

なお、誤認識訂正処理方法選択部３０５は、図５、図６、図７及び図８に示すデータと入力音声の文字列又は単語列の出現頻度とに基づいて発話内容ＩＤに対して誤認識訂正処理方法ＩＤを自動で割り当てるような学習モデルを用いて、入力された発話内容を示す発話内容ＩＤに対して誤認識訂正処理方法ＩＤを自動で割り当ててもよい。

図１２は、本開示の実施の形態１に係る誤認識訂正処理の手順を示すフローチャートである。誤認識訂正処理では、誤認識訂正処理方法ＩＤに基づいて、音声認識結果に含まれる誤認識に対して誤認識訂正処理を実施する。

まず、ステップＳ４０１において、誤認識訂正部３０６は、誤認識訂正処理方法選択部３０５から誤認識訂正処理方法ＩＤを取得する。

次に、ステップＳ４０２において、誤認識訂正部３０６は、データ格納部３０４に格納されている図８に示す誤認識訂正処理方法ＩＤデータを参照し、誤認識訂正処理に必要な入力データとして音声特徴量が必要であるか否か判断する。入力データとして音声特徴量が必要であると判断した場合（ステップＳ４０２でＹＥＳ）、ステップＳ４０３の処理に移行し、入力データとして音声特徴量が必要ではないと判断した場合（ステップＳ４０２でＮＯ）、ステップＳ４０４の処理に移行する。

誤認識訂正処理に音声特徴量が必要となる場合とは、似た音韻の文字列又は単語列を含んだ発話、又は数字を含んだ発話等、前後の文字列又は単語列から誤認識していると判断することが困難な誤認識が起きた場合である。例えば、ユーザが「テレビ電源オン」と発話した結果、「テレビ電源オフ」と音声認識された場合、「テレビ電源オフ」はユーザがテレビの機器制御で発話する可能性が高い発話であるため、「オフ」が誤認識であることを前後の単語である「テレビ」及び「電源」からは判断することができない。そこで、誤認識訂正部３０６は、「オン」及び「オフ」の音声認識に特化させた音声認識エンジンに再度音声特徴量を入力することで、「テレビ電源オフ」の誤認識を「テレビ電源オン」に訂正することが可能となる。

図８に示すように、選択された誤認識訂正処理方法が音韻類似型誤認識訂正処理方法である場合、入力データとして音声特徴量が必要であり、選択された誤認識訂正処理方法がパラメータ特化型誤認識訂正処理方法である場合、入力データとして音声特徴量及び音声認識結果が必要であり、選択された誤認識訂正処理方法が文脈依存型誤認識訂正処理方法である場合、入力データとして音声認識結果が必要である。誤認識訂正部３０６は、選択された誤認識訂正処理方法に応じて、音声認識結果及び発話の音声特徴量の少なくとも一方を用いてテキストデータの誤認識を訂正する。

入力データとして音声特徴量が必要であると判断された場合、ステップＳ４０３において、誤認識訂正部３０６は、音声認識結果記憶部３０２から音声特徴量を取得する。

次に、音声特徴量が取得された後、又は入力データとして音声特徴量が必要ではないと判断された場合、ステップＳ４０４において、誤認識訂正部３０６は、音声認識結果記憶部３０２から音声認識結果である文字列又は単語列を取得する。

なお、ステップＳ４０３の処理に移行せず、ステップＳ４０４の処理で取得した音声認識結果のみを用いて誤認識を訂正する場合は、文脈情報と誤認識の出現傾向とを用いて誤認識を訂正することが可能となる。例えば、ユーザが「テレビ電源点けて」と発話し、「テレビ天元点けて」と音声認識された場合、「テレビ」と「点けて」と同時に出てくる単語列としては「天元」は不適切であり、「天元」は「電源」の誤認識として出現する傾向が高いという情報があれば、誤認識訂正部３０６は、「テレビ天元点けて」を「テレビ電源点けて」に訂正することが可能となる。

次に、ステップＳ４０５において、誤認識訂正部３０６は、ステップＳ４０１で取得した誤認識訂正処理方法ＩＤに対応する誤認識訂正処理を誤認識訂正処理方法格納部３０７から呼び出す。

次に、ステップＳ４０６において、誤認識訂正部３０６は、ステップＳ４０４で取得した音声認識結果及び／又はステップＳ４０３で取得した音声特徴量を用いて、ステップＳ４０５で呼び出した誤認識訂正処理を実行する。ステップＳ４０２で入力データに音声特徴量が必要と判断された場合は、誤認識訂正部３０６は、ステップＳ４０３で受信した音声特徴量とステップＳ４０４で取得した音声認識結果とを用いて誤認識訂正処理を行ってもよいし、ステップＳ４０３で取得した音声特徴量のみを用いて誤認識訂正処理を行ってもよい。

次に、ステップＳ４０７において、通信部３０１は、ステップＳ４０６で誤認識を訂正した結果である誤認識訂正結果をサーバ２に送信する。

なお、本実施の形態１では、入力データとして音声特徴量が必要であると判断された場合、誤認識訂正部３０６は、音声認識結果記憶部３０２に記憶されている音声特徴量を取得しているが、本開示は特にこれに限定されない。音声特徴量が、サーバ２によって送信されず、音声認識結果記憶部３０２に記憶されていない場合、ステップＳ４０３において、通信部３０１は、サーバ２に音声特徴量を要求し、サーバ２から音声特徴量を受信してもよい。また、通信部３０１は、音声入力装置１に音声特徴量を要求し、音声入力装置１から音声特徴量を受信してもよい。

図１３は、本開示の実施の形態１に係る機器制御判定処理の手順を示すフローチャートである。機器制御判定処理では、音声認識結果又は誤認識訂正結果に基づいて、どの様に機器を制御するかを判定する。

まず、ステップＳ５０１において、機器制御判定部２０４は、誤認識訂正装置３で音声認識結果に対して誤認識訂正処理が実行されたか否かを判断する。誤認識訂正装置３で音声認識結果に対して誤認識訂正処理が実行された場合、通信部２０１は、誤認識訂正結果を誤認識訂正装置３から受信し、誤認識訂正装置３で音声認識結果に対して誤認識訂正処理が実行されなかった場合、通信部２０１は、音声認識結果を誤認識訂正装置３から受信する。そのため、機器制御判定部２０４は、通信部２０１が誤認識訂正結果を誤認識訂正装置３から受信した場合、誤認識訂正処理が実行されたと判断し、通信部２０１が音声認識結果を誤認識訂正装置３から受信した場合、誤認識訂正処理が実行されていないと判断する。

誤認識訂正処理が実行されたと判断された場合（ステップＳ５０１でＹＥＳ）、ステップＳ５０２の処理に移行し、誤認識訂正処理が実行されていないと判断された場合（ステップＳ５０１でＮＯ）、ステップＳ５０３の処理に移行する。

誤認識訂正処理が実行されたと判断された場合、ステップＳ５０２において、機器制御判定部２０４は、誤認識訂正結果に対応する機器制御ＩＤを機器制御ＩＤ判定用データ格納部２０５から呼び出す。

次に、ステップＳ５０３において、通信部２０１は、ステップＳ５０２で呼び出された機器制御ＩＤと、誤認識訂正結果又は音声認識結果とを音声対話装置４に送信する。

誤認識訂正処理が実行されていないと判断された場合、ステップＳ５０４において、機器制御判定部２０４は、音声認識結果に対応する機器制御ＩＤを機器制御ＩＤ判定用データ格納部２０５から呼び出す。

次に、ステップＳ５０５において、通信部２０１は、ステップＳ５０４で呼び出された機器制御ＩＤと、音声認識結果とを音声対話装置４に送信する。

図１４は、音声認識結果又は誤認識訂正結果から機器制御ＩＤを判定するための機器制御ＩＤ判定用データの一例を示す図であり、図１５は、機器制御ＩＤの詳細な内容を記載した機器制御ＩＤデータの一例を示す図である。

図１４に示す機器制御ＩＤ判定データは、音声認識結果又は誤認識訂正結果と、音声認識結果又は誤認識訂正結果に対応した機器制御ＩＤとを含む。図１５に示す機器制御ＩＤデータは、機器制御ＩＤと、機器制御ＩＤに対応した制御内容と、制御対象機器種別と、機器制御詳細とを含む。なお、機器制御ＩＤ判定用データ及び機器制御ＩＤデータは音声対話装置４ごとに作成してもよい。

例えば、音声入力装置１に「テレビ電源点けて」という音声が入力され、サーバ２で「テレビ天元点けて」と音声認識され、誤認識訂正装置３で「テレビ電源点けて」と訂正された場合、図１４の機器制御ＩＤ判定用データから機器制御ＩＤ「Ｍ００１」が呼び出される。なお、１つの機器制御ＩＤに対して複数の音声認識結果又は誤認識訂正結果が対応付けられていてもよい。これは、ユーザが音声入力によってテレビの電源を入れる指示を行う際に、例えば、「テレビ電源オン」と発話する場合もあれば、「テレビ電源点けて」と発話する場合もあり、同じ操作を意図していても発話表現が異なることが想定されるからである。

なお、機器制御判定部２０４は、図１４及び図１５に示すデータと入力音声の文字列又は単語列の出現頻度とに基づいて機器制御ＩＤを自動で判定する学習モデルを用いて、入力された音声認識結果又は誤認識訂正結果に対して機器制御ＩＤを自動で割り当ててもよい。

図１６は、本開示の実施の形態１に係る音声制御システムにおいて、ユーザに音声認識結果及び誤認識訂正結果を提示する表示画面の一例を示す図であり、図１７は、本開示の実施の形態１に係る音声制御システムにおいて、ユーザに誤認識訂正結果を提示する出力音声の一例を示す図である。

音声対話装置４は、音声認識結果として取得されたテキストデータ及び誤認識を訂正したテキストデータの少なくとも一方をユーザに通知してもよい。

音声認識結果に誤認識が生じ、誤認識を誤認識訂正装置３で訂正した場合、音声対話装置４は、ユーザに誤認識訂正処理が行われた旨を通知する。図１６及び図１７では、音声対話装置４の一例であるテレビの音量を音声入力により操作しているユーザに対して、誤認識訂正処理が行われたことを通知する例を示している。図１６に示すように、音声対話装置４は、「テレビの怨霊＋１」という誤認識を含んだ音声認識結果を表示画面上に表示する。その後、音声対話装置４は、「テレビの音量＋１」という誤認識訂正処理を行った結果である誤認識訂正結果を表示画面上に表示する。また、図１７に示すように、例えば、音声対話装置４は、テレビ又はリモコンのスピーカから「テレビの音量＋１ですか」という誤認識訂正結果が正しいか否かを確認するための音声を出力してもよい。

なお、音声対話装置４は、音声認識結果の信頼度に応じて、誤認識訂正結果が正しいか否かを確認するための文字列を表示画面上に表示してもよい。また、音声対話装置４は、音声認識結果の信頼度に応じて、誤認識訂正結果が正しいか否かを確認するための音声をスピーカから出力してもよい。例えば、「テレビの怨霊＋１」という音声認識結果の信頼度が閾値より低い場合、誤認識が含まれている可能性が高い。そのため、音声対話装置４は、誤認識訂正結果が正しいか否か確認するために、画面上に「テレビの音量＋１ですか」という文字列を表示してもよいし、スピーカから「テレビの音量＋１ですか」という音声を出力してもよい。

図１８及び図１９は、本開示の実施の形態１に係る音声制御システムにおける学習動作を説明するための図である。図１８は、本開示の実施の形態１に係る音声制御システムにおいて、音声認識結果の誤認識を誤認識訂正装置で訂正することができずに機器制御が正しく行われなかった例を示す図であり、図１９は、本開示の実施の形態１に係る音声制御システムにおいて、音声認識結果を学習することにより、音声認識結果の誤認識を誤認識訂正装置で訂正することができて機器制御が正しく行われた例を示す図である。

ユーザの発話に対する音声認識結果に生じた誤認識を１回目の誤認識訂正処理で誤認識訂正装置３が訂正できず、２回目の誤認識訂正処理で誤認識訂正装置３が誤認識を訂正できた場合、音声対話装置４は、誤認識訂正装置３の学習機能を用いて誤認識訂正処理が行われた旨をユーザに通知する。

音声対話装置４の一例であるテレビの音量を音声入力により操作しているユーザに対して、誤認識訂正処理の学習が行われる場合の例について説明する。図１８において、ユーザが１回目に「テレビの音量＋１」と発話し、「テレビの怨霊＋１」と音声認識され、誤認識訂正装置３で誤認識訂正処理した結果も「テレビの怨霊＋１」であった場合、テレビの音量制御は実施されない。この時、ユーザが再度同じ音声を発話したり、ユーザがリモコンで直接音量を操作したりした場合、誤認識訂正装置３は、「テレビの怨霊＋１」が誤りであり、音量制御に訂正が必要であることを学習する。図１９では、ユーザが２回目に「テレビの音量＋１」と発話し、「テレビの怨霊＋１」と音声認識され、１回目の間違いから「テレビの怨霊＋１」が音量制御であると学習した結果、「テレビの怨霊＋１」が「テレビの音量＋１」に訂正されている。これにより、音声認識結果に誤認識を含んでいてもテレビの音量制御を実施することが可能となる。なお、必ずしも２回目で学習が完了するわけではなく、誤認識訂正装置３は、２回以上同じ誤認識を含む音声認識結果が出力された結果から学習を行ってもよい。

以上の処理を具体的な例について図１０を用いて説明する。例えば、ユーザがテレビに対して「テレビ電源オン」と発話した場合を考える。ユーザが発話した音声入力が受け付けられ（ステップＳ１）、入力された音声に対して音声特徴量算出処理（ステップＳ２）が実行される。次に、発話コーパス格納部２０３に格納されている情報に基づいて受信した音声特徴量を文字列又は単語列に変換する音声認識処理（ステップＳ３）が実行され、「テレビ電源オフ」が音声認識結果として得られる。

次に、音声認識結果に基づいて発話内容が特定され（ステップＳ４）、特定された発話内容に基づいて誤認識訂正処理方法選択処理（ステップＳ５）が実行される。これにより、「テレビ電源オフ」の音声認識結果に対して音韻類似型誤認識訂正処理方法が選択される。次に、選択結果に基づき、音韻類似型誤認識訂正処理方法による誤認識訂正処理（ステップＳ６）が実行され、「テレビ電源オフ」が「テレビの電源オン」に訂正される。

次に、誤認識訂正結果に基づき、機器制御判定処理（ステップＳ７）が実行されることで、テレビの電源を点ける機器制御が行われる（ステップＳ８）。

次に、例えば、テレビの音量が不十分だと感じたユーザは再度「テレビ音量＋１」と発話する。音声特徴量算出処理（ステップＳ２）から機器制御判定処理（ステップＳ７）までは１回目の発話と同様の処理が実行される。ここで、音声認識結果が「テレビ怨霊＋１」であり、誤認識訂正結果が「テレビ音量＋１」である場合、ユーザに誤認識訂正処理が行われたことを伝えるため、まず、表示画面上に誤認識を含んだ音声認識結果である「テレビの怨霊＋１」という文字列が表示され、その後に誤認識訂正処理を行った結果である誤認識訂正結果である「テレビの音量＋１」という文字列が表示される。

その結果、ユーザはテレビの機器制御を音声入力で行う際に、音声認識結果が誤認識を含んでいても、ユーザから事前に情報を取得することなく、誤認識を訂正し、機器制御を行うことが可能となる。

なお、本実施の形態１において、音声対話装置４は、複数の誤認識訂正処理方法の中からどの誤認識訂正処理方法が選択されたかをユーザに通知してもよい。

（実施の形態２）
図２０は、本開示の実施の形態２に係る誤認識訂正装置の具体的な構成を示すブロック図である。誤認識訂正装置３１は、図４に示す誤認識訂正装置３の構成に対し、第１誤認識訂正部３１３を加えるとともに、誤認識訂正部３０６に替えて第２誤認識訂正部３１４を備える。

図２０に示す誤認識訂正装置３１は、通信部３０１、音声認識結果記憶部３０２、発話内容特定部３０３、データ格納部３０４、誤認識訂正処理方法選択部３０５、誤認識訂正処理方法格納部３０７、第１誤認識訂正部３１３及び第２誤認識訂正部３１４を備える。なお、実施の形態２において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

第１誤認識訂正部３１３は、所定の第１誤認識訂正処理方法（予備的誤認識訂正処理方法）を用いて、予備的にテキストデータの誤認識を訂正する。第１誤認識訂正部３１３は、誤認識訂正処理方法選択部３０５によって第２誤認識訂正処理方法を選択する前に所定の第１誤認識訂正処理方法で誤認識を訂正する。第１誤認識訂正部３１３は、予備的に誤認識を訂正する場合、テキストデータに含まれる単語のうち、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正する。誤認識訂正処理方法選択部３０５によって第２誤認識訂正処理方法を選択する前に、第１誤認識訂正部３１３によって音声認識結果の誤認識を訂正することで、誤った誤認識訂正処理方法が選択されることを低減することができる。

発話内容特定部３０３は、予備的に誤認識を訂正したテキストデータに基づき発話内容を特定する。

第２誤認識訂正部３１４は、誤認識訂正処理方法選択部３０５によって選択された第２誤認識訂正処理方法を用いて、音声認識結果（テキストデータ）の誤認識を訂正する。なお、第２誤認識訂正部３１４の構成は、実施の形態１の誤認識訂正部３０６の構成と同じである。

例えば、テレビの動作を制御する際に、「電源」が「天元」に変換される誤認識が高頻度で起こることが判明している場合、第１誤認識訂正部３１３は、文脈依存型誤認識訂正処理方法により音声認識結果に含まれる「天元」という単語を「電源」という単語に訂正する。これにより、ユーザが「テレビ電源オン」と発話し、「テレビ天元オフ」と音声認識された場合、第１誤認識訂正部３１３によって、音声認識結果が「テレビ電源オフ」に訂正されることで、誤認識訂正処理方法選択部３０５は、音韻類似型誤認識訂正処理方法を第２誤認識訂正処理方法として選択する。その結果、第２誤認識訂正部３１４は、音韻が類似している単語の訂正に優れた音韻類似型誤認識訂正処理方法を用いて誤認識を訂正することで「テレビ電源オフ」を「テレビ電源オン」に変換することが可能となる。

なお、第１誤認識訂正部３１３で用いられる第１誤認識訂正処理方法と、第２誤認識訂正部３１４で用いられる第２誤認識訂正処理方法とは、異なる誤認識訂正処理方法であってもよく、同じ誤認識訂正処理方法であってもよい。

また、本実施の形態２では、第１誤認識訂正部３１３は、予め決められた第１誤認識訂正処理方法を用いて、音声認識結果の誤認識を訂正しているが、本開示は特にこれに限定されない。発話内容特定部３１６は、音声認識結果に基づいて発話内容を特定し、誤認識訂正処理方法選択部３０５は、特定した発話内容に基づいて２つの誤認識訂正処理方法（第１誤認識訂正処理方法及び第２誤認識訂正処理方法）を選択してもよい。そして、第１誤認識訂正部３１３は、誤認識訂正処理方法選択部３０５によって選択された第１誤認識訂正処理方法を用いて、音声認識結果の誤認識を訂正してもよい。また、第２誤認識訂正部３１４は、誤認識訂正処理方法選択部３０５によって選択された第２誤認識訂正処理方法を用いて、第１誤認識訂正部３１３によって訂正された音声認識結果の誤認識を再度訂正してもよい。

また、本開示の実施の形態２に係る音声入力装置、サーバ及び音声対話装置の構成は、実施の形態１と同じであるので説明を省略する。また、本開示の実施の形態２に係る音声制御システムの動作についても、上記の誤認識訂正装置３１の動作以外は、実施の形態１と同じであるので説明を省略する。

（実施の形態３）
図２１は、本開示の実施の形態３に係る誤認識訂正装置の具体的な構成を示すブロック図である。誤認識訂正装置３２は、図４に示す誤認識訂正装置３の構成に対し、履歴管理部３１５をさらに備える。

図２１に示す誤認識訂正装置３２は、通信部３０１、音声認識結果記憶部３０２、データ格納部３０４、誤認識訂正処理方法選択部３０５、誤認識訂正部３０６、誤認識訂正処理方法格納部３０７、履歴管理部３１５及び発話内容特定部３１６を備える。なお、実施の形態３おいて、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

履歴管理部３１５は、ユーザと音声制御システムとの対話履歴、又は機器制御履歴などの各種のログ情報を格納する。

発話内容特定部３１６は、ユーザの発話によって操作される機器の現在の状況を取得し、取得した前記機器の現在の状況に基づき発話内容を予測する。発話内容特定部３１６は、履歴管理部３１５に格納されたログ情報を参照してユーザの発話によって操作される機器の現在の状況を取得し、取得した機器の現在の状況に基づいてユーザの発話内容を予測する。

誤認識訂正処理方法選択部３０５は、複数の誤認識訂正処理方法の中から、発話内容特定部３１６によって予測された発話内容に応じた誤認識訂正処理方法を選択する。

例えば、発話内容特定部３１６は、ユーザがある発話を行った場合、履歴管理部３１５に格納されている対話履歴を参照してその発話の次に発話されることが多い発話の発話内容を特定する。そして、誤認識訂正処理方法選択部３０５は、特定した発話内容に適した誤認識訂正処理方法を選択する。

また、発話内容特定部３１６は、履歴管理部３１５に格納されている機器制御履歴を参照し、制御対象機器の電源が現在オフとなっていることを特定した場合、次に制御対象機器を制御するための発話内容は制御対象機器の電源をオンにすることであると予測する。そして、誤認識訂正処理方法選択部３０５は、予測された発話内容に適した誤認識訂正処理方法を選択する。

また、本開示の実施の形態３に係る音声入力装置、サーバ及び音声対話装置の構成は、実施の形態１と同じであるので説明を省略する。また、本開示の実施の形態３に係る音声制御システムの動作についても、上記の誤認識訂正装置３２の動作以外は、実施の形態１と同じであるので説明を省略する。

（実施の形態４）
図２２は、本開示の実施の形態４に係る誤認識訂正装置３３の具体的な構成を示すブロック図である。誤認識訂正装置３３は、図４に示す誤認識訂正装置３の構成に対し、第１誤認識訂正部３１３及び履歴管理部３１５を加えるとともに、誤認識訂正部３０６に替えて第２誤認識訂正部３１４を備える。

図２２に示す誤認識訂正装置３３は、通信部３０１、音声認識結果記憶部３０２、データ格納部３０４、誤認識訂正処理方法選択部３０５、誤認識訂正処理方法格納部３０７、第１誤認識訂正部３１３、第２誤認識訂正部３１４、履歴管理部３１５及び発話内容特定部３１６を備える。なお、実施の形態４において、実施の形態１〜実施の形態３と同じ構成については同じ符号を付し、説明を省略する。

履歴管理部３１５が格納する情報及び発話内容特定部３１６の動作は、前述の実施の形態３における履歴管理部３１５が格納する情報及び発話内容特定部３１６の動作と同様である。また、第１誤認識訂正部３１３及び第２誤認識訂正部３１４の動作は、前述の実施の形態２における第１誤認識訂正部３１３及び第２誤認識訂正部３１４の動作と同様である。

このような構成により、ユーザの発話によって操作される機器の現在の状況を取得し、取得した機器の現在の状況に基づいてユーザの発話内容を予測することが可能となるとともに、ユーザが発話した場合、音声認識結果に含まれる誤認識を所定の予備的誤認識訂正処理方法により事前に訂正することが可能になる。

なお、本開示の実施の形態４に係る音声入力装置、サーバ及び音声対話装置の構成は、実施の形態１と同じであるので説明を省略する。また、本開示の実施の形態４に係る音声制御システムの動作についても、上記の誤認識訂正装置３３の動作以外は、実施の形態１と同じであるので説明を省略する。

また、本実施の形態１〜４では、日本語で発話された音声に対する音声認識結果の誤認識を訂正しているが、本開示は特にこれに限定されず、英語及び中国語などの日本語以外の言語で発話された音声に対する音声認識結果の誤認識を訂正してもよい。

本開示に係る誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムは、音声認識結果の誤認識を削減することができ、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムとして有用である。

１音声入力装置
２サーバ
３，３１，３２，３３誤認識訂正装置
４音声対話装置
５ネットワーク
１０１音声取得部
１０２音声検出部
１０３音声区間切り出し部
１０４特徴量算出部
１０５通信部
２０１通信部
２０２音声認識部
２０３発話コーパス格納部
２０４機器制御判定部
２０５機器制御ＩＤ判定用データ格納部
３０１通信部
３０２音声認識結果記憶部
３０３，３１６発話内容特定部
３０４データ格納部
３０５誤認識訂正処理方法選択部
３０６誤認識訂正部
３０７誤認識訂正処理方法格納部
３１３第１誤認識訂正部
３１４第２誤認識訂正部
３１５履歴管理部
４０１通信部
４０２機器制御部

Claims

ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置における誤認識訂正方法であって、
前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定し、
前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた誤認識訂正処理方法を選択し、
選択した前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する、
誤認識訂正方法。
前記複数の誤認識訂正処理方法は、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のいずれかに変換する音韻類似型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のうちパラメータに関する単語に変換するパラメータ特化型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する文脈依存型誤認識訂正処理方法とのうちの少なくとも１つを含む、
請求項１記載の誤認識訂正方法。
前記誤認識訂正処理方法の選択において、前記発話内容を識別する情報と前記誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択する、
請求項１又は２記載の誤認識訂正方法。
さらに、前記ユーザの発話によって操作される機器の現在の状況を取得し、
取得した前記機器の現在の状況に基づき前記発話内容を予測し、
前記複数の誤認識訂正処理方法の中から、予測した前記発話内容に応じた前記誤認識訂正処理方法を選択する、
請求項１又は２記載の誤認識訂正方法。
さらに、特定した前記発話内容に基づき、誤認識を訂正する必要があるか否かを判断し、
誤認識を訂正する必要があると判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択し、
誤認識を訂正する必要がないと判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択しない、
請求項１又は２記載の誤認識訂正方法。
前記発話内容が、前記ユーザの発話によって操作される機器の制御に関する場合、誤認識を訂正する必要があると判断する、
請求項５記載の誤認識訂正方法。
前記発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断する、
請求項５又は６記載の誤認識訂正方法。
誤認識する頻度が所定値より高い文字列が前記テキストデータに含まれる場合、誤認識を訂正する必要があると判断する、
請求項５記載の誤認識訂正方法。
前記誤認識する頻度が所定値より高い文字列は、前記ユーザの発話によって操作される機器の操作に用いられるパラメータである、
請求項８記載の誤認識訂正方法。
前記パラメータは、数値である、
請求項９記載の誤認識訂正方法。
前記誤認識する頻度が所定値より高い単語列は、予め記憶されている単語列と音韻が類似する単語列である、
請求項８記載の誤認識訂正方法。
選択した前記誤認識訂正処理方法に応じて、前記音声認識結果及び前記発話の音声特徴量の少なくとも一方を用いて前記テキストデータの誤認識を訂正する、
請求項１記載の誤認識訂正方法。
さらに、前記音声認識結果として取得された前記テキストデータ及び誤認識を訂正したテキストデータの少なくとも一方を前記ユーザに通知する、
請求項１記載の誤認識訂正方法。
さらに、所定の予備的誤認識訂正処理方法を用いて、予備的に前記テキストデータの誤認識を訂正し、
予備的に誤認識を訂正したテキストデータに基づき前記発話内容を特定する、
請求項１〜１３のいずれか１項に記載の誤認識訂正方法。
予備的に誤認識を訂正する場合、前記テキストデータに含まれる単語のうち、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正する、
請求項１４記載の誤認識訂正方法。
ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置であって、
前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、
前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、
選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部と、
を備える誤認識訂正装置。
ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正プログラムであって、
前記コンピュータを、
前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、
前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、
選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部として機能させる、
誤認識訂正プログラム。