JP2017167247A - 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム - Google Patents

誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム Download PDF

Info

Publication number
JP2017167247A
JP2017167247A JP2016050652A JP2016050652A JP2017167247A JP 2017167247 A JP2017167247 A JP 2017167247A JP 2016050652 A JP2016050652 A JP 2016050652A JP 2016050652 A JP2016050652 A JP 2016050652A JP 2017167247 A JP2017167247 A JP 2017167247A
Authority
JP
Japan
Prior art keywords
misrecognition
correction
correction processing
processing method
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016050652A
Other languages
English (en)
Other versions
JP6675078B2 (ja
Inventor
真悠 横矢
Mayu Yokoya
真悠 横矢
山上 勝義
Katsuyoshi Yamagami
勝義 山上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016050652A priority Critical patent/JP6675078B2/ja
Priority to CN201611203883.1A priority patent/CN107204190A/zh
Priority to US15/448,688 priority patent/US10535337B2/en
Priority to EP17160745.0A priority patent/EP3220388A1/en
Publication of JP2017167247A publication Critical patent/JP2017167247A/ja
Application granted granted Critical
Publication of JP6675078B2 publication Critical patent/JP6675078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】音声認識結果の誤認識を削減することができる誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムを提供する。【解決手段】誤認識訂正方法は、ユーザの発話に対する音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定するステップ(S4)と、テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択するステップ(S5)と、選択した誤認識訂正処理方法を用いて、テキストデータの誤認識を訂正するステップ(S6)とを含む。【選択図】図10

Description

本開示は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムに関するものである。
音声認識技術は、音声を文字列に変換する技術である。音声認識技術の応用により、音声で機器を制御する音声対話装置が検討されている。
音声認識技術を用いて音声を文字列に変換した場合、音声認識結果は、誤認識を含んでいる可能性がある。例えば、「テレビの電源点けて」と発話した音声の音声認識結果が「テレビの天元点けて」となる場合がある。そのため、音声認識の誤認識が原因で、ユーザが意図した通りに機器が動作しないという課題がある。
ユーザの発話音声により的確に機器を制御するために、ユーザが発話する文字列の想定に基づいて発話されやすい言い回し又は語彙に音声認識機能を適応させることにより、誤認識の出現頻度を低減させる技術がある。言い回し又は語彙に音声認識機能を自動的に適応させる技術としては、例えば、特許文献1及び特許文献2がある。
特開2003−140691号公報 特開2010−256498号公報
しかしながら、特許文献1及び特許文献2のいずれも、ユーザの発話内容に適応させた音声認識を行うためには、ユーザがどのような発話を行うかを、音声認識に先立って予測する必要がある。従って、ユーザの発話内容を予測するための情報が得られない場合は、ユーザの発話内容に適応した音声認識を行うことができず、音声認識結果の誤認識を削減することができないという課題が存在する。
本開示は、上記の問題を解決するためになされたもので、音声認識結果の誤認識を削減することができる誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムを提供することを目的とするものである。
本開示の一態様に係る誤認識訂正方法は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置における誤認識訂正方法であって、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定し、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた誤認識訂正処理方法を選択し、選択した前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する。
本開示によれば、音声認識結果の誤認識を削減することができる。
本開示の実施の形態1に係る音声制御システムの全体構成を示す図である。 本開示の実施の形態1に係る音声入力装置の具体的な構成を示すブロック図である。 本開示の実施の形態1に係るサーバの具体的な構成を示すブロック図である。 本開示の実施の形態1に係る誤認識訂正装置の具体的な構成を示すブロック図である。 音声認識結果から発話内容IDを特定するための発話内容ID特定用データの一例を示す図である。 発話内容IDの詳細な内容を記載した発話内容IDデータの一例を示す図である。 発話内容IDから誤認識訂正処理方法IDを選択するための誤認識訂正処理方法ID選択用データの一例を示す図である。 誤認識訂正処理方法IDの詳細な内容を記載した誤認識訂正処理方法IDデータの一例を示す図である。 本開示の実施の形態1に係る音声対話装置の具体的な構成を示すブロック図である。 本開示の実施の形態1に係る音声制御システムにおける処理の流れを示すシーケンス図である。 本開示の実施の形態1に係る誤認識訂正処理方法選択処理の手順を示すフローチャートである。 本開示の実施の形態1に係る誤認識訂正処理の手順を示すフローチャートである。 本開示の実施の形態1に係る機器制御判定処理の手順を示すフローチャートである。 音声認識結果又は誤認識訂正結果から機器制御IDを判定するための機器制御ID判定用データの一例を示す図である。 機器制御IDの詳細な内容を記載した機器制御IDデータの一例を示す図である。 本開示の実施の形態1に係る音声制御システムにおいて、ユーザに音声認識結果及び誤認識訂正結果を提示する表示画面の一例を示す図である。 本開示の実施の形態1に係る音声制御システムにおいて、ユーザに誤認識訂正結果を提示する出力音声の一例を示す図である。 本開示の実施の形態1に係る音声制御システムにおいて、音声認識結果の誤認識を誤認識訂正装置で訂正することができずに機器制御が正しく行われなかった例を示す図である。 本開示の実施の形態1に係る音声制御システムにおいて、音声認識結果を学習することにより、音声認識結果の誤認識を誤認識訂正装置で訂正することができて機器制御が正しく行われた例を示す図である。 本開示の実施の形態2に係る誤認識訂正装置の具体的な構成を示すブロック図である。 本開示の実施の形態3に係る誤認識訂正装置の具体的な構成を示すブロック図である。 本開示の実施の形態4に係る誤認識訂正装置の具体的な構成を示すブロック図である。
(本開示の基礎となった知見)
前述した特許文献1には、ユーザの発話内容を予測するための情報に基づいて複数の音声認識エンジンから1つの音声認識エンジンを選択する、又は複数の音声認識エンジンを組み合わせることで、発話内容に適応させた音声認識を行い、誤認識を削減する音声利用システムが記載されている。例えば、端末装置がユーザに対して「4桁の機器の暗証番号をお話し下さい」と通知した場合、ユーザの次の発話には数字が含まれることが予測される。そのため、音声利用システムは、数字の認識率の高い音声認識エンジンを用いることで数字の誤認識を削減する。
特許文献2には、音声認識結果をどのような目的で変換するかによって定められている複数の用途における各用途に応じた変換モデルを生成し、生成した変換モデルを用いることで各用途に応じた変換処理が施されたテキストを得る音声認識結果変換システムが記載されている。
このように、特許文献1及び特許文献2のいずれも、ユーザの発話内容に適応させた音声認識を行うためには、ユーザの発話内容を、音声認識に先立って予測する必要がある。そのため、ユーザの発話内容を予測するための情報が得られない場合は、ユーザから発せられた発話内容に適応した音声認識を行うことができず、誤認識を削減することができないという課題が存在する。
例えば、音声認識でテレビを制御する場合、ユーザがテレビに対して操作していない状態では、次にユーザが行う操作(例えば、音量操作、チャンネル操作、又は番組検索操作など)が何であるかを予測するための情報が得られていないため、特許文献1及び特許文献2の方法では、発話内容に適応した音声認識で誤認識を削減することができない。
このような課題を解決するために、本開示の一態様に係る誤認識訂正方法は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置における誤認識訂正方法であって、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定し、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた誤認識訂正処理方法を選択し、選択した前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する。
この構成によれば、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定される。テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択される。選択された誤認識訂正処理方法を用いて、テキストデータの誤認識が訂正される。
したがって、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定され、特定された発話内容に応じた誤認識訂正処理方法が複数の誤認識訂正処理方法の中から選択されるので、ユーザの発話内容を予測するための情報を事前に得る必要がなく、音声認識結果の誤認識を削減することができる。
また、上記の誤認識訂正方法において、前記複数の誤認識訂正処理方法は、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のいずれかに変換する音韻類似型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のうちパラメータに関する単語に変換するパラメータ特化型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する文脈依存型誤認識訂正処理方法とのうちの少なくとも1つを含んでもよい。
この構成によれば、複数の誤認識訂正処理方法は、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のいずれかに変換する音韻類似型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のうちパラメータに関する単語に変換するパラメータ特化型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する文脈依存型誤認識訂正処理方法とのうちの少なくとも1つを含む。
したがって、発話内容に応じて選択された音韻類似型誤認識訂正処理方法とパラメータ特化型誤認識訂正処理方法と文脈依存型誤認識訂正処理方法とのうちの少なくとも1つを用いて、テキストデータの誤認識を訂正することができる。
また、上記の誤認識訂正方法において、前記誤認識訂正処理方法の選択において、前記発話内容を識別する情報と前記誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択してもよい。
この構成によれば、誤認識訂正処理方法の選択において、発話内容を識別する情報と誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した発話内容に応じた誤認識訂正処理方法が選択されるので、発話内容から誤認識訂正処理方法を容易に選択することができる。
また、上記の誤認識訂正方法において、さらに、前記ユーザの発話によって操作される機器の現在の状況を取得し、取得した前記機器の現在の状況に基づき前記発話内容を予測し、前記複数の誤認識訂正処理方法の中から、予測した前記発話内容に応じた前記誤認識訂正処理方法を選択してもよい。
この構成によれば、ユーザの発話によって操作される機器の現在の状況が取得される。取得された機器の現在の状況に基づき発話内容が予測される。そして、複数の誤認識訂正処理方法の中から、予測された発話内容に応じた誤認識訂正処理方法が選択されるので、より正確な発話内容に応じた誤認識訂正処理方法を選択することができる。
また、上記の誤認識訂正方法において、さらに、特定した前記発話内容に基づき、誤認識を訂正する必要があるか否かを判断し、誤認識を訂正する必要があると判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択し、誤認識を訂正する必要がないと判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択しなくてもよい。
この構成によれば、特定された発話内容に基づき、誤認識を訂正する必要があるか否かが判断される。誤認識を訂正する必要があると判断された場合、複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択される。また、誤認識を訂正する必要がないと判断された場合、複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択されない。
したがって、誤認識を訂正する必要がある場合にのみ、発話内容に応じた誤認識訂正処理方法が選択されるので、不要な選択処理が行われるのを防止することができる。
また、上記の誤認識訂正方法において、前記発話内容が、前記ユーザの発話によって操作される機器の制御に関する場合、誤認識を訂正する必要があると判断してもよい。
この構成によれば、発話内容が、ユーザの発話によって操作される機器の制御に関する場合、誤認識を訂正する必要があると判断される。機器を制御するための入力音声の音声認識結果に誤認識が含まれている場合、機器の操作性の悪化に繋がるおそれがある。そこで、発話内容が機器の制御に関する場合、誤認識を訂正することにより、正確な機器の制御が行われ、確実に機器を操作することができる。
また、上記の誤認識訂正方法において、前記発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断してもよい。
この構成によれば、発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断される。発話内容が雑談である場合、音声認識結果に誤認識が含まれていたとしても、機器の制御には影響はない。そのため、発話内容が雑談である場合、誤認識を訂正する誤認識訂正処理を行わないことにより、不要な処理が行われるのを防止することができる。
また、上記の誤認識訂正方法において、誤認識する頻度が所定値より高い文字列が前記テキストデータに含まれる場合、誤認識を訂正する必要があると判断してもよい。
この構成によれば、誤認識する頻度が所定値より高い文字列がテキストデータに含まれる場合、誤認識を訂正する必要があると判断される。したがって、誤認識する可能性が高い文字列がテキストデータに含まれる場合に、確実に誤認識を訂正することができる。
また、上記の誤認識訂正方法において、前記誤認識する頻度が所定値より高い文字列は、前記ユーザの発話によって操作される機器の操作に用いられるパラメータであってもよい。
この構成によれば、ユーザの発話によって操作される機器の操作に用いられるパラメータは誤認識される可能性が高いため、パラメータがテキストデータに含まれる場合には、確実に誤認識を訂正することができる。
また、上記の誤認識訂正方法において、前記パラメータは、数値であってもよい。
この構成によれば、数値は誤認識される可能性が高いため、数値がテキストデータに含まれる場合には、確実に誤認識を訂正することができる。
また、上記の誤認識訂正方法において、前記誤認識する頻度が所定値より高い単語列は、予め記憶されている単語列と音韻が類似する単語列であってもよい。
この構成によれば、予め記憶されている単語列と音韻が類似する単語列は誤認識される可能性が高いため、予め記憶されている単語列と音韻が類似する単語列がテキストデータに含まれる場合には、確実に誤認識を訂正することができる。
また、上記の誤認識訂正方法において、選択した前記誤認識訂正処理方法に応じて、前記音声認識結果及び前記発話の音声特徴量の少なくとも一方を用いて前記テキストデータの誤認識を訂正してもよい。
この構成によれば、選択された誤認識訂正処理方法に適した音声認識結果及び発話の音声特徴量の少なくとも一方を用いてテキストデータの誤認識を訂正することができる。
また、上記の誤認識訂正方法において、さらに、前記音声認識結果として取得された前記テキストデータ及び誤認識を訂正したテキストデータの少なくとも一方を前記ユーザに通知してもよい。
この構成によれば、音声認識結果として取得されたテキストデータ及び誤認識を訂正したテキストデータの少なくとも一方がユーザに通知されるので、ユーザは正しく音声認識が行われたかを確認することができる。
また、上記の誤認識訂正方法において、さらに、所定の予備的誤認識訂正処理方法を用いて、予備的に前記テキストデータの誤認識を訂正し、予備的に誤認識を訂正したテキストデータに基づき前記発話内容を特定してもよい。
この構成によれば、所定の予備的誤認識訂正処理方法を用いて、予備的にテキストデータの誤認識が訂正される。予備的に誤認識が訂正されたテキストデータに基づき発話内容が特定される。
したがって、まず、所定の予備的誤認識訂正処理方法を用いて、予備的にテキストデータの誤認識が訂正され、その後、発話内容に応じて選択された誤認識訂正処理方法を用いて、予備的に誤認識が訂正されたテキストデータの誤認識が再度訂正されるので、音声認識結果の誤認識が少なくとも2回訂正されることになり、より確実に音声認識結果の誤認識を削減することができる。
また、上記の誤認識訂正方法において、予備的に誤認識を訂正する場合、前記テキストデータに含まれる単語のうち、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正してもよい。
この構成によれば、まず、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正することができる。
本開示の他の態様に係る誤認識訂正装置は、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置であって、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部と、を備える。
この構成によれば、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定される。テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択される。選択された誤認識訂正処理方法を用いて、テキストデータの誤認識が訂正される。
したがって、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定され、特定された発話内容に応じた誤認識訂正処理方法が複数の誤認識訂正処理方法の中から選択されるので、ユーザの発話内容を予測するための情報を事前に得る必要がなく、音声認識結果の誤認識を削減することができる。
本開示の他の態様に係る誤認識訂正プログラムは、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正プログラムであって、前記コンピュータを、前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部として機能させる。
この構成によれば、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定される。テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された発話内容に応じた誤認識訂正処理方法が選択される。選択された誤認識訂正処理方法を用いて、テキストデータの誤認識が訂正される。
したがって、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容が特定され、特定された発話内容に応じた誤認識訂正処理方法が複数の誤認識訂正処理方法の中から選択されるので、ユーザの発話内容を予測するための情報を事前に得る必要がなく、音声認識結果の誤認識を削減することができる。
以下、本開示の実施の形態について、図面を参照しながら説明する。
以下で説明する実施の形態は、いずれも本開示の一実施例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
図1は、本開示の実施の形態1に係る音声制御システムの全体構成を示す図である。
図1に示すように、本実施の形態1の音声制御システムは、音声入力装置1、サーバ2、誤認識訂正装置3及び音声対話装置4を備える。
音声入力装置1は、ユーザの発話による音声を取得し、取得した音声をサーバ2へ送信する。サーバ2は、音声入力装置1及び誤認識訂正装置3の各々とネットワーク5を介してデータを送受信する。サーバ2は、音声入力装置1によって送信された音声に対して音声認識処理を行い、音声認識結果を誤認識訂正装置3に送信する。誤認識訂正装置3は、サーバ2から受信した音声認識処理を行った結果である音声認識結果に基づいて、音声認識結果に含まれる誤認識を訂正し、誤認識訂正結果をサーバ2へ送信する。サーバ2は、誤認識訂正装置3によって送信された誤認識訂正結果に基づいて、音声対話装置4の制御内容を決定する。サーバ2は、決定した制御内容を音声対話装置4へ送信する。
音声対話装置4は、例えば、スマートフォンなどの携帯通信端末である。また、音声対話装置4は、例えば、テレビ又はエアコンなどの家電機器等である。音声対話装置4は、サーバ2から送信された音声認識結果、誤認識訂正結果及び制御内容に基づいて、音声、画像及び文字を出力するとともに、機器制御を実行する。ネットワーク5は、例えばインターネットである。音声入力装置1、サーバ2、誤認識訂正装置3及び音声対話装置4は、例えば、有線LAN(Local Area Network)、無線LAN又はBluetooth(登録商標)などの通信方法を用いてネットワーク5に接続している。
なお、本実施の形態1において、音声入力装置1、サーバ2及び誤認識訂正装置3のいずれか1つが音声対話装置4に組み込まれてもよい。また、音声入力装置1、サーバ2及び誤認識訂正装置3の全てが音声対話装置4に組み込まれてもよい。さらに、音声入力装置1、サーバ2及び誤認識訂正装置3のいずれか2つが音声対話装置4に組み込まれてもよい。
なお、本実施の形態1において、誤認識訂正装置3は、複数の音声対話装置4の全てを対象とした誤認識訂正処理を行ってもよい。あるいは、誤認識訂正装置3が各音声対話装置4に組み込まれることで、誤認識訂正装置3は、各音声対話装置4を対象とした誤認識訂正処理を行ってもよい。
図2は、本開示の実施の形態1に係る音声入力装置の具体的な構成を示すブロック図である。図2に示されるように音声入力装置1は、音声取得部101、音声検出部102、音声区間切り出し部103、特徴量算出部104及び通信部105を備える。
音声取得部101は、ユーザの発話した音声を取得する。音声検出部102は、音声を検出したか否かを判定する。取得した音声信号には雑音などが含まれている。そのため、音声区間切り出し部103は、ユーザが入力した音声が存在する区間を検出し、検出した音声区間を切り出す。特徴量算出部104は、切り出された音声区間に基づいて音声特徴量を算出する。通信部105は、特徴量算出部104によって算出された音声特徴量をサーバ2へ送信する。また、通信部105は、特徴量算出部104によって算出された音声特徴量をサーバ2及び誤認識訂正装置3に送信してもよい。
なお、音声入力装置1は、例えば、音声対話装置4に内蔵又は接続されているマイク、音声対話装置4などに付属されたリモコンに内蔵されているマイク、携帯通信端末に内蔵又は接続されているマイク、又は家の中に設置されている収音マイクなどである。
図3は、本開示の実施の形態1に係るサーバの具体的な構成を示すブロック図である。図3に示されるようにサーバ2は、通信部201、音声認識部202、発話コーパス格納部203、機器制御判定部204及び機器制御ID判定用データ格納部205を備える。なお、サーバ2は、音声認識装置の一例である。
通信部201は、音声入力装置1の通信部105から送信された音声特徴量を受信する。また、通信部201は、誤認識訂正装置3へ音声特徴量及び音声認識結果を送信する。また、通信部201は、誤認識訂正装置3の通信部301から送信された誤認識訂正結果を受信する。また、通信部201は、音声対話装置4へ音声認識結果、誤認識訂正結果及び制御内容を表す機器制御IDを送信する。
なお、通信部201は、音声対話装置4へ誤認識訂正結果だけを送信してもよいし、機器制御IDと誤認識訂正結果との両方を送信してもよい。また、通信部201は、音声対話装置4へ音声認識結果だけを送信してもよいし、機器制御IDと音声認識結果との両方を送信してもよい。さらに、通信部201は、音声対話装置4へ音声認識結果と誤認識訂正結果との両方を送信してもよい。
音声認識部202は、発話コーパス格納部203に格納されている発話文の情報に基づいて、受信した音声特徴量を文字列及び単語列に変換する。発話コーパス格納部203は、一般に入手が容易な新聞記事又はWEB上のテキストファイル等に基づいて作成された発話文を予め格納する。なお、発話コーパス格納部203は、音声対話装置4に入力される可能性がある発話文を格納してもよい。また、発話コーパス格納部203は、新聞記事又はWEB上のテキストファイル等の発話文と、音声対話装置4に入力される可能性がある発話文との両方を格納してもよい。例えば、新聞記事又はWEB上のテキストファイル等の発話文の例としては、「おはよう」又は「今日の天気は?」などの雑談に使われる発話文が格納されている。音声対話装置4に入力される可能性がある発話文の例としては、「テレビ電源オン」、「テレビ電源点けて」又は「8チャンネルにして」などのテレビの機器制御に特有の発話文が格納されている。
機器制御判定部204は、音声認識部202によって認識された音声認識結果又は通信部201によって受信された誤認識訂正結果に基づいて、機器制御ID判定用データ格納部205を用いてユーザが入力した機器制御内容を判定する。機器制御ID判定用データ格納部205は、音声認識結果又は誤認識訂正結果と、機器制御内容を表す機器制御IDとを対応付けた機器制御ID判定用データを格納する。機器制御判定部204は、音声認識部202によって認識された音声認識結果に対応付けられている機器制御IDを機器制御ID判定用データ格納部205から読み出す。また、機器制御判定部204は、通信部201によって受信された誤認識訂正結果に対応付けられている機器制御IDを機器制御ID判定用データ格納部205から読み出す。なお、本実施の形態1において、機器制御判定部204は、音声認識部202から音声認識結果を取得するのではなく、誤認識訂正装置3によって送信された音声認識結果を通信部201から取得する。
図4は、本開示の実施の形態1に係る誤認識訂正装置の具体的な構成を示すブロック図である。図4に示されるように誤認識訂正装置3は、通信部301、音声認識結果記憶部302、発話内容特定部303、データ格納部304、誤認識訂正処理方法選択部305、誤認識訂正部306及び誤認識訂正処理方法格納部307を備える。
通信部301は、サーバ2の通信部201から送信された音声特徴量及び音声認識結果を受信する。通信部301は、誤認識訂正結果をサーバ2へ送信する。
音声認識結果記憶部302は、通信部301によって受信された音声特徴量及び音声認識結果を記憶する。
データ格納部304は、音声認識結果と、発話内容を識別するための発話内容IDとを対応付けた発話内容ID特定用データ、発話内容IDと、発話内容に関する情報とを対応付けた発話内容IDデータ、発話内容IDと、誤認識訂正処理方法を識別するための誤認識訂正処理方法IDとを対応付けた誤認識訂正処理方法ID判定用データ、及び誤認識訂正処理方法IDと、誤認識訂正処理方法に関する情報とを対応付けた誤認識訂正処理方法IDデータを格納する。
発話内容特定部303は、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する。発話内容特定部303は、データ格納部304を用いて発話内容を特定する。
誤認識訂正処理方法選択部305は、テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択する。誤認識訂正処理方法選択部305は、データ格納部304を用いて誤認識訂正処理方法を選択する。誤認識訂正処理方法選択部305は、誤認識訂正処理方法の選択において、発話内容を識別する情報と誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した発話内容に応じた誤認識訂正処理方法を選択する。
図5は、音声認識結果から発話内容IDを特定するための発話内容ID特定用データの一例を示す図であり、図6は、発話内容IDの詳細な内容を記載した発話内容IDデータの一例を示す図である。
図7は、発話内容IDから誤認識訂正処理方法IDを選択するための誤認識訂正処理方法ID選択用データの一例を示す図であり、図8は、誤認識訂正処理方法IDの詳細な内容を記載した誤認識訂正処理方法IDデータの一例を示す図である。
例えば、音声認識結果が「テレビ電源オン」であった場合、発話内容特定部303は、図5に示す発話内容ID特定用データから発話内容IDが「C001」であると特定する。そして、誤認識訂正処理方法選択部305は、図7に示す誤認識訂正処理方法ID選択用データから、発話内容ID「C001」に対応する誤認識訂正処理方法ID「RID001」を選択する。これにより、「テレビ電源オン」の音声認識結果に対しては、誤認識訂正処理方法ID「RID001」に対応する音韻類似型誤認識訂正処理方法を適応すればよいことがわかる。
誤認識訂正処理方法格納部307は、複数の誤認識訂正処理方法IDのそれぞれに関連付けた複数の誤認識訂正処理方法を格納する。
誤認識訂正部306は、誤認識訂正処理方法選択部305によって選択された誤認識訂正処理方法を用いて、テキストデータの誤認識を訂正する。誤認識訂正部306は、誤認識訂正処理方法選択部305によって選択された誤認識訂正処理方法IDに基づいて誤認識訂正処理方法格納部307から誤認識訂正処理方法を呼び出し、音声認識結果記憶部302に記憶された音声認識結果の誤認識箇所を訂正する。
なお、誤認識訂正部306は、通信部301によって受信された音声特徴量を用いて誤認識箇所を訂正してもよい。また、誤認識訂正部306は、音声認識結果記憶部302に記憶された音声認識結果と通信部301によって受信された音声特徴量の両方を用いて誤認識箇所を訂正してもよい。
図9は、本開示の実施の形態1に係る音声対話装置の具体的な構成を示すブロック図である。図9に示されるように音声対話装置4は、通信部401及び機器制御部402を備える。
通信部401は、サーバ2の通信部201から送信された機器制御ID、音声認識結果及び誤認識訂正結果を受信する。機器制御部402は、通信部401によって受信された機器制御ID、音声認識結果及び誤認識訂正結果の少なくとも1つを用いて音声、画像又は文字を出力する。また、機器制御部402は、機器制御IDを用いて家電機器等の機器制御を実行する。
なお、機器制御部402は、機器制御IDだけを用いて機器制御を行ってもよい。例えば、ユーザが「テレビ音量+1」と発話し、サーバ2で機器制御IDがテレビの音量調整であると判定された場合、機器制御部402は、機器制御IDだけを用いて音量のレベルを1だけ大きくすることができる。
また、機器制御部402は、機器制御IDと、音声認識結果及び誤認識訂正結果のいずれか一方とを用いて機器制御を行ってもよい。例えば、ユーザが「テレビ音量+1」と発話し、サーバ2で「テレビ怨霊+1」と音声認識され、誤認識訂正装置3で「テレビ音量+1」と訂正され、サーバ2で機器制御IDがテレビの音量調整であると判定された場合、機器制御部402は、機器制御IDを用いてテレビの音量のレベルを1だけ大きくするとともに、音声認識結果の「テレビ怨霊+1」をテレビ画面上に表示してもよい。また、この場合、機器制御部402は、機器制御IDを用いてテレビの音量のレベルを1だけ大きくするとともに、誤認識訂正結果の「テレビ音量+1」をテレビ画面上に表示してもよい。音声認識結果又は誤認識訂正結果をユーザに通知することで、ユーザの音声入力が成功したか否かを通知することが可能となる。
また、機器制御部402は、機器制御IDと音声認識結果と誤認識訂正結果との全てを用いて機器制御を行ってもよい。例えば、ユーザが「テレビ音量+1」と発話し、サーバ2で「テレビ怨霊+1」と音声認識され、誤認識訂正装置3で「テレビ音量+1」と訂正され、サーバ2で機器制御IDがテレビの音量調整であると判定された場合、機器制御部402は、機器制御IDを用いてテレビの音量のレベルを1だけ大きくするとともに、音声認識結果の「テレビ怨霊+1」をテレビ画面上に表示してもよい。そして、機器制御部402は、音声認識結果を表示した後、誤認識訂正結果の「テレビ音量+1」をテレビ画面上に表示してもよい。音声認識結果と誤認識訂正結果との両方をユーザに通知することで、音声認識処理の時では誤認識が含まれていたが、誤認識訂正処理を行うことで適切に訂正されたことをユーザに通知することが可能となる。
図10は、本開示の実施の形態1に係る音声制御システムにおける処理の流れを示すシーケンス図である。
まず、ステップS1において、音声入力装置1の音声取得部101は、ユーザによる音声入力を受け付ける。
次に、ステップS2において、特徴量算出部104は、受け付けた音声から音声特徴量を算出する。通信部105は、特徴量算出部104によって算出された音声特徴量をサーバ2に送信する。
次に、ステップS3において、サーバ2の通信部201は、音声入力装置1によって送信された音声特徴量を受信する。音声認識部202は、発話コーパス格納部203に格納されている発話コーパスの情報に基づいて、受信された音声特徴量を文字列及び単語列からなるテキストデータに変換する音声認識処理を行う。通信部201は、音声特徴量及び音声認識結果を誤認識訂正装置3へ送信する。誤認識訂正装置3の通信部301は、サーバ2によって送信された音声特徴量及び音声認識結果を受信し、受信した音声特徴量及び音声認識結果を音声認識結果記憶部302に記憶する。
なお、本実施の形態1では、サーバ2が音声特徴量を音声認識結果とともに誤認識訂正装置3へ送信しているが、本開示は特にこれに限定されない。サーバ2が音声認識結果のみを誤認識訂正装置3へ送信し、音声入力装置1が音声特徴量を誤認識訂正装置3へ送信してもよい。
次に、ステップS4において、誤認識訂正装置3の発話内容特定部303は、音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する。このとき、発話内容特定部303は、データ格納部304に格納されている発話内容ID特定用データを参照し、受信した音声認識結果に対応付けられている発話内容IDを特定する。
次に、ステップS5において、誤認識訂正処理方法選択部305は、テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択する誤認識訂正処理方法選択処理を行う。このとき、誤認識訂正処理方法選択部305は、データ格納部304に格納されている誤認識訂正処理方法ID選択用データを参照し、特定された発話内容IDに対応付けられている誤認識訂正処理方法IDを選択する。誤認識訂正処理方法選択部305は、音声認識結果に含まれる誤認識に対する適切な誤認識訂正処理方法を選択する。誤認識訂正処理方法選択部305は、誤認識訂正処理方法IDを誤認識訂正部306に出力する。ステップS5の誤認識訂正処理方法選択処理の詳細については図11を用いて後述する。
なお、誤認識訂正処理方法選択部305は、発話内容特定部303によって特定された発話内容に基づき、誤認識を訂正する必要があるか否かを判断してもよい。誤認識訂正処理方法選択部305は、誤認識を訂正する必要があると判断した場合、複数の誤認識訂正処理方法の中から、特定した発話内容に応じた誤認識訂正処理方法を選択する。また、誤認識訂正処理方法選択部305は、誤認識を訂正する必要がないと判断した場合、誤認識訂正処理方法を選択しない。
誤認識訂正処理方法選択部305は、発話内容が機器の制御に関する場合、誤認識を訂正する必要があると判断してもよい。また、誤認識訂正処理方法選択部305は、発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断してもよい。さらに、誤認識訂正処理方法選択部305は、誤認識する頻度が所定値より高い文字列がテキストデータに含まれる場合、誤認識を訂正する必要があると判断してもよい。この場合、誤認識する頻度が所定値より高い文字列は、ユーザの発話によって操作される機器の操作に用いられるパラメータである。パラメータは、例えば数値である。また、誤認識する頻度が所定値より高い単語列は、予め記憶されている単語列と音韻が類似する単語列であってもよい。誤認識を訂正する必要がないと判断された場合、通信部301は、音声認識結果をサーバ2に送信してもよい。
次に、ステップS6において、誤認識訂正部306は、ステップS5で出力された誤認識訂正処理方法IDに対応する誤認識訂正処理方法を誤認識訂正処理方法格納部307から呼び出し、呼び出した誤認識訂正処理方法を用いて音声認識結果に含まれる誤認識を訂正する誤認識訂正処理を行う。通信部301は、誤認識訂正結果をサーバ2に送信する。サーバ2の通信部201は、誤認識訂正装置3によって送信された誤認識訂正結果を受信する。なお、ステップS6の誤認識訂正処理の詳細については後述する。
次に、ステップS7において、サーバ2の機器制御判定部204は、ステップS5で送信された音声認識結果、又はステップS6で送信された誤認識訂正結果に対応する機器制御内容を判定する機器制御判定処理を行う。機器制御判定部204は、機器制御ID判定用データ格納部205に格納されている機器制御ID判定用データを参照し、音声認識結果又は誤認識訂正結果に対応付けられている機器制御IDを抽出する。機器制御判定部204は、家電機器等の音声対話装置4に音声、画像又は文字を出力させるための機器制御ID又は音声対話装置4の機器制御を行うための機器制御IDを判定する。通信部201は、機器制御IDと音声認識結果と誤認識訂正結果とを音声対話装置4に送信する。音声対話装置4の通信部401は、サーバ2によって送信された機器制御IDと音声認識結果と誤認識訂正結果とを受信する。なお、ステップS7の機器制御判定処理の詳細については後述する。
次に、ステップS8において、機器制御部402は、ステップS7において送信された機器制御IDと音声認識結果と誤認識訂正結果とを用いて、音声対話装置4の動作を制御する。このとき、機器制御部402は、実際に機器制御を実行可能であるか否かを判断し、実行可能であれば機器制御を実行してもよい。例えば、テレビの電源がOFFになっている状態で、音量を調整する機器制御に対応する機器制御IDが受信された場合、機器制御を実行することは不可能であるため、機器制御部402は、機器制御を実行できないと判断する。
図11は、本開示の実施の形態1に係る誤認識訂正処理方法選択処理の手順を示すフローチャートである。誤認識訂正処理方法選択処理では、音声認識結果に基づいて、音声認識結果に含まれる誤認識に対して適切な誤認識訂正処理方法の選択を実施する。
まず、ステップS301において、誤認識訂正処理方法選択部305は、発話内容特定部303によって特定された発話内容IDを取得する。
次に、ステップS302において、誤認識訂正処理方法選択部305は、音声認識結果に対して誤認識訂正処理を行う必要があるか否かを判断する。判断方法としては、誤認識訂正処理方法選択部305は、図5の発話内容ID特定用データを用いて特定された発話内容IDが誤認識訂正を行う必要がある発話内容IDであるか否かによって判断する。例えば、音声認識結果に対応する発話内容IDが、テレビの機器制御を示す場合、機器制御の誤認識は操作性の悪化につながる。そのため、発話内容IDがテレビの機器制御を示す場合、誤認識訂正処理方法選択部305は、誤認識訂正処理を行う必要があると判断する。
一方、雑談のように誤認識が含まれていてもユーザの機器制御に影響の低い発話内容であれば、誤認識訂正処理方法選択部305は、誤認識訂正処理を行う必要がないと判断する。
なお、誤認識訂正処理方法選択部305は、誤認識が発生する可能性が高い文字列が音声認識結果に含まれるか否かによって誤認識訂正処理を行う必要があるか否かを判断してもよい。例えば、音声対話装置4に入力されることが既知である文字列以外の文字列が音声認識結果に含まれる場合、又は既知の文字列に比べて出現頻度の低い文字列が音声認識結果に含まれる場合、誤認識が発生する可能性が高い。そのため、誤認識訂正処理方法選択部305は、既知の文字列に比べて出現頻度の低い文字列が音声認識結果に含まれているか否かで誤認識訂正処理を行う必要があるか否かを判定してもよい。
具体的には、テレビの機器制御を行う際に、「テレビ天元点けて」と音声認識された場合、音声認識結果の「天元」は通常のテレビの機器制御では用いられない単語列であるため、「天元」が誤認識である可能性が高い。あるいは、数字又は音韻的に近い単語列等の誤認識を引き起こしやすい文字列又は単語列が音声認識結果に含まれている場合、誤認識が発生する可能性が高いと考えられる。そのため、誤認識訂正処理方法選択部305は、数字又は音韻的に近い単語列等の誤認識を引き起こしやすい文字列又は単語列が音声認識結果に含まれているか否かで誤認識訂正処理を行う必要があるか否かを判断してもよい。具体的には、音声認識結果に「オン」という単語列が含まれている場合、音韻的に近い「オフ」と誤認識している可能性が高い。
ここで、音声認識結果に対して誤認識訂正処理を行う必要があると判断された場合(ステップS302でYES)、ステップS303の処理に移行し、音声認識結果に対して誤認識訂正処理を行う必要がないと判断された場合(ステップS302でNO)、ステップS305の処理に移行する。
音声認識結果に対して誤認識訂正処理を行う必要があると判断された場合、ステップS303において、誤認識訂正処理方法選択部305は、図7の誤認識訂正処理方法ID選択用データを参照し、ステップS301で取得された発話内容IDに対応する誤認識訂正処理方法IDを呼び出す。
次に、ステップS304において、誤認識訂正処理方法選択部305は、ステップS303で呼び出した誤認識訂正処理方法IDを誤認識訂正部306に出力する。
一方、音声認識結果に対して誤認識訂正処理を行う必要がないと判断された場合、ステップS305において、通信部301は、誤認識訂正処理を実行せずに、音声認識結果をサーバ2へ送信する。サーバ2は、音声認識結果を誤認識訂正装置3から受信した場合、受信した音声認識結果に基づいて、機器制御判定処理を行う。
なお、音声認識結果に対して誤認識訂正処理を行う必要がないと判断された場合、通信部301は、音声認識結果に対して誤認識訂正処理を行わないことを示す通知情報をサーバ2へ送信してもよい。この場合、サーバ2は、通知情報を誤認識訂正装置3から受信した場合、音声認識部202によって音声認識を行った音声認識結果に基づいて、機器制御判定処理を行ってもよい。
図5に示す発話内容ID特定用データは、音声認識結果と、音声認識結果に対応した入力音声と、発話内容IDとを含む。また、図6に示す発話内容IDデータは、発話内容IDと、発話内容IDに対応した発話内容と、制御対象機器種別と、機器制御詳細と、誤認識が生じやすい語彙を示す誤認識頻出語彙とを含む。なお、発話内容ID特定用データ及び発話内容IDデータは音声対話装置4ごとに作成してもよい。
例えば、音声入力装置1に「テレビ電源オン」という音声が入力され、サーバ2で「テレビ電源オフ」と音声認識された場合、図5の発話内容ID特定用データから発話内容ID「C001」が呼び出される。このとき、1つの入力音声について複数の音声認識結果が対応づけられていてもよい。これは、ユーザによって異なる誤認識の文字列又は単語列が出現する可能性があることや、音声認識エンジンによっては1つの入力音声に対して複数の音声認識結果を出力することがあるためである。また、1つの発話内容IDに対して複数の入力音声が対応付けられていてもよい。これは、ユーザが音声入力によって機器の電源を入れる指示を行う際に、例えば、「テレビ電源オン」と発話する場合もあれば、「テレビ電源点けて」と発話する場合もあり、同じ操作を意図していても発話表現が異なることが想定されるためである。
図7に示す誤認識訂正処理方法ID選択用データは、発話内容IDと、発話内容IDに対応した誤認識訂正処理方法IDとを含む。図8に示す誤認識訂正処理方法IDデータは、誤認識訂正処理方法IDと、誤認識訂正処理方法IDに対応した誤認識訂正処理方法と、誤認識訂正処理に必要な入力データとを含む。なお、誤認識訂正処理方法ID選択用データ及び誤認識訂正処理方法IDデータは音声対話装置4ごとに作成してもよい。
図8において、「音韻類似型誤認識訂正処理方法」とは、誤認識を訂正する対象となる単語を、所定のルールに基づいて音韻が類似する複数の単語のいずれかに変換する誤認識訂正処理方法である。音韻類似型誤認識訂正処理方法は、例えば、誤認識訂正処理に用いる誤認識訂正辞書において、単語と音韻とを対応付けて管理することにより実現することができる。音韻類似型誤認識訂正処理方法により誤認識訂正処理が行われる場合、音韻が類似する単語を特定する必要があるため、発話の音声特徴量が入力データとして用いられる。
また、図8において、「パラメータ特化型誤認識訂正処理方法」とは、誤認識を訂正する対象となる単語を、所定のルールに基づいて音韻が類似する複数の単語のうちパラメータに関する単語に変換する誤認識訂正処理方法である。パラメータは、例えば数字又はアルファベットである。パラメータ特化型誤認識訂正処理方法は、例えば、誤認識訂正処理に用いる誤認識訂正辞書において、音韻が類似する複数の単語のうちパラメータ(例えば、数字)に関する単語の優先度を高く設定することにより実現することができる。パラメータ特化型誤認識訂正処理方法により誤認識訂正処理が行われる場合、文字列又は音韻においてパラメータ(例えば、数字)に関連する単語を特定する必要があるため、音声認識結果及び音声特徴量が入力データとして用いられる。
また、図8において、「文脈依存型誤認識訂正処理方法」とは、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する誤認識訂正処理方法である。文脈依存型誤認識訂正処理方法は、例えば、誤認識訂正部306が、正解文と、正解文のうち一部の誤認識された文とのそれぞれから単語の並びを学習することにより実現することができる。文脈依存型誤認識訂正処理方法により誤認識訂正処理が行われる場合、認識された文字列から単語の並びを特定する必要があるため、音声認識結果が入力データとして用いられる。
例えば、音声入力装置1に「テレビ電源オン」という音声が入力され、サーバ2で「テレビ電源オフ」と音声認識され、図5に示す発話内容ID特定用データから発話内容ID「C001」が呼び出された場合、図7及び図8より、「テレビ電源オフ」という音声認識結果には誤認識訂正処理方法ID「RID001」の音韻類似型誤認識訂正処理方法を用いればよいことがわかる。このとき、1つの誤認識訂正処理方法IDに対して複数の発話内容IDが対応付けられていてもよい。また、1つの発話内容IDに対して複数の誤認識訂正処理方法IDが対応付けられていてもよい。
なお、誤認識訂正処理方法選択部305は、図5、図6、図7及び図8に示すデータと入力音声の文字列又は単語列の出現頻度とに基づいて発話内容IDに対して誤認識訂正処理方法IDを自動で割り当てるような学習モデルを用いて、入力された発話内容を示す発話内容IDに対して誤認識訂正処理方法IDを自動で割り当ててもよい。
図12は、本開示の実施の形態1に係る誤認識訂正処理の手順を示すフローチャートである。誤認識訂正処理では、誤認識訂正処理方法IDに基づいて、音声認識結果に含まれる誤認識に対して誤認識訂正処理を実施する。
まず、ステップS401において、誤認識訂正部306は、誤認識訂正処理方法選択部305から誤認識訂正処理方法IDを取得する。
次に、ステップS402において、誤認識訂正部306は、データ格納部304に格納されている図8に示す誤認識訂正処理方法IDデータを参照し、誤認識訂正処理に必要な入力データとして音声特徴量が必要であるか否か判断する。入力データとして音声特徴量が必要であると判断した場合(ステップS402でYES)、ステップS403の処理に移行し、入力データとして音声特徴量が必要ではないと判断した場合(ステップS402でNO)、ステップS404の処理に移行する。
誤認識訂正処理に音声特徴量が必要となる場合とは、似た音韻の文字列又は単語列を含んだ発話、又は数字を含んだ発話等、前後の文字列又は単語列から誤認識していると判断することが困難な誤認識が起きた場合である。例えば、ユーザが「テレビ電源オン」と発話した結果、「テレビ電源オフ」と音声認識された場合、「テレビ電源オフ」はユーザがテレビの機器制御で発話する可能性が高い発話であるため、「オフ」が誤認識であることを前後の単語である「テレビ」及び「電源」からは判断することができない。そこで、誤認識訂正部306は、「オン」及び「オフ」の音声認識に特化させた音声認識エンジンに再度音声特徴量を入力することで、「テレビ電源オフ」の誤認識を「テレビ電源オン」に訂正することが可能となる。
図8に示すように、選択された誤認識訂正処理方法が音韻類似型誤認識訂正処理方法である場合、入力データとして音声特徴量が必要であり、選択された誤認識訂正処理方法がパラメータ特化型誤認識訂正処理方法である場合、入力データとして音声特徴量及び音声認識結果が必要であり、選択された誤認識訂正処理方法が文脈依存型誤認識訂正処理方法である場合、入力データとして音声認識結果が必要である。誤認識訂正部306は、選択された誤認識訂正処理方法に応じて、音声認識結果及び発話の音声特徴量の少なくとも一方を用いてテキストデータの誤認識を訂正する。
入力データとして音声特徴量が必要であると判断された場合、ステップS403において、誤認識訂正部306は、音声認識結果記憶部302から音声特徴量を取得する。
次に、音声特徴量が取得された後、又は入力データとして音声特徴量が必要ではないと判断された場合、ステップS404において、誤認識訂正部306は、音声認識結果記憶部302から音声認識結果である文字列又は単語列を取得する。
なお、ステップS403の処理に移行せず、ステップS404の処理で取得した音声認識結果のみを用いて誤認識を訂正する場合は、文脈情報と誤認識の出現傾向とを用いて誤認識を訂正することが可能となる。例えば、ユーザが「テレビ電源点けて」と発話し、「テレビ天元点けて」と音声認識された場合、「テレビ」と「点けて」と同時に出てくる単語列としては「天元」は不適切であり、「天元」は「電源」の誤認識として出現する傾向が高いという情報があれば、誤認識訂正部306は、「テレビ天元点けて」を「テレビ電源点けて」に訂正することが可能となる。
次に、ステップS405において、誤認識訂正部306は、ステップS401で取得した誤認識訂正処理方法IDに対応する誤認識訂正処理を誤認識訂正処理方法格納部307から呼び出す。
次に、ステップS406において、誤認識訂正部306は、ステップS404で取得した音声認識結果及び/又はステップS403で取得した音声特徴量を用いて、ステップS405で呼び出した誤認識訂正処理を実行する。ステップS402で入力データに音声特徴量が必要と判断された場合は、誤認識訂正部306は、ステップS403で受信した音声特徴量とステップS404で取得した音声認識結果とを用いて誤認識訂正処理を行ってもよいし、ステップS403で取得した音声特徴量のみを用いて誤認識訂正処理を行ってもよい。
次に、ステップS407において、通信部301は、ステップS406で誤認識を訂正した結果である誤認識訂正結果をサーバ2に送信する。
なお、本実施の形態1では、入力データとして音声特徴量が必要であると判断された場合、誤認識訂正部306は、音声認識結果記憶部302に記憶されている音声特徴量を取得しているが、本開示は特にこれに限定されない。音声特徴量が、サーバ2によって送信されず、音声認識結果記憶部302に記憶されていない場合、ステップS403において、通信部301は、サーバ2に音声特徴量を要求し、サーバ2から音声特徴量を受信してもよい。また、通信部301は、音声入力装置1に音声特徴量を要求し、音声入力装置1から音声特徴量を受信してもよい。
図13は、本開示の実施の形態1に係る機器制御判定処理の手順を示すフローチャートである。機器制御判定処理では、音声認識結果又は誤認識訂正結果に基づいて、どの様に機器を制御するかを判定する。
まず、ステップS501において、機器制御判定部204は、誤認識訂正装置3で音声認識結果に対して誤認識訂正処理が実行されたか否かを判断する。誤認識訂正装置3で音声認識結果に対して誤認識訂正処理が実行された場合、通信部201は、誤認識訂正結果を誤認識訂正装置3から受信し、誤認識訂正装置3で音声認識結果に対して誤認識訂正処理が実行されなかった場合、通信部201は、音声認識結果を誤認識訂正装置3から受信する。そのため、機器制御判定部204は、通信部201が誤認識訂正結果を誤認識訂正装置3から受信した場合、誤認識訂正処理が実行されたと判断し、通信部201が音声認識結果を誤認識訂正装置3から受信した場合、誤認識訂正処理が実行されていないと判断する。
誤認識訂正処理が実行されたと判断された場合(ステップS501でYES)、ステップS502の処理に移行し、誤認識訂正処理が実行されていないと判断された場合(ステップS501でNO)、ステップS503の処理に移行する。
誤認識訂正処理が実行されたと判断された場合、ステップS502において、機器制御判定部204は、誤認識訂正結果に対応する機器制御IDを機器制御ID判定用データ格納部205から呼び出す。
次に、ステップS503において、通信部201は、ステップS502で呼び出された機器制御IDと、誤認識訂正結果又は音声認識結果とを音声対話装置4に送信する。
誤認識訂正処理が実行されていないと判断された場合、ステップS504において、機器制御判定部204は、音声認識結果に対応する機器制御IDを機器制御ID判定用データ格納部205から呼び出す。
次に、ステップS505において、通信部201は、ステップS504で呼び出された機器制御IDと、音声認識結果とを音声対話装置4に送信する。
図14は、音声認識結果又は誤認識訂正結果から機器制御IDを判定するための機器制御ID判定用データの一例を示す図であり、図15は、機器制御IDの詳細な内容を記載した機器制御IDデータの一例を示す図である。
図14に示す機器制御ID判定データは、音声認識結果又は誤認識訂正結果と、音声認識結果又は誤認識訂正結果に対応した機器制御IDとを含む。図15に示す機器制御IDデータは、機器制御IDと、機器制御IDに対応した制御内容と、制御対象機器種別と、機器制御詳細とを含む。なお、機器制御ID判定用データ及び機器制御IDデータは音声対話装置4ごとに作成してもよい。
例えば、音声入力装置1に「テレビ電源点けて」という音声が入力され、サーバ2で「テレビ天元点けて」と音声認識され、誤認識訂正装置3で「テレビ電源点けて」と訂正された場合、図14の機器制御ID判定用データから機器制御ID「M001」が呼び出される。なお、1つの機器制御IDに対して複数の音声認識結果又は誤認識訂正結果が対応付けられていてもよい。これは、ユーザが音声入力によってテレビの電源を入れる指示を行う際に、例えば、「テレビ電源オン」と発話する場合もあれば、「テレビ電源点けて」と発話する場合もあり、同じ操作を意図していても発話表現が異なることが想定されるからである。
なお、機器制御判定部204は、図14及び図15に示すデータと入力音声の文字列又は単語列の出現頻度とに基づいて機器制御IDを自動で判定する学習モデルを用いて、入力された音声認識結果又は誤認識訂正結果に対して機器制御IDを自動で割り当ててもよい。
図16は、本開示の実施の形態1に係る音声制御システムにおいて、ユーザに音声認識結果及び誤認識訂正結果を提示する表示画面の一例を示す図であり、図17は、本開示の実施の形態1に係る音声制御システムにおいて、ユーザに誤認識訂正結果を提示する出力音声の一例を示す図である。
音声対話装置4は、音声認識結果として取得されたテキストデータ及び誤認識を訂正したテキストデータの少なくとも一方をユーザに通知してもよい。
音声認識結果に誤認識が生じ、誤認識を誤認識訂正装置3で訂正した場合、音声対話装置4は、ユーザに誤認識訂正処理が行われた旨を通知する。図16及び図17では、音声対話装置4の一例であるテレビの音量を音声入力により操作しているユーザに対して、誤認識訂正処理が行われたことを通知する例を示している。図16に示すように、音声対話装置4は、「テレビの怨霊+1」という誤認識を含んだ音声認識結果を表示画面上に表示する。その後、音声対話装置4は、「テレビの音量+1」という誤認識訂正処理を行った結果である誤認識訂正結果を表示画面上に表示する。また、図17に示すように、例えば、音声対話装置4は、テレビ又はリモコンのスピーカから「テレビの音量+1ですか」という誤認識訂正結果が正しいか否かを確認するための音声を出力してもよい。
なお、音声対話装置4は、音声認識結果の信頼度に応じて、誤認識訂正結果が正しいか否かを確認するための文字列を表示画面上に表示してもよい。また、音声対話装置4は、音声認識結果の信頼度に応じて、誤認識訂正結果が正しいか否かを確認するための音声をスピーカから出力してもよい。例えば、「テレビの怨霊+1」という音声認識結果の信頼度が閾値より低い場合、誤認識が含まれている可能性が高い。そのため、音声対話装置4は、誤認識訂正結果が正しいか否か確認するために、画面上に「テレビの音量+1ですか」という文字列を表示してもよいし、スピーカから「テレビの音量+1ですか」という音声を出力してもよい。
図18及び図19は、本開示の実施の形態1に係る音声制御システムにおける学習動作を説明するための図である。図18は、本開示の実施の形態1に係る音声制御システムにおいて、音声認識結果の誤認識を誤認識訂正装置で訂正することができずに機器制御が正しく行われなかった例を示す図であり、図19は、本開示の実施の形態1に係る音声制御システムにおいて、音声認識結果を学習することにより、音声認識結果の誤認識を誤認識訂正装置で訂正することができて機器制御が正しく行われた例を示す図である。
ユーザの発話に対する音声認識結果に生じた誤認識を1回目の誤認識訂正処理で誤認識訂正装置3が訂正できず、2回目の誤認識訂正処理で誤認識訂正装置3が誤認識を訂正できた場合、音声対話装置4は、誤認識訂正装置3の学習機能を用いて誤認識訂正処理が行われた旨をユーザに通知する。
音声対話装置4の一例であるテレビの音量を音声入力により操作しているユーザに対して、誤認識訂正処理の学習が行われる場合の例について説明する。図18において、ユーザが1回目に「テレビの音量+1」と発話し、「テレビの怨霊+1」と音声認識され、誤認識訂正装置3で誤認識訂正処理した結果も「テレビの怨霊+1」であった場合、テレビの音量制御は実施されない。この時、ユーザが再度同じ音声を発話したり、ユーザがリモコンで直接音量を操作したりした場合、誤認識訂正装置3は、「テレビの怨霊+1」が誤りであり、音量制御に訂正が必要であることを学習する。図19では、ユーザが2回目に「テレビの音量+1」と発話し、「テレビの怨霊+1」と音声認識され、1回目の間違いから「テレビの怨霊+1」が音量制御であると学習した結果、「テレビの怨霊+1」が「テレビの音量+1」に訂正されている。これにより、音声認識結果に誤認識を含んでいてもテレビの音量制御を実施することが可能となる。なお、必ずしも2回目で学習が完了するわけではなく、誤認識訂正装置3は、2回以上同じ誤認識を含む音声認識結果が出力された結果から学習を行ってもよい。
以上の処理を具体的な例について図10を用いて説明する。例えば、ユーザがテレビに対して「テレビ電源オン」と発話した場合を考える。ユーザが発話した音声入力が受け付けられ(ステップS1)、入力された音声に対して音声特徴量算出処理(ステップS2)が実行される。次に、発話コーパス格納部203に格納されている情報に基づいて受信した音声特徴量を文字列又は単語列に変換する音声認識処理(ステップS3)が実行され、「テレビ電源オフ」が音声認識結果として得られる。
次に、音声認識結果に基づいて発話内容が特定され(ステップS4)、特定された発話内容に基づいて誤認識訂正処理方法選択処理(ステップS5)が実行される。これにより、「テレビ電源オフ」の音声認識結果に対して音韻類似型誤認識訂正処理方法が選択される。次に、選択結果に基づき、音韻類似型誤認識訂正処理方法による誤認識訂正処理(ステップS6)が実行され、「テレビ電源オフ」が「テレビの電源オン」に訂正される。
次に、誤認識訂正結果に基づき、機器制御判定処理(ステップS7)が実行されることで、テレビの電源を点ける機器制御が行われる(ステップS8)。
次に、例えば、テレビの音量が不十分だと感じたユーザは再度「テレビ音量+1」と発話する。音声特徴量算出処理(ステップS2)から機器制御判定処理(ステップS7)までは1回目の発話と同様の処理が実行される。ここで、音声認識結果が「テレビ怨霊+1」であり、誤認識訂正結果が「テレビ音量+1」である場合、ユーザに誤認識訂正処理が行われたことを伝えるため、まず、表示画面上に誤認識を含んだ音声認識結果である「テレビの怨霊+1」という文字列が表示され、その後に誤認識訂正処理を行った結果である誤認識訂正結果である「テレビの音量+1」という文字列が表示される。
その結果、ユーザはテレビの機器制御を音声入力で行う際に、音声認識結果が誤認識を含んでいても、ユーザから事前に情報を取得することなく、誤認識を訂正し、機器制御を行うことが可能となる。
なお、本実施の形態1において、音声対話装置4は、複数の誤認識訂正処理方法の中からどの誤認識訂正処理方法が選択されたかをユーザに通知してもよい。
(実施の形態2)
図20は、本開示の実施の形態2に係る誤認識訂正装置の具体的な構成を示すブロック図である。誤認識訂正装置31は、図4に示す誤認識訂正装置3の構成に対し、第1誤認識訂正部313を加えるとともに、誤認識訂正部306に替えて第2誤認識訂正部314を備える。
図20に示す誤認識訂正装置31は、通信部301、音声認識結果記憶部302、発話内容特定部303、データ格納部304、誤認識訂正処理方法選択部305、誤認識訂正処理方法格納部307、第1誤認識訂正部313及び第2誤認識訂正部314を備える。なお、実施の形態2において、実施の形態1と同じ構成については同じ符号を付し、説明を省略する。
第1誤認識訂正部313は、所定の第1誤認識訂正処理方法(予備的誤認識訂正処理方法)を用いて、予備的にテキストデータの誤認識を訂正する。第1誤認識訂正部313は、誤認識訂正処理方法選択部305によって第2誤認識訂正処理方法を選択する前に所定の第1誤認識訂正処理方法で誤認識を訂正する。第1誤認識訂正部313は、予備的に誤認識を訂正する場合、テキストデータに含まれる単語のうち、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正する。誤認識訂正処理方法選択部305によって第2誤認識訂正処理方法を選択する前に、第1誤認識訂正部313によって音声認識結果の誤認識を訂正することで、誤った誤認識訂正処理方法が選択されることを低減することができる。
発話内容特定部303は、予備的に誤認識を訂正したテキストデータに基づき発話内容を特定する。
第2誤認識訂正部314は、誤認識訂正処理方法選択部305によって選択された第2誤認識訂正処理方法を用いて、音声認識結果(テキストデータ)の誤認識を訂正する。なお、第2誤認識訂正部314の構成は、実施の形態1の誤認識訂正部306の構成と同じである。
例えば、テレビの動作を制御する際に、「電源」が「天元」に変換される誤認識が高頻度で起こることが判明している場合、第1誤認識訂正部313は、文脈依存型誤認識訂正処理方法により音声認識結果に含まれる「天元」という単語を「電源」という単語に訂正する。これにより、ユーザが「テレビ電源オン」と発話し、「テレビ天元オフ」と音声認識された場合、第1誤認識訂正部313によって、音声認識結果が「テレビ電源オフ」に訂正されることで、誤認識訂正処理方法選択部305は、音韻類似型誤認識訂正処理方法を第2誤認識訂正処理方法として選択する。その結果、第2誤認識訂正部314は、音韻が類似している単語の訂正に優れた音韻類似型誤認識訂正処理方法を用いて誤認識を訂正することで「テレビ電源オフ」を「テレビ電源オン」に変換することが可能となる。
なお、第1誤認識訂正部313で用いられる第1誤認識訂正処理方法と、第2誤認識訂正部314で用いられる第2誤認識訂正処理方法とは、異なる誤認識訂正処理方法であってもよく、同じ誤認識訂正処理方法であってもよい。
また、本実施の形態2では、第1誤認識訂正部313は、予め決められた第1誤認識訂正処理方法を用いて、音声認識結果の誤認識を訂正しているが、本開示は特にこれに限定されない。発話内容特定部316は、音声認識結果に基づいて発話内容を特定し、誤認識訂正処理方法選択部305は、特定した発話内容に基づいて2つの誤認識訂正処理方法(第1誤認識訂正処理方法及び第2誤認識訂正処理方法)を選択してもよい。そして、第1誤認識訂正部313は、誤認識訂正処理方法選択部305によって選択された第1誤認識訂正処理方法を用いて、音声認識結果の誤認識を訂正してもよい。また、第2誤認識訂正部314は、誤認識訂正処理方法選択部305によって選択された第2誤認識訂正処理方法を用いて、第1誤認識訂正部313によって訂正された音声認識結果の誤認識を再度訂正してもよい。
また、本開示の実施の形態2に係る音声入力装置、サーバ及び音声対話装置の構成は、実施の形態1と同じであるので説明を省略する。また、本開示の実施の形態2に係る音声制御システムの動作についても、上記の誤認識訂正装置31の動作以外は、実施の形態1と同じであるので説明を省略する。
(実施の形態3)
図21は、本開示の実施の形態3に係る誤認識訂正装置の具体的な構成を示すブロック図である。誤認識訂正装置32は、図4に示す誤認識訂正装置3の構成に対し、履歴管理部315をさらに備える。
図21に示す誤認識訂正装置32は、通信部301、音声認識結果記憶部302、データ格納部304、誤認識訂正処理方法選択部305、誤認識訂正部306、誤認識訂正処理方法格納部307、履歴管理部315及び発話内容特定部316を備える。なお、実施の形態3おいて、実施の形態1と同じ構成については同じ符号を付し、説明を省略する。
履歴管理部315は、ユーザと音声制御システムとの対話履歴、又は機器制御履歴などの各種のログ情報を格納する。
発話内容特定部316は、ユーザの発話によって操作される機器の現在の状況を取得し、取得した前記機器の現在の状況に基づき発話内容を予測する。発話内容特定部316は、履歴管理部315に格納されたログ情報を参照してユーザの発話によって操作される機器の現在の状況を取得し、取得した機器の現在の状況に基づいてユーザの発話内容を予測する。
誤認識訂正処理方法選択部305は、複数の誤認識訂正処理方法の中から、発話内容特定部316によって予測された発話内容に応じた誤認識訂正処理方法を選択する。
例えば、発話内容特定部316は、ユーザがある発話を行った場合、履歴管理部315に格納されている対話履歴を参照してその発話の次に発話されることが多い発話の発話内容を特定する。そして、誤認識訂正処理方法選択部305は、特定した発話内容に適した誤認識訂正処理方法を選択する。
また、発話内容特定部316は、履歴管理部315に格納されている機器制御履歴を参照し、制御対象機器の電源が現在オフとなっていることを特定した場合、次に制御対象機器を制御するための発話内容は制御対象機器の電源をオンにすることであると予測する。そして、誤認識訂正処理方法選択部305は、予測された発話内容に適した誤認識訂正処理方法を選択する。
また、本開示の実施の形態3に係る音声入力装置、サーバ及び音声対話装置の構成は、実施の形態1と同じであるので説明を省略する。また、本開示の実施の形態3に係る音声制御システムの動作についても、上記の誤認識訂正装置32の動作以外は、実施の形態1と同じであるので説明を省略する。
(実施の形態4)
図22は、本開示の実施の形態4に係る誤認識訂正装置33の具体的な構成を示すブロック図である。誤認識訂正装置33は、図4に示す誤認識訂正装置3の構成に対し、第1誤認識訂正部313及び履歴管理部315を加えるとともに、誤認識訂正部306に替えて第2誤認識訂正部314を備える。
図22に示す誤認識訂正装置33は、通信部301、音声認識結果記憶部302、データ格納部304、誤認識訂正処理方法選択部305、誤認識訂正処理方法格納部307、第1誤認識訂正部313、第2誤認識訂正部314、履歴管理部315及び発話内容特定部316を備える。なお、実施の形態4において、実施の形態1〜実施の形態3と同じ構成については同じ符号を付し、説明を省略する。
履歴管理部315が格納する情報及び発話内容特定部316の動作は、前述の実施の形態3における履歴管理部315が格納する情報及び発話内容特定部316の動作と同様である。また、第1誤認識訂正部313及び第2誤認識訂正部314の動作は、前述の実施の形態2における第1誤認識訂正部313及び第2誤認識訂正部314の動作と同様である。
このような構成により、ユーザの発話によって操作される機器の現在の状況を取得し、取得した機器の現在の状況に基づいてユーザの発話内容を予測することが可能となるとともに、ユーザが発話した場合、音声認識結果に含まれる誤認識を所定の予備的誤認識訂正処理方法により事前に訂正することが可能になる。
なお、本開示の実施の形態4に係る音声入力装置、サーバ及び音声対話装置の構成は、実施の形態1と同じであるので説明を省略する。また、本開示の実施の形態4に係る音声制御システムの動作についても、上記の誤認識訂正装置33の動作以外は、実施の形態1と同じであるので説明を省略する。
また、本実施の形態1〜4では、日本語で発話された音声に対する音声認識結果の誤認識を訂正しているが、本開示は特にこれに限定されず、英語及び中国語などの日本語以外の言語で発話された音声に対する音声認識結果の誤認識を訂正してもよい。
本開示に係る誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムは、音声認識結果の誤認識を削減することができ、ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラムとして有用である。
1 音声入力装置
2 サーバ
3,31,32,33 誤認識訂正装置
4 音声対話装置
5 ネットワーク
101 音声取得部
102 音声検出部
103 音声区間切り出し部
104 特徴量算出部
105 通信部
201 通信部
202 音声認識部
203 発話コーパス格納部
204 機器制御判定部
205 機器制御ID判定用データ格納部
301 通信部
302 音声認識結果記憶部
303,316 発話内容特定部
304 データ格納部
305 誤認識訂正処理方法選択部
306 誤認識訂正部
307 誤認識訂正処理方法格納部
313 第1誤認識訂正部
314 第2誤認識訂正部
315 履歴管理部
401 通信部
402 機器制御部

Claims (17)

  1. ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置における誤認識訂正方法であって、
    前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定し、
    前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた誤認識訂正処理方法を選択し、
    選択した前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する、
    誤認識訂正方法。
  2. 前記複数の誤認識訂正処理方法は、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のいずれかに変換する音韻類似型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、音韻が類似する複数の単語のうちパラメータに関する単語に変換するパラメータ特化型誤認識訂正処理方法と、誤認識を訂正する対象となる単語を、文脈に応じた他の単語に変換する文脈依存型誤認識訂正処理方法とのうちの少なくとも1つを含む、
    請求項1記載の誤認識訂正方法。
  3. 前記誤認識訂正処理方法の選択において、前記発話内容を識別する情報と前記誤認識訂正処理方法を識別する情報とが対応付けられたテーブルを参照することにより、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択する、
    請求項1又は2記載の誤認識訂正方法。
  4. さらに、前記ユーザの発話によって操作される機器の現在の状況を取得し、
    取得した前記機器の現在の状況に基づき前記発話内容を予測し、
    前記複数の誤認識訂正処理方法の中から、予測した前記発話内容に応じた前記誤認識訂正処理方法を選択する、
    請求項1又は2記載の誤認識訂正方法。
  5. さらに、特定した前記発話内容に基づき、誤認識を訂正する必要があるか否かを判断し、
    誤認識を訂正する必要があると判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択し、
    誤認識を訂正する必要がないと判断した場合、前記複数の誤認識訂正処理方法の中から、特定した前記発話内容に応じた前記誤認識訂正処理方法を選択しない、
    請求項1又は2記載の誤認識訂正方法。
  6. 前記発話内容が、前記ユーザの発話によって操作される機器の制御に関する場合、誤認識を訂正する必要があると判断する、
    請求項5記載の誤認識訂正方法。
  7. 前記発話内容が雑談に関する場合、誤認識を訂正する必要がないと判断する、
    請求項5又は6記載の誤認識訂正方法。
  8. 誤認識する頻度が所定値より高い文字列が前記テキストデータに含まれる場合、誤認識を訂正する必要があると判断する、
    請求項5記載の誤認識訂正方法。
  9. 前記誤認識する頻度が所定値より高い文字列は、前記ユーザの発話によって操作される機器の操作に用いられるパラメータである、
    請求項8記載の誤認識訂正方法。
  10. 前記パラメータは、数値である、
    請求項9記載の誤認識訂正方法。
  11. 前記誤認識する頻度が所定値より高い単語列は、予め記憶されている単語列と音韻が類似する単語列である、
    請求項8記載の誤認識訂正方法。
  12. 選択した前記誤認識訂正処理方法に応じて、前記音声認識結果及び前記発話の音声特徴量の少なくとも一方を用いて前記テキストデータの誤認識を訂正する、
    請求項1記載の誤認識訂正方法。
  13. さらに、前記音声認識結果として取得された前記テキストデータ及び誤認識を訂正したテキストデータの少なくとも一方を前記ユーザに通知する、
    請求項1記載の誤認識訂正方法。
  14. さらに、所定の予備的誤認識訂正処理方法を用いて、予備的に前記テキストデータの誤認識を訂正し、
    予備的に誤認識を訂正したテキストデータに基づき前記発話内容を特定する、
    請求項1〜13のいずれか1項に記載の誤認識訂正方法。
  15. 予備的に誤認識を訂正する場合、前記テキストデータに含まれる単語のうち、誤認識が所定値より高い頻度で発生する単語に対して予備的に誤認識を訂正する、
    請求項14記載の誤認識訂正方法。
  16. ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正装置であって、
    前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、
    前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、
    選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部と、
    を備える誤認識訂正装置。
  17. ユーザの発話に対する音声認識結果の誤認識を訂正する誤認識訂正プログラムであって、
    前記コンピュータを、
    前記音声認識結果として取得された単語列からなるテキストデータに基づき発話内容を特定する特定部と、
    前記テキストデータの誤認識を訂正するための複数の誤認識訂正処理方法の中から、特定された前記発話内容に応じた誤認識訂正処理方法を選択する選択部と、
    選択された前記誤認識訂正処理方法を用いて、前記テキストデータの誤認識を訂正する訂正部として機能させる、
    誤認識訂正プログラム。
JP2016050652A 2016-03-15 2016-03-15 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム Active JP6675078B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016050652A JP6675078B2 (ja) 2016-03-15 2016-03-15 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
CN201611203883.1A CN107204190A (zh) 2016-03-15 2016-12-23 误识别订正方法、误识别订正装置以及误识别订正程序
US15/448,688 US10535337B2 (en) 2016-03-15 2017-03-03 Method for correcting false recognition contained in recognition result of speech of user
EP17160745.0A EP3220388A1 (en) 2016-03-15 2017-03-14 Method for correcting false recognition contained in recognition result of speech of user

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016050652A JP6675078B2 (ja) 2016-03-15 2016-03-15 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム

Publications (2)

Publication Number Publication Date
JP2017167247A true JP2017167247A (ja) 2017-09-21
JP6675078B2 JP6675078B2 (ja) 2020-04-01

Family

ID=58347112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016050652A Active JP6675078B2 (ja) 2016-03-15 2016-03-15 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム

Country Status (4)

Country Link
US (1) US10535337B2 (ja)
EP (1) EP3220388A1 (ja)
JP (1) JP6675078B2 (ja)
CN (1) CN107204190A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984529A (zh) * 2018-07-16 2018-12-11 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
JP2020016939A (ja) * 2018-07-23 2020-01-30 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム
JP2020046546A (ja) * 2018-09-19 2020-03-26 Kddi株式会社 情報処理システム及び情報処理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN109712616B (zh) * 2018-11-29 2023-11-14 平安科技(深圳)有限公司 基于数据处理的电话号码纠错方法、装置及计算机设备
TWI731493B (zh) * 2019-12-02 2021-06-21 國立成功大學 多語語音辨識及主題語意分析方法與裝置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2004264464A (ja) * 2003-02-28 2004-09-24 Techno Network Shikoku Co Ltd 特定分野辞書を利用した音声認識誤り訂正システム
JP2011186491A (ja) * 2003-11-21 2011-09-22 Nuance Communications Austria Gmbh テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6629074B1 (en) * 1997-08-14 2003-09-30 International Business Machines Corporation Resource utilization indication and commit mechanism in a data processing system and method therefor
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US6728676B1 (en) * 2000-10-19 2004-04-27 International Business Machines Corporation Using speech recognition to improve efficiency of an inventory task
CN1123863C (zh) * 2000-11-10 2003-10-08 清华大学 基于语音识别的信息校核方法
US7395205B2 (en) * 2001-02-13 2008-07-01 International Business Machines Corporation Dynamic language model mixtures with history-based buckets
JP2003140691A (ja) 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US8275618B2 (en) * 2004-12-22 2012-09-25 Nuance Communications, Inc. Mobile dictation correction user interface
JP4542974B2 (ja) 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US8204748B2 (en) * 2006-05-02 2012-06-19 Xerox Corporation System and method for providing a textual representation of an audio message to a mobile device
US20090228273A1 (en) * 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
JP2010256498A (ja) 2009-04-22 2010-11-11 Nec Corp 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
US9171546B1 (en) * 2011-03-29 2015-10-27 Google Inc. Performing functions based on commands in context of telephonic communication
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9483459B1 (en) * 2012-03-31 2016-11-01 Google Inc. Natural language correction for speech input
US20140122069A1 (en) * 2012-10-30 2014-05-01 International Business Machines Corporation Automatic Speech Recognition Accuracy Improvement Through Utilization of Context Analysis
US9977779B2 (en) * 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
WO2014171144A1 (ja) * 2013-04-19 2014-10-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 家電機器の制御方法、家電機器制御システム、及びゲートウェイ
CN104123125A (zh) * 2013-04-26 2014-10-29 腾讯科技(深圳)有限公司 网页资源的获取方法及装置
WO2015069994A1 (en) * 2013-11-07 2015-05-14 NetaRose Corporation Methods and systems for natural language composition correction
US9514743B2 (en) * 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2004264464A (ja) * 2003-02-28 2004-09-24 Techno Network Shikoku Co Ltd 特定分野辞書を利用した音声認識誤り訂正システム
JP2011186491A (ja) * 2003-11-21 2011-09-22 Nuance Communications Austria Gmbh テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984529A (zh) * 2018-07-16 2018-12-11 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN108984529B (zh) * 2018-07-16 2022-06-03 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
JP2020016939A (ja) * 2018-07-23 2020-01-30 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム
JP7098463B2 (ja) 2018-07-23 2022-07-11 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム
JP2020046546A (ja) * 2018-09-19 2020-03-26 Kddi株式会社 情報処理システム及び情報処理方法

Also Published As

Publication number Publication date
US10535337B2 (en) 2020-01-14
EP3220388A1 (en) 2017-09-20
CN107204190A (zh) 2017-09-26
JP6675078B2 (ja) 2020-04-01
US20170270909A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
US9721572B2 (en) Device control method and electric device
EP3039531B1 (en) Display apparatus and controlling method thereof
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2010066519A (ja) 音声対話装置、音声対話方法、および音声対話プログラム
JP5119055B2 (ja) 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
WO2015098109A1 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
JP4960596B2 (ja) 音声認識の方法およびシステム
KR102411619B1 (ko) 전자 장치 및 그 제어 방법
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JPWO2007111162A1 (ja) テキスト表示装置、テキスト表示方法およびプログラム
JP2016014967A (ja) 情報管理方法
WO2019142418A1 (ja) 情報処理装置および情報処理方法
JP2006208486A (ja) 音声入力装置
WO2019163242A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2009251019A (ja) 音声認識装置
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US11527247B2 (en) Computing device and method of operating the same
US20080256071A1 (en) Method And System For Selection Of Text For Editing
JP2007272123A (ja) 音声操作システム
JP6897678B2 (ja) 情報処理装置及び情報処理方法
JP2008096577A (ja) Av機器に対する音声操作システム
KR20160012233A (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
CN116895275A (zh) 对话系统及其控制方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200220

R150 Certificate of patent or registration of utility model

Ref document number: 6675078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150