JP2011232521A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2011232521A JP2011232521A JP2010102253A JP2010102253A JP2011232521A JP 2011232521 A JP2011232521 A JP 2011232521A JP 2010102253 A JP2010102253 A JP 2010102253A JP 2010102253 A JP2010102253 A JP 2010102253A JP 2011232521 A JP2011232521 A JP 2011232521A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice data
- data
- registration
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】特定話者方式において音声登録作業を軽減しつつ、認識率を向上させる。
【解決手段】音声取得部10は、特定話者により発声された言葉を音声信号として取得する。解析部21は、音声取得部10により取得された音声信号を解析し、所定の音声データに変換する。登録データ生成部22は、音声取得部10および解析部21を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成する。比較部24は、特定話者により発声された言葉から生成された入力音声データに対して、保持部23に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出する。検証部25は、比較部24による比較結果を検証し、入力音声データと、所定の設定値を超える一致度を持つ登録音声データを抽出する。報知部30は、検証部25により抽出された登録音声データをその一致度を示す情報とともに、ユーザに報知する。
【選択図】図5
【解決手段】音声取得部10は、特定話者により発声された言葉を音声信号として取得する。解析部21は、音声取得部10により取得された音声信号を解析し、所定の音声データに変換する。登録データ生成部22は、音声取得部10および解析部21を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成する。比較部24は、特定話者により発声された言葉から生成された入力音声データに対して、保持部23に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出する。検証部25は、比較部24による比較結果を検証し、入力音声データと、所定の設定値を超える一致度を持つ登録音声データを抽出する。報知部30は、検証部25により抽出された登録音声データをその一致度を示す情報とともに、ユーザに報知する。
【選択図】図5
Description
本発明は、特定話者方式の音声認識装置に関する。
音声認識には大別して、事前にユーザの音声を登録する必要がある特定話者方式と、その必要がない不特定話者方式(たとえば、特許文献1参照)がある。前者は事前の音声登録作業が必要であるが、一般的に後者より認識率は高い。一方、後者は事前の音声登録作業が必要ないが、一般的に前者より認識率が低くなる。すなわち、両者はトレードオフの関係にある。
したがって、特定話者方式において音声登録作業を削減することができれば、特定話者方式の音声認識技術の普及にとって大きな前進となる。また、当然のことながら音声認識技術の普及には、より一層の認識率向上が求められる。
本発明はこうした状況に鑑みなされたものであり、その目的は、特定話者方式において音声登録作業を軽減しつつ、認識率の向上を支援する技術を提供することにある。
本発明のある態様の音声認識装置は、特定話者により発声された言葉を音声信号として取得する音声取得部と、音声取得部により取得された音声信号を解析し、所定の音声データに変換する解析部と、音声取得部および解析部を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成する登録データ生成部と、登録データ生成部により生成された登録データを保持するための保持部と、特定話者により発声された言葉から音声取得部および解析部を介して生成された入力音声データと、保持部に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出する比較部と、比較部による比較結果を検証し、入力音声データに対して、所定の設定値を超える一致度を持つ登録音声データを抽出する検証部と、検証部により抽出された登録音声データをその一致度を示す情報とともに、ユーザに報知する報知部と、を備える。
本発明の別の態様もまた、音声認識装置である。この装置は、特定話者により発声された言葉を音声信号として取得する音声取得部と、音声取得部により取得された音声信号を解析し、所定の音声データに変換する解析部と、音声取得部および解析部を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成する登録データ生成部と、登録データ生成部により生成された登録データを保持するための保持部と、保持部に保持される複数の登録データの登録音声データ間の一致度を算出する比較部と、登録音声データ間の一致度が所定の基準値より高い組み合わせが存在するか否かを検証し、存在する場合、それら登録音声データの少なくとも一つの再登録を促すガイダンスを生成する検証部と、検証部により生成されたガイダンスを報知する報知部と、を備える。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、特定話者方式において音声登録作業を軽減しつつ、認識率を向上させることができる。
まず、本発明の実施の形態を詳細に説明するまえに不特定話者方式と特定話者方式の違いを具体例を挙げて説明する。
図1は、不特定話者方式における、制御コマンドと標準データとの関連付け、標準データと話者1の認識音声データとの対応関係および標準データと話者2の認識音声データとの対応関係を示す図である。制御コマンドA〜Zに対応する標準データを「えい」〜「ぜっと」で表している。不特定話者方式では、標準データは統計的手法により生成される。すなわち、不特定多数の話者からそれぞれサンプリングされた音声の特徴を学習用データとして、それらの音声の特徴に統計的処理を施すことにより、標準データが生成される。
ここでは、アルファベットの一文字単位で標準データを生成する例を描いているが、日本語の仮名の一文字単位で生成してもよい。これらの標準データが登録される場合、音声認識による一文字単位の文字入力などが可能となる。
また、標準データとして意味を持った単語や文単位で登録してもよい。特定のアプリケーションに限定して音声認識が使用される場合、そのアプリケーションに必要な範囲の単語や文が登録されていればよい。たとえば、ある装置の音声認識操作の場合、その装置で実行可能な「機能名」や、「開始」、「終了」、「進め」、「戻れ」などの指示が登録されていればよい。たとえば、メモリダイヤル機能では、人物の名前や会社名が登録されていればよい。
図1では、話者1と話者2の二人の話者が一つの音声認識装置を使用する例を想定している。話者1は「しー」と「でぃー」の発音が標準データとずれている。話者1が「しー」と意識して発音している「しぃー」は、標準データの「しー」と「でぃー」の両方に近い音を持つ。話者2は「えい」の発音が標準データとずれている。
図2は、図1に示した例において、標準データと話者1の認識音声データとの関係および標準データと話者2の認識音声データとの関係を可視的に表現した図である。標準データを中心に描かれた円RSa、RSb、RSc、RSdは、標準データに対する認識音声データの一致率が所定の値(たとえば、60%)にある範囲を示したものである。円RSa、RSb、RSc、RSdの中心に近いほど、標準データと認識音声データとの一致率が高いことを示す。なお、太線の平行四辺形が話者1の認識音声データを示し、破線の平行四辺形が話者2の認識音声データを示す。
「えい」について、話者2が「えい」と意識して発音している「えいっ」は、「えい」の円RSaの境界線上に位置する。これは両者の一致率が低く、話者2の「えいっ」は「えい」と認識されない可能性が比較的高いことを示している。話者1の「えい」は、「えい」の円RSaの中心付近に位置する。話者1の「えい」は「えい」と認識される可能性が高いことを示している。
「びー」について、話者1および話者2の「びー」が、「びー」の円RSbの中心付近にそれぞれ位置し、話者1および話者2の「びー」は「びー」と認識される可能性が高いことを示している。
「しー」について、話者1が「しー」と意識して発音している「しぃー」は、「しー」の円RScの境界線上に位置する。これは両者の一致率が低く、話者1の「しぃー」は「しー」と認識されない可能性が比較的高いことを示している。また、この話者1の「しぃー」は同時に「でぃー」の円RSdの境界線上にも位置する。したがって、話者1の「しぃー」は「でぃー」と誤認識される可能性もある。話者2の「しー」は、「しー」の円RScの中心付近に位置する。話者2の「しー」は「しー」と認識される可能性が高いことを示している。
「でぃー」について、話者1が「でぃー」と意識して発音している「でぇー」は、「でぃー」の円RSdの外に位置する。したがって、話者1の「でぇー」は「でぃー」と認識されない。話者2の「でぃー」は、「でぃー」の円RSdの中心付近に位置する。話者2の「でぃー」は「でぃー」と認識される可能性が高いことを示している。
不特定話者方式では、基本的に登録された標準データの位置を変更することができない。したがって、認識率を向上させたり、誤認識を抑制するには言葉そのものを置き換えるための再登録が必要となる。図1、2の例では、話者1のために「しー」、「でぃー」を登録し直す必要がある。たとえば、「でぃー」を「でるた」に変更する。この場合、話者1にとっては認識率が向上するが、話者2にとっては話者1に合わせた発音に修正する必要があり、不便である。話者2のために「えい」を登録し直す場合、話者1にとって認識率が低下するか、発音を話者2に合わせる必要がある。いずれの場合も話者1にとって不便な結果となる。
図3は、特定話者方式における、制御コマンドと話者1、2それぞれの登録音声データとの関連付け、話者1の登録音声データと話者1の認識音声データとの対応関係および話者2の登録音声データと話者2の認識音声データとの対応関係を示す図である。特定話者方式では、話者の認識音声データそのものが登録音声データとして登録される。特定話者方式では、不特定話者方式のように話者1と話者2間の発音の差異は問題とならない。
図4は、図3に示した例において、話者1の登録音声データと話者1の認識音声データとの関係および話者2の登録音声データと話者2の認識音声データとの関係を可視的に表現した図である。話者1の登録音声データを中心に描かれた実線の円R1a、R1b、R1c、R1dは、話者1の登録音声データに対する話者1の認識音声データの一致率が所定の値にある範囲を示したものである。同様に、話者2の登録音声データを中心に描かれた破線の円R2a、R2b、R2c、R2dは、話者2の登録音声データに対する話者2の認識音声データの一致率が所定の値にある範囲を示したものである。なお、「びー」については話者1の登録音声データと話者2の登録音声データがほぼ同じデータであることを示している。
特定話者方式では、登録音声データの位置そのものを変更することができ、かつ登録音声データと認識音声データとの距離も、発声方法を変えることなどによって調整が可能である。以下、この知見を前提に本発明の実施の形態について詳細に説明する。
(実施の形態1)
図5は、本発明の実施の形態1に係る音声認識装置100の構成を示すブロック図である。本実施の形態では、音声認識装置100として、携帯電話機やスマートフォンなどの音声認識機能付きの携帯端末装置を例に説明する。実施の形態1では、音声認識時の処理を主に扱う。
図5は、本発明の実施の形態1に係る音声認識装置100の構成を示すブロック図である。本実施の形態では、音声認識装置100として、携帯電話機やスマートフォンなどの音声認識機能付きの携帯端末装置を例に説明する。実施の形態1では、音声認識時の処理を主に扱う。
実施の形態1に係る音声認識装置100は、音声取得部10、制御部20、報知部30および操作部40を備える。制御部20は、解析部21、登録データ生成部22、保持部23、比較部24、検証部25、コマンド実行部26および通信部27を含む。
制御部20の構成は、ハードウェア的には、任意のプロセッサのCPU、メモリ、その他のLSIで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。
音声取得部10は、特定話者により発声された言葉を音声信号として取得する。ここで、言葉とは上述したように一文字単位であってもよいし、単語単位であってもよいし、文単位であってもよい。以下の説明では、単語単位で言葉が取得される例を説明する。
音声取得部10は図示しないマイクおよびA/D変換器などの信号処理回路を含み、集音したアナログ音声信号をデジタル音声信号に変換して解析部21に出力する。
解析部21は、音声取得部10により取得された音声信号を解析し、所定の音声データに変換する。解析部21は、一般的な手法を用いて音声信号を解析する。たとえば、解析部21は、取得された音声信号を8バンドの周波数帯域に分割し、それぞれの帯域の振幅から特徴値を取得し、それら特徴値自体またはそれら特徴値に統計的処理が施されて算出された特徴値を、上記音声データとして生成する。また、8バンド以外の複数の周波数帯域に分割し、それぞれの帯域の振幅から特徴値を取得してもよい。また、周波数領域に変換せずに、音声信号のピーク値の振幅および発声時間などから特徴値を取得してもよい。
登録データ生成部22は、音声取得部10および解析部21を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成し、保持部23に登録する。保持部23は、登録データ生成部22により生成された登録データを保持する。登録データが生成される際、登録データ生成部22には解析部21から音声データが入力されるとともに、操作部40からユーザ操作に起因してその音声データに関連付けられるべき操作内容を示す情報が入力される。登録データ生成部22はその操作内容を示す情報をコマンドに変換し、そのコマンドと上記音声データを関連づけて登録データを生成する。
比較部24は、特定話者(以下適宜、ユーザと表記する)により発声された言葉から音声取得部10および解析部21を介して生成された入力音声データと、保持部23に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出する。比較部24は一般的な手法を用いて、両音声データの一致度を算出することができる。たとえば、周波数帯域ごとの特徴値の絶対値差分を算出し、それらの合計値をもとに一致度を算出してもよい。この場合、この合計値が低いほど、一致度が高く算出される。
検証部25は、比較部24による比較結果を検証し、上記入力音声データに対して、所定の設定値を超える一致度(たとえば、60%)を持つ登録音声データを抽出する。その際、抽出する数に制限を設けてもよい。たとえば、所定の設定値を超える上位五つの登録音声データを抽出してもよい。検証部25は、それら抽出した情報を画像情報や音声情報に変換し、報知部30に出力する。なお、検証部25による検証は、操作部40からのユーザ操作による検証指示を契機として実行されてもよい。
コマンド実行部26は、検証部25による検証結果に応じて、上記入力音声データに対応する登録音声データを特定し、その登録音声データに関連付けられたコマンドを実行する。コマンド実行部26は、当該登録音声データとして、上記入力音声データと最も一致率が高い登録音声データを自動的に選択してもよいし、ユーザ確認操作を経た後に選択してもよい。後者の場合、ユーザ操作により最も一致率が高い登録音声データではない登録音声データが選択される場合もあり得る。
報知部30は、検証部25により抽出された登録音声データをその一致度を示す情報とともに、ユーザに報知する。報知部30は図示しないディスプレイおよびD/A変換器などの信号処理回路を含む表示部であってもよいし、図示しないスピーカおよびD/A変換器などの信号処理回路を含む音声合成部であってもよいし、その両方であってもよい。以下、本明細書では報知部30として表示部30aが採用される例を説明する。
図6は、実施の形態1に係る表示部30aに表示される画面350の一例を示す図(その1)である。ここでは、ユーザが「わたなべさん」の電話にメモリダイヤル機能により発呼する例を説明する。画面350内には、認識語候補欄351、スコア欄352、メッセージ欄353、OKボタン354およびNGボタン355が表示される。
上記画面350内には、比較部24および検証部25による比較検証の結果、ユーザにより発声された「わたなべさん」と一致率が近い候補として、認識語候補欄351に「わたなべさん」、「わたべさん」および「たなべさん」の三人の候補が挙げられている。それぞれの一致率を示すスコアとして、スコア欄352に「85点」、「81点」および「62点」と表示されている。また、メッセージ欄353には「「わたなべさん」でよろしいでしょうか。」との確認メッセージが表示されている。ユーザがOKボタン354を押下または選択すると、「わたなべさん」に発呼されることになる。
図7は、実施の形態1に係る表示部30aに表示される画面350の一例を示す図(その2)である。図7は、ユーザにより発声される言葉と、ユーザが意図する登録語との一致率を示すスコアを向上させるために、ユーザがイントネーションの変更など発声方法を変えて、再度、「わたなべさん」と発声した後の、検証結果を表示した図である。この発声方法の変更により、登録音声データとしての「わたなべさん」との一致率を示すスコアが「85点」から「95点」に上昇し、登録時の発声と近い発声ができたことを示している。このように、ユーザの登録時の音声と、音声認識機能使用時の音声との一致率を示すスコアを表示し、ユーザにフィードバックすることにより、できるだけ登録時の音声に近い音声で発声するようユーザに学習意欲を与えることができる。
図5に戻る。検証部25は、上記入力音声データと最も一致度が高い登録音声データの一致度と、上記入力音声データとその登録音声データ以外の一致度との差分が、所定の基準値(たとえば、20%)より小さい登録音声データが存在する場合、その登録音声データまたは入力音声データに対応する登録音声データの再登録を促すガイダンスを生成する。表示部30aは、そのガイダンスを画面に表示する。
比較部24は、ユーザにより発声された再登録用の言葉から音声取得部10および解析部21を介して生成された再登録用の入力音声データと、保持部23に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出する。検証部25は、再登録用の入力音声データと、所定の設定値を超える一致度を持つ登録音声データを抽出する。表示部30aは、検証部25により抽出された登録音声データをその一致度を示す情報とともに、画面に表示する。
図8は、実施の形態1に係る表示部30aに表示される画面350の一例を示す図(その3)である。ここでは、ユーザにより発声された「わたなべさん」に対する、第1登録語候補である「わたなべさん」のスコアと、第2登録語候補である「わたべさん」のスコアの差異が小さい。図8では4点差しか存在しない。これは、登録音声データとしての「わたなべさん」と、登録音声データとしての「わたべさん」との音声データ上の差異が小さいことを意味している。また、両者の距離が近いと考えてもよい。これらの登録音声データが併存する場合、誤検出が発生しやすくなる。そこで、検証部25はメッセージ欄353に「「わたべさん」か「わたなべさん」を再登録してください。」とのガイダンスを表示させる。ここでは、ユーザが上記ガイダンスに従い、「わたべさん」を、その発声方法を変更して再登録したこととする。
図9は、実施の形態1に係る表示部30aに表示される画面350の一例を示す図(その4)である。図9は、「わたべさん」の再登録後において、ユーザが「わたなべさん」と発声した後の、検証結果を表示した図である。ユーザが発声した「わたなべさん」に対する、第1登録語候補である「わたなべさん」のスコアと、第2登録語候補である「わたべさん」のスコアとの差異が4点(図6、8参照)から21点(図9参照)に広がり、登録音声データとしての「わたなべさん」と、登録音声データとしての「わたべさん」との音声データ上の差異が大きくなったことを示している。すなわち、両者の距離が離れたことを意味する。ここで、上記スコアの差異が所定の基準点(たとえば、20点)を下回る場合、当該基準点を超えるまで、繰返し再登録作業が要求されるように設計されてもよい。
再び、図5に戻る。通信部27は、ユーザ操作に起因して操作部40から、保持部23に保持されている登録データの転送指示を受け付けると、所定の通信手段を介して他の機器に転送する。たとえば、他の機器は、携帯電話機、スマートフォン、携帯型音楽プレーヤ、PC、ゲーム機、ICレコーダ、家電機器(テレビやエアコンなど)のリモコン装置などが挙げられる。したがって、携帯電話機やスマートフォンを機種変更した場合も、上記登録データが辞書データとして新機種に引き継がれることになる。また、上記通信手段は、有線または無線を問わず、様々な伝送規格を用いることができる。たとえば、USBケーブル接続、無線LAN、赤外線通信などが挙げられる。また、上記通信手段には、記録媒体によるデータ移動も含まれる。たとえば、各種メモリカード、USBメモリなどによるデータ移動も含まれる。また、通信部27は他の機器から転送される、登録された登録データを取得し、保持部23に登録することができる。したがって、本実施の形態に係る音声認識装置100では、新たな音声登録作業を不要とすることができる。
以上説明したように本発明の実施の形態1によれば、特定話者方式において音声登録作業を軽減しつつ、認識率の向上を支援することができる。すなわち、ユーザが発声方法を学習することにより、入力音声データと登録音声データとの一致率が自然に高まり、音声データの再登録作業も軽減される。
不特定話者方式における音声認識信頼度(スコア)の計算(たとえば、上記特許文献1参照)は、認識音声データに対する比較対象を標準データとしている。これに対し、本実施の形態のように特定話者方式におけるスコア計算は、認識音声データに対する比較対象をユーザ自身の登録音声データとしている。この登録音声データは、そのユーザの特徴(たとえば、イントネーション、声の高さ、声の大きさ)を反映可能である。
したがって、環境要因をのぞけば、登録時と認識時の差を、著しく縮小することが原理的に可能である。その差をスコアの表示方法の工夫などにより、ユーザにフィードバックできれば、認識時の発声方法などを登録時の状況に近づけることが可能となる。これによれば、ユーザ自身の高い学習効果を期待できる音声認識システムが構築可能となる。
(実施の形態2)
つぎに、本発明の実施の形態2に係る音声認識装置100について説明する。実施の形態2では、主に音声登録時の処理を扱う。実施の形態2に係る音声認識装置100の構成は、図5に示した実施の形態1に係る音声認識装置100と同様であるため省略する。以下、実施の形態1と異なる動作を中心に説明する。
つぎに、本発明の実施の形態2に係る音声認識装置100について説明する。実施の形態2では、主に音声登録時の処理を扱う。実施の形態2に係る音声認識装置100の構成は、図5に示した実施の形態1に係る音声認識装置100と同様であるため省略する。以下、実施の形態1と異なる動作を中心に説明する。
比較部24は、保持部23に保持される複数の登録データの登録音声データ間の一致度を算出する。この登録音声データ間の一致度の算出は、ユーザによる音声登録のたびに実行されてもよいし、保持部23に保持される登録語の数が所定数(たとえば、10個単位)を超えるたびに実行されてもよいし、ユーザ操作に起因して実行されてもよい。
検証部25は、登録音声データ間の一致度が所定の基準値より高い組み合わせが存在するか否かを検証し、存在する場合、それら登録音声データの少なくとも一つの再登録を促すガイダンスを生成する。表示部30aは、検証部25により生成されたガイダンスを画面に表示する。
そのガイダンスに従いユーザにより再登録用の言葉が発声された場合、比較部24は、その再登録用の言葉から音声取得部10および解析部21を介して生成された再登録用の入力音声データと、それ以外の登録音声データとの一致度を算出する。検証部25は、当該一致度が基準値より低くなったか否かを検証する。表示部30aは、その検証結果を画面に表示する。
図10は、実施の形態2に係る表示部30aに表示される画面360の一例を示す図(その1)である。ここでは、ユーザが「わたなべさん」の電話番号をメモリダイヤル機能に関連づけて自己の携帯電話機に登録する例を説明する。画面360内には、類似候補欄361、スコア欄362、メッセージ欄363、OKボタン364およびおよびNGボタン365が表示される。
新たに登録する「わたなべさん」と既登録の「わたべさん」との音声データ上の一致度を示すスコアは85点であり、所定の基準点(たとえば、80点)より大きい数値である。すなわち、両者の差異が小さい状況である。一方、新たに登録する「わたなべさん」と既登録の「たなべさん」との一致度を示すスコアは62点であり、上記基準点より小さい数値である。すなわち、両者の差異は比較的大きい状況である。
そこで、検証部25はメッセージ欄363に「「わたべさん」か「わたなべさん」を再登録してください。」とのガイダンスを表示させる。ここでは、ユーザが上記ガイダンスに従い、「わたべさん」を、その発声方法を変更して再登録したこととする。
図11は、実施の形態2に係る表示部30aに表示される画面360の一例を示す図(その2)である。図11は、「わたべさん」の再登録後における検証結果を表示した図である。新たに登録する「わたべさん」と既登録の「わたなべさん」との音声データ上の一致度を示すスコアは64点であり、上記基準点を満たす数値である。一方、新たに登録する「わたべさん」と既登録の「たなべさん」との一致度を示すスコアは67点であり、上記基準点を満たす数値である。したがって、新たに登録された「わたなべさん」はいずれの条件もクリアしており、検証部25はメッセージ欄363に「「わたべさん」を再登録しました。」とのメッセージを表示させている。
以上説明したように本発明の実施の形態2によれば、登録音声データそのものを利用して、各登録語間のスコアを計算することにより、登録音声群の分離性能を把握することができる。分離性能を低下させている理由が特定の登録データであると判断できれば、その登録音声データを再登録することができる。再登録後にスコアを再計算して、分離性能が向上したか否かを確認することができる。
このようにして分離性能を向上させた登録音声データとその登録音声データに対して学習をしたユーザが、他の機器において音声認識機能を使用する場合、従来の特定話者方式では、再度、音声登録作業をその機器に対して別途に行わなければならなかった。一方、不特定話者方式では、上記分離性能を向上させた登録データを作成することが困難であり、かつ学習効果を利用することもできない。
これに対し、本実施の形態では分離性能を向上させた登録音声データを別の機器に移動できる。したがって、音声登録作業を削減し、かつ模範とする登録音声データを共通化することにより、発声に関するユーザの学習効果も維持される。すなわち、別の機器においても、これまで築き上げた分離性能のよい登録音声データを対象として、自らの学習効果を反映した発声を行うことにより、誤認識が少なく、認識率の高い音声認識システムの構築が可能となる。
このように、登録音声データとその登録音声データに近い発声ができるというユーザのスキルが組み合わさると、その登録音声データの財産的価値がより高まることになる。したがって、その登録音声データを他の機器に移動して再利用することの効果は非常に大きい。登録語間の距離が広がった辞書データが生成されたとしても、それに適した発声をするスキルがユーザに備わっていなければ、宝の持ち腐れになる。登録音声データとそれに近い発声ができるというスキルが両輪となり、誤認識が少なく、認識率の高い音声認識システムの構築が可能となる。
また、登録語間の距離という点において、不特定話者方式におけるスコア計算は、あくまで認識時の発声と標準データとの距離を示しており、標準データ間の本来の距離を示すものではない。したがって、ユーザの発声によっては、登録語間の距離が大きいにもかかわらず、登録音声データの修正が必要となる場合もある(図1、2参照)。
また、標準データは同じ言葉に対して、基本的に一種類のデータしか登録できないため、個々のユーザの特徴を反映させることができない。したがって、誤認識を防ぐことや認識信頼度の向上を実現することが個々のユーザにとって容易でない。
これに対し、本実施の形態では登録音声データはユーザの認識音声をそのまま登録したものであるため、この登録語間の距離をあらかじめ確認することができる。すなわち、分離性能が高い登録音声データ群であるか否かを事前に判定することができる。しかも、認識時の発声と無関係に判定することができる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
上述した登録語のうち、特定の言葉(たとえば、「起動」)を音声取得部10に呼びかけることにより、音声認識機能がスタンバイモードから実行モードに遷移するようにしてもよい。音声認識機能のスタンバイモード時には、解析部21および比較部24により実行モード時より負荷が小さい解析処理が実行される。たとえば、音声取得部10により取得され解析部21により解析される入力音声データとの比較対象を、特定の言葉(たとえば、「起動」)のみに限定してもよい。
また、特定の言葉(たとえば、「起動」)を大きな声で音声取得部10に呼びかけてもらい、比較部24はその時間軸上の振幅の比較のみで、音声認識機能を起動するか否かを判定してもよい。
これらの制御を追加することにより、音声認識機能がフルに起動している場合と比較し、消費電力を低減することができる。
10 音声取得部、 20 制御部、 21 解析部、 22 登録データ生成部、 23 保持部、 24 比較部、 25 検証部、 26 コマンド実行部、 27 通信部、 30 報知部、 40 操作部、 100 音声認識装置。
Claims (5)
- 特定話者により発声された言葉を音声信号として取得する音声取得部と、
前記音声取得部により取得された音声信号を解析し、所定の音声データに変換する解析部と、
前記音声取得部および前記解析部を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成する登録データ生成部と、
前記登録データ生成部により生成された登録データを保持するための保持部と、
前記特定話者により発声された言葉から前記音声取得部および前記解析部を介して生成された入力音声データと、前記保持部に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出する比較部と、
前記比較部による比較結果を検証し、前記入力音声データに対して、所定の設定値を超える一致度を持つ登録音声データを抽出する検証部と、
前記検証部により抽出された登録音声データをその一致度を示す情報とともに、ユーザに報知する報知部と、
を備えることを特徴とする音声認識装置。 - 前記検証部は、前記入力音声データと最も一致度が高い登録音声データの一致度と、前記入力音声データとその登録音声データ以外の登録音声データの一致度との差分が、所定の基準値より小さい登録音声データが存在する場合、その登録音声データまたは前記入力音声データに対応する登録音声データの再登録を促すガイダンスを生成し、
前記報知部は、そのガイダンスを報知することを特徴とする請求項1に記載の音声認識装置。 - 前記比較部は、前記特定話者により発声された再登録用の言葉から前記音声取得部および前記解析部を介して生成された再登録用の入力音声データと、前記保持部に保持される複数の登録データのそれぞれの登録音声データとの一致度を算出し、
前記検証部は、前記再登録用の入力音声データと、所定の設定値を超える一致度を持つ登録音声データを抽出し、
前記報知部は、前記検証部により抽出された登録音声データをその一致度を示す情報とともに、ユーザに報知することを特徴とする請求項2に記載の音声認識装置。 - 特定話者により発声された言葉を音声信号として取得する音声取得部と、
前記音声取得部により取得された音声信号を解析し、所定の音声データに変換する解析部と、
前記音声取得部および前記解析部を介して生成された音声データと、特定のコマンドとを関連付けた登録データを生成する登録データ生成部と、
前記登録データ生成部により生成された登録データを保持するための保持部と、
前記保持部に保持される複数の登録データの登録音声データ間の一致度を算出する比較部と、
前記登録音声データ間の一致度が所定の基準値より高い組み合わせが存在するか否かを検証し、存在する場合、それら登録音声データの少なくとも一つの再登録を促すガイダンスを生成する検証部と、
前記検証部により生成されたガイダンスを報知する報知部と、
を備えることを特徴とする音声認識装置。 - 前記比較部は、前記特定話者により発声された再登録用の言葉から前記音声取得部および前記解析部を介して生成された再登録用の入力音声データと、それ以外の登録音声データ間の一致度を算出し、
前記検証部は、前記一致度が前記基準値より低くなったか否かを検証し、
前記報知部は、その検証結果をユーザに報知することを特徴とする請求項4に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102253A JP2011232521A (ja) | 2010-04-27 | 2010-04-27 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010102253A JP2011232521A (ja) | 2010-04-27 | 2010-04-27 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011232521A true JP2011232521A (ja) | 2011-11-17 |
Family
ID=45321888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010102253A Pending JP2011232521A (ja) | 2010-04-27 | 2010-04-27 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011232521A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017133355A (ja) * | 2012-07-19 | 2017-08-03 | 住友建機株式会社 | ショベル |
WO2018015989A1 (ja) * | 2016-07-19 | 2018-01-25 | 株式会社オプティム | 音声認識システム、音声認識方法及びプログラム |
JP2020034952A (ja) * | 2014-10-09 | 2020-03-05 | グーグル エルエルシー | 複数のデバイス上でのホットワード検出 |
US11289114B2 (en) | 2016-12-02 | 2022-03-29 | Yamaha Corporation | Content reproducer, sound collector, content reproduction system, and method of controlling content reproducer |
US12046241B2 (en) | 2014-10-09 | 2024-07-23 | Google Llc | Device leadership negotiation among voice interface devices |
-
2010
- 2010-04-27 JP JP2010102253A patent/JP2011232521A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017133355A (ja) * | 2012-07-19 | 2017-08-03 | 住友建機株式会社 | ショベル |
US10094094B2 (en) | 2012-07-19 | 2018-10-09 | Sumitomo(S.H.I.) Construction Machinery Co., Ltd. | Shovel connectable with an information terminal |
JP2020125683A (ja) * | 2012-07-19 | 2020-08-20 | 住友建機株式会社 | ショベル及びショベル用の多機能型携帯情報端末 |
US10858807B2 (en) | 2012-07-19 | 2020-12-08 | Sumitomo(S.H.I.) Construction Machinery Co., Ltd. | Shovel connectable with an information terminal |
JP2020034952A (ja) * | 2014-10-09 | 2020-03-05 | グーグル エルエルシー | 複数のデバイス上でのホットワード検出 |
JP2022017569A (ja) * | 2014-10-09 | 2022-01-25 | グーグル エルエルシー | 複数のデバイス上でのホットワード検出 |
JP7022733B2 (ja) | 2014-10-09 | 2022-02-18 | グーグル エルエルシー | 複数のデバイス上でのホットワード検出 |
JP7354210B2 (ja) | 2014-10-09 | 2023-10-02 | グーグル エルエルシー | 複数のデバイス上でのホットワード検出 |
US11915706B2 (en) | 2014-10-09 | 2024-02-27 | Google Llc | Hotword detection on multiple devices |
US12046241B2 (en) | 2014-10-09 | 2024-07-23 | Google Llc | Device leadership negotiation among voice interface devices |
WO2018015989A1 (ja) * | 2016-07-19 | 2018-01-25 | 株式会社オプティム | 音声認識システム、音声認識方法及びプログラム |
US11289114B2 (en) | 2016-12-02 | 2022-03-29 | Yamaha Corporation | Content reproducer, sound collector, content reproduction system, and method of controlling content reproducer |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11495228B2 (en) | Display apparatus and method for registration of user command | |
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
JPWO2017090115A1 (ja) | 音声対話装置および音声対話方法 | |
US11657800B2 (en) | Electronic device with wakeup word determined multi-mode operation | |
US20110264452A1 (en) | Audio output of text data using speech control commands | |
CN105210147B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
JP2011232521A (ja) | 音声認識装置 | |
JP2006505002A5 (ja) | ||
JPWO2017068826A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2023210149A1 (ja) | 情報処理装置及び情報処理方法、並びにコンピュータプログラム | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
US10347242B2 (en) | Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set by using phonetic sound | |
JP6427377B2 (ja) | 設備点検支援装置 | |
US20150380012A1 (en) | Speech rehabilitation assistance apparatus and method for controlling the same | |
JP5596869B2 (ja) | 音声認識装置 | |
US10505879B2 (en) | Communication support device, communication support method, and computer program product | |
JP2019012228A (ja) | 制御装置、被操作機器、制御方法、および制御プログラム | |
US20240223707A1 (en) | Far-end terminal and voice focusing method thereof | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2008286921A (ja) | キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体 | |
US10657956B2 (en) | Information processing device and information processing method | |
JP2000056796A (ja) | 音声入力装置および方法 | |
JPWO2014162356A1 (ja) | 言語リハビリテーション支援システム | |
JP2013257448A (ja) | 音声認識装置 | |
JP2019191377A (ja) | 音声操作の精度向上を目的としたトレーニングシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130128 |