JP2004294659A - Speech recognition device - Google Patents
Speech recognition device Download PDFInfo
- Publication number
- JP2004294659A JP2004294659A JP2003085340A JP2003085340A JP2004294659A JP 2004294659 A JP2004294659 A JP 2004294659A JP 2003085340 A JP2003085340 A JP 2003085340A JP 2003085340 A JP2003085340 A JP 2003085340A JP 2004294659 A JP2004294659 A JP 2004294659A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- contact
- time
- signal
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識装置に関し、さらに詳しくは、話者が発した音声を認識する音声認識装置に関する。
【0002】
【従来の技術】
従来の音声認識装置は、図5に示すようなものが知られている。図5に示された音声認識装置1は、音声を入力する音声入力部2と、話者が操作するスイッチ3と、スイッチ3の状態を検出するスイッチ状態検出部4と、スイッチ3の状態に応じて音声の入力を制御する入力制御部5と、音声を認識する音声認識部6と、音声の認識結果を表示する表示部7とを備えている。
【0003】
従来の音声認識装置1は、まず、スイッチ状態検出部4によって、話者がスイッチ3をオフからオンにしたか否かが判断される。スイッチ3がオフからオンにされたと判断されたときは、入力制御部5によって、音声の入力開始が音声入力部2に通知される。次いで、音声入力部2によって、音声が入力される。そして、音声認識部6によって、入力された音声が認識され、表示部7によって、認識結果が表示される。
【0004】
引き続き、スイッチ状態検出部4によって、話者がスイッチ3をオンからオフにしたか否かが判断される。スイッチ3がオンからオフにされたと判断されたときは、入力制御部5によって、音声の入力終了が所定時間だけ遅れて音声入力部2に通知される。
【0005】
以上のように、従来の音声認識装置1は、スイッチ状態検出部4によって、スイッチ3の状態を検出し、スイッチ3がオン状態のときに入力された音声を認識できるようになっている(例えば、特許文献1参照)。
【0006】
【特許文献1】
特開2002−108390号公報(第4−5頁、第1図)
【0007】
【発明が解決しようとする課題】
しかしながら、このような従来の音声認識装置では、話者は発声中に継続してスイッチを押し続けなければならないので、話者の肉体的および精神的な負担が大きい煩雑な操作を必要とするという問題があった。
【0008】
本発明は、このような問題を解決するためになされたものであり、話者の肉体的および精神的な負担を軽減した簡単な操作で音声認識を行うことができる音声認識装置を提供するものである。
【0009】
【課題を解決するための手段】
本発明の音声認識装置は、話者の音声を含む音響を入力し音響信号を出力する音響信号出力手段と、前記話者が発声するときに前記話者に接触する接触手段と、前記音響信号に含まれる音声信号および前記接触手段の接触状態に基づいて前記話者が前記音声を発している音声区間を判定する音声区間判定手段と、前記音声区間の前記音声を認識する音声認識手段とを備えたことを特徴とする構成を有している。
【0010】
この構成により、音声区間判定手段は、音響信号に含まれる音声信号および接触手段の接触状態に基づいて話者が音声を発している音声区間を判定し、音声認識手段は、音声区間判定手段によって判定された音声区間の音声を認識するので、発声中の話者の自然な動作による継続的または断続的な接触手段の接触によって音声区間が判定され、話者の肉体的および精神的な負担を軽減した簡単な操作で音声認識を行うことができる。
【0011】
また、本発明の音声認識装置は、前記接触手段は、前記話者に接触する接触部と、前記話者が前記接触部を接触しているか否かを検出し、前記話者が前記接触部に接触している接触動作状態を示す接触動作状態信号および前記話者が前記接触部の接触を停止している接触停止状態を示す接触停止状態信号の何れかを出力する接触状態検出部とを備え、前記音声区間判定手段は、前記音声信号のパワーを算出するパワー算出部と、周囲の騒音レベルに応じて前記音声信号のパワー閾値を設定するパワー閾値設定部と、前記接触動作状態信号が出力された時点の近傍において前記音声信号のパワーが前記パワー閾値を越えた時点から所定の時間遡った時点を音声区間開始時点とし、前記接触停止状態信号が出力された時点の近傍において前記音声信号のパワーが前記パワー閾値を下回る時点から所定の時間経過した時点を音声区間終了時点とすることによって前記音声区間を判定する音声区間判定部とを備えたことを特徴とする構成を有している。
【0012】
この構成により、音声区間判定部は、接触動作状態信号が出力された時点の近傍において音声信号のパワーがパワー閾値を越えた時点から所定の時間遡った時点を音声区間開始時点とし、接触停止状態信号が出力された時点の近傍において音声信号のパワーがパワー閾値を下回る時点から所定の時間経過した時点を音声区間終了時点とすることによって音声区間を判定するので、音声区間開始時点においては、語頭の無声子音および無声化母音等のパワーが低い音声が欠落することを防止することができ、音声区間終了時点においては、語尾の無声子音および無声化母音等のパワーが低い音声が欠落することを防止することができる。
【0013】
また、本発明の音声認識装置は、前記音声区間判定手段は、前記接触動作状態に続く前記接触停止状態の継続時間が所定の閾値以下のときに入力された前記音声と前記接触停止状態の前に入力された前記音声とを同一の前記音声区間に含むようにしたことを特徴とする構成を有している。
【0014】
この構成により、各話者の接触間隔に応じた音声入力に対応して音声区間の設定を行うことができる。
【0015】
また、本発明の音声認識装置は、前記音声区間判定手段は、前記音響信号に前記音声信号が含まれているか否かを判定する音声信号判定部を備え、前記音声区間判定部は、前記音声信号判定部によって前記音響信号に前記音声信号が含まれていると判断されたとき、前記接触状態および前記音声信号のパワーに基づいて前記音声区間を判定するようにしたことを特徴とする構成を有している。
【0016】
この構成により、音声区間判定部は、音声信号判定部によって音響信号に音声信号が含まれていると判断されたとき、接触状態および音声信号のパワーに基づいて音声区間を判定するので、例えば、周囲の騒音により音響信号のパワーの変動が大きい場合でも、音声区間の判定を確実に行うことができる。
【0017】
また、本発明の音声認識装置は、前記音声区間判定部は、前記音響信号に前記音声信号が含まれていると判断された時点の近傍において前記音声信号のパワーが前記パワー閾値を越えた時点から所定の時間遡った時点を音声区間開始時点とし、前記接触停止状態信号が出力された時点の近傍において前記音声信号の前記パワーが前記パワー閾値を下回る時点から所定の時間経過した時点を音声区間終了時点として前記音声区間を判定するようにしたことを特徴とする構成を有している。
【0018】
この構成により、音声区間判定部は、音響信号に音声信号が含まれていると判断された時点の近傍において音声信号のパワーがパワー閾値を越えた時点から所定の時間遡った時点を音声区間開始時点とし、接触停止状態信号が出力された時点の近傍において音声信号のパワーがパワー閾値を下回る時点から所定の時間経過した時点を音声区間終了時点として音声区間を判定するので、周囲の騒音を話者の音声と誤ることなく、音声区間開始時点においては、語頭の無声子音および無声化母音等のパワーが低い音声が欠落することを防止することができ、音声区間終了時点においては、語尾の無声子音および無声化母音等のパワーが低い音声が欠落することを防止することができる。
【0019】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して説明する。
【0020】
まず、本発明の実施の形態の音声認識装置の構成について説明する。
【0021】
図1に示すように、本実施の形態の音声認識装置10は、話者の音声を含む音響を入力し音響信号を出力する音響信号出力手段11と、話者が発声するときに接触する接触手段12と、音響信号に含まれる音声信号および接触手段12の接触状態に基づいて話者が音声を発している音声区間を判定する音声区間判定手段13と、音声区間の音声を認識する音声認識手段14と、音声認識された結果を表示する表示手段15とを備えている。
【0022】
音響信号出力手段11は、音響を集音し音響信号に変換するマイクロホン11aとアナログ信号をデジタル信号に変換するAD変換部11bとを備えている。
【0023】
接触手段12は、話者が接触する接触部12aと、話者が接触部12aを接触しているか否かを検出し、話者が接触部12aを接触している接触動作状態を示す接触動作状態信号および話者が接触部12aの接触を停止している接触停止状態を示す接触停止状態信号の何れかを出力する接触状態検出部12bとを備えている。なお、以下の説明において、接触動作状態および接触停止状態は、それぞれ、接触状態および非接触状態といい、接触動作状態信号および接触停止状態信号は、それぞれ、接触信号および非接触信号という。
【0024】
接触部12aは、例えば、キーボード、スイッチ、圧電素子、または感熱素子等によって構成されている。接触状態検出部12bは、例えば、CPU、RAM、ROM等によって構成されている。
【0025】
音声区間判定手段13は、例えば、CPU、RAM、ROM等により構成され、音響信号のパワーを算出するパワー算出部13aと、音響信号に音声信号が含まれているか否かを判定する音声信号判定部13bと、周囲の騒音レベルに応じて音声信号のパワー閾値を設定するパワー閾値設定部13cと、所定の閾値および変数等を記憶する記憶部13dと、接触状態検出部12bから接触信号が出力された時点の近傍において音声信号のパワーがパワー閾値を越えた時点から所定の時間遡った時点を音声区間開始時点とし、接触状態検出部12bから非接触信号が出力された時点の近傍において音声信号のパワーがパワー閾値を下回る時点から所定の時間経過した時点を音声区間終了時点として音声区間を判定する音声区間判定部13eとを備えている。
【0026】
なお、パワー算出部13aは、音響信号出力手段11から出力された音響信号のパワーを、例えば、20msec毎に算出するようになっている。また、音声信号判定部13bは、音響信号出力手段11から出力された音響信号に関する自己相関関数、ゼロクロス頻度、および低次ケプストラム係数のうち少なくとも一つを算出し、予め大量の音声で学習した判別係数によって、音響信号に音声信号が含まれているか否かの判定(以下、音声性の判定という。)を行い、判定結果に応じて音声を表す信号または非音声を表す信号の何れかを、例えば、20msec毎に音声区間判定部13eに出力するようになっている。
【0027】
また、パワー閾値設定部13cは、音響信号出力手段11から出力された音響信号に含まれる周囲の騒音レベルに応じてパワー閾値を動的に設定するようになっている。なお、音響信号出力手段11から出力された音響信号がパワー閾値を超えた場合、周囲の騒音レベルによるものなのか、あるいは、話者の発声によるものなのかの判定は、接触状態検出部12bの検出結果に基づいて行うことができる。
【0028】
音声認識手段14は、例えば、CPU、RAM、ROM等により構成され、音声区間判定手段13によって判定された音声区間の音声を認識するようになっている。なお、音声認識手段14は、図示しない認識語彙辞書を備えている。また、表示手段15は、液晶ディスプレイ、CPU、RAM、ROM等により構成され、例えば、文字によって音声認識結果を表示するようになっている。
【0029】
次に、本実施の形態の音声認識装置10の動作について、図2を参照して説明する。
【0030】
図2において、まず、マイクロホン11aによって音響が集音され、AD変換部11bによってAD変換された音響信号が、パワー算出部13a、音声信号判定部13b、および音声区間判定部13eに出力される(ステップS21)。次いで、パワー算出部13aによって、音響信号のパワーが算出され、音声信号判定部13bによって、音声性が判定される(ステップS22)。
【0031】
引き続き、接触状態検出部12bによって、話者が接触部12aに接触したか否かが検出され、接触した場合はさらに初めて接触したか否かが判断される(ステップS23)。ここで、接触部12aを圧電素子で構成した場合は、話者が接触部12aに触れたときの圧力が接触部12aによって検出され、接触状態検出部12bから接触信号が音声区間判定部13eに出力される。一方、話者が接触部12aに触れていないときは、接触状態検出部12bから非接触信号が音声区間判定部13eに出力される。なお、前述の初めて接触とは、ある接触が始まった時刻から時間閾値、例えば、400msec遡った時間内に接触がなかった場合の接触、または、後述のステップS24においてP≧Pth1、かつ音声信号と判断されなかった場合以降において、ある接触が始まった時刻から時間閾値遡った時間内に接触がなかった場合の接触をいう。
【0032】
ステップS23において、初めて接触したと判断された場合は、音声区間判定部13eによって、パワー算出部13aで算出されたパワー値Pがパワー閾値設定部13cで設定された第1のパワー閾値Pth1以上か否かの判断と、音響信号出力手段11から出力された音響信号の音声性の判定とが実行される(ステップS24)。
【0033】
ステップS24において、P≧Pth1、かつ音声性が音声と判定された場合は、音声区間判定部13eによって、音声区間開始時点が決定され(ステップS25)、一方、P≧Pth1、かつ音声性が音声と判定されなかった場合は、ステップS21に戻る。
【0034】
一方、ステップS23において、初めて接触したと判断されなかった場合は、接触状態検出部12bによって、話者が接触部12aに接触したか否かが検出される(ステップS26)。ステップS26において、話者が接触部12aに接触したと検出された場合は、ステップS21に戻り、話者が接触部12aに接触したと検出されなかった場合は、音声区間判定部13eによって、記憶部13dから時間閾値Tthが読み出され、非接触状態が時間閾値Tth以上継続しているか否かが判断される(ステップS27)。
【0035】
ステップS27において、非接触状態が時間閾値Tth以上継続していると判断された場合は、音声区間判定部13eによって、パワー算出部13aで算出されたパワー値Pがパワー閾値設定部13cで設定された第2のパワー閾値Pth2以下か否かが判断され(ステップS28)、非接触状態が時間閾値Tth以上継続していると判断されなかった場合は、ステップS21に戻る。
【0036】
ステップS28において、P≦Pth2と判断された場合は、音声区間判定部13eによって、音声区間終了時点が決定され(ステップS29)、P≦Pth2と判断されなかった場合は、ステップS21に戻る。
【0037】
さらに、音声認識手段14によって、音声区間判定部13eで判定された音声区間開始時点から音声区間終了時点までに含まれる音声が認識される(ステップS30)。そして、表示手段15によって、音声認識された結果が、例えば、文字により表示される(ステップS31)。
【0038】
ここで、音声区間を判定する過程について具体例を挙げて説明する。なお、音声区間を判定するための条件として、音響信号のパワー、音声性の判定結果、および接触状態は、それぞれ、図3(a)、図3(b)、および図3(c)に示されたものとして説明する。また、前述のパワー閾値Pth1およびパワー閾値Pth2は、それぞれ、6dBおよび1dBとする。また、前述の時間閾値Tthは、400msecとし、パワー閾値Pth1およびパワー閾値Pth2によって音声区間の開始および終了を判断するときに基準とする時間は、500msecとする。
【0039】
まず、図3(a)から図3(c)までに示された内容について説明する。
【0040】
図3(a)において、横軸を時間、縦軸を音響信号のパワーとし、20msec毎に出力された音響信号のパワー値をプロットしたパワー曲線41と、パワーのミニマムホールド値42と、第1ポイント43と、第2ポイント44とが示されている。
【0041】
図3(b)は、音声信号判定部13bによる音声性の判定結果を示しており、時刻t3から時刻t4までは音声と判定され、時刻t3以前および時刻t4以降は非音声と判定されていることを示している。
【0042】
図3(c)は、接触状態検出部12bによって出力された接触を表す接触信号および非接触を表す非接触信号を示している。接触信号は、時刻t5〜t6、時刻t7〜t8、および時刻t9〜t10の範囲で出力され、その他の範囲においては、非接触信号が出力されている。すなわち、図3(a)および図3(c)は、話者が接触部12aに3回接触しながら発声したことを示している。
【0043】
次に、音声区間開始時点の決定について説明する。
【0044】
図3(c)に示された時刻t5〜t6の範囲における接触によって、前述のステップS23において初めて接触と判断され、ステップS24に進む。図3(a)に示すように、音響信号のパワー値Pは、時刻t3近傍より上昇し始め、時刻t1の第1ポイント43において、過去500msec以上にわたりミニマムホールド値42に対し初めて6dB(Pth1)以上となる。このとき、図3(b)に示すように、音声性は音声と判定されている。
【0045】
したがって、ステップS23およびステップS24における判断条件、すなわち、接触状態検出部12bの検出結果は接触、P≧Pth1、および音声性の判定結果は音声という3つ条件が満たされたことにより、音声区間判定部13eによって、音声区間が開始されたと判断され、図3(d)に示すように、時刻t1から600msec遡った時刻t11が音声区間開始時点と決定される。
【0046】
ここで、時刻t1から600msec遡った時点を音声区間開始時点とするのは、前述のパワーと音声性を用いた判定では、例えば、語頭および文頭等においてパワーが低くなって無声化したり、音声学的に無声化する音声を検出できず、頭切れが生じたりするのを防止するためである。
【0047】
次に、音声区間終了時点の決定について説明する。
【0048】
図3(c)に示された時刻t9〜t10の範囲における接触によって、前述のステップS26において接触と判断され、ステップS27に進む。図3(c)に示すように、時刻t10以降において、時間閾値Tthの400msec以上継続して非接触と判断されるので、ステップS27からステップS28に進む。
【0049】
音響信号のパワー値Pは、時刻t9近傍より下降し始め、時刻t2の第2ポイント44において、過去500msec以上にわたりミニマムホールド値42に対し初めて1dB(Pth2)以下となる。
【0050】
したがって、ステップS27およびステップS28における判断条件、すなわち、接触状態検出部12bの検出結果は非接触およびP≦Pth2という2つ条件が満たされたことにより、音声区間判定部13eによって、音声区間が終了したと判断され、図3(d)に示すように、時刻t2から400msec経過した時刻t12が音声区間終了時点と決定される。
【0051】
なお、接触状態検出部12bによって非接触が検出された時刻から、時間閾値Tthの400msec以内に再び接触と検出された場合は、音声区間判定部13eによって、話者の接触および発声は断続的に継続されていると判断され、非接触になった時刻以前の音声区間と、再び接触となった時刻以後の音声区間とが同一の音声区間とされる。
【0052】
例えば、図3(c)において、時刻t6〜t7の時間を250msec、時刻t8〜9の時間を200msecとした場合、どちらの時間も時間閾値Tthの400msec以下なので、時刻t5〜t6、時刻t7〜8、および時刻t9〜10に発せられた音声は同一区間の音声とされる。
【0053】
したがって、話者が発声中に接触部12aを撫で続ける場合のみならず、話者が音節および音節の拍に合わせて接触部12aを叩く場合等でも、音声区間判定部13eによって、音声区間を正確に判定することができる。
【0054】
なお、音声区間の開始時点は、音声信号判定部13bの判定結果に基づいて決定するように構成してもよい。すなわち、音声信号判定部13bによって音声性が音声と判定された時点の近傍において音声信号のパワーがパワー閾値Pth1を越えた時点から所定の時間遡った時点を音声区間開始時点とするようにしてもよい。
【0055】
次に、音声認識手段14の処理について、図4を参照して説明する。
【0056】
図4(a)および図4(b)は、それぞれ、前述の図3(a)および図3(d)と同じグラフを示しており、図4(c)は、予め記憶された語彙の標準パターンと認識された結果とがよく一致した区間を模式的に例示したものである。
【0057】
図4(c)において、例えば、第1の標準パターン51から第4の標準パターン54までをそれぞれ、「東京」、「横浜」、「千葉」、および「仙台」とすると、第1の標準パターン51の「東京」とよく一致した区間が4個の矢印で示されている。よく一致するか否かは、予め記憶された標準パターンと入力された音声のパターンとの一致度をスコアによって表し、このスコアが所定の閾値を超えるか否かによって判断される。最終的に音声区間終了時点t12の近傍においてスコアが最大になった標準パターンが認識結果とされる。図4(c)においては、第2の標準パターン52「横浜」のうち、太い矢印で表した第2の標準パターン52aが認識結果とされたことを示している。
【0058】
すなわち、音声認識手段14は、入力音声を随時認識するキーワードスポッティング型の動作を行い、音声区間判定手段13によって判定された音声区間の音声区間開始時点を開始点とし、音声区間終了時点近傍を終了点とする語彙または文などの認識結果を出力するようになっている。
【0059】
なお、一般に、話者は、自分の発声中の拍(モーラ)に合わせて接触部12aを叩くことが多く、發音、促音、および長音等の特殊拍では叩かないことが多いが、接触状態検出部12bからの出力を参照することによって特殊拍が含まれる音節の認識を容易に行うことができる。
【0060】
また、話者が前述の時間閾値Tthを任意に設定できる構成にすれば、各話者の発話速度に合わせた最適の時間閾値Tthの設定を行うことができる。また、話者の発話速度を学習する発話速度学習手段を設け、この発話速度学習手段の学習結果に基づいて時間閾値Tthを設定する構成としてもよい。
【0061】
また、認識すべき語彙が少なく限定されている場合において、語彙のモーラ数および音節数等が異なる場合には、音声認識装置10の構成を簡略化し、話者が接触部12aを叩いた回数のみを参照して音声認識するようにしてもよい。例えば、モーラ数で認識させる場合、7回の叩き入力があれば認識語彙辞書中の7モーラの単語、例えば、「経路探索」を認識結果とする。また、音節数で認識させる場合は、3回の叩き入力があれば認識語彙辞書中の3音節の単語、例えば、「コンピューター」を認識結果とする。さらに、漢字の数によっても認識させることができ、4回の叩き入力がある場合は、認識語彙辞書中の4字漢字の単語、例えば「経路探索」を認識結果とする。
【0062】
また、音声認識装置10に句点および読点等を通知するスイッチを設け、このスイッチが叩かれた時点を文節の切れ目または音声入力終了タイミング等とすることによって、より確実に音声の終了を検出することができる。
【0063】
また、話者が接触部12aを叩いたり、撫でたりする際に発生する雑音が音声認識に悪影響を与える危険性を軽減するため、接触部12aから発生する雑音を予め学習させる構成とし、音声認識の際に、例えば、スペクトルサブトラクション法で影響を軽減すれば、より音声認識部の認識性能を安定化させることができる。
【0064】
なお、例えば、ぬいぐるみに本発明の音声認識装置10を適用する場合は、接触部12aの叩きの強度およびパターン等によって話者の喜怒哀楽などの感情を簡易に推定できるので、ぬいぐるみに対する親和性の向上を図ることもできる。例えば、接触部12aの叩きの速度が速く、強度が強い場合には怒りを表し、接触部12aの叩きの速度が遅い場合には悲しさ、または寂しさを表しているものと推定し、話者とぬいぐるみとのコミュニケーションを円滑化させることができる。
【0065】
以上のように、本実施の形態の音声認識装置10によれば、音声区間判定手段13は、音響信号出力手段11から出力された音響信号に含まれる音声信号および接触手段12の接触状態に基づいて話者が音声を発している音声区間を判定する構成としたので、発声中の話者の自然な動作による継続的または断続的な接触手段12の接触によって音声区間が判定され、話者の肉体的および精神的な負担を軽減した簡単な操作で音声認識を行うことができる。
【0066】
また、例えば、ぬいぐるみに本発明の音声認識装置10を適用する場合、ぬいぐるみに対する叩き、さすり、撫でる等の行為は、話者の負担にならず、しかも、これらの行為によって音声認識を行うことができ、話者とぬいぐるみとのコミュニケーションを円滑化させることができるので、単にぬいぐるみに触る場合よりも、ぬいぐるみに対する親近感および親和性等を話者に感じさせることができる。したがって、特に、話者が老人、子供、および孤独な人々等の場合は、話者の心を癒し、また、遊び心を刺激することができる。
【0067】
【発明の効果】
以上説明したように、本発明によれば、話者の肉体的および精神的な負担を軽減した簡単な操作で音声認識を行うことができる音声認識装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の音声認識装置のブロック図
【図2】本発明の実施の形態の音声認識装置の各ステップのフローチャート
【図3】(a)音響信号のパワー値をプロットしたパワー曲線を示す図
(b)音声性の判定結果を示す図
(c)接触信号および非接触信号を示す図
(d)音声区間を示す図
【図4】(a)音響信号のパワー値をプロットしたパワー曲線を示す図
(b)音声区間を示す図
(c)語彙の標準パターンと認識された結果とがよく一致した区間を模式的に例示した図
【図5】従来の音声認識装置のブロック図
【符号の説明】
10 音声認識装置
11 音響信号出力手段
11a マイクロホン
11b AD変換部
12 接触手段
12a 接触部
12b 接触状態検出部
13 音声区間判定手段
13a パワー算出部
13b 音声信号判定部
13c パワー閾値設定部
13d 記憶部
13e 音声区間判定部
14 音声認識手段
15 表示手段
41 パワー曲線
42 ミニマムホールド値
43 第1ポイント
44 第2ポイント
51 第1の標準パターン
52 第2の標準パターン
52a 認識された第2の標準パターン
53 第3の標準パターン
54 第4の標準パターン[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice recognition device, and more particularly, to a voice recognition device that recognizes voice uttered by a speaker.
[0002]
[Prior art]
As a conventional speech recognition device, the one shown in FIG. 5 is known. The
[0003]
In the conventional
[0004]
Subsequently, the switch
[0005]
As described above, in the conventional
[0006]
[Patent Document 1]
JP-A-2002-108390 (
[0007]
[Problems to be solved by the invention]
However, in such a conventional voice recognition device, since the speaker must keep pressing the switch continuously during the utterance, it is necessary to perform a complicated operation that places a large physical and mental burden on the speaker. There was a problem.
[0008]
The present invention has been made in order to solve such a problem, and provides a voice recognition device capable of performing voice recognition by a simple operation with reduced physical and mental burden on a speaker. It is.
[0009]
[Means for Solving the Problems]
The voice recognition device of the present invention includes: a sound signal output unit that inputs sound including a speaker's voice and outputs a sound signal; a contact unit that contacts the speaker when the speaker speaks; A voice section determination unit that determines a voice section in which the speaker is emitting the voice based on a voice signal included in the voice signal and a contact state of the contact unit; and a voice recognition unit that recognizes the voice in the voice section. It has a configuration characterized by being provided.
[0010]
With this configuration, the voice section determination unit determines the voice section in which the speaker is emitting a voice based on the voice signal included in the audio signal and the contact state of the contact unit, and the voice recognition unit uses the voice section determination unit. Since the voice of the determined voice section is recognized, the voice section is determined by the continuous or intermittent contact of the speaker during natural utterance, and the physical and mental burden on the speaker is reduced. Voice recognition can be performed with reduced simple operations.
[0011]
Further, in the voice recognition device of the present invention, the contact means detects a contact portion that contacts the speaker and whether the speaker is in contact with the contact portion, and the speaker detects the contact portion. A contact operation state signal indicating a contact operation state that is in contact with a contact state detection unit that outputs one of a contact stop state signal indicating a contact stop state in which the speaker has stopped contacting the contact unit. The audio section determination means includes: a power calculation unit that calculates the power of the audio signal; a power threshold setting unit that sets a power threshold of the audio signal according to a surrounding noise level; A point in time when the power of the audio signal exceeds the power threshold in the vicinity of the output time is set back to a predetermined time and is set as an audio section start point, and the audio is output in the vicinity of the point in time when the contact stop state signal is output. And a voice section determination unit that determines the voice section by setting a time point at which a predetermined time has elapsed from a time point at which the power of the signal falls below the power threshold value as a voice section end time point. I have.
[0012]
With this configuration, the voice section determination unit determines the voice section start time as the voice section start time when a predetermined time has elapsed from the time when the power of the voice signal exceeded the power threshold near the time when the contact operation state signal was output, and Since a voice section is determined by determining a voice section end time as a time point at which a predetermined time has elapsed from the time point at which the power of the voice signal falls below the power threshold near the time point when the signal is output, at the start of the voice section, It is possible to prevent a voice with low power, such as unvoiced consonants and unvoiced vowels, from being lost. Can be prevented.
[0013]
Further, in the voice recognition device of the present invention, the voice section determination means may include a voice input when the duration of the contact stop state following the contact operation state is equal to or less than a predetermined threshold value and the voice input before the contact stop state. Is included in the same voice section in the same voice section.
[0014]
With this configuration, it is possible to set a voice section corresponding to a voice input corresponding to the contact interval of each speaker.
[0015]
Also, the voice recognition device of the present invention, the voice section determination means includes a voice signal determination unit that determines whether the voice signal is included in the audio signal, the voice section determination unit, When the signal determination unit determines that the audio signal includes the audio signal, the configuration is such that the audio section is determined based on the contact state and the power of the audio signal. Have.
[0016]
With this configuration, the voice section determination unit determines the voice section based on the contact state and the power of the voice signal when the voice signal determination unit determines that the voice signal includes the voice signal. Even when the power of the acoustic signal greatly fluctuates due to ambient noise, it is possible to reliably determine the voice section.
[0017]
Further, in the voice recognition device according to the present invention, the voice section determination unit may determine that the power of the voice signal exceeds the power threshold near a time when it is determined that the voice signal is included in the voice signal. The audio section start time is defined as a point in time that is earlier than a predetermined time from the time when the power of the audio signal falls below the power threshold in the vicinity of the point in time when the contact stop state signal is output. The voice section is determined as the end point.
[0018]
With this configuration, the voice section determination unit determines that the voice section starts at a point in time when the power of the voice signal exceeds the power threshold and goes back a predetermined time near the time when the voice signal is determined to include the voice signal. The voice section is determined as the time point, and the time point when a predetermined time has elapsed from the time point when the power of the voice signal falls below the power threshold near the time point when the contact stop state signal is output is determined as the voice section end time point. At the beginning of the voice section, it is possible to prevent the lack of low-power voices such as unvoiced consonants and unvoiced vowels at the beginning of the voice section. It is possible to prevent a low-power voice such as a consonant or a unvoiced vowel from being lost.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0020]
First, the configuration of the speech recognition device according to the embodiment of the present invention will be described.
[0021]
As shown in FIG. 1, a
[0022]
The acoustic
[0023]
The contact means 12 detects a
[0024]
The
[0025]
The voice section determination means 13 includes, for example, a CPU, a RAM, a ROM, and the like, and includes a
[0026]
The
[0027]
The power
[0028]
The voice recognizing means 14 includes, for example, a CPU, a RAM, a ROM, and the like, and recognizes the voice of the voice section determined by the voice
[0029]
Next, the operation of the
[0030]
In FIG. 2, first, sound is collected by the
[0031]
Subsequently, the contact
[0032]
If it is determined in step S23 that the contact has been made for the first time, the voice
[0033]
In step S24, if P ≧ Pth1 and the voice is determined to be voice, the voice section start time is determined by the voice
[0034]
On the other hand, if it is not determined in step S23 that the contact has been made for the first time, the contact
[0035]
If it is determined in step S27 that the non-contact state continues for the time threshold value Tth or more, the power value P calculated by the
[0036]
If it is determined in step S28 that P ≦ Pth2, the voice
[0037]
Further, the voice recognition means 14 recognizes voice included from the voice section start time to the voice section end time determined by the voice
[0038]
Here, the process of determining a voice section will be described with a specific example. As the conditions for determining the voice section, the power of the acoustic signal, the determination result of the voiceness, and the contact state are shown in FIGS. 3A, 3B, and 3C, respectively. It will be described as having been performed. Further, the power threshold Pth1 and the power threshold Pth2 are 6 dB and 1 dB, respectively. The above-mentioned time threshold Tth is set to 400 msec, and the reference time when judging the start and end of the voice section based on the power threshold Pth1 and the power threshold Pth2 is set to 500 msec.
[0039]
First, the contents shown in FIGS. 3A to 3C will be described.
[0040]
In FIG. 3A, the horizontal axis represents time, the vertical axis represents the power of the audio signal, and a
[0041]
FIG. 3B shows the result of the voice determination performed by the voice
[0042]
FIG. 3C illustrates a contact signal indicating contact and a non-contact signal indicating non-contact output by the contact
[0043]
Next, determination of the voice section start time will be described.
[0044]
Due to the contact in the range of times t5 to t6 shown in FIG. 3C, it is determined that the contact has been made for the first time in step S23, and the process proceeds to step S24. As shown in FIG. 3A, the power value P of the acoustic signal starts to increase near the time t3, and at the
[0045]
Therefore, the judgment conditions in step S23 and step S24, that is, the detection result of the contact
[0046]
Here, the point of time 600 msec before the time t1 is set as the voice section start time. In the above-described determination using the power and the voice property, for example, the power becomes low at the beginning of a word, the beginning of a sentence, etc. This is to prevent a situation in which the voice to be silenced cannot be detected and the head is cut off.
[0047]
Next, determination of the end point of the voice section will be described.
[0048]
Due to the contact in the range from time t9 to t10 shown in FIG. 3C, it is determined that the contact has occurred in step S26, and the process proceeds to step S27. As shown in FIG. 3 (c), after time t10, it is determined that the contact is non-contact continuously for the time threshold value Tth of 400 msec or more, so that the process proceeds from step S27 to step S28.
[0049]
The power value P of the acoustic signal starts to fall from near the time t9, and at the
[0050]
Therefore, the judgment condition in step S27 and step S28, that is, the detection result of the contact
[0051]
When contact is detected again within 400 msec of the time threshold Tth from the time when non-contact is detected by the contact
[0052]
For example, in FIG. 3C, if the time from time t6 to time t7 is 250 msec and the time from time t8 to time 9 is 200 msec, both times are equal to or less than the time threshold Tth of 400 msec. 8, and the sounds emitted at times t9 to t10 are sounds in the same section.
[0053]
Therefore, not only when the speaker continues to stroke the
[0054]
Note that the start point of the voice section may be determined based on the determination result of the voice
[0055]
Next, the processing of the voice recognition means 14 will be described with reference to FIG.
[0056]
FIGS. 4 (a) and 4 (b) show the same graphs as those of FIGS. 3 (a) and 3 (d), respectively, and FIG. 4 (c) shows a pre-stored vocabulary standard. This is a diagram schematically illustrating a section in which a pattern and a recognized result match well.
[0057]
In FIG. 4C, for example, if the first
[0058]
In other words, the voice recognition means 14 performs a keyword spotting type operation of recognizing the input voice as needed, with the voice section start time of the voice section determined by the voice section determination means 13 as the start point and ending near the voice section end time. A recognition result of a vocabulary or a sentence to be a point is output.
[0059]
In general, a speaker often hits the
[0060]
Further, if the configuration is such that the speaker can arbitrarily set the above-mentioned time threshold Tth, it is possible to set the optimum time threshold Tth according to the utterance speed of each speaker. Further, an utterance speed learning means for learning the utterance speed of the speaker may be provided, and the time threshold value Tth may be set based on the learning result of the utterance speed learning means.
[0061]
In addition, when the number of words to be recognized is small and limited, and the number of mora and the number of syllables of the words are different, the configuration of the
[0062]
Further, by providing a switch for notifying a punctuation mark and a reading point to the
[0063]
Further, in order to reduce the risk that the noise generated when the speaker hits or strokes the
[0064]
For example, when the
[0065]
As described above, according to the
[0066]
In addition, for example, when the
[0067]
【The invention's effect】
As described above, according to the present invention, it is possible to provide a voice recognition device capable of performing voice recognition by a simple operation with a reduced physical and mental burden on a speaker.
[Brief description of the drawings]
FIG. 1 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart of each step of the voice recognition device according to the embodiment of the present invention;
FIG. 3A is a diagram showing a power curve in which power values of acoustic signals are plotted.
(B) A diagram showing the determination result of voice characteristics
(C) A diagram showing a contact signal and a non-contact signal
(D) Diagram showing voice section
FIG. 4A is a diagram showing a power curve in which power values of acoustic signals are plotted.
(B) Diagram showing voice section
(C) A diagram schematically illustrating a section in which the standard pattern of the vocabulary matches the recognized result well.
FIG. 5 is a block diagram of a conventional voice recognition device.
[Explanation of symbols]
10 Speech recognition device
11 Acoustic signal output means
11a microphone
11b AD converter
12 contact means
12a Contact part
12b Contact state detector
13 Voice section determination means
13a Power calculator
13b Audio signal determination unit
13c Power threshold setting unit
13d storage unit
13e Voice section judgment unit
14 Voice recognition means
15 Display means
41 Power Curve
42 Minimum hold value
43 1st point
44 2nd point
51 1st standard pattern
52 Second Standard Pattern
52a Recognized second standard pattern
53 Third Standard Pattern
54 4th standard pattern
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003085340A JP2004294659A (en) | 2003-03-26 | 2003-03-26 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003085340A JP2004294659A (en) | 2003-03-26 | 2003-03-26 | Speech recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004294659A true JP2004294659A (en) | 2004-10-21 |
JP2004294659A5 JP2004294659A5 (en) | 2006-03-23 |
Family
ID=33400285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003085340A Withdrawn JP2004294659A (en) | 2003-03-26 | 2003-03-26 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004294659A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008009120A (en) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | Remote controller and household electrical appliance |
US10854200B2 (en) | 2016-08-17 | 2020-12-01 | Panasonic Intellectual Property Management Co., Ltd. | Voice input device, translation device, voice input method, and recording medium |
-
2003
- 2003-03-26 JP JP2003085340A patent/JP2004294659A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008009120A (en) * | 2006-06-29 | 2008-01-17 | Mitsubishi Electric Corp | Remote controller and household electrical appliance |
JP4675840B2 (en) * | 2006-06-29 | 2011-04-27 | 三菱電機株式会社 | Remote controller and home appliance |
US10854200B2 (en) | 2016-08-17 | 2020-12-01 | Panasonic Intellectual Property Management Co., Ltd. | Voice input device, translation device, voice input method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10365887B1 (en) | Generating commands based on location and wakeword | |
Hansen et al. | Speech under stress: Analysis, modeling and recognition | |
JP4085130B2 (en) | Emotion recognition device | |
US11699455B1 (en) | Viseme data generation for presentation while content is output | |
KR101229034B1 (en) | Multimodal unification of articulation for device interfacing | |
EP1701338B1 (en) | Speech recognition method | |
US20190325898A1 (en) | Adaptive end-of-utterance timeout for real-time speech recognition | |
US20090182559A1 (en) | Context sensitive multi-stage speech recognition | |
WO2006054724A1 (en) | Voice recognition device and method, and program | |
JP6747434B2 (en) | Information processing apparatus, information processing method, and program | |
JP2016521383A (en) | Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit | |
JP2018013549A (en) | Speech content recognition device | |
JP2015038526A (en) | Speech processing device and speech processing method | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP2009025579A (en) | Voice recognition device and method | |
JP2006259641A (en) | Voice recognition device and program | |
JP2004294659A (en) | Speech recognition device | |
JP2016161935A (en) | Method and device for improving set of at least one semantic unit by using voice, and computer readable recording medium | |
JP2004021207A (en) | Phoneme recognizing method, phoneme recognition system and phoneme recognizing program | |
KR20080061901A (en) | System and method of effcient speech recognition by input/output device of robot | |
JP2011027905A (en) | Speech recognition device and navigation device using the same | |
JP2006010739A (en) | Speech recognition device | |
US12001260B1 (en) | Preventing inadvertent wake in a speech-controlled device | |
JP2008040197A (en) | Utterance training device | |
JP5678912B2 (en) | Voice identification device, program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060131 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080624 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080625 |