JP2009025388A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2009025388A
JP2009025388A JP2007185964A JP2007185964A JP2009025388A JP 2009025388 A JP2009025388 A JP 2009025388A JP 2007185964 A JP2007185964 A JP 2007185964A JP 2007185964 A JP2007185964 A JP 2007185964A JP 2009025388 A JP2009025388 A JP 2009025388A
Authority
JP
Japan
Prior art keywords
speech
matching
voice
speech recognition
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007185964A
Other languages
English (en)
Inventor
Kazuhide Okada
一秀 岡田
Ryo Murakami
涼 村上
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2007185964A priority Critical patent/JP2009025388A/ja
Publication of JP2009025388A publication Critical patent/JP2009025388A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】不特定多数の発話者に対しても音声認識率を向上させることが可能な音声認識装置を提供する。
【解決手段】マイク12が発話時の音声を入力され、DPマッチング部20eがマイク12に入力された音声に対してDPマッチング法によって音声認識を行ない、発話速度推定部20cがマイク12に入力された音声の発話速度を推定して、整合窓幅設定部20dが、発話速度推定部20cが推定した発話速度に応じて、DPマッチング部20eのDPマッチング法による音声認識における整合窓の幅を設定する。これにより、不特定多数の発話者に対しても音声認識率を向上させることが可能となる。
【選択図】図1

Description

本発明は音声認識装置に関し、特に、発話時の音声をDPマッチング法によって音声認識を行う音声認識装置に関するものである。
従来、発話時の音声から単語等の音声認識を行う手法として、DP(Dynammic Programming:動的計画法)マッチングがある。例えば、特許文献1では、マッチングの範囲を限定するための特定範囲の整合窓を設定し、当該整合窓内において、発話時の音声の時間軸上での各要素と標準パターンの各要素との各要素間の最小距離を求めることにより、最も距離が少ない標準パターンを検出して音声認識を行う音声認識装置が開示されている。
特公平7−92674号公報
しかしながら、上記の技術では、不特定多数の発話者に対して一様に整合窓を設定するため、発話者の音声の時間軸上での各要素が標準パターンよりも大きくずれているときは整合窓の範囲外となり易く、音声を認識できない場合がある。
本発明は、かかる事情に鑑みてなされたものであり、その目的は、不特定多数の発話者に対しても音声認識率を向上させることが可能な音声認識装置を提供することにある。
本発明は、発話時の音声を入力される音声入力手段と、音声入力手段に入力された音声に対してDPマッチング法によって音声認識を行う音声認識手段と、音声入力手段に入力された音声の発話速度を推定する発話速度推定手段と、発話速度推定手段が推定した発話速度に応じて、音声認識手段のDPマッチング法による音声認識における整合窓の幅を設定する整合窓幅設定手段と、を備えた音声認識装置である。
この構成によれば、音声入力手段が発話時の音声を入力され、音声認識手段が音声入力手段に入力された音声に対してDPマッチング法によって音声認識を行ない、発話速度推定手段が音声入力手段に入力された音声の発話速度を推定して、整合窓幅設定手段が発話速度推定手段が推定した発話速度に応じて、音声認識手段のDPマッチング法による音声認識における整合窓の幅を設定するため、発話速度が異なる不特定多数の発話者に対しても整合窓の範囲内でDPマッチング法による音声認識を行うことができ、音声認識率を向上させることが可能となる。
この場合、整合窓幅設定手段は、発話速度推定手段が推定した発話速度が遅いほど、整合窓の幅を大きく設定することが好適である。
一般に、老人は発話速度が遅くDPマッチングによる音声認識が困難であるが、この構成によれば、整合窓幅設定手段は、発話速度推定手段が推定した発話速度が遅いほど、整合窓の幅を大きく設定するため、老人のように発話速度が遅い場合においても、音声認識率を向上させることが可能となる。
一方、音声入力手段に入力された音声のスペクトルを取得するスペクトル取得手段をさらに備え、発話速度推定手段は、スペクトル取得手段が取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定することが好適である。
老人は発話に抑揚が少なく音声のスペクトルにおける変動幅が小さい場合が多く、発話速度も遅い場合が多いが、この構成によれば、発話速度推定手段は、スペクトル取得手段が取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定するため、容易に発話速度を推定して、音声認識率を向上させることができる。
本発明の音声認識装置によれば、不特定多数の発話者に対しても音声認識率を向上させることが可能となる。
以下、本発明の実施の形態に係る音声認識装置について添付図面を参照して説明する。
図1は、実施形態に係る音声認識装置の構成を示すブロック図である。本実施形態の音声認識装置は、例えば車載用のナビゲーション装置において、運転者の発話の音声認識を行うことによって音声入力を行う等の用途に用いられるものである。図1に示すように、本実施形態の音声認識装置10は、マイク12、アンプ14、A/D変換器16、一時メモリ18、CPU20、データベース22及びディスプレイ24を備えている。
マイク12は、発話者の音声を取得して音声信号として出力するためのものである。マイク12は、特許請求の範囲に記載の音声入力手段として機能する。アンプ14は、マイク12からの10mV程度の音声信号を増幅するためのものである。A/D変換器16は、アンプ14からのアナログ信号をCPU20で処理することができるデジタル信号に変換するためのものである。一時メモリ18は、取得した音声信号を一旦記憶するためのものである。CPU20は、データベース22に格納されているデータを参照しつつ一時メモリ18から取り出した音声信号についてDPマッチング法により音声認識を行うためのものである。データベースは、CPU20が音声の発話速度を決定するために参照するデータや、DPマッチング法による音声認識のために参照するデータを記憶するためのものである。ディスプレイ24は、CPU20が行った音声認識の結果をユーザに対して表示するためのものである。
以下、本実施形態の音声認識装置について詳述する。図2は、実施形態に係る音声認識装置のCPU周辺の構成を示すブロック図である。図2に示すように、本実施形態の音声認識装置のCPU20は、波形FFT部20a、極大値・極小値比較部20b、発話速度推定部20c、整合窓幅設定部20d及びDPマッチング部20eを有する。
波形FET部20aは、一時メモリ18から取り出した音声信号波形に対して、高速フーリエ変換(Fast Fourier Transform:FFT)を行うことにより、音声のスペクトルを取得するためのものである。波形FET部20aは、特許請求の範囲に記載のスペクトル取得手段として機能する。
極大値・極小値比較部20bは、波形FET部20aが取得した音声スペクトルの極大値と極小値とを比較し、その差を算出するためのものである。
発話速度推定部20cは、データベース22に記憶されている発話速度テーブル22aを参照しつつ、極大値・極小値比較部20bが算出した音声スペクトルの極大値と極小値との差から、当該音声の発話速度を決定するためのものである。発話速度推定部20cは、特許請求の範囲に記載の発話速度推定手段として機能する。データベース22の発話速度テーブル22aは、音声スペクトルの極大値と極小値との差に対応した発話速度を記憶したものである。
整合窓幅設定部20dは、発話速度推定部20cが推定した音声の発話速度に応じて、DPマッチングにおける整合窓の幅を設定するためのものである。整合窓幅設定部20dは、特許請求の範囲に記載の整合窓幅設定手段として機能する。
DPマッチング部20eは、波形FET部20aにより取得された音声スペクトルから、整合窓幅設定部20dにより設定された幅の整合窓を用いて、データベース22の語彙データベース22bを参照しつつDPマッチング法による音声認識を行うためのものである。DPマッチング部20eは、特許請求の範囲に記載の音声認識手段として機能する。語彙データベース22bには、種々の語彙を収録した辞書となっており、語彙それぞれのケプストラム(短時間スペクトルの対数の逆フーリエ変換をしたもの)等の音声の特徴量における標準パターンが記憶されているものである。
次に、本実施形態の音声認識装置の動作について説明する。発話者の発話した音声はマイク12によって収集されて音声信号となる。マイク12により収集された音声信号はアンプ14によって増幅される。アンプ12により増幅されたアナログ信号である音声信号は、A/D変換器16によりデジタル信号に変換される。デジタル信号に変換された音声信号は、一時メモリ18に一旦記憶される。
CPU20の波形FET部20aは、一時メモリ18から取り出した音声信号に対して高速フーリエ変換を行い、音声信号のスペクトルを取得する。極大値・極小値比較部20bは、波形FET部20aが取得した音声スペクトルの極大値と極小値とを比較し、その差を算出する。
発話速度推定部20cは、データベース22の発話速度テーブル22aを参照しつつ極大値・極小値比較部20bが算出したスペクトルの極大値と極小値との差から、当該音声の発話速度を推定する。
ここで、図3(a)〜(c)は老人(70歳代)の音声の波形、ソナグラム及びスペクトルを示し、図3(d)〜(f)は青年(30歳代)の音声の波形、ソナグラム及びスペクトルを示す。
図3(a)(b)と(d)(e)に示すように、特有の声枯れがある老人の音声波形及びソナグラムは、青年のものに比べて抑揚が少ない。特に、図3(c)と(f)に示すように、老人の音声は青年の音声に比べて2kHz〜8kHzにおけるスペクトルの極大値と極小値との差が小さい。老人の音声は青年の音声に比べて、スペクトルのピークがパワー包絡線上で、周波数2kHz以上でも概して平坦であり、ピークとなる山がうかがえない。さらに、老人の音声は、0.3kHz帯を除けば、元来、周期関数と呼ばれる母音でありながらも、あらゆる帯域に雑音成分が発生しており、信号としては雑音の乗った子音に近いものとなっている。したがって、老人の音声は聴覚的にめりはりのない声に聞こえ、2〜8kHz帯でのパワーの高低差が青年の音声に比べて小さい。また、老人の音声は青年の音声と比べ、同じ語彙であっても概して発話速度が遅い。
そこで、本実施形態では、データベース22の発話速度テーブル22aは、2kHz〜8kHzにおけるスペクトルの極大値と極小値との差が小さくなるほど、対応する発話速度が遅くなるように設定している。そのため、発話速度推定部20cは、発話速度テーブル22aを参照して、極大値・極小値比較部20bが算出したスペクトルの極大値と極小値との差が小さいほど、当該音声の発話速度が遅いと判断する。
整合窓幅設定部20dは、発話速度推定部20cが推定した発話速度が遅いほど発話者が高齢であると推定して整合窓の幅を大きく設定する。
DPマッチング部20eは、波形FET部20aにより取得された音声スペクトルから、整合窓幅設定部20dにより設定された幅の整合窓を用いて、データベース22の語彙データベース22bを参照しつつDPマッチング法による音声認識を行う。
DPマッチング法は、図4に示すように、語彙データベース22bの標準パターンをi、実際に認識された音声である実認識サンプルのパターンをjとする座標を設定する。ここでi,jは、デジタル信号化された音声信号のフレーム番号である。図4に示す座標上において、ケプストラム等の音声の特徴量について、標準パターンと実認識サンプルとの相互間のユークリッド距離を重み付け加算していき、フレーム番号ごとに図中3種のルートの中で、実値が最小のものを時間伸縮関数g(i,j)とみなし、発話区間終了まで、以下の漸化式(1)を用いて計算する。

上式(1)において、d(i,j)は2つの特徴ベクトルであるαiとβjとのスペクトル距離である(α,βは任意の自然数)。DPマッチング法における演算は、最終的には、標準パターン及び実認識サンプルを発話区間の全体で正規化し、種々の標準パターンからなる語彙のモデルについて、G(i,j)=g(i,j)/(I+J)を演算して、各モデルの中でG(i,j)が最短のモデルに係る語彙を推定語彙とする。
しかしながら、この時間伸縮関数g(i,j)を導出する過程において、図5に示すように、時間伸縮関数g(i,j)のトレースが座標上で一度でも幅2dで示される整合窓、すなわち、j=i+a及びj=j−aに挟まれる区間(aは正の整数値)から逸脱した場合、標準パターンとのマッチングにおいて当該モデルは推定語彙の候補から外れることになる。
ところが実際には、老人の場合は、発話は概して遅く、標準パターンと比較しても話速が遅いために、整合窓の範囲から外れ易い傾向がある。そのため、発話者が老人である場合の音声認識では、実際には適合する可能性が高い推定語彙候補でありながら、一度整合窓の範囲を外れただけで推定語彙候補から外されることになり、音声認識において誤認識を生じ易くなる。
そこで、本実施形態では、図6に示すように、発話速度推定部20cが音声スペクトルの極大値と極小値との差から発話速度が遅いと推定した場合は、老人の発話とみなし、整合窓の幅を2d’で示される範囲まで拡大することとした。すなわち、この場合、整合窓は、j=i+a’及びj=j−a’に挟まれる区間(a’は正の整数値)まで拡大され、この整合窓において上記DPマッチングが行われる。DPマッチングの結果はディスプレイ24によってユーザに表示される。
本実施形態によれば、マイク12が発話時の音声を入力され、DPマッチング部20eがマイク12に入力された音声に対してDPマッチング法によって音声認識を行ない、発話速度推定部20cがマイク12に入力された音声の発話速度を推定して、整合窓幅設定部20dが、発話速度推定部20cが推定した発話速度に応じて、DPマッチング部20eのDPマッチング法による音声認識における整合窓の幅を設定するため、発話速度が異なる不特定多数の発話者に対しても整合窓の範囲内でDPマッチング法による音声認識を行うことができ、不特定多数の発話者に対しても音声認識率を向上させることが可能となる。
特に、本実施形態によれば、発話速度が遅くDPマッチングによる音声認識が困難である老人が発話者である場合でも、整合窓幅設定部20dは、発話速度推定部20cが推定した発話速度が遅いほど、整合窓の幅を大きく設定するため、老人のように発話速度が遅い場合においても、音声認識率を向上させることが可能となる。
老人は発話に抑揚が少なく音声のスペクトルにおける変動幅が小さい場合が多く、発話速度も遅い場合が多いが、本実施形態によれば、発話速度推定部20cは、波形FFT部20aが取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定するため、容易に発話速度を推定して、音声認識率を向上させることができる。
すなわち、従来のDPマッチング法においては、老人も青年も一様の値を制限値(切片)とする整合窓を設けて、正規化された時間伸縮関数の最も短いモデルを音声認識時における推定語彙としていたため、老人が発話者の場合には、適合する可能性の高い推定語彙候補がしばしば整合窓の範囲を外れることが多く、誤認識をする場合が多い。
一方、本実施形態では、老人の発話には特有の声枯れがあることに着目し、2〜8kHz帯域のスペクトルにおいて、パワーの極大値と極小値との差が壮年者・若年者に比して極めて小さいという特徴を見出したことによるものである。本実施形態では、2〜8kHz帯域のスペクトルにおいて、パワーの極大値と極小値との差により、発話者が老人か壮年以下かを推定し、老人の場合には従来一定値であった整合窓の幅をより大きなものとし、従来の手法における推定語彙候補の脱落を防ぐことにより、老人特有の発話速度が遅いことによる障害を低減して音声認識率を向上させることができる。そのため、本実施形態では、結果として全ての年齢間での平均音声認識率を向上させることができる。
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に限定されるものではなく種々の変形が可能である。
実施形態に係る音声認識装置の構成を示すブロック図である。 実施形態に係る音声認識装置のCPU周辺の構成を示すブロック図である。 (a)〜(f)は老人及び青年それぞれの音声の波形、ソナグラム及びスペクトルを示す図である。 通常のDPマッチングの例を示す図である。 従来の手法で老人の音声にDPマッチングを行った例を示す図である。 実施形態の手法で老人の音声にDPマッチングを行った例を示す図である。
符号の説明
10…音声認識装置、12…マイク、14…アンプ、16…A/D変換器、18…一時メモリ、20…CPU、20a…波形FFT部、20b…極大値・極小値比較部、20c…発話速度推定部、20d…整合窓幅設定部、20e…DPマッチング部、22…データベース、22a…発話速度テーブル、22b…語彙データベース、24…ディスプレイ。

Claims (3)

  1. 発話時の音声を入力される音声入力手段と、
    前記音声入力手段に入力された音声に対してDPマッチング法によって音声認識を行う音声認識手段と、
    前記音声入力手段に入力された音声の発話速度を推定する発話速度推定手段と、
    前記発話速度推定手段が推定した発話速度に応じて、前記音声認識手段のDPマッチング法による音声認識における整合窓の幅を設定する整合窓幅設定手段と、
    を備えた音声認識装置。
  2. 前記整合窓幅設定手段は、前記発話速度推定手段が推定した発話速度が遅いほど、前記整合窓の幅を大きく設定する、請求項1に記載の音声認識装置。
  3. 前記音声入力手段に入力された音声のスペクトルを取得するスペクトル取得手段をさらに備え、
    前記発話速度推定手段は、前記スペクトル取得手段が取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定する、請求項1又は2に記載の音声認識装置。
JP2007185964A 2007-07-17 2007-07-17 音声認識装置 Pending JP2009025388A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007185964A JP2009025388A (ja) 2007-07-17 2007-07-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007185964A JP2009025388A (ja) 2007-07-17 2007-07-17 音声認識装置

Publications (1)

Publication Number Publication Date
JP2009025388A true JP2009025388A (ja) 2009-02-05

Family

ID=40397274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007185964A Pending JP2009025388A (ja) 2007-07-17 2007-07-17 音声認識装置

Country Status (1)

Country Link
JP (1) JP2009025388A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US20090313016A1 (en) System and Method for Detecting Repeated Patterns in Dialog Systems
KR20190008137A (ko) 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
JP5961950B2 (ja) 音声処理装置
US10553240B2 (en) Conversation evaluation device and method
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
JPH10133693A (ja) 音声認識装置
Eringis et al. Improving speech recognition rate through analysis parameters
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JPH0229232B2 (ja)
JP2009025388A (ja) 音声認識装置
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP5752488B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
JP2011180308A (ja) 音声認識装置及び記録媒体
JP7378770B2 (ja) 評価装置、評価方法、及び評価プログラム
JP4632831B2 (ja) 音声認識方法および音声認識装置