JP2001042889A - 音声認識入力音声の音程正規化装置 - Google Patents

音声認識入力音声の音程正規化装置

Info

Publication number
JP2001042889A
JP2001042889A JP2000146420A JP2000146420A JP2001042889A JP 2001042889 A JP2001042889 A JP 2001042889A JP 2000146420 A JP2000146420 A JP 2000146420A JP 2000146420 A JP2000146420 A JP 2000146420A JP 2001042889 A JP2001042889 A JP 2001042889A
Authority
JP
Japan
Prior art keywords
voice
pitch
signal
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000146420A
Other languages
English (en)
Other versions
JP2001042889A5 (ja
Inventor
Mikio Oda
幹夫 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000146420A priority Critical patent/JP2001042889A/ja
Publication of JP2001042889A publication Critical patent/JP2001042889A/ja
Publication of JP2001042889A5 publication Critical patent/JP2001042889A5/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識対象音声の音程を音声認識装置の標準音
声の音程に合わせて正規化する入力音声音程正規化装置
を提供することを目的とする。 【解決手段】 不特定話者が発声した入力音声(Sv
c)を認識する音声認識装置(VRAp)に用いられて
当該入力音声(Svu)の音程を音声認識標準データ
(Psf)の音程と所定の関係(CR)に変換する入力
音声音程正規化装置(Tr)において、音程差判断器
(3、5、7、9;#100、#200、#300、#
400)は前記入力音声(Svu)と前記音声認識標準
データ(Psf)との音程差(CR)を判断し、 音程
変換器(11、3;#500)は前記音程差判断器
(3、5、7、9;#100、#200、#300、#
400)によって判断された音程差(CR)に基づい
て、前記入力音声(Svc)の音程が前記音声認識標準
データ(Psf)の音程と所定の関係(CR=1)にな
るように、当該入力音声(Svu)の周波数を変換す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、不特定話者の音声
を認識する音声認識装置において、低音の男性の声や、
高音の女性および子供の声にも幅広く音声認識処理が可
能な音声認識装置に関するものであり、さらに詳述すれ
ば、認識対象音声の音程を音声認識装置の標準音声の音
程に合わせて正規化する入力音声音程正規化装置に関す
る。
【0002】
【従来の技術】音声認識技術は近年、デジタル信号処理
技術の向上、および処理に用いられるLSIの高性能化
かつ低価格化などにより、民生機器に数多く導入されて
同機器の操作性向上に役立っている。音声認識装置の基
本原理は、入力された音声をデジタル音声信号に変換
し、そのデジタル音声信号をあらかじめ用意された音声
辞書に登録された標準音声データと照合して、入力され
た音声を認識するものである。そのため、標準音声デー
タと比較しやすいように音声認識対象である特定話者に
対して、特別な発声方法を要求したり、それら特定話者
の音声をあらかじめ音声認識装置に登録しておくなどの
対策がとられている。
【0003】しかしながら、民生機器として音声認識装
置を用いる場合に、話者を特定すれば利便性が著しく殺
がれ、その商品価値が損なわれる。そのために、不特定
話者により発生された音声を音声入力として認識しなけ
ればならない。言うまでもなく、不特定話者による発声
は様々である。このように不特定話者による変化に富ん
だ発声に関して、音声認識精度を損なわせる音声認識阻
害要因は大きく分けて、発声速度と音声音程との二つで
ある。
【0004】第1の音声認識阻害要因である発声速度に
関しては、例えば、早口の人など、話者によって話す速
度に差があることである。つまり、音声認識は入力され
る音声を、あらかじめ用意された音声辞書に登録された
標準速度の音声と比較することによって実現される。そ
のため、両者の発声速度の差が一定以上になると、正し
く比較できずに、音声認識も不可能になる。
【0005】第2の音声認識要因である音声音程に関し
ては、男性の低音の音声、女性や子供による高音の音声
など、話者によってその音声の音程に差があることであ
る。この場合にも、あらかじめ用意された音声辞書に登
録された音声の音程と、不特定話者により発声された音
声の音程との差が一定以上になると、両音声を正しく比
較できずに、音声認識も不可能になる。
【0006】図5に、上述の問題を解決するものとして
特開平9−325798号公報に提案されている音声認
識装置を示す。同図に示すように、音声認識装置VRA
cは、音声入力部111、発声速度算出部112、発声
速度変換率決定部113、発声速度変換部114、およ
び音声認識部115を含む。音声入力部111は、不特
定話者によって発声された音声を取り込んだアナログ音
声信号をデジタル信号に変換A/D変換して音声信号を
生成する。発声速度算出部112は、音声信号に基づい
て入力された不特定話者の音声の発声速度を算出する。
発声速度変換率決定部113は、発声速度算出部112
で算出された発声速度を基準速度と比較して、速度変換
率の決定を行なう。発声速度変換部114はその速度変
換率に基づいて発声速度を変換する。音声認識部115
は、声速度変換部114によって速度変換された入力音
声信号の音声認識を行う。
【0007】次に、音声認識装置VRAcの動作につい
て説明する。不特定話者により発声された音声は、音声
入力部111のマイクおよび増幅器を経由して取り込ま
れ、さらにA/Dコンバータにより、アナログ信号から
デジタル信号に変換される。発声速度算出部112は、
変換されたデジタルの音声信号から入力音声の一音を切
り出す。そして、発声速度算出部112は切り出された
一音の切り出し時間より、一音の発声速度を算出する。
【0008】そこで、発声速度算出部112が一音の切
り出しに要する所要時間(以降、「1音切出時間」と称
す)をTsとし、不特定話者が一音の発声に要する基準
時間(以降、「1音発声基準時間」と称す)をThとす
る。そして、発声速度変換率決定部113において、1
音切出時間Tsおよび一音発声基準時間Thに基づい
て、1音発声速度1/Tsと基準一音発声速度1/Th
とを比較し、速度変換率αを決定する。速度変換率αは
次式(1)によって算出できる。 α=Ts/Th ・・・・ (1)
【0009】上記1式から明らかなように、1音切出時
間Tsが1音発声基準時間Thより短い、つまり入力音
声の発声速度が音声認識装置VRAcによって正確に認
識できる発声速度に比べて早い場合には、速度変換率α
は1より小さくなる。この場合、入力音声の発声速度を
遅くしてやる必要がある。逆に1音切出時間Tsが1音
発声基準時間Thより長い、つまり入力音声の発声速度
が音声認識装置VRAcによって正確に認識できる発声
速度に比べて遅い場合には、速度変換率αは1より大き
い。この場合、入力音声の発声速度を早くしてやる必要
がある。
【0010】音声認識装置VRAcにおいては、速度変
換率αに基づいて発声速度変換部114が発声速度が一
定になるように入力音声信号の速度変換して速度変換入
力音声信号を生成する。音声認識部115は、速度変換
入力音声信号に対して音声認識処理を施して得られた認
識結果を出力する。
【0011】上述の速度変換は最近のデジタル技術を使
用することで容易に実現できる。例えば、入力音声の発
声速度を遅くする場合は、入力音声の一音と相関性を有
する母音波形を音声信号に複数個追加して音声信号の発
声時間を延ばせば良い。また、入力音声の発声速度を速
くする場合は、入力音声の一音の母音波形を複数回に渡
って音声信号から間引けば良い。
【0012】この処理は、話速変換と呼ばれる入力音声
の音程を変化させることなく話速を変換させる技術であ
る。すなわち、音声認識において、発声速度に個人差が
ある不特定話者のうち、特に早口でしゃべる話者による
発声された音声に対して話速変換技術を利用して、早口
の話者により発声された音声の認識率向上を図るもので
ある。
【0013】
【発明が解決しようとする課題】上述の従来の音声認識
装置VRAcにおいては、基準一音発声速度1/Thに
比べて、発声速度の異なる不特定話者による音声に対す
る認識率を向上させること、つまり第1の音声認識阻害
要因に対して効果的である。しかしながら、基準音声に
対して高低差のある発声音声、つまり第2の音声認識阻
害要因である高低差のある発声音声に対しては、認識率
の向上は期待できない。
【0014】詳述すれば、音声認識装置VRAcは、男
性の低い声、女性、および子供の高い声などの幅広い周
波数レンジに対応できるが、高い音声認識率は実現でき
ない。また、早口の場合は、ゆっくり話してもらうなど
注意をうながせば済む問題であるが、話者に音色を変え
て発声することを望むのは困難である。これは、話者の
喉の形状および大きさによって、話者の基準発声周波数
が決定される。つまり、話者の喉の形状を変えることは
できないので、その発声音色も変えることはできない。
【0015】そのため、音声認識装置VRAcにおいて
は、不特定話者間の発声における音色差に対しても音声
認識率の向上を図るには、男性の声、女性、および子供
の声など音声認識に必要な異なる音程の標準音声データ
を複数持ち、話者の音色に応じて、参照する標準音声デ
ータを切り換えなければならないという課題を有してい
る。
【0016】
【課題を解決するための手段および発明の効果】第1の
発明は、音声認識標準データに基づいて、不特定話者が
発声した入力音声を認識する音声認識装置に用いられ、
入力音声の音程を音声認識標準データの音程と所定の関
係に変換する入力音声音程正規化装置であって、入力音
声と音声認識標準データとの音程差を判断する音程差判
断器と、音程差判断器によって判断された音程差に基づ
いて、入力音声の音程が音声認識標準データの音程と所
定の関係になるように、入力音声の周波数を変換する音
程変換器とを備える。
【0017】上述のように、第1の発明においては、入
力音声の音程が音声認識標準データの音程に合わせて調
整されるので、音声認識率を向上できる。
【0018】第2の発明は、第1の発明において、入力
音声を一時記憶するメモリと、入力音声の一繋がりをメ
モリから読み出して認識対象音声信号を生成する読出制
御器とをさらに備え、音程差判断器は、認識対象音声信
号の周波数成分を分析して周波数成分信号を生成する周
波数成分分析器と、周波数成分信号に基づいて、認識対
象音声信号の基本周波数を求めるとともに、音声認識標
準データと基本周波数の音程差を判定して音程差信号を
生成する音程判定器とを備える。
【0019】上述のように、第2の発明においては、入
力音声が1音であっても良いし、数音から成る単語であ
っても良い。
【0020】第3の発明は、第2の発明において、音程
判定器は認識対象音声信号の第1ホルマントを基本周波
数として求め、認識対象音声信号の第1ホルマントを音
声認識標準データの第1ホルマントと比較して、音程差
を判定することにより、認識対象音声が1音および複数
音の何れであっても、音程差を安定して判定できること
を特徴とする。
【0021】上述のように、第3の発明においては、入
力音声が1音あるいは数音から成る単語であっても、入
力音声単位で周波数特性の安定した第1ホルマントで認
識標準特性データとの音程比較を行うので、入力される
音声の一音切り出し等の処理が不要となり処理が迅速か
つ装置構成を簡略にできる。
【0022】第4の発明は、第3の発明において、音程
変換器は、音程差信号に基づいて認識対象音声信号の周
波数が変換されるように、メモリの読み出すタイミング
クロックの周波数を決定して読出クロック信号を生成す
る読出クロック制御器とを備え、メモリは読出クロック
信号に基づいて、音声認識標準データの音程と所定の関
係の音程を有するように認識対象音声信号を出力するこ
とを特徴とする。
【0023】上述のように、第4の発明においては、メ
モリの読み出しタイミングを変えることによって認識対
象音声信号の波形特徴を損なうことなくその音程を変え
ることができるので、補間や間引き処理が不要である。
【0024】第5の発明は、第4の発明における入力音
声音程正規化装置を備える音声認識装置。
【0025】第6の発明は、音声認識標準データに基づ
いて、不特定話者が発声した入力音声を認識する音声認
識装置であって、入力音声の音程を音声認識標準データ
の音程と所定の関係に変換する入力音声音程正規化装置
と、音程を変換された入力音声を音声認識標準データと
比較して、入力音声と合致する音声認識標準データを示
す認識信号を生成する音声分析器とを備える。
【0026】上述のように、第6の発明においては、入
力音声の音程が音声認識標準データの音程に合わせて調
整されるので、音声認識率を向上できる。
【0027】第7の発明は、第6の発明において、入力
音声を一時記憶するメモリと、入力音声の一繋がりをメ
モリから読み出して認識対象音声信号を生成する読出制
御器とをさらに備え、音程差判断器は、認識対象音声信
号の周波数成分を分析して周波数成分信号を生成する周
波数成分分析器と、周波数成分信号に基づいて、認識対
象音声信号の基本周波数を求めるとともに、音声認識標
準データと基本周波数の音程差を判定して音程差信号を
生成する音程判定器とを備える。
【0028】上述のように、第7の発明においては、入
力音声が1音であっても良いし、数音から成る単語であ
っても良い。
【0029】第8の発明は、第7の発明において、音程
判定器は認識対象音声信号の第1ホルマントを基本周波
数として求め、認識対象音声信号の第1ホルマントを音
声認識標準データの第1ホルマントと比較して、音程差
を判定することにより、認識対象音声が1音および複数
音の何れであっても、音程差を安定して判定できること
を特徴とする。
【0030】上述のように、第8の発明においては、入
力音声が1音あるいは数音から成る単語であっても、入
力音声単位で周波数特性の安定した第1ホルマントで認
識標準特性データとの音程比較を行うので、入力される
音声の一音切り出し等の処理が不要となり処理が迅速か
つ装置構成を簡略にできる。
【0031】第9の発明は、第8の発明において、音程
変換器は、音程差信号に基づいて認識対象音声信号の周
波数が変換されるように、メモリの読み出すタイミング
クロックの周波数を決定して読出クロック信号を生成す
る読出クロック制御器とを備え、メモリは読出クロック
信号に基づいて、音声認識標準データの音程と所定の関
係の音程を有するように認識対象音声信号を出力するこ
とを特徴とする。上述のように、第4の発明において
は、メモリの読み出しタイミングを変えることによって
認識対象音声信号の波形特徴を損なうことなくその音程
を変えることができるので、補間や間引き処理が不要で
ある。
【0032】
【発明の実施の形態】図1を参照して、本発明の実施形
態にかかる入力音声音程正規化装置を組み込んだ音声認
識装置について説明する。音声認識装置VRApは、A
/Dコンバータ1、入力音声正規化装置Tr、標準音声
データ格納器13、音声分析器15、および制御器17
を含む。標準音声データ格納器13は、音声認識の基準
となる音声周波数成分パターンPsfを格納し、所定の
タイミングで格納している音声周波数パターンPsfを
出力する。なお、不特定話者によって発声された音声は
マイクおよび増幅器(図示せず)を経由してアナログ音
声信号Svaとして音声認識装置VRApに入力され
る。
【0033】制御器17は、音声認識装置VRApの他
の構成要素1、Tr、13、および15から出力され
る、それらの動作状態を示す動作状態信号Ssに基づい
てそれらの構成要素1、Tr、13、および15の動作
を制御する制御信号Scを生成して、音声認識装置VR
Ap全体の動作を制御する。なお、動作状態信号Ss、
動作状態信号Sc、および制御器17について公知の技
術であるので、説明の簡便化のために特に必要のない限
りは言及しない。
【0034】A/Dコンバータ1は、入力されたアナロ
グ音声信号SvaにA/D変換処理を施してデジタル音
声信号Svdを生成して、入力音声正規化装置Trに入
力する。入力音声正規化装置Trは、入力されたデジタ
ル音声信号Svdに基づいて、音声認識装置VRApの
標準音程に合わせて音程変換された音程正規化デジタル
音声信号Svcを生成して、音声分析器15に出力す
る。音声分析器15は、標準音声データ格納器13から
読み出された音声周波数パターンPsfに基づいて、入
力音声正規化装置Trから音程正規化デジタル音声信号
Svcを分析して、入力音声と合致する音声認識標準デ
ータを示す認識信号Srcを出力する。
【0035】なお、図1に示すように、入力音声正規化
装置Trは、メモリ3、読出制御器5、周波数成分分析
器7、音程判定器9、および読出クロック制御器11を
含む。メモリ3は、A/Dコンバータ1から出力される
デジタル音声信号Svdを一時的に保存する。読出制御
器5は、メモリ3によるデジタル音声信号Svdの保存
を監視するとともに読出制御信号Srcを生成して、保
存されたデジタル音声信号Svdのうちで独立した発声
に対応するものをデジタル音声信号ユニットSvuとし
て読み出すようにメモリ3を制御する。
【0036】周波数成分分析器7は、メモリ3から出力
されるデジタル音声信号ユニットSvuに高速フーリエ
変換処理を施して、周波数スペクトル分析を行う。周波
数成分分析器7は、デジタル音声信号ユニットSvuの
周波数スペクトル分析結果に基づいて、周波数成分信号
Sfcを生成する。音程判定器9は、周波数成分分析器
7から出力される周波数成分信号Sfcの第1ホルマン
トを抽出し、あらかじめ音程判定器9内に格納されてい
る標準音声(標準音声データ格納器13)の第1ホルマ
ントに基づいて、入力音声(Sva、Svd、Svu)
の音程と該標準音声の音程差を求める。求められた音程
差に基づいて、音程判定器9はさらに入力音声(Sv
d、Sva、Svu)の音程をどの程度変換すれば標準
音程に合わせることができるかを示す音程変換率信号S
crを生成する。
【0037】読出クロック制御器11は、音程判定器9
から出力される音程変換率信号Scrに基づいて、メモ
リ3に対する読み出しクロック周波数を制御して読出ク
ロックSccを生成する。メモリ3は、読出クロックS
ccに規定されるタイミングで、保存されているデジタ
ル音声信号Svdを読み出すことによって、デジタル音
声信号Svdの音程が標準音声の音程に合わせて調整さ
れた音程正規化デジタル音声信号Svcを出力する。つ
まり、音程正規化デジタル音声信号Svcは基準音声周
波数成分パターンPsfと所定の音程関係を有する。こ
の所定の音程関係とは、必ずしも同一を意味するもので
なく、音声認識装置VRAp(特に音声分析器15)の
性能によって自ずと決まる許容範囲が認められることは
言うまでもない。
【0038】音声分析器15は、メモリ3から入力され
る音程正規化デジタル音声信号Svcを分析して、標準
音声データ格納器13から読み出された基準音声周波数
成分パターンPsfで合致するものを示す認識信号Sr
cを出力する。
【0039】次に、図2および図3を参照して、音声認
識装置VRApの動作の基本原理について説明する。図
2に、周波数成分分析器7によるデジタル音声信号Sv
dに高速フーリエ変換を施した結果得られる、周波数ス
ペクトルの例を示す。同図において、横軸は周波数fを
示し、縦軸は強度Aを示している。なお、一点鎖線L1
はデジタル音声信号Svdが男性により発声された音声
の代表的な音声周波数スペクトル例を示し、破線L2は
デジタル音声信号Svdが女性あるいは子供により発声
された音声の代表的な音声周波数スペクトル例を示して
いる。
【0040】そして実線Lsは音声認識用の標準音声デ
ータとして標準音声データ格納器13に格納されてい
る、音声周波数スペクトル例を示している。一般的に、
同じ音声(言葉)でも、男性の場合は一点鎖線L1に示
すように標準音声に比べて低周波数領域側に周波数スペ
クトルが現れ、女性あるいは子供の場合は破線L2に示
すように、標準音声に比べて高周波数領域側に周波数ス
ペクトルが現れる。
【0041】このような周波数成分のそれぞれの基本周
波数である第1ホルマント周波数をf1、f2、および
fsとすると、これらの基本周波数は話者に対して概ね
一定である。ここで述べる第1ホルマント周波数につい
て簡単に説明する。音声波形を時間領域から周波数領域
に変換すると、通常5kHz以下に母音の識別に大きな
役割を占めるホルマントと呼ばれる4〜5個程度のピー
クが観測される。ホルマントは周波数の低い方から第
1、第2、第3、・・・ホルマントと名付けられる。そ
して、同一の話者により発声された音声の第1ホルマン
トは、一音であっても、複数の音から構成される句であ
っても概ね一定である。
【0042】これは、上述の如く話者の喉の形状および
大きさによって、話者の声の基準の発声周波数が決定さ
れることと同じ理由による。つまり、上述のような不特
定話者により発声された音声の第1ホルマント周波数と
標準音声データの第1ホルマント周波数スペクトルの差
は、上述の性差や年齢差、さらに発声した言葉の内容に
限らず話者個人に対して実質上一定である。つまり、発
声した音声が1音だけであっても、数音から成る単語や
句のような音声列であっても、その音声列の第1ホルマ
ントは話者個人に対して一定である。
【0043】この事実に基づいて、本発明においては周
波数成分信号Sfcに基づいて、音程判定器9は不特定
話者により発声された音声の第1ホルマント周波数を求
めて不特定話者音声の基本周波数fi(以降、「入力音
声基本周波数fi」と称す)を求める。そして、音程判
定器9において、入力音声基本周波数fiを標準音声デ
ータの基本周波数fs(以降、「標準音声基本周波数f
s」と称す)と比較して、入力音声基本周波数fiの標
準音声基本周波数fsに対する音程比CRを、以下に示
す式(2)に従って算出される。 CR=fs/fi ・・・・ (2)
【0044】上述の如く、第1ホルマント周波数は、音
響的には、話者の喉の形状(長さ、太さ)によって一義
的に決まる。つまり、男性は喉が長く太いので、その音
声の基本周波数fmは標準音声の基本周波数fsより低
い。結果、音程比CRは1より大きくなる。一方、高い
女性や子供は喉が短く細いので、その基本周波数fcは
標準の音声の基本周波数fsより高い。結果、音程比C
Rは1より小さくなる。このような一般的な傾向ととも
に、話者毎に音程比CRは固有である。さらに、周波数
成分分析器7は音程比CRの値を示す音程変換率信号S
crを生成する。
【0045】読出クロック制御器11は、音程判定器9
から出力される音程変換率信号Scrに基づいて、デジ
タル音声信号SvdのサンプリングタイミングのCR倍
のタイミングでメモリ3からデジタル音声信号Svdを
読み出すことで、音程正規化デジタル音声信号Svcを
生成している。このような目的のために、メモリ3は一
般にリングメモリと呼ばれる循環メモリで構成される。
【0046】音程比CRが1より大きい、つまり入力音
声(Svd)の音程が低い場合は、サンプリングクロッ
クより早いタイミングで、メモリ3からデジタル音声信
号Svdを読み出して音程正規化デジタル音声信号Sv
cを生成する。一方、音程比CRが1より小さい、つま
り入力音声(Svd)の音程が高い場合は、サンプリン
グクロックより遅いタイミングで、デジタル音声信号S
vdを読み出して音程正規化デジタル音声信号Svcを
生成する。
【0047】図3を参照して、音程変換器9における音
程変換処理について、さらに説明する。同図において横
軸は時間tを示し、縦軸は音声の強度Aを示す。波形W
Sは標準音声データ格納器13に格納されている音声波
形の時間変化例を示す。波形WLは標準音声データに比
べて音程の低い音声波形(例えば男性の音声)を示し、
波形WHは標準音声データに比べて音程の高い音声波形
(例えば女性や子供の音声)を示す。同図において、波
形WS、波形WL、および波形WHの1周期を、それぞ
れPL、PS、およびPHと表している。周期PLおよ
びPHは上述の入力音声基本周波数fiの逆数に相当
し、周期PSは標準音声基本周波数fsの逆数に相当す
る。
【0048】波形WLを波形WSに合わせて音程変換す
るには、入力音声波形をA/D変換する時のサンプリン
グクロックより、速い(PL/PS倍)読み出しクロッ
クで読み出せば実現できる。また、波形WHを波形WS
に合わせて音程変換するには、入力音声波形をA/D変
換する時のサンプリングクロックより、遅い(PH/P
S倍)読み出しクロックで読み出せば実現できる。つま
り、読み出しクロックは、上式(2)で規定された音程
比CRに基づいて、サンプリングクロックを変換するこ
とで得られる。
【0049】このようにして、デジタル音声信号Svd
の音程を標準音声の音程に合わせて変換した音程正規化
デジタル音声信号Svcが得られる。しかしながら、音
程を上げる場合は音声波形の時間軸が短くなり、音程を
下がる場合は音声波形の時間軸が長くなるので、話速度
が変化してしまう。これを解決するために、音程を上げ
る場合には母音波形を追加し、音程を下げる場合には母
音波形を間引くことにより話速度を調整できるが、この
技術は公知であるとともに、本発明の目的とするところ
ではないので、その説明および図示を省く。さらに、読
み出しクロックの周波数変換も、従来から知られている
マスタークロックの分周クロックを用いて容易に作成で
きる。
【0050】次に、図4に示すフローチャートを参照し
て、音声認識装置VRApに組み込まれた入力音声正規
化装置Trの動作について説明する。音声認識装置VR
Apが駆動されて、その音声認識動作が開始される。ス
テップS2において、マイク等の装置を通して不特定話
者により発声された音声がアナログ音声信号Svaとし
てA/Dコンバータ1に入力される。そして、処理は次
のステップS4に進む。
【0051】ステップS4において、A/Dコンバータ
1は入力されたアナログ音声信号Svaを順次A/D変
換して、デジタル音声信号Svdを生成してメモリ3に
出力する。なお、上述のステップS2およびS4は、話
者により発声された音声の入力受付サブルーチン#10
0を形成する。
【0052】ステップS6において、読出制御器5はメ
モリ3の入力状態を監視して、話者による音声入力(ア
ナログ音声信号Sva)が終了したか否かを判断する。
この判断は、一例として、アナログ音声信号Svaの入
力中断時間が所定の閾値に達しているか否かをもってな
される。その他、話者が入力終了の旨を適当な手段を用
いて音声認識装置VRApまたは入力音声正規化装置T
rに指示するように構成しても良い。
【0053】話者の発声が継続している場合はNoと判
断されて、処理は上述のステップS4に戻り、デジタル
音声信号Svdの生成およびメモリ3への入力が継続さ
れる。そして、話者による一音または数音から成る独立
した音声列のアナログ音声信号Svaの入力が終了した
時点でYesと判断されて、処理は次のステップS8に
進む。
【0054】ステップS8において、読出制御器5は、
メモリ3に記憶されているデジタル音声信号Svdから
独立した音声列に対応するデジタル音声信号ユニットS
vuを読み出して周波数成分分析器7に出力させる。デ
ジタル音声信号ユニットSvuは、音声認識装置VRA
pによる音声認識対象である。そして、処理は次のステ
ップS10に進む。なお、上述のステップS6およびS
8は、話者により発声された音声のうち、認識対象とな
る音声を取り出す認識対象音声抽出サブルーチン#20
0を形成する。
【0055】ステップS10において、周波数成分分析
器7はメモリ3から入力されるデジタル音声信号ユニッ
トSvuに高速フーリエ変換処理を施して、デジタル音
声信号ユニットSvuの周波数スペクトル(図2)の分
析を行う。そして、処理は次のステップS12に進む。
【0056】ステップS12において、周波数成分分析
器7は、図2を参照して説明したように、周波数成分信
号Sfcを生成する。そして、処理は次のステップS1
4に進む。
【0057】ステップS14において、周波数成分分析
器7は生成した周波数成分信号Sfcを音程判定器9に
出力する。そして、処理は次のステップS16に進む。
なお、上述のステップS10、S12、およびS14
は、デジタル音声信号ユニットSvuの周波数スペクト
ル分析サブルーチン#300を形成する。
【0058】ステップS16において、音程判定器9は
周波数成分分析器7から入力される周波数成分信号Sf
cに基づいて、入力された音声(デジタル音声信号ユニ
ットSvu)の基本周波数である第1ホルマントを抽出
する。そして、処理は次のステップS18に進む。
【0059】ステップS18において、音程判定器9は
ステップS16で求められた第1ホルマントを、標準音
声データ格納器13に格納されている標準音声データの
第1ホルマントと比較して、上記(2)式に従って、音
程比CRを算出する。そして、処理は次のステップS2
0に進む。
【0060】ステップS20においては、音程判定器9
は音程比CRを表す音程変換率信号Scrを生成して、
読出クロック制御器11に出力する。そして、処理は次
のステップS22に進む。なお、上述のステップS1
6、S18、およびS20は、標準音声に対する入力音
声の音程の高低を判定する音程判定サブルーチン#40
0を形成する。
【0061】ステップS22において、読出クロック制
御器11は音程判定器9から出力される音程変換率信号
Scrに基づいて、メモリ3の読み出しタイミングを決
める読出クロックSccを生成する。そして、処理は次
のステップS24に進む。
【0062】ステップS24において、読出クロックS
ccに基づいて、メモリ3から音程正規化デジタル音声
信号Svcが読み出される。なお、上述のステップS2
2およびS24は、入力音声の音程正規化サブルーチン
#500を形成する。
【0063】上述の如くサブルーチン#100、#20
0、#300、#400、および#500の処理を経て
生成された音程正規化デジタル音声信号Svcは、音声
分析器15によって、標準音声データ格納器13に格納
されている標準音声データと照合されて認識処理を受け
る。音声分析器15はさらに、認識結果を示す認識信号
Srcを生成して出力する。
【0064】音程判定サブルーチン#400(S16)
における基本周波数(第1ホルマント)検出は、一音だ
けでも求まるが、発声単語全体の平均値をとっても良
い。これは、上述したように、話者により発声された音
声は1音であっても、複数音から成る音声であってもそ
の第1ホルマントは話者毎に概ね一定であるからであ
る。
【0065】さらに、音程比CRは厳しく求める必要は
なく、音程変換で通常使用される100¢(セント)単
位で近似しても十分に音程変換の効果がある。音声分析
器15は、このようにして音程変換された音声デジタル
信号(音程正規化デジタル音声信号Svc)を参照する
標準音声データ格納器13に格納されている音声認識の
音声周波数成分パターンと入力音声周波数成分パターン
との一致度を算出し、音声認識分析する。
【0066】このように不特定話者により発声された入
力音声を、あらかじめ、格納された標準音声データの音
程に音程変換することにより、標準音声データを複数持
つ必要がなく、不特定話者の幅広い周波数レンジにも対
応でき、音声認識率の向上ができる。なお、入力音声
(デジタル音声信号Svd)の音程を標準音声データの
音程に合わせて音程変換する代わりに、標準音声データ
の音程を入力音声(デジタル音声信号Svd)の音程に
合わせて音程変換しても良い。
【0067】以上のように、本発明の音声認識装置は、
入力された音声信号の周波数成分を分析し、入力音声を
音声認識用の標準音声データに音程変換することで、話
者の音色差による音声認識率の向上を図り、しかも標準
音声データを複数持つ必要がなく、メモリ容量を低減で
きる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる入力音声正規化装
置を組み込んだ音声認識装置の構成を示すブロック図で
ある。
【図2】異なる音程を有する音声の周波数スペクトルを
示す図である。
【図3】音声波形の時間変化例およびそれらの間で行わ
れる音程変換方法の説明図である。
【図4】図1に示した入力音声正規化装置の動作を示す
フローチャートである。
【図5】従来の音声認識装置の構成を示すブロック図で
ある。
【符号の説明】
VRAp 音声認識装置 1 A/Dコンバータ 13 標準音声データ格納器 15 音声分析器 Tr 入力音声正規化装置 3 メモリ 5 読出制御器 7 周波数成分分析器 9 音程判定器 11 読出クロック制御器 VRAc 音声認識装置 111 音声入力部 112 発声速度算出部 113 発声速度変換率決定部 114 発声速度変換部 115 音声認識部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音声認識標準データに基づいて、不特定
    話者が発声した入力音声を認識する音声認識装置に用い
    られ、当該入力音声の音程を当該音声認識標準データの
    音程と所定の関係に変換する入力音声音程正規化装置で
    あって、 前記入力音声と前記音声認識標準データとの音程差を判
    断する音程差判断手段と、 前記音程差判断手段によって判断された音程差に基づい
    て、前記入力音声の音程が前記音声認識標準データの音
    程と所定の関係になるように、当該入力音声の周波数を
    変換する音程変換手段とを備える入力音声音程正規化装
    置。
  2. 【請求項2】 前記入力音声を一時記憶するメモリ手段
    と、 前記入力音声の一繋がりを前記メモリ手段から読み出し
    て認識対象音声信号を生成する読出制御手段とをさらに
    備え、 前記音程差判断手段は、 前記認識対象音声信号の周波数成分を分析して周波数成
    分信号を生成する周波数成分分析手段と、 前記周波数成分信号に基づいて、前記認識対象音声信号
    の基本周波数を求めるとともに、前記音声認識標準デー
    タと当該基本周波数の音程差を判定して音程差信号を生
    成する音程判定手段とを備える請求項1に記載の入力音
    声音程正規化装置。
  3. 【請求項3】 前記音程判定手段は前記認識対象音声信
    号の第1ホルマントを基本周波数として求め、当該認識
    対象音声信号の第1ホルマントを前記音声認識標準デー
    タの第1ホルマントと比較して、前記音程差を判定する
    ことにより、前記認識対象音声が1音および複数音の何
    れであっても、音程差を安定して判定できることを特徴
    とする請求項2に記載の入力音声音程正規化装置。
  4. 【請求項4】 前記音程変換手段は、 前記音程差信号に基づいて前記認識対象音声信号の周波
    数が変換されるように、前記メモリの読み出すタイミン
    グクロックの周波数を決定して読出クロック信号を生成
    する読出クロック制御手段とを備え、 前記メモリは前記読出クロック信号に基づいて、前記音
    声認識標準データの音程と所定の関係の音程を有するよ
    うに前記認識対象音声信号を出力することを特徴とする
    請求項3に記載の入力音声音程正規化装置。
  5. 【請求項5】 請求項4に記載の入力音声音程正規化装
    置を備える音声認識装置。
  6. 【請求項6】 音声認識標準データに基づいて、不特定
    話者が発声した入力音声を認識する音声認識装置であっ
    て、 当該入力音声の音程を当該音声認識標準データの音程と
    所定の関係に変換する入力音声音程正規化装置と、 前記音程を変換された入力音声を前記音声認識標準デー
    タと比較して、当該入力音声と合致する当該音声認識標
    準データを示す認識信号を生成する音声分析手段とを備
    える音声認識装置。
  7. 【請求項7】 前記入力音声を一時記憶するメモリ手段
    と、 前記入力音声の一繋がりを前記メモリ手段から読み出し
    て認識対象音声信号を生成する読出制御手段とをさらに
    備え、 前記音程差判断手段は、 前記認識対象音声信号の周波数成分を分析して周波数成
    分信号を生成する周波数成分分析手段と、 前記周波数成分信号に基づいて、前記認識対象音声信号
    の基本周波数を求めるとともに、前記音声認識標準デー
    タと当該基本周波数の音程差を判定して音程差信号を生
    成する音程判定手段とを備える請求項6に記載の音声認
    識装置。
  8. 【請求項8】 前記音程判定手段は前記認識対象音声信
    号の第1ホルマントを基本周波数として求め、当該認識
    対象音声信号の第1ホルマントを前記音声認識標準デー
    タの第1ホルマントと比較して、前記音程差を判定する
    ことにより、前記認識対象音声が1音および複数音の何
    れであっても、音程差を安定して判定できることを特徴
    とする請求項7に記載の音声認識装置。
  9. 【請求項9】 前記音程変換手段は、 前記音程差信号に基づいて前記認識対象音声信号の周波
    数が変換されるように、前記メモリの読み出すタイミン
    グクロックの周波数を決定して読出クロック信号を生成
    する読出クロック制御手段とを備え、 前記メモリは前記読出クロック信号に基づいて、前記音
    声認識標準データの音程と所定の関係の音程を有するよ
    うに前記認識対象音声信号を出力することを特徴とする
    請求項8に記載の音声認識装置。
JP2000146420A 1999-05-21 2000-05-18 音声認識入力音声の音程正規化装置 Withdrawn JP2001042889A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000146420A JP2001042889A (ja) 1999-05-21 2000-05-18 音声認識入力音声の音程正規化装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP14183899 1999-05-21
JP11-141838 1999-05-21
JP2000146420A JP2001042889A (ja) 1999-05-21 2000-05-18 音声認識入力音声の音程正規化装置

Publications (2)

Publication Number Publication Date
JP2001042889A true JP2001042889A (ja) 2001-02-16
JP2001042889A5 JP2001042889A5 (ja) 2007-04-05

Family

ID=26474005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000146420A Withdrawn JP2001042889A (ja) 1999-05-21 2000-05-18 音声認識入力音声の音程正規化装置

Country Status (1)

Country Link
JP (1) JP2001042889A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007199654A (ja) * 2005-12-26 2007-08-09 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007309979A (ja) * 2006-05-16 2007-11-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009501909A (ja) * 2005-07-18 2009-01-22 トグノラ,ディエゴ,ジュセッペ 信号処理方法およびシステム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007199654A (ja) * 2005-12-26 2007-08-09 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007309979A (ja) * 2006-05-16 2007-11-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム

Similar Documents

Publication Publication Date Title
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
KR100531549B1 (ko) 음성 인식 입력 음성의 음정 정규화 장치
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
KR100423630B1 (ko) 음성인식 입력음성의 음정 정규화장치
JP6487650B2 (ja) 音声認識装置及びプログラム
JP2002236494A (ja) 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
JPS60114900A (ja) 有音・無音判定法
JP4328423B2 (ja) 音声識別装置
JP3588929B2 (ja) 音声認識装置
Every et al. Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm.
JP2006010739A (ja) 音声認識装置
JP4520619B2 (ja) 音声認識入力音声の音程正規化装置
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
Zhang et al. Recognition of Score Word in Freestyle Kayaking
JP2000099099A (ja) データ再生装置
JP3125928B2 (ja) 音声認識装置
KR101648396B1 (ko) 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置
JPH11338492A (ja) 話者認識装置
JPH0769713B2 (ja) 音声認識応答装置
EP1422691A1 (en) Method for adapting a speech recognition system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070221

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080714