JPH09325798A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH09325798A
JPH09325798A JP8144728A JP14472896A JPH09325798A JP H09325798 A JPH09325798 A JP H09325798A JP 8144728 A JP8144728 A JP 8144728A JP 14472896 A JP14472896 A JP 14472896A JP H09325798 A JPH09325798 A JP H09325798A
Authority
JP
Japan
Prior art keywords
voice
input
speed
rate
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8144728A
Other languages
English (en)
Inventor
Yasuhiro Terada
田 泰 宏 寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8144728A priority Critical patent/JPH09325798A/ja
Publication of JPH09325798A publication Critical patent/JPH09325798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力音声を発声速度に応じて変換(調整)す
ることによって、認識処理部を変更せずに発声速度の変
動を吸収し認識率の向上を図る。 【解決手段】 音声入力部11から入力された音声に対
し、発声速度算出部12で入力音声の発声速度を算出
し、その算出された発声速度をもとに発声速度変換率決
定部13において入力音声に対する発声速度の変換率を
決定し、その変換率をもとに発声速度変換部14におい
て、入力音声の発声速度を波形レベルで変換し、変換さ
れた入力音声を音声認識部15に入力し、認識結果を得
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識に関する
ものであり、発声速度の影響を軽減し、認識率の向上を
図る音声認識装置に関する。
【0002】
【従来の技術】従来、音声認識における発声速度の影響
を軽減する方法として、HMM法に基づいた音声認識を
行なう場合には、入力音声の発声速度を検出し、標準パ
ターンとのマッチングを行う際に、検出された発声速度
を用いてHMMのある状態における分析フレームの継続
時間長を調整しながらマッチングを行う方法が一般的で
ある。一例を挙げると、特開平2−113298号公報
に開示されているHMM音声認識におけるHMMの各状
態の継続時間の制限を行う方法がそれであり、その構成
を図5に示す。図5において、51は発声速度検出部、
52は音声記号化部、53は単語HMMデータベース、
54はHMM法に基づく音声認識部である。具体的な処
理は次の通りである。入力端子から入力された音声は、
発声速度検出部51で音声パワー、スペクトルから発声
速度が求られ、HMM法に基づく音声認識部54に与え
られる。音声記号化部52では、入力音声を記号系列に
変換し、HMM法に基づく音声認識部54に与える。H
MM法に基づく音声認識部54では、発声速度の値を用
いて継続時間の制限を行いながら、記号系列と単語HM
Mデータベース53中の各単語HMMとの間の確率計算
を行い、最も高い確率が得られるHMMに対応する単語
を認識結果として出力する。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の技術では、認識処理を行う時点で発声速度の吸収を
行うため、既存の音声認識装置または音響分析を含めた
音声認識の方法や標準パターン等を改良しなければなら
ないという課題があった。
【0004】本発明は、上記従来技術の課題を解決する
ものであり、音声認識装置または音響分析を含めた音声
認識の方法や標準パターン等を改良することなく、発声
速度の影響を軽減することのできる音声認識装置を提供
することを目的としている。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するために、音声入力部、発声速度算出部、発声速度
変換率決定部、発声速度変換部、音声認識部を備え、音
声入力部から入力された音声に対して、発声速度算出部
で入力音声の発声速度を算出し、算出した発声速度をも
とに発声速度変換率決定部で入力音声が所望の発声速度
になるような変換率を決定し、さらに発声速度変換部に
おいて波形レベルで入力音声の発声速度を変換し、発声
速度を変換した音声を音声認識部に入力し、音声認識部
において音声認識を行うようにしたものである。
【0006】
【発明の実施の形態】本発明の請求項1に記載の発明
は、音声を入力する音声入力部と、音声のパワーやピッ
チ周期等から入力音声の発声速度を算出する発声速度算
出部と、算出された入力音声の発声速度を目標とする発
声速度に変換する割合を決定する発声速度変換率決定部
と、決定された変換率をもとに入力音声の発声速度に応
じて時間長伸縮処理を行なって入力音声の発声速度を波
形レベルで変換する発声速度変換部と、発声速度変換さ
れた音声を認識処理する音声認識部とを備えた音声認識
装置であり、入力音声自体の発声速度を変換するので、
既存の音声認識装置または音声認識処理の方法や標準パ
ターン等を改良せずに、発声速度の影響を軽減し認識性
能が向上するという作用を有する。
【0007】本発明の請求項2に記載の発明は、発声速
度変換率決定部が、入力音声の発声速度を標準パターン
を作成する際に利用した音声の発声速度の平均値になる
ように変換率を決定することを特徴とする請求項1記載
の音声認識装置であり、入力音声の発声速度を認識装置
にとって最も認識し易い発声速度に変換するので、認識
性能が向上するという作用を有する。
【0008】本発明の請求項3に記載の発明は、発声速
度変換率決定部が、入力音声の発声速度を音声認識処理
部が対応する発声速度の許容範囲に入るように変換率を
決定することを特徴とする請求項1記載の音声認識装置
であり、入力音声の発声速度の変換に幅を持たせること
により、極端な発声速度の変換を防ぐことができ、入力
音声の劣化を最小に発声速度の変換ができるので、発声
速度の変換が認識性能に影響を及ぼさないという作用を
有する。
【0009】本発明の請求項4に記載の発明は、発声速
度変換部における時間長伸縮処理において、入力音声の
発声速度の調整にポインタ移動量制御による重複加算法
を用いることを特徴とする請求項1から3のいずれかに
記載の音声認識装置であり、入力音声の自然性を保った
まま、入力音声の発声速度の変換が可能なので、認識性
能に影響を及ぼさずに発声速度の変換が可能であるとい
う作用を有する。
【0010】(実施の形態)以下、本発明の実施の形態
について、図1〜図4を用いて説明する。図1は本発明
の実施の形態における音声認識装置の構成を示すもので
あり、図2は図1における発声速度算出部を実現する構
成図の一例であり、図3は図1における発声速度変換部
を実現する発声速度の変換方法であるポインタ移動量制
御による重複加算法の原理の説明図であり、図4は図1
における音声認識部を実現する構成図の一例である。図
1において、11は音声入力部、12は発声速度算出
部、13は発声速度変換率決定部、14は発声速度変換
部、15は音声認識部である。
【0011】以下、本実施の形態における動作について
説明する。図1において、音声入力部11から入力され
た音声に対して、発声速度算出部12で、音声のパワー
やピッチ周期等から入力音声の発声速度を算出する。次
に、求めた発声速度をもとに発声速度変換率決定部13
において入力音声に対し発声速度を変換する割合を決定
する。例えば、発声速度算出部12で算出された発声速
度が6.8 音節/秒 であり、目標とする発声速度が4.6
音節/秒 であったとしたら、発声速度変換率は148%(=
6.8/4.6*100)となる。この変換率を用いて発声速度変換
部14において、入力音声の発声速度を波形レベルで変
換、すなわち入力音声に対し148%の時間軸での伸張を行
う。そして、発声速度が変換された音声は、音声認識部
15に入力され認識処理が行われる。
【0012】図2は発声速度算出部12の構成を示して
いる。図2において、入力音声は音声パワー算出部21
に与えられ、一定長のフレーム毎のパワーが算出され
る。また、入力音声はピッチ周期算出部22にも与えら
れ、自己相関法、変形自己相関法等を用いてフレーム毎
のピッチ周期が算出される。そして、母音/子音判定部
23において、音声パワー算出部21から算出されたた
フレーム毎の音声パワーと、ピッチ周期算出部22から
算出されたフレーム毎のピッチ周期とから、入力音声に
対し母音/子音判定を行い、入力音声中の母音の数から
発声速度を求める。
【0013】なお、発声速度の算出は、予め決められた
単語を発声してもらい、単語の音節数と発声音声の時間
長から計算してもよい。
【0014】発声速度変換率決定部13においては、入
力音声に対する発声速度を標準パターンを作成する際に
用いた音声の発声速度の平均値に調整するように変換率
を決定する。具体的には、入力音声の発声速度が6.8 音
節/秒 であり、標準パターンを作成する際に用いた音
声の発声速度の平均値が4.4 音節/秒 であったとき、
発声速度の変換率を130%(=6.8/5.2*100)に設定し、図1
に示した発声速度変換部14で、この値をもとに発声速
度を変換する。
【0015】発声速度変換率決定部13において、変換
率を決定する別の方法として、入力音声に対する発声速
度を音声認識部15が対応する発声速度の許容範囲、具
体的に例を挙げると、標準パターンを作成する際に用い
た音声の発声速度の平均値を中心として標準偏差の範囲
に入力音声の発声速度が変換されるように変換率を決定
することができる。例えば、標準パターンを作成する際
に用いた音声の発声速度の平均値が5.2 音節/秒 、標
準偏差が1.1 とした場合、音声認識部15が対応する発
声速度の許容範囲は、4.1 〜6.3 音節/秒 となる。入
力音声の発声速度が6.8 音節/秒 だとすると、発声速
度変換率決定部13では、入力音声の劣化ができるだけ
少なくなるような発声速度6.3 音節/秒 になるように
変換率を決定する。具体的な数値は、108%(=6.8/6.3*10
0)となる。この値をもとに発声速度変換部14において
入力音声の発声速度を変換する。
【0016】発声速度変換部14における処理は、図3
に示すようにして行なわれる。具体的には、入力音声に
対し、ポインタ移動量制御による重複加算法を用いて時
間軸で圧縮・伸張を行う。ここでいう圧縮とは発声速度
を早くすることであり、伸張とは発声速度を遅くするこ
とである。まず、図3(a)を用いて圧縮の原理につい
て説明する。現在処理を行うポインタ(▽)から1ピッ
チ周期分のピッチ波形に対し、1から0へ直線的に向か
う重み付けをする。そして、その隣り合うピッチ波形に
対して、0から1へ直線的に向かう重み付けをし、両者
を重ね合わせる。次に、2期分のピッチ波形を重ね合わ
せた波形に置き換える。そして、圧縮率をR(R<1)
としたとき、現在処理を行うポイント(▽)からポイン
タの移動量Lc=RTp/(1−R)に従って次に処理
を行うポイント(▼)を決定する。図3(a)はR=
0.75のときの処理を示す。次に、図3(b)を用い
て伸長の原理について説明する。現在処理を行うポイン
タ(▽)から1ピッチ周期分のピッチ波形に対し、0か
ら1へ直線的に向かう重み付けをする。そして、その隣
り合うピッチ波形に対して、1から0へ直線的に向かう
重み付けをし、両者を重ね合わせる。次に、重ね合わせ
た波形を2つのピッチ波形の間に挿入する。そして、伸
張率をR(R>1)としたとき、挿入した波形の先頭のポイン
ト(▽)からポインタの移動量Ls=Tp/(R−1)
に従って次に処理を行うポイント(▼)を決定する。図
3(b)はR=1.25のときの処理を示す。ここで、
Tpはピッチ周期を示す。
【0017】このように、ポインタ移動量制御による重
複加算法は処理を隣り合った2周期分のピッチ波形に限
定するため、発声速度変換後の音質の劣化が少ないた
め、認識性能に影響を与えずに入力音声の発声速度の変
換が可能となる。
【0018】図4は音声認識部15の構成を示してい
る。図4において、入力音声に対し、フレーム毎に音響
分析部41において音響分析を行い、入力音声をLPC ケ
プストラム、LPC メルケプストラム等のパラメータに変
換する。変換された音声は、パターン照合部42におい
てDP(Dynamic Programing, 動的計画) マッチング法
やHMM(Hidden Markov Model, 隠れマルコフモデル)
法などを用いて、フレーム毎に単語標準パターン格納部
43に格納されている単語標準パターンと照合を行い、
入力音声と単語標準パターンが最も近いものを認識結果
として出力する。
【0019】
【発明の効果】以上のように、本発明によれば、音声入
力部、発声速度算出部、発声速度変換率決定部、発声速
度変換部、音声認識部を備え、音声入力部から入力され
た音声に対して、発声速度算出部で入力音声の発声速度
を算出し、算出した発声速度をもとに発声速度変換率決
定部で入力音声が所望の発声速度になるような変換率を
決定し、さらに発声速度変換部において波形レベルで入
力音声の発声速度を変換し、発声速度を変換した音声を
音声認識部に入力し、音声認識部において音声認識を行
うようにしたので、音声認識装置または音響分析を含め
た音声認識の方法や標準パターン等を改良せずに発声速
度の影響を軽減することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態における音声認識装置の構
成を示すブロック図
【図2】本発明の実施の形態における発声速度算出部の
構成を示すブロック図
【図3】(a)本発明の実施の形態における発声速度変
換部の発声速度を速くする時の原理を説明する波形図 (b)本発明の実施の形態における発声速度変換部の発
声速度を遅くする時の原理を説明する波形図
【図4】本発明の実施の形態における音声認識部の構成
を示すブロック図
【図5】従来例における音声認識装置の構成を示すブロ
ック図
【符号の説明】
11...音声入力部 12...発声速度算出部 13...発声速度変換率決定部 14...発声速度変換部 15...音声認識部 21...パワー算出部 22...ピッチ周期算出部 23...母音/子音判定部 41...音響分析部 42...パターン照合部 43...単語標準パターン格納部 50...入力端子 51...発声速度検出部 52...音声記号化部 53...単語HMMデータベース 54...HMM法に基づく音声認識部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力部と、音声のパ
    ワーやピッチ周期等から入力音声の発声速度を算出する
    発声速度算出部と、算出された入力音声の発声速度を目
    標とする発声速度に変換する割合を決定する発声速度変
    換率決定部と、決定された変換率をもとに入力音声の発
    声速度に応じて時間長伸縮処理を行なって入力音声の発
    声速度を波形レベルで変換する発声速度変換部と、発声
    速度変換された音声を認識処理する音声認識部とを備え
    た音声認識装置。
  2. 【請求項2】 発声速度変換率決定部が、入力音声の発
    声速度を標準パターンを作成する際に利用した音声の発
    声速度の平均値になるように変換率を決定することを特
    徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 発声速度変換率決定部が、入力音声の発
    声速度を音声認識処理部が対応する発声速度の許容範囲
    に入るように変換率を決定することを特徴とする請求項
    1記載の音声認識装置。
  4. 【請求項4】 発声速度変換における時間長伸縮処理に
    おいて、入力音声の発声速度の調整にポインタ移動量制
    御による重複加算法を用いることを特徴とする請求項1
    から3のいずれかに記載の音声認識装置。
JP8144728A 1996-06-06 1996-06-06 音声認識装置 Pending JPH09325798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8144728A JPH09325798A (ja) 1996-06-06 1996-06-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8144728A JPH09325798A (ja) 1996-06-06 1996-06-06 音声認識装置

Publications (1)

Publication Number Publication Date
JPH09325798A true JPH09325798A (ja) 1997-12-16

Family

ID=15368953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8144728A Pending JPH09325798A (ja) 1996-06-06 1996-06-06 音声認識装置

Country Status (1)

Country Link
JP (1) JPH09325798A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242300A (ja) * 1999-02-22 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
WO2000072308A1 (fr) * 1999-05-21 2000-11-30 Matsushita Electric Industrial Co., Ltd. Normalisateur d'intervalle pour signal vocal d'entree de reconnaissance vocale
JP2003044078A (ja) * 2001-07-30 2003-02-14 Nec Corp 発声速度正規化分析を用いた音声認識装置
US6687665B1 (en) 1999-10-29 2004-02-03 Matsushita Electric Industrial Co., Ltd. Device for normalizing voice pitch for voice recognition
JP2006517679A (ja) * 2003-02-12 2006-07-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置、方法及びコンピュータプログラム
JP2006337970A (ja) * 2005-06-02 2006-12-14 Tetsuo Mizumoto 音声入力自動化パソコン
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム
JP2017097092A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2017097093A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2020013169A (ja) * 2019-10-29 2020-01-23 株式会社Jvcケンウッド 端末装置、通信方法及び通信プログラム
WO2023152803A1 (ja) * 2022-02-08 2023-08-17 ファナック株式会社 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242300A (ja) * 1999-02-22 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体
WO2000072308A1 (fr) * 1999-05-21 2000-11-30 Matsushita Electric Industrial Co., Ltd. Normalisateur d'intervalle pour signal vocal d'entree de reconnaissance vocale
US6687665B1 (en) 1999-10-29 2004-02-03 Matsushita Electric Industrial Co., Ltd. Device for normalizing voice pitch for voice recognition
US7107213B2 (en) 1999-10-29 2006-09-12 Matsushita Electric Industrial Co., Ltd. Device for normalizing voice pitch for voice recognition
JP4666129B2 (ja) * 2001-07-30 2011-04-06 日本電気株式会社 発声速度正規化分析を用いた音声認識装置
JP2003044078A (ja) * 2001-07-30 2003-02-14 Nec Corp 発声速度正規化分析を用いた音声認識装置
JP2006517679A (ja) * 2003-02-12 2006-07-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置、方法及びコンピュータプログラム
JP2006337970A (ja) * 2005-06-02 2006-12-14 Tetsuo Mizumoto 音声入力自動化パソコン
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
US8280737B2 (en) 2007-09-06 2012-10-02 Fujitsu Limited Sound signal generating method, sound signal generating device, and recording medium
JP5141688B2 (ja) * 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム
JP2017097092A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2017097093A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2020013169A (ja) * 2019-10-29 2020-01-23 株式会社Jvcケンウッド 端末装置、通信方法及び通信プログラム
WO2023152803A1 (ja) * 2022-02-08 2023-08-17 ファナック株式会社 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US6553342B1 (en) Tone based speech recognition
US20060041429A1 (en) Text-to-speech system and method
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
WO2002029616A1 (en) Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
JPH09325798A (ja) 音声認識装置
JPH04362699A (ja) 音声認識方法及び装置
JPH0632020B2 (ja) 音声合成方法および装置
JP2007248886A (ja) 読み修正装置
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JPH08211897A (ja) 音声認識装置
JP5328703B2 (ja) 韻律パターン生成装置
Yakcoub et al. Speech assistive technology to improve the interaction of dysarthric speakers with machines
JP3277579B2 (ja) 音声認識方法および装置
JP4479191B2 (ja) 音声認識装置、音声認識方法及び音声認識処理プログラム
JPH07230293A (ja) 音声認識装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2907828B2 (ja) 音声対話型文書作成装置
JPH0635494A (ja) 音声認識装置
JP2578771B2 (ja) 音声認識装置
JPH09212190A (ja) 音声認識装置及び文認識装置