JP3299170B2 - 音声登録認識装置 - Google Patents

音声登録認識装置

Info

Publication number
JP3299170B2
JP3299170B2 JP04255598A JP4255598A JP3299170B2 JP 3299170 B2 JP3299170 B2 JP 3299170B2 JP 04255598 A JP04255598 A JP 04255598A JP 4255598 A JP4255598 A JP 4255598A JP 3299170 B2 JP3299170 B2 JP 3299170B2
Authority
JP
Japan
Prior art keywords
word
recognition
registration
voice
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04255598A
Other languages
English (en)
Other versions
JPH11242493A (ja
Inventor
優 高野
啓三郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP04255598A priority Critical patent/JP3299170B2/ja
Publication of JPH11242493A publication Critical patent/JPH11242493A/ja
Application granted granted Critical
Publication of JP3299170B2 publication Critical patent/JP3299170B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声のみによって
単語パタン登録を行い、それを用いて音声による単語認
識を行う音声登録認識装置に関するものである。
【0002】
【従来の技術】音声認識によって単語登録を行い、登録
された単語を認識対象語として音声認識を行う音声登録
認識装置、例えば特開平8−110790号公報「音声
認識装置」(文献1)がある。また、文字列よりも精度
の高いモデル化を作成するために、音節より細かいサブ
ワード単位を組み合わせる方法として特開平7−219
579号公報「音声認識装置」(文献2)に示すような
方法が考えられる。また、単語特有の音響的特徴と、話
者による発声のゆれの両方を利用した音声認識装置とし
て、特定話者の特定単語発声の特徴量を単語モデルと
し、鹿野清宏「音声認識の基礎」p32-34,39-43(文献
3)に示されているViterbi 法(DPマッチング)を
用いて単語認識を行う方法が存在する。
【0003】
【発明が解決しようとする課題】文献1に挙げたような
ものは、音声のみにより単語登録ができる音声認識装置
として有効に機能する。しかしながら、文献1に挙げら
れた手法は、単語モデルとして文字列で表現できるもの
だけを許しており、文字列で表現できる発声のみのモデ
ル化にとどまっている。文字列のみのモデル化では、例
えば特定話者用の音響モデルが使えない環境においては
不特定話者の文字列モデルを使用することになり、精度
はかなり低下する。
【0004】文献2に示す方法を用いて、単なる文字列
でなく、日本語として通常使用されている単語としての
特徴を考慮した単語モデルを作成することができる。し
かしながら、文献2に示すような、話者に依存しない既
存のモデルを用いる方法では、単語特有の音響的特徴を
表現することはできても、話者による発声のゆれを表現
することはできない。
【0005】文献3の方法は、前述の両特徴を精密に表
現できる反面、単語モデルとして、実際の音声またはそ
こから計算される特徴量を保存しておく必要があり、単
語モデルの格納に膨大なメモリ容量を要する。
【0006】本発明の目的は、入力音声及び既存の音声
モデルのみから話者及び単語に依存する音響的特徴を精
密に表現する単語モデルを作成し、該モデルを用いて音
声認識を行う音声登録認識を提供することにある。
【0007】
【課題を解決するための手段】音声認識に使われる手法
に、音節より細かいサブワード単位を用いた手法があ
る。サブワードとしては、音節、音素、あるいは「半音
節を単位とするHMNを用いた不特定話者音声認識」信
学論D−II、J75−D−II、8、P1281-1289に示
す半音節等が使われる。通常はこれらのサブワード単位
の連接で音節モデルないし単語モデルを形成するが、単
語モデルを作成する際には、音節という単位を意識する
必要はない。このサブワード単位を音節単位に拘束され
ない方法で組み合わせることにより、文字列という制限
に拘束されない、より自由度の高い単語モデルを作成す
ることができる。ひとつには、想定している言語(例え
ば、日本語、英語、あるいは世界中の知られている限り
の全言語、等)に属するすべての単語をサブワードの連
接で表すことができるようにサブワードの集合を用意
し、その集合に属するサブワードの任意の連接から、登
録用の音声に最も近いものを選ぶ方法が考えられる。も
うひとつには、さらに言語知識を活用するため、子音母
音の別等の知識を加える方法である。単純には、日本語
を表すモデルは子音を表すサブワードと母音を表すサブ
ワードが交互に現れるサブワード列で表現する、という
ような方法が考えられる。
【0008】前者の方法を用いると、該当言語を精密に
表現することができる。例えば、日本語における鼻濁音
のような、文字列で表現できない暗黙の音響ルールを、
音節より豊富に存在するサブワードで表現することによ
り、そのような暗黙の音響ルールを意識的に導入するこ
となく表現することができる。また、個人の発声の癖等
のぶれを、特定話者向けの音声モデルを用いず不特定話
者モデルだけを用いて表現することも可能になる。それ
により、文字列を主体とした音声登録方式より精密な単
語モデルを構築できる。前者は特定の言語モデルに拘束
されない方法である。例えば、日本語を表すサブワード
で英語モデルを作成することもできる。
【0009】一方、後者のように、特定の言語を仮定し
たルールを導入し、該当言語を表す精度を高めることも
できる。例示したように、子音モデルと母音モデルの交
代で単語モデルを構築すると、例えば登録音声の母音部
分に雑音が混入した場合にその部分が子音モデルと解釈
されてしまう、というような誤登録を防ぐためにも役立
つ。
【0010】両者とも、既存の音響モデルとその組み合
わせにより単語モデルを生成しているため、実際の音声
またはそこから算出される特徴量を単語モデルとする方
法と同様の精度を持ちながら、そのような単語モデルに
要するような膨大な記憶容量を要求しない。既存のサブ
ワードモデルの集合の他に、サブワード列を表現するた
めの数十個ないし高々数百個の数値があれば一単語分の
単語モデルを十分に表現できる。
【0011】
【発明の実施の形態】本発明における音声登録認識装置
は、登録用音声を入力としそのフレームごとの音響的特
徴量を計算し出力する登録音声分析部と、モデル生成用
のサブワードモデルを保持するサブワード辞書部と、登
録音声分析部から出力されるフレームごとの特徴量を入
力とし登録用音声に対する最適なサブワード連接を求め
出力する登録パタンマッチング部と、既存の単語モデル
を保持する単語モデル辞書と、認識用音声を入力としそ
のフレームごとの音響的特徴量を計算し出力する認識音
声分析部と、認識音声分析部から出力されるフレームご
との特徴量を入力とし認識用音声に対する最適な単語モ
デルを求め出力する認識部からなる。
【0012】登録音声分析部は、登録用音声の一定時間
(フレーム)ごとに、その区間の音声の周波数分析を行
い、特徴量を算出し、出力する。特徴量としては、音声
のパワー、パワー変化量、ケプストラム、ケプストラム
変化量等を使用する。サブワード辞書部は、単語モデル
生成に使用する全サブワードを保持する。サブワードは
単語モデルを構成する、より小さい単位である。本実施
例においてはサブワードは1フレームの特徴量に対応す
るモデルである。登録パタンマッチング部は、入力とな
る特徴量と、サブワード辞書中の全サブワードとの間の
距離計算を行い、毎フレーム、該当フレームの音声に最
も近いサブワードを求め、単語モデル辞書に格納する。
ただし、連続する複数フレームにおいて、同一のサブワ
ードが入力された場合、その間に対応するサブワードモ
デルは、該当サブワード1個で代用するものとする。認
識音声分析部は、登録音声分析部と同様、認識用音声の
フレームごとの特徴量を算出し、出力する。実際には登
録音声分析部を流用してもよい。単語モデル辞書は、過
去に登録パタンマッチング部から出力された単語モデル
をすべて保持しているものとする。認識部は、単語モデ
ル辞書中の各単語モデルごとに、入力音声とのパタンマ
ッチングを行い、各単語モデルの尤度を計算し、最も高
い尤度を持つ単語モデルを認識結果として出力する。
【0013】次に図を参照しながら、本発明の実施例に
ついて説明する。
【0014】図1を参照すると、本発明の実施例は、登
録用音声を入力とし、そのフレームごとの音響的特徴量
を計算し出力する登録音声分析部101と、モデル生成
用のサブワードモデルを保持するサブワード辞書部10
2と、登録音声分析部101から出力されるフレームご
との特徴量を入力とし、登録用音声に対する最適なサブ
ワード連接を求め単語モデルとして出力する登録パタン
マッチング部103と、既存の単語モデルを保持する単
語モデル辞書105と、認識用音声を入力とし、そのフ
レームごとの音響的特徴量を計算し出力する認識音声分
析部106と、認識音声分析部106から出力されるフ
レームごとの特徴量を入力とし、認識用音声に対する最
適な単語モデルを求め出力する認識部107からなる。
【0015】本実施例では、サブワード辞書102は、
図2に示すような、音素すなわち単独の子音または母音
を表すモデルをサブワードとして保持する。
【0016】次に、本実施例の動作を説明する。図3
は、本実施例の動作を示すフローチャートである。登録
用音声としては、「とうきょう」「おおさか」の2発
声、認識用音声は、「とうきょう」の1発声を用いると
する。ステップ1において、登録音声分析部101は登
録用音声「とうきょう」の各フレームにおける特徴量を
計算し、出力する。次にステップ2において、登録パタ
ンマッチング部103は、全フレームに対し、該当フレ
ームの特徴量に最も近いサブワードを、サブワード辞書
102中から選択し、各フレームに対応するサブワード
を連接させたものを単語モデル辞書105に出力する。
ただし、同一サブワードが連続している場合は、該当す
る部分列を1個のサブワードで代用することにする。次
にステップ3において、単語モデル辞書105は「とう
きょう」モデルを受け取る。「おおさか」発声に関して
もステップ1からステップ3までを繰り返し、「おおさ
か」モデルを単語モデル辞書105に格納する。「とう
きょう」発声との違いは、登録される単語モデルの内容
である。本説明は登録音声が2発声の場合だが、登録音
声が3発声以上ある場合についても、ステップ1からス
テップ3までを繰り返す。ステップ4において、認識音
声分析部106は認識用音声「とうきょう」を受け取
り、ステップ1における登録音声分析部101の動作と
同様の動作で、各フレームの特徴量を出力する。次にス
テップ5において、認識部107は、単語モデル辞書1
05中の単語モデル「とうきょう」「おおさか」のそれ
ぞれと各フレームの特徴量のパタンマッチングを、文献
3に示すViterbi 法を用いて行い、「とうきょう」
「おおさか」それぞれの、認識用音声に対する尤度を求
める。最後にステップ6において、尤度の高い「とうき
ょう」を出力して、終了する。本説明は認識用音声が1
発声の場合だが、2発声以上の場合にも、ステップ4か
らステップ6を繰り返し、おのおの最も尤度の高い単語
モデルを求める。
【0017】この方法を適用すると、単一の単語発声を
複数回行い、各発声を登録音声として単語モデルを作成
することにより、単一の単語に対し複数の登録パタンを
持つことができる。これは、人間の発声には必ずあると
思われる発声のぶれを、複数発声のモデルを用意するこ
とで吸収する方法である。
【0018】以上に挙げた実施例では、登録音声分析部
と認識音声分析部は別個のものを用いている。どちらの
動作も、入力された音声を周波数分析し、特徴量を算出
することである。登録音声と認識音声の分析手法が同一
である場合は、入力音声の違いを除き同一の動作といえ
る。また、通常、登録音声と認識音声の分析手法は同一
のものを用いる。
【0019】次ぎに、前述の実施例における登録音声分
析部と認識音声分析部を単一の音声分析部で兼用した別
の実施例を示す。図4を参照すると、この実施例は、音
声を入力とし、そのフレームごとの音響的特徴量を計算
し出力する音声分析部101と、モデル生成用のサブワ
ードモデルを保持するサブワード辞書部102と、登録
音声を入力として音声分析部101から出力されるフレ
ームごとの特徴量を入力とし、登録用音声に対する最適
なサブワード連接を求め単語モデルとして出力する登録
パタンマッチング部103と、既存の単語モデルを保持
する単語モデル辞書105と、認識音声を入力として音
声分析部101から出力されるフレームごとの特徴量を
入力とし、認識用音声に対する最適な単語モデルを求め
出力する認識部107からなる。
【0020】本実施例の動作は、前述の実施例の動作の
説明における、登録音声分析部101及び認識音声分析
部106の動作を、両者とも本実施例の構成における音
声分析部101で行うように変更したものである。
【0021】この実施例を用いれば、登録音声分析部と
認識音声分析部の2つの音声分析部を、単一の音声分析
部で代用することができ、経済的に有利である。しか
も、分析手法が同一の場合は、得られる効果はまったく
同じである。よって本実施例は、音声登録と音声認識を
同一の装置で行う場合には有効な手段といえる。
【0022】
【発明の効果】これらの実施例により、主に人間の発声
のぶれに対して頑健な、音声登録認識装置を構成するこ
とができる。
【図面の簡単な説明】
【図1】図1は、実施例の構成を示すブロック図であ
る。
【図2】図2は、実施例で使用する音素単位のサブワー
ドで単語「とうきょう」を構成した例である。
【図3】図3は、実施例の動作を示すフローチャートで
ある。
【図4】図4は、別の実施例の構成を示すブロック図で
ある。
フロントページの続き (56)参考文献 特開 平8−110790(JP,A) 特開 平7−219579(JP,A) 特開 昭59−7998(JP,A) 特開 平7−261783(JP,A) 特公 平7−104678(JP,B2) 「ディジタル音声処理」古井著, (1985−9−25),東海大学出版会,p 160−161

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】登録用音声の一定時間毎の音響的特徴量を
    計算し、登録用音響的特徴量として出力する登録音声分
    析部と、 単語モデル生成に使用するサブワードの集合を保持する
    サブワード辞書部であり、このサブワードは、半音節、
    音素、連接による半音節又は連接による音素のうちのい
    ずれか一つであるサブワード辞書部と、 前記登録用音響的特徴量と、前記サブワードの集合との
    パタンマッチングを行い、前記サブワードの集合から前
    記登録用音声に最も近いサブワードの連接を求め、サブ
    ワード列として出力する登録パタンマッチング部と、 前記サブワード列を単語モデルとして前記登録用音声毎
    に格納しておく単語モデル辞書部と、 認識用音声の一定時間ごとの音響的特徴量を計算し、認
    識用音響的特徴量として出力する認識音声分析部と、 前記各単語モデルに対応する特徴量と、前記認識用音響
    的特徴量とのパタンマッチングを行い、前記各単語モデ
    ルの前記認識用音声に対する尤度を求め、前記尤度か
    ら、前記認識用音声に最も近い前記単語モデルを求める
    認識部を備えた音声登録認識装置。
  2. 【請求項2】登録用音声の一定時間毎の音響的特徴量
    と、認識用音声の一定時間毎の音響的特徴量とを計算
    し、登録用音響的特徴量及び認識用音響的特徴量として
    出力する音声分析部と、 単語モデル生成に使用するサブワードの集合を保持する
    サブワード辞書部であり、このサブワードは、半音節、
    音素、連接による半音節又は連接による音素のうちのい
    ずれか一つであるサブワード辞書部と、 前記登録用音響的特徴量と、前記サブワードの集合との
    パタンマッチングを行い、前記サブワードの集合から前
    記登録用音声に最も近いサブワードの連接を求め、サブ
    ワード列として出力する登録パタンマッチング部と、 前記サブワード列を単語モデルとして前記登録用音声毎
    に格納しておく単語モデル辞書部と、 前記各単語モデルに対応する特徴量と、前記認識用音響
    的特徴量とのパタンマッチングを行い、前記各単語モデ
    ルの前記認識用音声に対する尤度を求め、前記尤度か
    ら、前記認識用音声に最も近い前記単語モデルを求める
    認識部を備えた音声登録認識装置。
JP04255598A 1998-02-24 1998-02-24 音声登録認識装置 Expired - Fee Related JP3299170B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04255598A JP3299170B2 (ja) 1998-02-24 1998-02-24 音声登録認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04255598A JP3299170B2 (ja) 1998-02-24 1998-02-24 音声登録認識装置

Publications (2)

Publication Number Publication Date
JPH11242493A JPH11242493A (ja) 1999-09-07
JP3299170B2 true JP3299170B2 (ja) 2002-07-08

Family

ID=12639304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04255598A Expired - Fee Related JP3299170B2 (ja) 1998-02-24 1998-02-24 音声登録認識装置

Country Status (1)

Country Link
JP (1) JP3299170B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
「ディジタル音声処理」古井著,(1985−9−25),東海大学出版会,p160−161

Also Published As

Publication number Publication date
JPH11242493A (ja) 1999-09-07

Similar Documents

Publication Publication Date Title
JP5208352B2 (ja) 声調言語用分節声調モデリング
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP4189051B2 (ja) 発音測定装置および方法
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
JP3050934B2 (ja) 音声認識方式
US20160086599A1 (en) Speech Recognition Model Construction Method, Speech Recognition Method, Computer System, Speech Recognition Apparatus, Program, and Recording Medium
US20060041429A1 (en) Text-to-speech system and method
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
US20180047385A1 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Hoffmann et al. Analysis of verbal and nonverbal acoustic signals with the Dresden UASR system
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
JP3039634B2 (ja) 音声認識装置
JP3299170B2 (ja) 音声登録認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Sawada et al. Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 2014
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
JP3378547B2 (ja) 音声認識方法及び装置
JP2011180308A (ja) 音声認識装置及び記録媒体
JP3584002B2 (ja) 音声認識装置および音声認識方法
Salvi Developing acoustic models for automatic speech recognition
JPH1097270A (ja) 音声認識装置
JP2862306B2 (ja) 音声認識装置
Maneenoi et al. Acoustic modeling of onset-rhyme for Thai continuous speech recognition

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110419

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120419

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120419

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130419

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130419

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140419

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees