JPH0632021B2

JPH0632021B2 - 日本語音声認識装置

Info

Publication number: JPH0632021B2
Application number: JP62176560A
Authority: JP
Inventors: 文雄外川; 徹上田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1987-07-15
Filing date: 1987-07-15
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS6420599A

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、入力された日本語の音声を音節単位で認識
し、認識した音節の組合せから文節候補を選出する日本
語音声認識装置の改良に関する。

〈従来の技術〉一般に、日本語音声入力ワードプロセッサは、入力され
た音声を音節切出し部で音節に切出し、音節識別部でパ
ターンマッチング等によって音節単位で識別し、識別し
た音節に基づいて得られる複数の文節候補（意味のない
漢字の場合もある）の中から、候補選出操作によって正
しい漢字列からなる文節候補を選ぶことによって文章を
作成していくようになっている。

従来、複数の文節候補を順序付けて出力する方式として
は、予め統計的に求められた出現頻度の高い順に文節候
補を出力するものがある。また、直前に入力された漢字
列を優先して出力する学習方式も採用されている。

〈発明が解決しようとする問題点〉しかしながら、上記の如く、文節候補の出力順序を出現
頻度の高い順に設定する方式では、選びたい文節候補を
統計的に出現頻度の低い文節候補の場合は、その文節候
補が出力されるまで何度も候補選択操作を行わなければ
ならず面倒であるという問題点がある。また、学習方式
にも同様の問題がある。

そこで、この発明の目的は、入力音声に含まれるアクセ
ント情報を用いて、文節候補の出力順を設定することに
よって、入力された音声を正しく表わす文節候補を効率
良く出力することが可能な日本語音声認識装置を提供す
ることにある。

〈問題点を解決するための手段〉上記目的を達成するため、この発明は、アクセントの表
現が日本語では音程（基本周波数の変化）を主体として
いることに基づいてなしたものである。すなわち、この
発明の日本語音声認識装置は、入力された日本語音声を
音節切出し部で音節に切出して音節を識別する音節識別
部と、音節を表わす文字列およびその基本周波数列の変
化のパターンであるアクセントパターンを記憶している
文節辞書と、上記音節切出し部で切出された音節区間の
フレーム毎の基本周波数列をソートした際に中央に位置
する基本周波数を当該音節区間の音節基本周波数として
算出する音節基本周波数算出部と、上記音節基本周波数
の変化のパターンとアクセントパターンを対応づけて記
憶しているアクセントパターン辞書と、上記音節基本周
波数算出部で算出される入力音声の音節基本周波数の変
化のパターンと、上記アクセントパターン辞書とに基づ
いて、入力された文節のアクセントパターンを特定する
アクセントパターン分析部と、上記音節識別された音節
の組合せと上記文節辞書の文節を表わす文字列とを照合
して文節候補とそのアクセントパターンを選出した後、
この選出された文節候補のアクセントパターンと、上記
アクセントパターン分析部で特定されたアクセントパタ
ーンとに基づいて、入力された文節のアクセントパター
ンと同一のアクセントパターンを有する文節候補を優先
して出力する文節候補選出部とを備えたことを特徴とし
ている。

さらに、上記文節候補選出部は、同一文節候補中に複数
の同音語を有する場合は、入力音声のアクセントパター
ンと同じアクセントパターンの同音語を最優先して出力
するようにすればなお好ましい。

〈作用〉入力された日本語音声が音節切出し部で音節に切出され
音節識別部で識別されると、この識別された音節の組合
せと文節辞書の文節を表わす文字列とを照合して文節候
補とそのアクセントパターンが文節候補選出部によって
選出される。一方、音節基本周波数算出部によって、上
記切出された音節区間のフレーム毎の基本周波数列がソ
ートされた際に中央に位置する基本周波数が当該音節区
間の音節基本周波数として算出され、この音節基本周波
数の変化のパターンとアクセントパターン辞書とから、
入力された日本語音声のアクセントパターンがアクセン
トパターン分析部によって特定される。そうすると、こ
の特定されたアクセントパターンと上記選出された文節
候補のアクセントパターンとに基づいて、上記文節候補
選出部によって入力された文節のアクセントパターンと
同一のアクセントパターンを有する文節候補が優先して
出力される。したがって、入力された音声を正しく表現
する文節候補が効率良く出力される。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

第１図はこの発明の日本語音声認識装置の一実施例のブ
ロック図である。音声特徴量抽出部３はアンプリファイ
ア（以下、アンプという）１で増幅されＡ／Ｄ変換器２
でディジタル信号に変換された音声を、８msec周期に一
定時間長のフレーム毎に特徴量（例えば、ＬＰＣ（線形
予測係数）ケプストラム，パワーおよび基本周波数）を
抽出し、この抽出した特徴量を音声特徴量バッファ６に
出力して格納する。そして、この音声特徴量バッファ６
に格納された音声特徴量に基づいて、音節切出し部であ
るＣＰＵ４によって切出された音節の特徴パターンは、
音節パターンバッファ７に格納される。

音節パターンマッチング部５は、上記音節パターンバッ
ファ７に格納されている切出された音節の特徴パターン
と、音節標準パターンメモリ５１に予め登録されている
音節の特徴パターンとのパターンマッチングを行う。そ
して、マッチング距離の小さい順に音節ラベルを選定
し、音節ラベルとマッチング距離の対で構成される音節
の識別結果（以下、音節ラティスと言う）を出力し、音
節ラティスバッファ８に格納する。

文節辞書１０は、後に詳述するように、上記音節ラティ
スから展開される候補文字列の中から、有効な文字列の
みを音節の候補文字列として選出する場合に用いる辞書
である。上記文節辞書１０には文節候補かな文字列，同
音語，そのアクセントパターンおよび文法が記憶されて
いる。アクセントパターン辞書１１は、音声特徴量抽出
部３の基本周波数（ピッチ）抽出部３１で抽出される音
節基本周波数の第６図に示すような変化のパターンと、
アクセントパターンを表わすコードを対応づけて記憶し
ている（第６図のパターンは東京アクセントパターンを
示し、７種のパターンがある）。文節アクセントパター
ンバッファ９は、アクセントパターン辞書１１を参照し
て特定された入力音声の文節アクセントパターンを格納
する。

候補バッファ１２は、音節ラティスバッファ８に格納さ
れている音節ラティスを展開して得られる候補文字列の
中から、文節辞書１０と照合して選出された文節の候補
文字列のデータを格納するものである。すなわち、候補
文字列バッファ１２１には文節候補のかな文字列を格納
し、スコアバッファ１２２にはこの文節候補を形成する
音節のマッチング距離の総和（スコア）を格納し、同音
語バッファ１２３に文節辞書１０から得られるこの文節
候補の同音語を格納し、アクセントパターンバッファ１
２４には文節辞書１０から得られる上記同音語のアクセ
ントパターンを格納する。文節候補バッファ１３の各項
目には候補バッファ１２内の各バッファ１２１〜１２４
の内容が転送され、入力された音声に対する全ての文節
候補の内容が記憶される。そして、操作者の要求によっ
てその内容が順次出力される。

上記構成の日本語音声認識装置の動作を、第２図の日本
語音声認識のフローチャートに従って、「狭い」という
音声が入力された場合を例に具体的に説明する。第３図
(a)は入力音声「／狭い／」の音声波形を示し、第３図
(b)はフレーム毎の基本周波数（ピッチ）のグラフを示
す。

マイクロホン等から入力された音声は第１図のアンプ１
で増幅されてＡ／Ｄ変換器２に入力される。

ステップＳ_１では、入力されたアナログ音声信号がＡ／
Ｄ変換器２でＡ／Ｄ変換され、ディジタル信号が出力さ
れる。

ステップＳ_２では、音声特徴量抽出部３によってフレー
ム毎の特徴量が抽出される。

ステップＳ_３では、音節切出し（音節セグメンテーショ
ン）部で３つの音節に切出す。

ステップＳ_４では、切出された３つの音節区間の特徴パ
ターンと予め音節標準パターンメモリ５１に登録された
音節標準パターン群とのパターンマッチングを、音節識
別部である音節パターンマッチング部５で行う。そし
て、マッチング距離の小さい方から順に３つの音節ラベ
ルとそれらのマッチング距離の対で第３図(c)に示すよ
うに構成される音節ラティスを出力し、音節ラティスバ
ッファ８に格納する。

ステップＳ_５では、音声特徴量抽出部３の基本周波数
（ピッチ）抽出部３１で抽出される各音節区間のフレー
ム毎の基本周波数列から、その区間の音節基本周波数が
基本周波数算出部で算出される。ここで、上記音節基本
周波数の算出は次のようにして行う。例えば、第２音節
区間（「せまい」の「ま」の部分に相当）は計１７フレ
ームであり、各フレーム毎に抽出された基本周波数列の
数値は以下のごとくであったとする。

[125,128,134,138,139,140,142,145,147,144,142,140,1
42,139,137,134,130] 上記各フレーム毎の基本周波数の数値の大きい順（昇
順）にソートすると次のようになる。

{147,145,144,142,142,142,140,140,139,139,138,137,1
34,134,130,128,125} この数列の中央値（昇順にソートされた１７フレームの
基本周波数の中央第９番目の値）１３９Hzをこの音節区
間の音節基本周波数とする。ただし、０Hzであるフレー
ムは計算から除外する。

ステップＳ_６では、上記ステップＳ_５算出された音節基
本周波数から、アクセントパターン分析部でその入力音
声のアクセントパターンを決定する。すなわち、上述の
ようにして音節基本周波数算出部で算出された音節
「せ」の基本周波数が１２０Hz、音節「ま」の基本周波
数が１３９Hz、音節「い」の基本周波数が１１８Hzであ
るとする。アクセントパターン分析部は上記音節
「せ」，「ま」，「い」の各音節基本周波数の変化のパ
ターンと、アクセントパターン辞書１１に記憶されてい
るアクセントパターン（第６図の三拍の語を参照）とに
基づいて、入力された音節のアクセントパターンはで
あると特定する。この特定されたアクセントパターンは
音節ラティスと共に出力され、文節アクセントパターン
バッファ９に格納される。すなわち、次の処理が行われ
た。

ステップＳ_７は、上記第３図(c)の音節ラティスに基づ
いて、３つの音節区間に対応する各３つの音節ラベルの
組合せを変化させて第４図左側に示すように、上記スコ
アの小さい順に候補文字列に展開する。

ステップＳ_８で、展された候補文字列の中の一つが文節
辞書１０の文節候補文字列と照合され文法解析される
（第４図右側）。その結果、一致成立しなければその文
字列は意味のないものとして除外され、次の候補文字列
が照合される。一方、一致成立すればこの候補文字列を
候補文節とし、そのかな文字列を候補文字列バッファ１
２１に格納し、スコアをバッファに格納し、文節辞書１
０から得られる同音語を同音語バッファ１２３に格納
し、文節辞書１０から得られるアクセントパターンをア
クセントパターンバッファ１２４に格納した後、同様に
次の候補文字列が照合される。その結果、第５図に示す
ような文節候補が得られる。そして、得られた全ての文
節候補のから文字列，スコア，同音語およびアクセント
パターンが、各文節候補毎に文節候補バッファ１３に記
憶される。

ステップＳ_９は、上記ステップＳ_６で特定された入力音
声のアクセントパターンと文節候補バッファ１３に記憶
された各文節候補のアクセントパターンが照合される。

ステップＳ₁₀では、アクセントパターンが一致した同音
語を含む文節候補を優先（すなわち、入力音声「せま
い」のアクセントパターンと同じアクセントパターン
の同音語を含む文節候補を優先）して文節候補のかな
文字列とその同音語を並べ換え、第５図(b)のような最
終文節候補が得られる。ここで、同じアクセントパター
ンの同音語を含む文節候補が複数個ある場合はスコアの
小さい方を優先する。また、一つの文節候補中に同音語
が複数個ある場合は、同じアクセントパターンの同音語
を最優先し、残った他の同音語は出現頻度の高い方を優
先する。そして、操作者の要求に応じて第５図(b)の順
序で文節候補の同音語が出力される。

このように、従来の日本語音声認識装置では、第５図
(a)に示すように、文節候補のかな文字列はスコアの順
に並べ、同音語は統計的に出現頻度の高い順（学習機能
により入力頻度が優先される場合もある）に並んでいる
のに対して、その発明では、入力音声のアクセントパタ
ーンと同じアクセントパターンの文節候補およびその同
音語を優先して出力するので、第５図(a)に示す従来の
文節候補における第１文節候補のかな文字列「しない」
や第２文節候補の「しまい」は、入力音声のアクセント
パターンと同じアクセントパターンの同音語を有し
ないため、第５図(b)の本実施例による文節候補順にお
いては、夫々第３文節候補，第４文節候補に落ちる。一
方、従来の文節候補順では第３文節候補であった「せま
い」や第４文節候補であった「せまり」はアクセントパ
ターンの同音語を有するため、夫々第１文節候補、第
２文節候補に上がり、各文節候補内の同音語も並びに換
わっている。その結果、操作者の要求によって最初に出
力される第１文節候補の第１同音語は、入力音声「狭
い」と同ぞ「狭い」という同音語になっている。したが
って、入力された音声を正しく表わす文節候補の同音語
を効率良く出力することができる。

上記実施例では、アクセントパターン辞書１１内のアク
セントパターンを第６図の東京アクセントパターンに従
って記憶しているが、このアクセントパターンは一意に
定めるものではなく、方言や話者に応じて適応化できる
ようにすれば音声入力ワードプロセッサの使用者を制限
することはない。

〈発明の効果〉以上より明らなように、この発明の日本語音節認識装置
は、音節基本周波数算出部によって、音節区間のフレー
ム毎の基本周波数列をソートした際に中央に位置する基
本周波数を当該音節区間の音節基本周波数とし、アクセ
ントパターン分析部によって、入力音声の音節基本周波
数の変化のパターンとアクセントパターン辞書とに基づ
いて入力音声のアクセントパターンを特定し、文節候補
選出部によって、識別された音節の組合せと文節辞書と
を照合して文節候補のアクセントパターンを得て、この
文節候補のアクセントパターンと上記特定された入力音
声のアクセントパターンとに基づいて、入力された文節
のアクセントパターンと同じアクセントパターンを有す
る文節候補を優先して出力するので、入力された音声を
正しく表わす文節候補を効率良く出力することができ
る。

さらに、この発明の日本語音声認識装置は、同一文節候
補中に複数の同音語を有する場合は、入力音声のアクセ
ントパターンと同じアクセントパターンの同音語を最優
先して出力するようにすれば、さらに効率良く入力され
た音声を正しく表わす文節候補の同音語を出力すること
ができる。

【図面の簡単な説明】

第１図はこの発明の日本語音声認識装置の一実施例を示
すブロック図、第２図は上記実施例における日本語音声
認識のフローチャート、第３図はアクセントパターンと
音節ラティスの説明図、第４図は候補文字列の文節辞書
との照合の説明図、第５図は得られた文節候補順の説明
図、第６図は東京アクセントパターンを示す図である。３……音声特徴量抽出部、４……ＣＰＵ、５……音節パターンマッチング部、６……音声特徴量バッファ、８……音節ラティスバッファ、９……文節アクセントパターンバッファ、１０……文節辞書、１１……アクセントパターン辞書、１２……候補バッファ、１３……文節候補バッファ。

Claims

【特許請求の範囲】

【請求項１】入力された日本語音声を音節切出し部で音
節に切出して音節を識別する音節識別部と、文節を表わす文字列およびその基本周波数の変化のパタ
ーンであるアクセントパターンを記憶している文節辞書
と、上記音節切出し部で切出された音節区間のフレーム毎の
基本周波数列をソートした際に中央に位置する基本周波
数を当該音節区間の音節基本周波数として算出する音節
基本周波数算出部と、上記音節基本周波数の変化のパターンとアクセントパタ
ーンを対応づけて記憶しているアクセントパターン辞書
と、上記音節基本周波数算出部で算出される入力音声の音節
基本周波数の変化のパターンと、上記アクセントパター
ン辞書とに基づいて、入力された文節のアクセントパタ
ーンを特定するアクセントパターン分析部と、上記音節識別部で識別された音節の組合せと上記文節辞
書の文節を表わす文字列とを照合して文節候補とそのア
クセントパターンを選出した後、この選出された文節候
補のアクセントパターンと、上記アクセントパターン分
析部で特定されたアクセントパターンとに基づいて、入
力された文節のアクセントパターンと同一のアクセント
パターンを有する文節候補を優先して出力する文節候補
選出部とを備えたことを特徴とする日本語音声認識装
置。