JPH0632021B2 - 日本語音声認識装置 - Google Patents

日本語音声認識装置

Info

Publication number
JPH0632021B2
JPH0632021B2 JP62176560A JP17656087A JPH0632021B2 JP H0632021 B2 JPH0632021 B2 JP H0632021B2 JP 62176560 A JP62176560 A JP 62176560A JP 17656087 A JP17656087 A JP 17656087A JP H0632021 B2 JPH0632021 B2 JP H0632021B2
Authority
JP
Japan
Prior art keywords
syllable
pattern
accent
candidate
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62176560A
Other languages
English (en)
Other versions
JPS6420599A (en
Inventor
文雄 外川
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP62176560A priority Critical patent/JPH0632021B2/ja
Publication of JPS6420599A publication Critical patent/JPS6420599A/ja
Publication of JPH0632021B2 publication Critical patent/JPH0632021B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、入力された日本語の音声を音節単位で認識
し、認識した音節の組合せから文節候補を選出する日本
語音声認識装置の改良に関する。
〈従来の技術〉 一般に、日本語音声入力ワードプロセッサは、入力され
た音声を音節切出し部で音節に切出し、音節識別部でパ
ターンマッチング等によって音節単位で識別し、識別し
た音節に基づいて得られる複数の文節候補(意味のない
漢字の場合もある)の中から、候補選出操作によって正
しい漢字列からなる文節候補を選ぶことによって文章を
作成していくようになっている。
従来、複数の文節候補を順序付けて出力する方式として
は、予め統計的に求められた出現頻度の高い順に文節候
補を出力するものがある。また、直前に入力された漢字
列を優先して出力する学習方式も採用されている。
〈発明が解決しようとする問題点〉 しかしながら、上記の如く、文節候補の出力順序を出現
頻度の高い順に設定する方式では、選びたい文節候補を
統計的に出現頻度の低い文節候補の場合は、その文節候
補が出力されるまで何度も候補選択操作を行わなければ
ならず面倒であるという問題点がある。また、学習方式
にも同様の問題がある。
そこで、この発明の目的は、入力音声に含まれるアクセ
ント情報を用いて、文節候補の出力順を設定することに
よって、入力された音声を正しく表わす文節候補を効率
良く出力することが可能な日本語音声認識装置を提供す
ることにある。
〈問題点を解決するための手段〉 上記目的を達成するため、この発明は、アクセントの表
現が日本語では音程(基本周波数の変化)を主体として
いることに基づいてなしたものである。すなわち、この
発明の日本語音声認識装置は、入力された日本語音声を
音節切出し部で音節に切出して音節を識別する音節識別
部と、音節を表わす文字列およびその基本周波数列の変
化のパターンであるアクセントパターンを記憶している
文節辞書と、上記音節切出し部で切出された音節区間の
フレーム毎の基本周波数列をソートした際に中央に位置
する基本周波数を当該音節区間の音節基本周波数として
算出する音節基本周波数算出部と、上記音節基本周波数
の変化のパターンとアクセントパターンを対応づけて記
憶しているアクセントパターン辞書と、上記音節基本周
波数算出部で算出される入力音声の音節基本周波数の変
化のパターンと、上記アクセントパターン辞書とに基づ
いて、入力された文節のアクセントパターンを特定する
アクセントパターン分析部と、上記音節識別された音節
の組合せと上記文節辞書の文節を表わす文字列とを照合
して文節候補とそのアクセントパターンを選出した後、
この選出された文節候補のアクセントパターンと、上記
アクセントパターン分析部で特定されたアクセントパタ
ーンとに基づいて、入力された文節のアクセントパター
ンと同一のアクセントパターンを有する文節候補を優先
して出力する文節候補選出部とを備えたことを特徴とし
ている。
さらに、上記文節候補選出部は、同一文節候補中に複数
の同音語を有する場合は、入力音声のアクセントパター
ンと同じアクセントパターンの同音語を最優先して出力
するようにすればなお好ましい。
〈作用〉 入力された日本語音声が音節切出し部で音節に切出され
音節識別部で識別されると、この識別された音節の組合
せと文節辞書の文節を表わす文字列とを照合して文節候
補とそのアクセントパターンが文節候補選出部によって
選出される。一方、音節基本周波数算出部によって、上
記切出された音節区間のフレーム毎の基本周波数列がソ
ートされた際に中央に位置する基本周波数が当該音節区
間の音節基本周波数として算出され、この音節基本周波
数の変化のパターンとアクセントパターン辞書とから、
入力された日本語音声のアクセントパターンがアクセン
トパターン分析部によって特定される。そうすると、こ
の特定されたアクセントパターンと上記選出された文節
候補のアクセントパターンとに基づいて、上記文節候補
選出部によって入力された文節のアクセントパターンと
同一のアクセントパターンを有する文節候補が優先して
出力される。したがって、入力された音声を正しく表現
する文節候補が効率良く出力される。
〈実施例〉 以下、この発明を図示の実施例により詳細に説明する。
第1図はこの発明の日本語音声認識装置の一実施例のブ
ロック図である。音声特徴量抽出部3はアンプリファイ
ア(以下、アンプという)1で増幅されA/D変換器2
でディジタル信号に変換された音声を、8msec周期に一
定時間長のフレーム毎に特徴量(例えば、LPC(線形
予測係数)ケプストラム,パワーおよび基本周波数)を
抽出し、この抽出した特徴量を音声特徴量バッファ6に
出力して格納する。そして、この音声特徴量バッファ6
に格納された音声特徴量に基づいて、音節切出し部であ
るCPU4によって切出された音節の特徴パターンは、
音節パターンバッファ7に格納される。
音節パターンマッチング部5は、上記音節パターンバッ
ファ7に格納されている切出された音節の特徴パターン
と、音節標準パターンメモリ51に予め登録されている
音節の特徴パターンとのパターンマッチングを行う。そ
して、マッチング距離の小さい順に音節ラベルを選定
し、音節ラベルとマッチング距離の対で構成される音節
の識別結果(以下、音節ラティスと言う)を出力し、音
節ラティスバッファ8に格納する。
文節辞書10は、後に詳述するように、上記音節ラティ
スから展開される候補文字列の中から、有効な文字列の
みを音節の候補文字列として選出する場合に用いる辞書
である。上記文節辞書10には文節候補かな文字列,同
音語,そのアクセントパターンおよび文法が記憶されて
いる。アクセントパターン辞書11は、音声特徴量抽出
部3の基本周波数(ピッチ)抽出部31で抽出される音
節基本周波数の第6図に示すような変化のパターンと、
アクセントパターンを表わすコードを対応づけて記憶し
ている(第6図のパターンは東京アクセントパターンを
示し、7種のパターンがある)。文節アクセントパター
ンバッファ9は、アクセントパターン辞書11を参照し
て特定された入力音声の文節アクセントパターンを格納
する。
候補バッファ12は、音節ラティスバッファ8に格納さ
れている音節ラティスを展開して得られる候補文字列の
中から、文節辞書10と照合して選出された文節の候補
文字列のデータを格納するものである。すなわち、候補
文字列バッファ121には文節候補のかな文字列を格納
し、スコアバッファ122にはこの文節候補を形成する
音節のマッチング距離の総和(スコア)を格納し、同音
語バッファ123に文節辞書10から得られるこの文節
候補の同音語を格納し、アクセントパターンバッファ1
24には文節辞書10から得られる上記同音語のアクセ
ントパターンを格納する。文節候補バッファ13の各項
目には候補バッファ12内の各バッファ121〜124
の内容が転送され、入力された音声に対する全ての文節
候補の内容が記憶される。そして、操作者の要求によっ
てその内容が順次出力される。
上記構成の日本語音声認識装置の動作を、第2図の日本
語音声認識のフローチャートに従って、「狭い」という
音声が入力された場合を例に具体的に説明する。第3図
(a)は入力音声「/狭い/」の音声波形を示し、第3図
(b)はフレーム毎の基本周波数(ピッチ)のグラフを示
す。
マイクロホン等から入力された音声は第1図のアンプ1
で増幅されてA/D変換器2に入力される。
ステップSでは、入力されたアナログ音声信号がA/
D変換器2でA/D変換され、ディジタル信号が出力さ
れる。
ステップSでは、音声特徴量抽出部3によってフレー
ム毎の特徴量が抽出される。
ステップSでは、音節切出し(音節セグメンテーショ
ン)部で3つの音節に切出す。
ステップSでは、切出された3つの音節区間の特徴パ
ターンと予め音節標準パターンメモリ51に登録された
音節標準パターン群とのパターンマッチングを、音節識
別部である音節パターンマッチング部5で行う。そし
て、マッチング距離の小さい方から順に3つの音節ラベ
ルとそれらのマッチング距離の対で第3図(c)に示すよ
うに構成される音節ラティスを出力し、音節ラティスバ
ッファ8に格納する。
ステップSでは、音声特徴量抽出部3の基本周波数
(ピッチ)抽出部31で抽出される各音節区間のフレー
ム毎の基本周波数列から、その区間の音節基本周波数が
基本周波数算出部で算出される。ここで、上記音節基本
周波数の算出は次のようにして行う。例えば、第2音節
区間(「せまい」の「ま」の部分に相当)は計17フレ
ームであり、各フレーム毎に抽出された基本周波数列の
数値は以下のごとくであったとする。
[125,128,134,138,139,140,142,145,147,144,142,140,1
42,139,137,134,130] 上記各フレーム毎の基本周波数の数値の大きい順(昇
順)にソートすると次のようになる。
{147,145,144,142,142,142,140,140,139,139,138,137,1
34,134,130,128,125} この数列の中央値(昇順にソートされた17フレームの
基本周波数の中央第9番目の値)139Hzをこの音節区
間の音節基本周波数とする。ただし、0Hzであるフレー
ムは計算から除外する。
ステップSでは、上記ステップS算出された音節基
本周波数から、アクセントパターン分析部でその入力音
声のアクセントパターンを決定する。すなわち、上述の
ようにして音節基本周波数算出部で算出された音節
「せ」の基本周波数が120Hz、音節「ま」の基本周波
数が139Hz、音節「い」の基本周波数が118Hzであ
るとする。アクセントパターン分析部は上記音節
「せ」,「ま」,「い」の各音節基本周波数の変化のパ
ターンと、アクセントパターン辞書11に記憶されてい
るアクセントパターン(第6図の三拍の語を参照)とに
基づいて、入力された音節のアクセントパターンはで
あると特定する。この特定されたアクセントパターンは
音節ラティスと共に出力され、文節アクセントパターン
バッファ9に格納される。すなわち、次の処理が行われ
た。
ステップSは、上記第3図(c)の音節ラティスに基づ
いて、3つの音節区間に対応する各3つの音節ラベルの
組合せを変化させて第4図左側に示すように、上記スコ
アの小さい順に候補文字列に展開する。
ステップSで、展された候補文字列の中の一つが文節
辞書10の文節候補文字列と照合され文法解析される
(第4図右側)。その結果、一致成立しなければその文
字列は意味のないものとして除外され、次の候補文字列
が照合される。一方、一致成立すればこの候補文字列を
候補文節とし、そのかな文字列を候補文字列バッファ1
21に格納し、スコアをバッファに格納し、文節辞書1
0から得られる同音語を同音語バッファ123に格納
し、文節辞書10から得られるアクセントパターンをア
クセントパターンバッファ124に格納した後、同様に
次の候補文字列が照合される。その結果、第5図に示す
ような文節候補が得られる。そして、得られた全ての文
節候補のから文字列,スコア,同音語およびアクセント
パターンが、各文節候補毎に文節候補バッファ13に記
憶される。
ステップSは、上記ステップSで特定された入力音
声のアクセントパターンと文節候補バッファ13に記憶
された各文節候補のアクセントパターンが照合される。
ステップS10では、アクセントパターンが一致した同音
語を含む文節候補を優先(すなわち、入力音声「せま
い」のアクセントパターンと同じアクセントパターン
の同音語を含む文節候補を優先)して文節候補のかな
文字列とその同音語を並べ換え、第5図(b)のような最
終文節候補が得られる。ここで、同じアクセントパター
ンの同音語を含む文節候補が複数個ある場合はスコアの
小さい方を優先する。また、一つの文節候補中に同音語
が複数個ある場合は、同じアクセントパターンの同音語
を最優先し、残った他の同音語は出現頻度の高い方を優
先する。そして、操作者の要求に応じて第5図(b)の順
序で文節候補の同音語が出力される。
このように、従来の日本語音声認識装置では、第5図
(a)に示すように、文節候補のかな文字列はスコアの順
に並べ、同音語は統計的に出現頻度の高い順(学習機能
により入力頻度が優先される場合もある)に並んでいる
のに対して、その発明では、入力音声のアクセントパタ
ーンと同じアクセントパターンの文節候補およびその同
音語を優先して出力するので、第5図(a)に示す従来の
文節候補における第1文節候補のかな文字列「しない」
や第2文節候補の「しまい」は、入力音声のアクセント
パターンと同じアクセントパターンの同音語を有し
ないため、第5図(b)の本実施例による文節候補順にお
いては、夫々第3文節候補,第4文節候補に落ちる。一
方、従来の文節候補順では第3文節候補であった「せま
い」や第4文節候補であった「せまり」はアクセントパ
ターンの同音語を有するため、夫々第1文節候補、第
2文節候補に上がり、各文節候補内の同音語も並びに換
わっている。その結果、操作者の要求によって最初に出
力される第1文節候補の第1同音語は、入力音声「狭
い」と同ぞ「狭い」という同音語になっている。したが
って、入力された音声を正しく表わす文節候補の同音語
を効率良く出力することができる。
上記実施例では、アクセントパターン辞書11内のアク
セントパターンを第6図の東京アクセントパターンに従
って記憶しているが、このアクセントパターンは一意に
定めるものではなく、方言や話者に応じて適応化できる
ようにすれば音声入力ワードプロセッサの使用者を制限
することはない。
〈発明の効果〉 以上より明らなように、この発明の日本語音節認識装置
は、音節基本周波数算出部によって、音節区間のフレー
ム毎の基本周波数列をソートした際に中央に位置する基
本周波数を当該音節区間の音節基本周波数とし、アクセ
ントパターン分析部によって、入力音声の音節基本周波
数の変化のパターンとアクセントパターン辞書とに基づ
いて入力音声のアクセントパターンを特定し、文節候補
選出部によって、識別された音節の組合せと文節辞書と
を照合して文節候補のアクセントパターンを得て、この
文節候補のアクセントパターンと上記特定された入力音
声のアクセントパターンとに基づいて、入力された文節
のアクセントパターンと同じアクセントパターンを有す
る文節候補を優先して出力するので、入力された音声を
正しく表わす文節候補を効率良く出力することができ
る。
さらに、この発明の日本語音声認識装置は、同一文節候
補中に複数の同音語を有する場合は、入力音声のアクセ
ントパターンと同じアクセントパターンの同音語を最優
先して出力するようにすれば、さらに効率良く入力され
た音声を正しく表わす文節候補の同音語を出力すること
ができる。
【図面の簡単な説明】
第1図はこの発明の日本語音声認識装置の一実施例を示
すブロック図、第2図は上記実施例における日本語音声
認識のフローチャート、第3図はアクセントパターンと
音節ラティスの説明図、第4図は候補文字列の文節辞書
との照合の説明図、第5図は得られた文節候補順の説明
図、第6図は東京アクセントパターンを示す図である。 3……音声特徴量抽出部、4……CPU、 5……音節パターンマッチング部、 6……音声特徴量バッファ、 8……音節ラティスバッファ、 9……文節アクセントパターンバッファ、 10……文節辞書、11……アクセントパターン辞書、 12……候補バッファ、13……文節候補バッファ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された日本語音声を音節切出し部で音
    節に切出して音節を識別する音節識別部と、 文節を表わす文字列およびその基本周波数の変化のパタ
    ーンであるアクセントパターンを記憶している文節辞書
    と、 上記音節切出し部で切出された音節区間のフレーム毎の
    基本周波数列をソートした際に中央に位置する基本周波
    数を当該音節区間の音節基本周波数として算出する音節
    基本周波数算出部と、 上記音節基本周波数の変化のパターンとアクセントパタ
    ーンを対応づけて記憶しているアクセントパターン辞書
    と、 上記音節基本周波数算出部で算出される入力音声の音節
    基本周波数の変化のパターンと、上記アクセントパター
    ン辞書とに基づいて、入力された文節のアクセントパタ
    ーンを特定するアクセントパターン分析部と、 上記音節識別部で識別された音節の組合せと上記文節辞
    書の文節を表わす文字列とを照合して文節候補とそのア
    クセントパターンを選出した後、この選出された文節候
    補のアクセントパターンと、上記アクセントパターン分
    析部で特定されたアクセントパターンとに基づいて、入
    力された文節のアクセントパターンと同一のアクセント
    パターンを有する文節候補を優先して出力する文節候補
    選出部とを備えたことを特徴とする日本語音声認識装
    置。
JP62176560A 1987-07-15 1987-07-15 日本語音声認識装置 Expired - Lifetime JPH0632021B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62176560A JPH0632021B2 (ja) 1987-07-15 1987-07-15 日本語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62176560A JPH0632021B2 (ja) 1987-07-15 1987-07-15 日本語音声認識装置

Publications (2)

Publication Number Publication Date
JPS6420599A JPS6420599A (en) 1989-01-24
JPH0632021B2 true JPH0632021B2 (ja) 1994-04-27

Family

ID=16015706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62176560A Expired - Lifetime JPH0632021B2 (ja) 1987-07-15 1987-07-15 日本語音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632021B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
JP4693503B2 (ja) * 2005-05-31 2011-06-01 リューベ株式会社 グリス用カートリッジタンク及びグリスポンプ装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56153395A (en) * 1980-04-30 1981-11-27 Nippon Telegraph & Telephone Voice form kanji input system
JPS58123199A (ja) * 1982-01-14 1983-07-22 有限会社フカヤ石油店 車両の進入・退出検知装置
JPS6073595A (ja) * 1983-09-29 1985-04-25 富士通株式会社 音声入力装置
JPS61278693A (ja) * 1985-05-30 1986-12-09 大下 一義 多分枝管

Also Published As

Publication number Publication date
JPS6420599A (en) 1989-01-24

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US20020123891A1 (en) Hierarchical language models
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
JP2001296880A5 (ja)
JPH0583918B2 (ja)
JPS62235998A (ja) 音節識別方式
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
Hirschberg Using text analysis to predict intonational boundaries.
JP3444108B2 (ja) 音声認識装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP3378547B2 (ja) 音声認識方法及び装置
JPH0632021B2 (ja) 日本語音声認識装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3522005B2 (ja) 音声合成装置
JP2647234B2 (ja) 音声認識装置
JPH0338699A (ja) 音声認識装置
KR102107445B1 (ko) 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
JP2005534968A (ja) 漢字語の読みの決定
JPH0619497A (ja) 音声認識方法
JP2004309654A (ja) 音声認識装置
JP3001334B2 (ja) 認識用言語処理装置