JPH021317B2

JPH021317B2 -

Info

Publication number: JPH021317B2
Application number: JP56151089A
Authority: JP
Inventors: Juji Kijima; Akihiro Kimura; Yasuhiro Nara; Atsuhito Kobayashi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-09-24
Filing date: 1981-09-24
Publication date: 1990-01-11
Also published as: JPS5852698A

Description

【発明の詳細な説明】本発明は、音声認識処理システム、特に入力さ
れた発声データにもとづいて音声区間を切出す切
出し処理に当つて、切出し態様を異にする複数個
の切出し位置計算部を用いて、切出された始端点
と終端点とを統合して、可能性のある複数個の切
出しに対応して音声区間データを抽出するように
し、上記切出し位置が非所望であることに起因す
る認識処理の誤りを防止するように構成した音声
認識処理システムに関するものである。

音声認識処理システムにおいては、発声データ
にもとづいて抽出された標準音声区間データを格
納している辞書部をそなえると共に、当該辞書部
の内容と認識のために入力された未知入力発声デ
ータから抽出された未知音声区間データとを照合
するようにされる。上記標準音声区間データや未
知音声区間データを上記発声データから切出すに
当つては、例えば音声エネルギを抽出し当該エネ
ルギが所定の閾値を超えている点をもつて始端点
および終端点として切出すなどの手段が用いられ
る。しかし、発声状態や、場合によつては雑音が
重畳された状態などにもとづいて、上記切出しが
常に最適な位置となるとは限らない。このため
に、DP照合などの手法が用いられるが、該DP照
合などの手法を用いている場合でも、上記切出し
位置の不適正に起因する誤認識が発生し得る。

本発明は上記の点を解決することを目的として
おり、本発明の音声認識処理システムは、発声デ
ータにもとづいて切出された音声区間に対応する
標準音声区間データを格納する辞書部をそなえる
と共に、未知入力発声データにもとづいて切出さ
れた音声区間に対応する未知音声区間データと上
記辞書部に格納されている標準音声区間データと
を照合して上記未知入力発声データの上記音声区
間に対応するカテゴリを決定する音声認識処理シ
ステムにおいて、入力された発声データを保持する入力データ保
持部、入力された発声データにもとづいて夫々異なる
切出し態様のもとで当該発声データを切出す複数
個の切出し位置計算部、該各切出し位置計算部からの切出し結果にもと
づいて上記入力された発声データの始端点群と当
該入力された発声データの終端点群とを抽出しか
つ存在し得る始端・終端対を上記始端点群と終端
点群との組合わせによつて抽出する切出し位置統
合部、該切出し位置統合部によつて抽出された始端・
終端対にもとづいて上記入力データ保持部の内容
に対して切出しを行なう処理部、および該切出し処理部によつて切出された上記
組合わせに対応する個数に見合う音声区間データ
を格納するデータ格納部をそなえてなり、該データ格納部の内容をして上記標準音声区間
データとして保持すると共に未知音声区間データ
として用い上記標準音声区間データとの上記照合
を行なうよう構成したことを特徴としている。以
下図面を参照しつつ説明する。

第１図は本発明の一実施例要部構成、第２図は
第１図図示の切出し位置統合部における処理の一
実施例態様を説明する説明図を示す。

第１図において、１は入力データ保持部であつ
て例えばマイクロフオンによつて得られた音声信
号に対して従来周知の処理を行なつて得られた発
声データを時系列にしたがつて保持するもの、２
―１ないし２―Ｎは夫々切出し位置計算部であつ
て夫々が例えば音声エネルギ閾値レベルを異にす
るなどによつて夫々異なつた切出し位置を決定し
得るもの、３は切出し位置統合部であつて例えば
第２図を参照して説明する如き始端・終端対を抽
出するもの、４は始端点群保持部、５は終端点群
保持部、６は切出し処理部であつて上記切出し位
置統合部３からの複数個の始端・終端対にもとづ
いて上記入力データ保持部１の内容から複数個の
切出しデータを抽出するもの、７はデータ格納部
であつて切出された切出しデータ，，，
，……を格納部するもの、８―１ないし８―４
は夫々切出しデータ（音声区間データ）を示して
いる。

発声データが例えば入力データ保持部１から読
出されて、各切出し位置計算部２―１ないし２―
Ｎに供給される。各切出し位置計算部においては
夫々自己が判定した始端点と終端点とを切出し位
置統合部３に通知する。今例えば第２図図示の如
く、音声区間と雑音とが一緒に上記発声データ中
に存在しているものとするとき、各切出し位置計
算部２―１ないし２―Ｎにおいては、第２図図示
Ｓ，Ｅの如く夫々が判定した始端点Ｓと終端点Ｅ
とを切出し位置統合部３に通知する。

切出し位置統合部３においては、夫々の切出し
位置計算部２―１ないし２―Ｎから通知された始
端点Ｓを始端点群保持部４に収集し、また終端点
Ｅを終端点群保持部５に収集する。そして、該切
出し位置統合部３は、第２図図示の如く、存在す
る例えば２つの始端点Ｓ１，Ｓ２と存在する例え
ば２つの終端点Ｅ１，Ｅ２とにもとづいて、４個
の始端・終端対即ち（Ｓ２，Ｅ１），（Ｓ２，Ｅ
２），（Ｓ１，Ｅ１），（Ｓ１，Ｅ２）を抽出し、切
出し処理部６に通知する。

このとき、入力データ保持部１の内容である発
生データが切出し処理部６に供給され、上記始
端・終端対に対応して第２図図示の切出しデータ
，，，が音声区間データ即ち図示データ
８―１ないし８―４として抽出され、データ格納
部７に格納される。言うまでもなく、図示の場
合、各切出し位置計算部２―１ないし２―Ｎのい
ずれもが正しい切出しを行ない得なかつた場合に
おいても、データの如く音声区間に生しく対応
したデータを抽出することが可能となる。

データ格納部７に格納された切出しデータ即ち
音声区間データ８―１，８―２，……は、本発明
にいう標準音声区間データとしておよび／または
未知音声区間データとして、音声認識処理におけ
る周知の認識処理の如く利用される。

以上説明した如く、本発明によれば、データ格
納部に格納された音声区間データ中には一般に適
正なあるいは適正なものに近似した形で切出され
た音声区間データが標準音声区間データとしてか
つまた未知音声区間データとして存在し、切出し
位置の不適正に起因する誤認識率が大きく減少す
る。

【図面の簡単な説明】

第１図は本発明の一実施例要部構成、第２図は
第１図図示の切出し位置統合部における処理の一
実施例態様を説明する説明図を示す。図中、１は入力データ保持部、２は切出し位置
計算部、３は切出し位置統合部、６は切出し処理
部、７はデータ格納部、８は切出しデータ又は音
声区間データを表わす。

Claims

【特許請求の範囲】１発声データにもとづいて切出された音声区間
に対応する標準音声区間データを格納する辞書部
をそなえると共に、未知入力発声データにもとづ
いて切出された発音区間に対応する未知音声区間
データと上記辞書部に格納されている標準音声区
間データとを照合して上記未知入力発声データの
上記音声区間に対応するカテゴリを決定する音声
認識処理システムにおいて、入力された発声データを保持する入力データ保
持部、入力された発声データにもとづいて夫々異なる
切出し態様のもとで当該発声データを切出す複数
個の切出し位置計算部、該各切出し位置計算部からの切出し結果にもと
づいて上記入力された発声データの始端点群と当
該入力された発声データの終端点群とを抽出しか
つ存在し得る始端・終端対を上記始端点群と終端
点群との組合わせによつて抽出する切出し位置統
合部、該切出し位置統合部によつて抽出された始端・
終端対にもとづいて上記入力データ保持部の内容
に対して切出しを行なう切出し処理部、および該切出し処理部によつて切出された上記
組合わせに対応する個数に見合う音声区間データ
を格納するデータ格納部をそなえてなり、該データ格納部の内容をして上記標準音声区間
データとして保持すると共に未知音声区間データ
として用い上記標準音声区間データとの上記照合
を行なうよう構成したことを特徴とする音声認識
処理システム。