JPS60129795A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS60129795A
JPS60129795A JP58236342A JP23634283A JPS60129795A JP S60129795 A JPS60129795 A JP S60129795A JP 58236342 A JP58236342 A JP 58236342A JP 23634283 A JP23634283 A JP 23634283A JP S60129795 A JPS60129795 A JP S60129795A
Authority
JP
Japan
Prior art keywords
voice
standard
male
female
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58236342A
Other languages
English (en)
Inventor
広田 敦子
裕 飯塚
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP58236342A priority Critical patent/JPS60129795A/ja
Publication of JPS60129795A publication Critical patent/JPS60129795A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は、不特定話者認識においてL’ nR<率を向
上させかつ、認識処理に要する時間の短縮を可能とする
音声認識方式を提案するものである。
(従来技術) 従来の音声認識装置は第1図のように構成されておシ、
1は入力端子、2は周波数分析部、3はス波りトル変換
部、4は音声区間決定部、5は再サンプル部、6は距離
演算部、7は標準・ぐターンメモリ、8は判定部、9は
認識結果の出力端子である。
従来の音声k k装置では、入力音声スペクトル・ぞタ
ーン(以下式カバターンと略す)と標準スにクトルパタ
ーン(以下標準パターンと略す)k(k=1〜K)との
マツチング演算において、マツチング距離Dkを入力・
母ターンの時間標本点第n番目のmチャネル目の要素A
(m、n)とし、標準・々ターンにの時間標本点第n番
目のmチャネル目の要素をSk(m、n)とした時に、
Dk= ’I ! IA(m、n)−8k(m、nl 
xw(m、n)・−・(t)fi=1m=1 (1)式により計算し、k個の標準・ぐターンの中でD
kを最小とする標準・ぐターンのカテコ゛りを認識結果
としている。ここで重みW (m 、 n )の計算方
法については、数々の方式があるが、本発明の目的でな
いので省略する。
このような構成をもつ音声認識装置を不特定話者認識装
置に適用する場合を考えるとマツチングおよび認識につ
いて2つの問題がある。即ち不特定話者認識では、入力
音声の音質のばらつきに対処する為、1力テゴリ当シ数
個から数十個の標準ノeターンを用意しておシ、前記(
1)式の演算を全標準パターンに適用すると演算回数が
極めて多くなシ、1語の認識処理に長い時間を要すると
いうことである。もう1つの問題は入力される音声の多
様性からくる認識率の低下である。不特定話者認識では
老若男女の幅広い話者を対象としている。
この中でも特に男女による声質の差は極めて大きく、ピ
ッチ、ホルマントなど音声スペクトル特性の差が顕著で
ある。一方、標準パターンは男女を含6多数の音声デー
タサンプルから、平均化、統合クラスタリングなどの手
法により複数の代表ノeターンを標準パターンとして作
成しているが、男女混合したデータを対象とする為、両
者の特性の違いが平均化され、単語全体として特性のほ
けた標準・ぐターンが生成される可能性がある。そこで
考えられるのが男女別に分けた音声データから男女別個
の標準・ぐターンを独立に作成する方法である。従来の
実験例によると、男性サンプルのみまたは女性サンプル
のみの認識実験では、男女性サンプル混合の認識実験の
結果よシ認識率が向上することが報告されている。
然しなから従来技術では未知の不特定話者音声入力に対
してこのような問題点を有効に解決する方法が明らかに
されていない状況でちる。
(発明の目的) 本発明は不特定話者認識におけるこれらの問題を解決す
る為に、男女別標準・ぐターンの作成と入力話者の男女
判別を特徴とする音声認識方式を提案するものであり、
以下詳細に説明する。
(発明の構成) 第2図は本発明の一実施例の音声認識装置のン゛ロック
図、第3図は標準ノリーンメモIJの渭j成図である。
第2図において、101は音声入ノE Mini!子、
102は周波数分析部、103はスペクトル変4iA部
、1θ4は音声区間決定部、105はす77021部、
1θ6は距離演算部、107は標準・やターンメモリ、
108は判定部、109は距肉1カロ算音b、110は
比較器、111は男女指定部、112はシーケンス制御
部、113は認識結果の出ブ〕女島子である。音声入力
端子101からの人力音声は1司波数分析部102でス
ペクトル分析され、さらにスペクトル変換部103でス
ペクトル傾斜および音声・ぐワーによる正規化が行なわ
れ、正規化されたスペクトルデータは再サンプル部1b
5に、さらに音声・ぐワー情報は音声区間決定部105
にそれぞれ送られる。音声区間決定部104では音声・
ぐワ−によシ音声の始端、終端を決定し、再サンプル部
1050制御信号となる。再サンプル部lθ5では始端
、終端情報によシ入カスベクトルデータを切シ出し、一
定のデータ長に再サンプルし、マツチングの為の入力音
声データを作成する。
距離演算部106の基本的動作としては入力音声データ
と順次読み出される標準/ぐターンとの距離演算を行な
い、各標準・ぞターンに付されたカテコ゛す名と対応し
た距離値を判定部108に送る。ここで第3図の標準パ
ターンメモリの構成図を参照する。
第3図に示す通シ、標準・ぐターンメモリ107には男
性標準・ぐターン201と女性標準・ぐターン202と
がメモリ領域を等分割して格納されており、これらは前
述したような主旨で標準・母ターン作成時に、男性音声
サンプルおよび女性音声サンゾルから各々作成されたも
ので各カテゴリ当シ男女それぞれ複数の標準ノ4ターン
を有している。標準パターンの作成法は数々の公知の方
法があるが、それを説明するのは本文の目的でないので
ここでは省略する。以上のような標準パターンの構成を
理解した上で再び第2図の説明に戻る。まず最初に未知
の話者の音声を認識する場合、認識装置側は男女いずれ
とも判定できない。本発明では同一話者の認識開始直後
のいくつかの入力音声に対して男女全ての標準パターン
にて認識した後、その結果によって男女判定を行ない、
それ以後の認識では男女判定の結果によって標準パター
ンメモリ107の男性標準パターン201または女性標
準ノeターン202の一方のみを指定して距離演算、認
識判定を行なう。標準ノぐターンメモリ107の男女標
準パターンの指定は、男女指定部111によって行われ
る。また男女判定および認識動作の制御はシーケンス制
御部112の制御の下に行われる。距離演算部106で
は入力音声データと標準・ぐターンメモリ107の男女
各カテゴリの標準パターンとの距離演算を行ない。男女
各カテゴリ名と各々の距離値を判定部10&に送る。判
定部108ではまず各距離−の比較を行ない、男女別々
に距離最小(即ちマツチングの類似度最大)の標準・ぐ
ターンカテゴリ名の判定を行ない、それぞれの距離値を
距離加算部109に送る。さらに男女最小の距離値の比
較を行ない、小さい方の距離を示すカテゴリ名を認識結
果として出力端子113に送る。未知の話者の音声入力
を開始する時点では距離加算部109の内容はリセット
されており、これまで述べたように音声入力がなされる
毎に男女各最小の距離値が判定部108よシ送られ距離
加算部109ではその値を男女別々に加算していく。そ
しである定められた回数の音声入力の結果を加算した時
点で、男女加算値を比較器110へ送り両者の大小比較
を行ない、その白値の小さい方を男女判別結果として出
力し、男女指定部111を男女いずれかの状態にセット
する。ここで男女判定が完了したことになシ、以後の同
一話者の音声入力に対しては男女指定部111にょシ指
定される男女いずれか一方の標準パターンのみを用いて
距離演算を行ないその結果を判定部10Bで判定してカ
テゴリ名を出力端子113に出力することになる。
以上の説明のように、本発明は未知話者の入力に対し、
男女別々の標準・ぐターンでマツチングし、予め決めら
れた回数だけ各々の最小の距離値を加算していきその合
計値の大小にょシ男女判別を行なう方式である。男女判
定の為のマツチング回数は充分高い男女判定率を確保す
るのに必要な最小回数が選択されるものであシ、認識実
験の結果により定められる。
本発明により、男女別個の標準パターンを用い未知の話
者に対する認識率の向上を図ると同時に、高い認識率を
確保しながら男女判定機能を付与することにより、マツ
チングに要する距離演算回数を標準・ぐターン全数を対
象とするものに比べ半分に低減することができ、認識所
要時間を大幅に少なくすることが可能となる。
以上述べた認識方式の有効性を実証するため、例として
ここで認識実験の結果を説明する。
認識カテゴリは、10数字、ハイ、イイエ、ド一ゾ、モ
ーイチド、オワリ、ホリュウの16語で、標準パターン
作成には男女、各240人の発声した電話回線音声サン
プルを用い男女各96/ぐターン(1力テゴリ当シ男女
各平均6・ぐターン)の標準パターンを作成した。認識
の為の入力音声・ぐター −ノは同じ電話回線音声、男
120人1女60人の発声したサンプルを用意した。実
験結果として男女判定の為の認識回数を3回および5回
の場合の認識率および男女判定率を第1表に示す。第1
表から明らかなように、認識率は男女判定なしの場合に
比べ同等もしくは向上することを示しておシ、また男女
判定率は99.1%’および100チであり男女判定が
正確になされていることを示している。
第 1 表 (発明の効果) 以上述べたように本発明は、男女別標準パターンを用い
、未知の不特定話者の音声入力の認識結果から話者の男
女の性別判定を行なう手段を設けることによシ、高い音
声認識率を得てかつ力走判定後の入力に対して認識処理
時間の短縮を可能とするものであシ、不特定話者音声認
識装置の機能性能の向上と実用化へ貢献するものである
【図面の簡単な説明】
第1図は従来の音声認識装置の構成図、力2図は本発明
の1実施例を示す音声認識装置のブロック図、第3図は
標準パターンメモリの構成図、10ノ・・・音声入力端
子、102・・・周波数分析部、103・・ス波りトル
変換部、104・・・音声区間決定部、105・・・再
サンプル部、106・・・距離演算部、107・・・標
準・ぐターンメモリ、108・・・判定部、109・・
・距離加算部、110・・・比較器、111・・・男女
指定部、112・・・シーケンス制御部、113・・・
認識結果の出力端子。 特許出願人 沖電気工業株式会社 第3図 手続補正書輸発) 1 事件の表示 昭和58年 特 許 願第236342号2、発明の名
称 音声認識方式 3 補正をする者 事件との関係 特許出願人 任 所(〒105) 東京都港区虎ノ門1丁目7番12
号4代理人 住 所(〒105) 東京都港区虎ノ門1丁目7香12
号5、補正の対象 6 補正の内容 (1)明細書第4゛頁第8行目から第9行目に「統合ク
ラスタリング」とあるのを「統合、クラスタリング」と
補正する。 (2)同書第11頁第15行目から第16行目に「力走
判定後」とあるのを「男女判定後」と補正する。 (3) 同書第12頁第2行目に「構成図、」とあるの
を「構成図である。」と補正する。 (4)同頁第9行目に「出力端子。」とあるのを「出力
端子、」と補正し、その後に「20ノ・・・男声標準・
ぐターン、202・・・女声標7((−パターン。」を
挿入する。

Claims (1)

  1. 【特許請求の範囲】 (a)男声標準パターン及び女声標準パターンとを用い
    て各標準・ぐターンと入力音声とのマツチング距離の演
    算を行なう処理と、 (b) 男声標準・ぐターン及び女声標準パターンに関
    するそれぞれの最小マツチング距離値を判定し、且つ男
    声・女声別の当該最小マツチング距離値のうちいずれか
    小さい方に対するカテコ゛り名を認識結果として出力す
    る処理と、 (C)前記男声・女声各々の最小マツチング距雅値を別
    々に加算する処理と、 (d) 前記処理(、)〜処理(c)までを予め決めら
    れた所定数の入力音声に対して実施した後、男声の各最
    小マツチング距離値の累算値と女声の各最小マツチング
    距離値の累算値とを比較していずれか値の小さい方によ
    シ男声・女声の判定を行なう処理と、(e) 前記処理
    (d)の判定結果に基づき男声標準・ぐターン及び女声
    標準・ぐターンのいずれか一方のみを標準・母ターンと
    して指定す′る処理と、(f) 所定数以降の入力音声
    は指定された一方の標準・ぐターンとのマツチング距離
    の演算を行ない、最小のマツチング距離を与えるカテゴ
    リ名を認識結果として出力する処理とからなることを特
    徴とする音声認識方式。
JP58236342A 1983-12-16 1983-12-16 音声認識方式 Pending JPS60129795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58236342A JPS60129795A (ja) 1983-12-16 1983-12-16 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58236342A JPS60129795A (ja) 1983-12-16 1983-12-16 音声認識方式

Publications (1)

Publication Number Publication Date
JPS60129795A true JPS60129795A (ja) 1985-07-11

Family

ID=16999386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58236342A Pending JPS60129795A (ja) 1983-12-16 1983-12-16 音声認識方式

Country Status (1)

Country Link
JP (1) JPS60129795A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11153999A (ja) * 1997-11-19 1999-06-08 Fujitsu Ltd 音声認識装置及びそれを用いた情報処理装置
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program
WO2006112198A1 (ja) * 2005-03-30 2006-10-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
EP2031582A2 (en) 2007-08-29 2009-03-04 Yamaha Corporation Discrimination of speaker gender of a voice input

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56119199A (en) * 1980-02-26 1981-09-18 Sanyo Electric Co Voice identifying device
JPS5722300A (en) * 1980-07-15 1982-02-05 Fujitsu Ltd Word voice recognizing and processing system
JPS5734598A (en) * 1980-08-11 1982-02-24 Fujitsu Ltd Voice recognizing system
JPS57104193A (en) * 1980-12-19 1982-06-29 Matsushita Electric Ind Co Ltd Voice recognizer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56119199A (en) * 1980-02-26 1981-09-18 Sanyo Electric Co Voice identifying device
JPS5722300A (en) * 1980-07-15 1982-02-05 Fujitsu Ltd Word voice recognizing and processing system
JPS5734598A (en) * 1980-08-11 1982-02-24 Fujitsu Ltd Voice recognizing system
JPS57104193A (en) * 1980-12-19 1982-06-29 Matsushita Electric Ind Co Ltd Voice recognizer

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11153999A (ja) * 1997-11-19 1999-06-08 Fujitsu Ltd 音声認識装置及びそれを用いた情報処理装置
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program
WO2006112198A1 (ja) * 2005-03-30 2006-10-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
EP2031582A2 (en) 2007-08-29 2009-03-04 Yamaha Corporation Discrimination of speaker gender of a voice input
US8214211B2 (en) 2007-08-29 2012-07-03 Yamaha Corporation Voice processing device and program

Similar Documents

Publication Publication Date Title
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
JPH01113798A (ja) 低コストの音声認識システムとその方法
US11580989B2 (en) Training method of a speaker identification model based on a first language and a second language
JPS60129795A (ja) 音声認識方式
CN112908336A (zh) 一种用于语音处理装置的角色分离方法及其语音处理装置
JPS6312312B2 (ja)
JPS59195300A (ja) 音声認識装置
JPS6126678B2 (ja)
JPS6312000A (ja) 音声認識装置
JPS61256397A (ja) 音声認識装置
JPS59114600A (ja) 話者識別方式
JPS63125998A (ja) 音声入出力装置
JPH0455518B2 (ja)
JPS59124394A (ja) 単音節音声認識方式
JPS599080B2 (ja) 音声認識方法
JPS59195299A (ja) 特定話者音声認識装置
JPS5988798A (ja) 音声認識処理方式
JPS60129799A (ja) 音声認識方法
JPS63191199A (ja) 有声破裂子音識別装置
JPH01158499A (ja) 定常雑音除去方式
JPS63148299A (ja) 単語音声認識方法および装置
JPS63798B2 (ja)
JP2006039383A (ja) 音声認識装置
JPS6242200A (ja) 音声認識装置
JPS63254498A (ja) 音声認識応答装置