JPH02195399A - 男女声の識別方式 - Google Patents

男女声の識別方式

Info

Publication number
JPH02195399A
JPH02195399A JP1016052A JP1605289A JPH02195399A JP H02195399 A JPH02195399 A JP H02195399A JP 1016052 A JP1016052 A JP 1016052A JP 1605289 A JP1605289 A JP 1605289A JP H02195399 A JPH02195399 A JP H02195399A
Authority
JP
Japan
Prior art keywords
male
voice
input
neural network
female
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1016052A
Other languages
English (en)
Inventor
Masayuki Unno
海野 雅幸
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP1016052A priority Critical patent/JPH02195399A/ja
Publication of JPH02195399A publication Critical patent/JPH02195399A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、男女声の識別方式に関する。
[従来の技術] 従来、男女声を識別する方法としては、特開昭61−2
7600号公報に記載される如くのピッチ周波数の男女
差を用いるもの、あるいは特開昭60−162298号
公報に記載される如くの第1および第2ホルマント周波
数の男女差を用いるもの等がある。
然しながら、上記のいずれの方法も、複雑で演算時間が
長く、さらに男女声の周波数軸上ての重なりの部分が大
きいために識別能力が高いとは言えず一般用途への展開
に困難がある。
又、ホルマント周波数による識別方法にあっては、専用
のハードウェア(複数のバントパスフィルタ)を用いて
ホルマント周波数を検出することにより演算時間を短縮
できるか、ホルマントではない極をホルマントの極とし
て誤検出することがあり、高い識別能力を期待できない
そこで、本出願人は、入力信号の参照軸交差数と波形の
振幅分布に関する値とを特徴量として算出し、この算出
結果を男女の有声音の辞書データと比較し、人力信号が
男女いずれの発声によるものかを判定する男女声の識別
方式を提案している。
[発明が解決しようとする課題] 然しなから、上記従来の男女声の識別方式ては、以下の
■〜■の問題点がある。
■辞書データ作成時から時間が経過するにつれ、識別率
が低下する。
■辞書データの作成時に採用した男女声とは異なるタイ
プの男女声についてのパターン認識は困難であり、予め
予想されなかったタイプの男女声についての識別率が低
い。
■従来の男女声識別方式においては、一定収上の識別率
確保のために上述の如くの複雑な特徴量を用いる必要が
あるが、これは複雑な処理装置を必要とし、処理時間も
比較的長い。
本発明は、男女声を識別するに際し、経時的な劣化のな
い高い識別率を確保し、かつ容易に短時間処理できる男
女声の識別方式を得ることを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声が男女いずれの発声によるものかを判定
する男女声の識別方式であって、ニューラルネットワー
クへの入力として、入力音声の周波数特性を用いるよう
にしたものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
[作用] 請求項1に記載の本発明によれば、以下の■〜■の作用
効果がある。尚、本発明にあっては、有声音(母音、半
母音、鼻音等の声帯の振動を伴う音であり、人間が発声
する殆ど全ての音声には有声音が含まれている)をもっ
て音声とする。
■経時的な認識率の劣化が極めて少ない、このことは、
ニューラルネットワークが音声の時期差による変動の影
響を受けにくい構造をとることが可能なためと推定され
る。
尚、男女声の高低に依存しない「入力音声の周波数特性
」をニューラルネットワークへの入力として用いるもの
であるから、例えば声の高低に依存するピッチ周波数を
特徴量として男女声をパターン認識(高音は一律に女声
、低音は一律に男声と認識する)する場合に比して、多
くのタイプの男女声を重なりなく明瞭に分離でき、認識
率が高い。
■ニューラルネットワークは、後に述べる学習によりそ
のネットワークを構築した後のシステム稼動段階で、必
要に応じて追加学習できる。従って、ネットワーク構築
のための学習段階では予想されなかったタイプの男女声
についても、その稼動段階で随時これを追加学習するこ
とにより、高い識別率を達成できる。
■ニューラルネットワークへの入力として、「人力音声
の周波数特性」を用いたから、入力を得るための前処理
が、従来の複雑な特徴量抽出に比して、単純となり、こ
の前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、男女声識別処理を複雑な処理装置
によることなく容易に短時間処理できる。
又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い識別率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された男女声識別システムの一例
を示す模式図、第2図はニューラルネットワークを示す
模式図、第3図は階層的なニューラルネットワークを示
す模式図、第4図はユニットの構造を示す模式図である
本発明の具体的実施例の説明に先立ち、二二一ラルネッ
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第2
図(A)に示す階層的ネットワークと第2図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
(2)ネットワークの構造 階層的ネットワークは、第3図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合たけで、各層内
での結合はない。
(3)ユニットの構造 ユニットは第4図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他の二ニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、一般的には第4図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hlt、  D、E、、McClelland、  J
、L、  and  thePDP Re5earch
 Group、 PARALLEL DISTRIBu
TEDPROCESSING、 the MIT Pr
ess、 1986.に記載されているパックプロパゲ
ーションを用いることかできる。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の識別システム1は、nチャンネルのバンド
パスフィルタ10.ニューラルネットワーク20、判定
回路3oの結合にて構成される(第1図参照)。
(A)ネットワーク構築のための学習段階における入力
信号を、男女それぞれの、例えば有声音「ア」の定常的
な部分(信号の立上り部分や立下り部分を除いた部分)
とする。
(B)前処理 入力音声波形を、第1図に示す如く、複数(n個)チャ
ンネルのバンドパスフィルター0に通し、結果として入
力音声の周波数特性を得る。
(C)ニューラルネットワークによる処理及び判定 ■前処理の結果(バンドパスフィルタ1oの出力)を、
第1図に示す如く、3層の階層的なニューラルネットワ
ーク2oに入力する。入力層21は、前処理のnチャン
ネルに対応するnユニットにて構成される。出力層22
は、1ユニツトにて構成され、目標値は男声については
「1」、女声については「0」とする。
■ニューラルネットワーク20の出力を判定回路30に
入力し、出力層22の出力値に応じて、入力音声が男女
いずれの発声によるものかを判定する。但し、本発明の
実施において、ニューラルネットワーク20の出力は判
定回路3oの如くにて機械的に判定処理されず、ニュー
ラルネットワーク20の出力を得た人間の知力にて判定
処理されるものであっても良い。
■前述した学習アルゴリズムのハックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで学習させ、一定認識率を保証し得るネットワー
クを構築する。
■上記■にて構築されたニューラルネットワーク20を
用いて、あらゆる男女声の識別がなされる。この時、実
際のシステム稼動現場において、ネットワーク構築のた
めの学習段階で予想されなかったタイプの男女声につい
ては、現実の使用環境下でこれを追加学習し、結果とし
てニューラルネットワーク20を使用環境により適合す
るように改良できる。
尚、この実施例の認識率は、学習段階で採用した男女声
については100%、未学習男女声については95%と
いう高い結果を得た。
次に、上記実施例の作用について説明する。
上記識別システム1によれば、以下の■〜■の作用効果
がある。
■経時的な識別率の劣化が極めて少ない。このことは、
ニューラルネットワーク20が音声の時期差による変動
の影響を受けにくい構造をとることか可能なためと推定
される。
又、男女声の高低に依存しない「入力音声の周波数特性
」をニューラルネットワーク20への入力として用いる
ものであるから、例えば声の高低に依存するピッチ周波
数を特徴量として男女声をパターン認識(高音は一律に
女声、低音は一律に男声と識別する)する場合に比して
、多くのタイプの男女声を重なりなく明瞭に分離でき、
識別率が高い。
■ニューラルネットワーク20は、前述の如く、当初の
学習によりそのネットワークを構築した後のシステム稼
動段階で、必要に応じて追加学習できる。従って、ネッ
トワーク構築のための学習段階では予想されなかワたタ
イプの男女声についても、その稼動段階で随時これを追
加学習することにより、高い識別率を達成できる。
■ニューラルネットワーク20への入力として、「入力
音声の周波数特性」を用いたから、入力を得るための前
処理が、従来の複雑な特徴量抽出に比して、単純となり
、この前処理に要する時間が短くて足りる。
■ニューラルネットワーク20は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。
■ニューラルネットワーク20は、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速である
■上記■〜■により、男女声識別処理を複雑な処理装置
によることなく容易に短時間処理できる。
0階層的なニューラルネットワーク20を用いたから、
現在数に確立している簡単な学習アルゴリズム(パック
プロパゲーション)を利用てき、高い識別率を実現でき
るニューラルネットワーク20を容易に形成できる。
[発明の効果] 以上のように本発明によれば、男女声を識別するに際し
、経時的な劣化のない高い識別率を確保し、かつ容易に
短時間処理できる男女声の識別方式を得ることができる
【図面の簡単な説明】
第1図は本発明が適用された男女再識別システムの一例
を示す模式図、第2図はニューラルネットワークを示す
模式図、第3図はPa層的なニューラルネットワークを
示す模式図、第4図はユニットの構造を示す模式図であ
る。 1・・・識別システム、 10・・・バンドパスフィルタ、 20・・・ニューラルネットワーク、 21・・・入力層、 22・・・出力層、 30・・・判定回路。 特許出願人 積水化学工業株式会社 代表者  廣1)馨 第2図 第3図 を 入カバターン 第4図 ユニット

Claims (2)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声が男女
    いずれの発声によるものかを判定する男女声の識別方式
    であって、ニューラルネットワークへの入力として、入
    力音声の周波数特性を用いる男女声の識別方式。
  2. (2)前記ニューラルネットワークが階層的なニューラ
    ルネットワークである請求項1記載の男女声の識別方式
JP1016052A 1989-01-24 1989-01-24 男女声の識別方式 Pending JPH02195399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1016052A JPH02195399A (ja) 1989-01-24 1989-01-24 男女声の識別方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1016052A JPH02195399A (ja) 1989-01-24 1989-01-24 男女声の識別方式

Publications (1)

Publication Number Publication Date
JPH02195399A true JPH02195399A (ja) 1990-08-01

Family

ID=11905810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1016052A Pending JPH02195399A (ja) 1989-01-24 1989-01-24 男女声の識別方式

Country Status (1)

Country Link
JP (1) JPH02195399A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03273722A (ja) * 1989-11-28 1991-12-04 Nec Corp 音声・モデム信号識別回路

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60162298A (ja) * 1984-02-02 1985-08-24 松下電器産業株式会社 音声認識装置
JPS6127600A (ja) * 1984-07-17 1986-02-07 日本電気株式会社 音声識別回路

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60162298A (ja) * 1984-02-02 1985-08-24 松下電器産業株式会社 音声認識装置
JPS6127600A (ja) * 1984-07-17 1986-02-07 日本電気株式会社 音声識別回路

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03273722A (ja) * 1989-11-28 1991-12-04 Nec Corp 音声・モデム信号識別回路

Similar Documents

Publication Publication Date Title
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN110379441B (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
Brown et al. Perceptual grouping of musical sounds: A computational model
AU2019101150A4 (en) Speaker Identity Recognition System Based on Deep Learning
JPH0376472B2 (ja)
Tsenov et al. Speech recognition using neural networks
Watrous Phoneme discrimination using connectionist networks
Weintraub The GRASP sound separation system
JPH02195399A (ja) 男女声の識別方式
JPH02253298A (ja) 音声通過フィルタ
Weintraub Sound separation and auditory perceptual organization
Czyżewski Soft processing of audio signals
JPH04369695A (ja) 音声判別装置
KR950013117B1 (ko) 시간 지연 신경 회로망을 이용한 한국어 고립 단어 인식 시스템
KR100202424B1 (ko) 실시간 음성인식방법
JPH02254498A (ja) 音韻分類記号化装置
Silipo et al. Automatic detection of prosodic stress in american english discourse
JPH02289899A (ja) 音声検出方式
JPH02273798A (ja) 話者認識方式
JPH0442299A (ja) 音声区間検出装置
KR100304530B1 (ko) 시간지연신경망을이용한특징어인식시스템
MacKinnon et al. Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf
JPH03276199A (ja) 話者認識方法
JPH03111898A (ja) 音声検出方式
Cosi On the use of auditory models in speech technology