JPH09325790A - 音声処理方法および装置 - Google Patents

音声処理方法および装置

Info

Publication number
JPH09325790A
JPH09325790A JP9032774A JP3277497A JPH09325790A JP H09325790 A JPH09325790 A JP H09325790A JP 9032774 A JP9032774 A JP 9032774A JP 3277497 A JP3277497 A JP 3277497A JP H09325790 A JPH09325790 A JP H09325790A
Authority
JP
Japan
Prior art keywords
voice
level
threshold value
input signal
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9032774A
Other languages
English (en)
Inventor
Nicholas J A Forse
ニコラス・ジョン・アーノルド フォーズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH09325790A publication Critical patent/JPH09325790A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Circuits Of Receivers In General (AREA)
  • Telephonic Communication Services (AREA)
  • Facsimiles In General (AREA)
  • Sewing Machines And Sewing (AREA)
  • Multi-Process Working Machines And Systems (AREA)
  • Telephone Function (AREA)
  • Analogue/Digital Conversion (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 発話者とマイクロホンの相対位置関係が変動
して周囲騒音の質および量が変動する環境でも良好に音
声認識を行う。 【解決手段】 入力信号の雑音レベルを測定することに
より初期しきい値を求め、この初期しきい値を用いて初
期音声標本を蓄え、この初期音声標本の最大レベルを下
回るあらかじめ定められたレベルの別のしきい値レベル
により初期音声標本を処理し、この別のしきい値レベル
を用いてその音声標本の開始点および終了点を決定す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、手を用いることなく音
声により制御命令を入力して、呼接続およびダイヤリン
グを行う無線端末装置に利用する。本発明は、特に自動
車に搭載されるセルラ方式のハンドフリー無線端末装置
として利用するに適する。セルラ方式とは一つの無線基
地局が受け持つゾーンを小さく設定し、無線基地局を小
さい間隔で多数配置するとともに、基地局および移動局
ともその送信電力を小さく設定して電波の有効利用をは
かり、加入できる無線端末の数を大きくすることができ
る方式である。セルラ方式については、電子情報通信学
会編「電子情報通信ハンドブック」1988年オーム社
発行2187頁2057頁に詳しい記載がある。
【0002】
【従来の技術】音声により制御命令を入力するための自
動音声認識装置は、さまざまな分野で利用されはじめ
た。従来の自動音声認識装置は、可聴音声信号から抽出
した特徴を比較することにより動作する。認識しようと
する音声から抽出した特徴を既知の発話から抽出して蓄
えた特徴と比較する。
【0003】正確な認識のために、異なる時間に話され
た同じ語または音から抽出した特徴が、十分に類似して
いることが重要である。しかし、音声のダイナミックレ
ンジが広い場合、特に、マイクロホンにより受信される
音声レベルが非常に広い範囲にわたって変化するハンド
フリー電話の場合には、特徴を類似させることが困難に
なる。この音声レベルの変化を補償するため、多くの音
声認識装置では何らかの形態の自動利得制御(AGC)
が用いられている。
【0004】自動利得制御回路は、特徴抽出回路が使用
する平均信号レベルをある所定の時間にわたって可能な
かぎりほぼ一定に保つことができるように、利得を制御
する。したがって、静かな発話のときには、大声の発話
に比較して大きな利得が与えられる。この形態の自動利
得制御回路は、連続音声を入力信号とする場合には良好
に動作する。これは、ある時間が経過すると自動利得制
御回路が信号レベルを最適化し、矛盾のない特徴抽出が
できるようになるからである。しかし、無音の場合に
は、自動利得制御回路の利得が背景雑音により決定され
るレベルまで増加し、発話の開始時には、自動利得制御
回路の利得が高く設定されてしまう。発話中には回路の
利得が自動的に制限される。利得変化の速度は、自動利
得制御回路の「アタック」時間により決定される。した
がって、発話の開始時には利得が非常に大きくなり、そ
のときに抽出される特徴は、その後に利得が制限された
ときに抽出される同じ特徴に比較して、非常に大きなエ
ネルギをもつことになる。
【0005】
【発明が解決しようとする課題】この歪の効果は入力信
号レベルに依存し、音声レベルが高くなるほど歪が大き
くなる。したがって、抽出された最初の幾つかの特徴
は、理論的には同等な蓄えられた特徴と対応せず、認識
特性が不十分となることがある。
【0006】一方、セルラ方式による移動無線通信方式
が移動無線電話に広く採用されることが考えられ、また
無線端末装置が安価に入手できるようになって自動車に
搭載され広く普及する場合には、交通安全のうえからハ
ンドフリーの制御装置が強く要望されている。すなわ
ち、セルラ方式は小さいゾーンが設定されて、基地局の
数がきわめて大きくなるためにその接続制御が複雑であ
る。したがって、呼接続およびダイヤリングのための制
御命令に誤りが発生すると、制御チャネルおよび接続制
御装置を占有する時間が長くなってその影響するところ
が大きいから、制御命令の中に発生する命令の誤り率を
小さくすることが必要である。自動車内で自動車を運転
しながらハンドフリーの音声入力を行うと、運転者は運
転動作にしたがって首を左右に振るから、マイクロホン
は必ずしも発話者の口元にあるとは限らず、また周囲の
騒音の質や量が風、道路およびエンジンの雑音などによ
り激しく変動するから、音声入力による制御命令の誤り
率を小さくするにはさらに高度な音声認識装置が必要で
ある。
【0007】本発明は、発話者とマイクロホンの相対位
置関係が変動して周囲騒音の質および量が変動する環境
でも良好に音声認識を行うことを可能とすることを目的
とし、そのために、入力信号から音声の開始および終了
を決定する音声処理方法および装置を提供することを目
的とする。
【0008】
【課題を解決するための手段】本発明の第一の観点は音
声処理方法であり、入力信号を標本化して得られた一連
の音声標本から音声の開始点および終了点を決定する音
声処理方法において、入力信号の雑音レベルを測定する
ことにより第一のしきい値を求め、入力信号がこの第一
のしきい値のレベルを越えたことを検出してそれに続く
入力信号の音声標本を蓄積し、この蓄積された音声標本
の最大レベルを下回るあらかじめ定められたレベルの第
二のしきい値によりその音声標本を処理し、この第二の
しきい値を用いて前記蓄積された音声標本における音声
の開始点および終了点を決定することを特徴とする。
【0009】蓄積された音声標本の前端に第一のしきい
値のレベルを越えた直前の入力信号についてのn個の標
本を加えて第二のしきい値により処理することがよい。
第二のしきい値の決定は雑音の推定値を差し引いた信号
により行うことがよい。第二のしきい値を決定する前に
規格化を行うことがよい。第二のしきい値を用いて決定
された開始点および終了点を除去した音声テンプレート
を生成して蓄えることがよい。
【0010】本発明の第二の観点は上述した音声処理方
法を実施する装置であり、入力信号を標本化して得られ
た一連の音声標本から音声の開始点および終了点を決定
する手段を備えた音声処理装置において、決定する手段
は、入力信号内で優勢な雑音レベルを判定する手段と、
この判定する手段により判定されたレベルより大きい信
号しきい値レベルTを設定する手段と、入力信号を標本
化して得られた音声標本からしきい値レベルTを越えた
時点を判定してその時点から後の音声標本を蓄える手段
と、この蓄える手段に蓄えられた音声標本にしきい値レ
ベルTを越えた直後の入力信号のn個の標本を付加する
手段と、この付加する手段により生成された一連の音声
標本から新しいしきい値レベルRを求め、この新しいし
きい値レベルRを用いて一連の音声標本を走査すること
により、音声の開始点および終了点を判定する手段とを
含むことを特徴とする。
【0011】本発明の音声処理方法および装置は音声認
識での利用に適し、特に電話端末での音声処理あるいは
音声認識に利用するに適する。
【0012】
【発明の実施の形態】本発明の実施形態について添付図
面を参照して説明する。ここでは一例として、テンプレ
ート・マッチングを用いた音声認識装置を参照して本発
明を説明するが、テンプレート・マッチングに限らず、
従来から用いられているどのような音声認識装置、例え
ば確率モデル化(stochastic modeling)、マルコフ・チ
ェーン(Marcov chaines) 、ダイナミック・タイムワー
ピング (dynamic-timewarping)、音素認識 (phoneme-re
cognation)でも同様に本発明を実施できる。
【0013】音声認識は、複数 (一般には8ないし16)
のフィルタ・チャネルからのエネルギ曲線を比較するこ
とを基本とする。音声が存在するときには、各フィルタ
・チャネルからのエネルギ・スペクトラムをアナログ・
ディジタル変換器で二値化してテンプレートを作成し、
これをメモリに蓄える。
【0014】認識の初期段階は「トレーニング」と呼ば
れ、認識装置に認識すべき語を話して参照テンプレート
を生成する。認識すべき語に対する参照テンプレートが
作成されると、音声認識を実行できる。
【0015】認識装置に発話を入力すると、メモリ内の
参照テンプレートと比較できる試験テンプレートを作成
し、最も似ているものを見つけ出す。
【0016】本発明の音声認識装置の基本的な構成要素
を図1に示す。マイクロホン1から入力され増幅器2に
より増幅された音声信号は、フィルタ・バンク3aを通過
する。フィルタ・バンク3aでは、音声信号が複数 (この
実施形態では16) の周波数帯に濾波され、この信号が整
流器4により整流される。濾波され整流された信号は、
低域通過フィルタ3bにより平滑化され、この後に、マル
チプレクサ5により順番に標本化される。マルチプレク
サ5は、得られた単一チャネルの信号をディジタル自動
利得制御回路8に供給する。ディジタル自動利得制御回
路8は出力信号をアナログ・ディジタル変換器6に供給
し、このアナログ・ディジタル変換器6から、二値化信
号ストリームが制御用のマイクロプロセッサ7に供給さ
れる。マイクロプロセッサ7にはメモリ9が接続され
る。
【0017】マルチプレクサ5は、フィルタ・バンク3
a、整流器4および低域通過フィルタ3bのそれぞれのフ
ィルタ・チャネルを20マイクロ秒間にわたり読み取り、
それが終了すると次のフィルタ・チャネルの読み取りを
行う。10ミリ秒のタイムスロットのそれぞれの終了時
に、それぞれのチャネルでその期間に標本化されたエネ
ルギを蓄える。トレーニング時および認識動作時に生成
されるテンプレートは、それぞれのフィルタ・チャネル
に対して約100 タイムスロットの標本を含む。
【0018】ディジタル自動利得制御回路8は以下の方
法で動作する。マルチプレクサ5がフィルタ・チャネル
を読み取る毎に、マイクロプロセッサ7は、そのチャネ
ルのエネルギ・レベルを読み取ってアナログ・ディジタ
ル変換器6が過負荷となっているか否か、すなわち利得
が大き過ぎないか否かを判断する。利得が大き過ぎると
マイクロプロセッサ7が判断したときには、ディジタル
自動利得制御回路8の利得を1段階ずつ減少させ、再び
チャネルのエネルギ・レベルを観測する。利得を1段階
減少させることは、利得を1.5dB 引き下げることに対応
する。利得が十分に引き下げられてアナログ・ディジタ
ル変換器6の過負荷を防止できるとマイクロプロセッサ
7が判断するまで、マルチプレクサ5は次のチャネルの
読み取りを開始しない。マルチプレクサ5が次のフィル
タの読み取りを開始するときには、新しいチャネルのエ
ネルギ・レベルによってアナログ・ディジタル変換器6
の過負荷が生じないかぎり、ディジタル利得制御回路8
の利得を前のチャネルで得られた低レベルに維持する。
新しいチャネルのエネルギ・レベルにより過負荷が生じ
たときには、上述したと同様に利得を1段階ずつ引き下
げる。マルチプレクサ5が最後のフィルタ・チャネルを
読み取ったとき、マイクロプロセッサ7は、すべてのチ
ャネルのエネルギ・レベルについて、その利得係数(こ
の係数は、マイクロプロセッサ7に接続されたメモリ9
に、エネルギ・レベル情報として一緒に蓄えられてい
る)をマイクロプロセッサ7により確立した新しい最小
値で割って規格化する。このようにして、初期入力信号
利得およびテンプレートを作成する間の利得変化と独立
に、矛盾のない特徴の組を抽出できる。
【0019】音声認識装置はまた、音声または語の開始
および終了を高精度に検出する必要がある。本発明の音
声認識装置は、以下の技術を使用する。 A.背景雑音のエネルギ・レベルを32タイムスロットに
わたり測定して蓄え (10ミリ秒に1標本)、これと同時
に、最大雑音エネルギについて、上述と同様に自動利得
制御回路の利得を調節(削減)する。 B.それぞれのタイムスロットにおけるフィルタの値を
総て加算し、これを16 (フィルタ・チャネルの数) で除
算し、ディジタル自動利得制御回路の利得を示す利得係
数を乗算し、それぞれのタイムスロットを比較して最大
値を見つけることより、最大エネルギの標本を見つけ
る。 C.音声が存在すると判断するために必要なしきい値を
ステップBで求めた最大雑音エネルギの1.5 倍に設定す
る。 D.それぞれのフィルタ・チャネルに対する平均雑音エ
ネルギを見つけて蓄え(それぞれのチャネルについて、
32タイムスロット全体のエネルギの和を求め、これを32
で割る) 、雑音テンプレートを確立する。 E.これらの後にフィルタ・バンクを10ミリ秒毎に走査
し、平均フィルタ・エネルギがステップCで計算した雑
音/音声しきい値を越えるまで、100 タイムスロットの
標本を蓄えることのできる一時循環メモリにデータを蓄
える。 F.32個の標本を得た後に雑音/音声しきい値を越えて
いない場合には、ディジタル自動利得制御回路の利得が
低く設定されていないことを確認するための検査を行
う。この検査は、32タイムスロットの間に蓄えたフィル
タ・チャネル値の最大値を見つけることにより行う。最
大レベルがアナログ・ディジタル変換器6の最大許容入
力レベルより1.5dB 以上低ければ、自動利得制御の利得
を1段階増加させ、利得を1.5dB 増加させる。32個の標
本を得た後でもしきい値を越えず、ディジタル自動利得
制御回路8の設定が正しい場合には、最新の32個の標本
について最大エネルギを見つけ (ステップBと同様)、
1.5 を乗算する (ステップCと同様)ことにより、雑音
/音声しきい値を再び計算する。 G.雑音/音声しきい値を越えたときには、100 個の標
本が入力されるか、または20個の連続する標本に対して
エネルギ・レベルが雑音/音声しきい値以下になるま
で、フィルタ・バンクを10ミリ秒毎に走査し、フィルタ
のデータをメモリに蓄え、音声テンプレートを生成す
る。上述したように、データ入力中にアナログ・ディジ
タル変換器6が過負荷となったときには、自動利得制御
の設定を1段階減少させ、そのフィルタ・チャネルに対
するデータを再処理する。16個のフィルタ・チャネルを
走査するうちにディジタル自動利得制御回路8の利得が
低下した場合には、全16チャネルからのデータを再入力
し、これにより、すべてのフィルタ・データを同一の自
動利得制御設定値に対応させる。使用される自動利得制
御の値には、フィルタ・データと一緒にメモリに記憶す
る。各タイムスロットの開始時に使用される自動利得制
御の設定値は前の時間フレームから得られ、音声処理中
には利得を減らすことができるだけである (増加させる
ことはできない) 。テンプレートを作成する期間の終了
時にすべてのテンプレート・データを一定の自動利得制
御設定値で規格化するので、利得を増加できなくても問
題はない。 H.音声/雑音の検出しきい値により音声の開始を確実
に検出できるように、音声検出前の15タイムスロットの
標本を一時循環メモリから「音声」テンプレートの前部
に送り出す。 I.音声を検出するまでに100 個以上の標本を処理した
場合には、一時循環メモリ内の最も古い32個の時間フレ
ームを解析して(ステップDと同様)、雑音テンプレー
トを再度計算する。音声検出前に100 個未満の標本しか
処理していない場合には、ステップDで確立した音声テ
ンプレートを以下のステップで使用する。 J.以上のステップにより、音声テンプレートを作成す
るための自動利得制御の最小利得設定値がわかり、この
設定値に対して音声テンプレートと雑音テンプレートと
の双方が規格化され、これにより、双方のテンプレート
が入力された値を含み、その利得が開始時から使用され
る。 K.規格化された雑音テンプレートを規格化された音声
テンプレートの各時間フレームから減算する。 L.規格化された音声テンプレートの最大エネルギを見
つけ、新しい雑音/音声しきい値、すなわち最大エネル
ギから18dBを引いた値を計算する。この新しいしきい値
を使用して、規格化された音声テンプレートを走査し、
音声の開始点および終了点を判定する。 M.次に、音声テンプレートから開始点と終了点とを除
去し、メモリに蓄えるか(トレーニングの場合)、また
は認識のために使用する。表に、320 ミリ秒 (10ミリ秒
のタイムスロットを32個) にわたって背景雑音を測定し
たときの、メモリに蓄えられた値を例を表1に示す。
【0020】
【表1】 ディジタル自動利得制御8の値「4」は、アナログ・デ
ィジタル変換器6に出力する信号を6dB減衰させること
に等価であり、「実際の」エネルギを計算するために、
すべてのフィルタ・バンクの値を二倍した。
【0021】最大実エネルギ (すべてのフィルタの平
均) は−410 、テンプレートの記録を開始または終了す
るしきい値は−615 であった。
【0022】
【発明の効果】以上説明したように、本発明によれば、
発話者とマイクロホンの相対位置関係が変動し、周囲騒
音の質および量が変動する環境でも、音声入力による制
御命令の誤り率を小さく抑えることができる無線端末装
置が得られる。本発明は、ハンドフリーであって、しか
も音声による制御入力に誤認識の発生率が小さいことが
必要なセルラ方式による自動車用無線電話装置に実施し
てきわめて効果的である。
【図面の簡単な説明】
【図1】本発明の実施形態である音声認識装置の概略的
な構成図。
【符号の説明】
1 マイクロホン 2 増幅器 3a フィルタ・バンク 3b 低域通過フィルタ 4 整流器 5 マルチプレクサ 6 アナログ・ディジタル変換器 7 マイクロプロセッサ 8 ディジタル自動利得制御回路 9 メモリ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力信号を標本化して得られた一連の音
    声標本から音声の開始点および終了点を決定する音声処
    理方法において、 入力信号の雑音レベルを測定することにより第一のしき
    い値を求め、 入力信号がこの第一のしきい値のレベルを越えたことを
    検出してそれに続く入力信号の音声標本を蓄積し、 この蓄積された音声標本の最大レベルを下回るあらかじ
    め定められたレベルの第二のしきい値によりその音声標
    本を処理し、 この第二のしきい値を用いて前記蓄積された音声標本に
    おける音声の開始点および終了点を決定することを特徴
    とする音声処理方法。
  2. 【請求項2】 前記蓄積された音声標本の前端に前記第
    一のしきい値のレベルを越えた直前の入力信号について
    のn個の標本を加えて前記第二のしきい値により処理す
    る請求項1記載の音声処理方法。
  3. 【請求項3】 前記第二のしきい値の決定は雑音の推定
    値を差し引いた信号により行う請求項1または2記載の
    音声処理方法。
  4. 【請求項4】 前記第二のしきい値を決定する前に規格
    化を行う請求項1ないし3のいずれか記載の音声処理方
    法。
  5. 【請求項5】 前記第二のしきい値を用いて決定された
    開始点および終了点を除去した音声テンプレートを生成
    して蓄える請求項1ないし4のいずれか記載の音声処理
    方法。
  6. 【請求項6】 入力信号を標本化して得られた一連の音
    声標本から音声の開始点および終了点を決定する手段を
    備えた音声処理装置において、 前記決定する手段は、 前記入力信号内で優勢な雑音レベルを判定する手段と、 この判定する手段により判定されたレベルより大きい信
    号しきい値レベルTを設定する手段と、 入力信号を標本化して得られた音声標本から前記しきい
    値レベルTを越えた時点を判定してその時点から後の音
    声標本を蓄える手段と、 この蓄える手段に蓄えられた音声標本に前記しきい値レ
    ベルTを越えた直後の入力信号のn個の標本を付加する
    手段と、 この付加する手段により生成された一連の音声標本から
    新しいしきい値レベルRを求め、この新しいしきい値レ
    ベルRを用いて前記一連の音声標本を走査することによ
    り、音声の開始点および終了点を判定する手段とを含む
    ことを特徴とする音声処理装置。
JP9032774A 1986-06-02 1997-01-30 音声処理方法および装置 Pending JPH09325790A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB868613327A GB8613327D0 (en) 1986-06-02 1986-06-02 Speech processor
GB8613327 1986-06-02

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP5019720A Division JP2654503B2 (ja) 1986-06-02 1993-01-11 無線端末装置

Publications (1)

Publication Number Publication Date
JPH09325790A true JPH09325790A (ja) 1997-12-16

Family

ID=10598774

Family Applications (3)

Application Number Title Priority Date Filing Date
JP62503341A Expired - Lifetime JP2561850B2 (ja) 1986-06-02 1987-05-29 音声処理装置
JP5019720A Expired - Fee Related JP2654503B2 (ja) 1986-06-02 1993-01-11 無線端末装置
JP9032774A Pending JPH09325790A (ja) 1986-06-02 1997-01-30 音声処理方法および装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP62503341A Expired - Lifetime JP2561850B2 (ja) 1986-06-02 1987-05-29 音声処理装置
JP5019720A Expired - Fee Related JP2654503B2 (ja) 1986-06-02 1993-01-11 無線端末装置

Country Status (13)

Country Link
US (1) US4912766A (ja)
EP (2) EP0750291B1 (ja)
JP (3) JP2561850B2 (ja)
KR (1) KR950011963B1 (ja)
AT (2) ATE109582T1 (ja)
CA (1) CA1310418C (ja)
DE (2) DE3750314T2 (ja)
DK (1) DK171426B1 (ja)
ES (1) ES2056819T3 (ja)
FI (1) FI92113C (ja)
GB (1) GB8613327D0 (ja)
HK (1) HK137096A (ja)
WO (1) WO1987007750A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528753A (ja) * 1998-10-16 2002-09-03 ドラゴン システムズ ユーケー リサーチ アンド デヴェロプメント リミテッド スピーチプロセシング

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK510275A (da) * 1975-11-12 1977-05-13 Struers K S Elektrolytisk polerapparat
JPH02189600A (ja) * 1989-01-19 1990-07-25 Sanyo Electric Co Ltd 音声認識装置
US5333155A (en) * 1991-04-25 1994-07-26 Rohde & Schwarz Gmbh & Co. Kg Method and system for transmitting digital audio signals from recording studios to the various master stations of a broadcasting network
US6134521A (en) * 1994-02-17 2000-10-17 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
AU720511B2 (en) * 1995-08-24 2000-06-01 British Telecommunications Public Limited Company Pattern recognition
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
US6188986B1 (en) 1998-01-02 2001-02-13 Vos Systems, Inc. Voice activated switch method and apparatus
DE19960161C2 (de) * 1998-12-15 2002-03-28 Daimler Chrysler Ag Verfahren zur Detektion von sprachmodulierten Sendungen
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
AU2003901539A0 (en) * 2003-03-28 2003-05-01 Cochlear Limited Noise floor estimator
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US20060146652A1 (en) * 2005-01-03 2006-07-06 Sdi Technologies, Inc. Sunset timer
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7117075B1 (en) * 2005-08-15 2006-10-03 Report On Board Llc Driver activity and vehicle operation logging and reporting
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
DE102010041435A1 (de) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung
WO2013061252A2 (en) 2011-10-24 2013-05-02 Cochlear Limited Post-filter common-gain determination
JP6127422B2 (ja) 2012-09-25 2017-05-17 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
JPS5984300A (ja) * 1982-11-08 1984-05-15 株式会社日立製作所 音声区間検出回路
JPS59111697A (ja) * 1982-12-17 1984-06-27 株式会社日立製作所 音声認識方式
JPS60254100A (ja) * 1984-05-30 1985-12-14 沖電気工業株式会社 音声認識方式
JPS61223796A (ja) * 1985-03-29 1986-10-04 沖電気工業株式会社 音声区間検出回路

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3411153A (en) * 1964-10-12 1968-11-12 Philco Ford Corp Plural-signal analog-to-digital conversion system
US4000369A (en) * 1974-12-05 1976-12-28 Rockwell International Corporation Analog signal channel equalization with signal-in-noise embodiment
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
CA1056504A (en) * 1975-04-02 1979-06-12 Visvaldis A. Vitols Keyword detection in continuous speech using continuous asynchronous correlation
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
US4262355A (en) * 1979-05-11 1981-04-14 Rca Corporation System for limiting intermodulation distortion of talkspurt signals
US4292470A (en) * 1979-09-10 1981-09-29 Interstate Electronics Corp. Audio signal recognition computer
JPS56126896A (en) * 1980-03-10 1981-10-05 Nippon Electric Co Voice recognizing system
US4352957A (en) * 1980-03-17 1982-10-05 Storage Technology Corporation Speech detector circuit with associated gain control for a tasi system
JPS56159400U (ja) * 1980-04-24 1981-11-27
JPS57178299A (en) * 1981-04-27 1982-11-02 Kyosan Electric Mfg Recognition pattern preparation system
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS6063600A (ja) * 1983-08-26 1985-04-11 日本電気株式会社 可変閾値型音声検出器
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
JPS6085628A (ja) * 1983-10-15 1985-05-15 Fujitsu Ten Ltd 通信装置
JPS6195398A (ja) * 1984-10-17 1986-05-14 株式会社東芝 音声認識装置
JPS61113100A (ja) * 1984-11-08 1986-05-30 ヤマハ株式会社 音声パラメ−タ検出装置
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
FR2576472B1 (fr) * 1985-01-22 1988-02-12 Alcatel Thomson Faisceaux Procede et dispositif de commande automatique de gain d'un recepteur en acces multiple a repartition temporelle
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
JPS5984300A (ja) * 1982-11-08 1984-05-15 株式会社日立製作所 音声区間検出回路
JPS59111697A (ja) * 1982-12-17 1984-06-27 株式会社日立製作所 音声認識方式
JPS60254100A (ja) * 1984-05-30 1985-12-14 沖電気工業株式会社 音声認識方式
JPS61223796A (ja) * 1985-03-29 1986-10-04 沖電気工業株式会社 音声区間検出回路

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528753A (ja) * 1998-10-16 2002-09-03 ドラゴン システムズ ユーケー リサーチ アンド デヴェロプメント リミテッド スピーチプロセシング
JP4778613B2 (ja) * 1998-10-16 2011-09-21 ドラゴン システムズ ユーケー リサーチ アンド デヴェロプメント リミテッド スピーチプロセシング

Also Published As

Publication number Publication date
FI92113B (fi) 1994-06-15
GB8613327D0 (en) 1986-07-09
US4912766A (en) 1990-03-27
KR880701435A (ko) 1988-07-27
WO1987007750A1 (en) 1987-12-17
FI92113C (fi) 1994-09-26
ATE183009T1 (de) 1999-08-15
CA1310418C (en) 1992-11-17
ES2056819T3 (es) 1994-10-16
FI872450A (fi) 1987-12-03
DE3752288T2 (de) 2000-07-06
EP0750291A1 (en) 1996-12-27
HK137096A (en) 1996-08-02
ATE109582T1 (de) 1994-08-15
JP2654503B2 (ja) 1997-09-17
EP0248609A1 (en) 1987-12-09
FI872450A0 (fi) 1987-06-02
JPH0677894A (ja) 1994-03-18
DE3750314D1 (de) 1994-09-08
EP0750291B1 (en) 1999-08-04
DK282587A (da) 1987-12-03
DK282587D0 (da) 1987-06-02
DE3750314T2 (de) 1994-11-17
EP0248609B1 (en) 1994-08-03
DK171426B1 (da) 1996-10-21
JPS63503487A (ja) 1988-12-15
JP2561850B2 (ja) 1996-12-11
KR950011963B1 (ko) 1995-10-12
DE3752288D1 (de) 1999-09-09

Similar Documents

Publication Publication Date Title
JP2654503B2 (ja) 無線端末装置
RU2291499C2 (ru) Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления
US5146504A (en) Speech selective automatic gain control
EP0077194A1 (en) Speech recognition system
US5579431A (en) Speech detection in presence of noise by determining variance over time of frequency band limited energy
EP1220197A2 (en) Speech recognition method and system
US6411928B2 (en) Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
US5842161A (en) Telecommunications instrument employing variable criteria speech recognition
EP1159732A1 (en) Endpointing of speech in a noisy signal
JPH10260693A (ja) 音声認識方法及び装置
US6915257B2 (en) Method and apparatus for speech coding with voiced/unvoiced determination
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
US20020120446A1 (en) Detection of inconsistent training data in a voice recognition system
JPH027099A (ja) 過大音声検出装置
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
JP2666296B2 (ja) 音声認識装置
JPH0635498A (ja) 音声認識装置及び方法
KR100294920B1 (ko) 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치
JPH09297596A (ja) 音声認識装置
JPS59105697A (ja) 音声認識装置
JPH0946400A (ja) 音声出力レベルの自動調整機能を備えた音声入出 力装置
JPS63266497A (ja) 音声認識装置
JPH04340598A (ja) 音声認識装置
JPH04369697A (ja) 音声認識装置