JPS58193595A - 電話情報入力装置 - Google Patents

電話情報入力装置

Info

Publication number
JPS58193595A
JPS58193595A JP57075282A JP7528282A JPS58193595A JP S58193595 A JPS58193595 A JP S58193595A JP 57075282 A JP57075282 A JP 57075282A JP 7528282 A JP7528282 A JP 7528282A JP S58193595 A JPS58193595 A JP S58193595A
Authority
JP
Japan
Prior art keywords
signal
recognition
input
phoneme
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57075282A
Other languages
English (en)
Inventor
中田 和男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57075282A priority Critical patent/JPS58193595A/ja
Publication of JPS58193595A publication Critical patent/JPS58193595A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は電話による情報の入力、とくに音声社識を利用
した情報入力装置に係9、特にその機能を押しボタン0
1号による入力の併用にも拡大するのに好適表音声認識
装置の構成に関する。
従来の電話機による情報の入力手段には次の2つがある
。l)押しボタン信号入力(以下PB大入力略す)、2
)音声all入力(以下音声入力と略す)。
1) は音声帯域正弦ff2周波(高域、低域各1周波
)の組み合せによる人工的な信号で、現在規格を統一さ
れて使用されているものは低域4周波、高域4周波の組
み合せで原理的に16種類の情報上入力することができ
る(松坂、上原、矢谷:押しボタンダイヤル電話用信号
方式二日本電信電話公社電気通信研究所研究実用化報告
17−11゜P241J18和43年11月参照)。
この1)の方法によれば情報は確実に入力できるが、情
報をすべて数字コードに変換して入力しなければならず
、また押しボタン電話機が使えないところでは情報を入
力することができない。
2)は音声認識によって、音声の1まで情報を[接入力
しようとするもので、便利ではめるが、常に確実、正確
に情報が入力できるとは限らない(長島、中津:tS単
位の憚準バタン?用いた実時間単@音声認識装置、日本
音響学会音声研究会資料、878−22.x9!I9.
渡辺、亘理、千葉他;不特定話者用音声認識装置5R−
1000シリーズ、日本音響喜合講演論文集、3−1−
24゜1981年5月) 本発明の目的は、従来の音声認識装置の構成を基本とし
、これにごくわずかの追加を行うことによって、あらか
じめ音声信号かPB倍信号がわからなくても、それぞれ
認識が行なわれ、そのことによって音声とPB倍信号自
由に併用して使用でき、電話機による情報入力の機能を
拡大する手段を提供することにある。
1ず、従来の電話情報入力用音声認識システムの構成を
第1図に示す。
第1図において、加入者電話機11から交換機12を通
った音声信号121は音声認識部13に入力され、業務
処理部14からの認識要求信号141を受けてその認識
処理をおこなう。主業務処理部14では、uil&結果
を確認するためにV識完了信号142を受けて音声出力
部15に出力要求信号151を送出し、音声出力の終了
を出力要求信号152により確認する。
一方、交換機12からの応答信号122を受けて発信制
御部16から出力された応答信号161が主業務処理部
14に入力されると、電文処理部17にたいして送信要
求信号143が送出さ扛る。
これを受けた電文処理部17は通信制御部18にたいし
、送信要求信号171を送ることによりリレーコンピュ
ータ19から発せられ通信制御部18を通った電文18
1を受信して発信制御部16にたいし発信要求信号17
2を送り信号162を発信させる。
第2図は第1図における音声認識部13のブロック構成
を示す。
第2図(b)で示す波形のへ力音声20(ichi)か
ら音声分析部21において抽出された特徴パラメータの
系列211と音素標準パターンメモリ22中に格納され
ている例えば16組の音X(a。
ム、・・・・・・、ナト)の特徴パラメータ(最尤スペ
クトルパラメータ、LPCケプストラム係数など)との
距離が距離計算部23において計算される。
距離計算部23から出力された距離の系列231と単語
辞書メモリ24中に格納されている標準単語(たとえば
、単語番号1,2.・・・・・・に対応してそれぞれ音
素記号系列ム*chi、ni、・・・・・・などで表わ
される単語)との非線形マツチング演舞がDPマツチン
グ部25においておこなわれ、その結果得られた距離和
251の大きさにもとづいて単語判定部26で入力音声
の判定がおこなわれ、認識結果27が出力される。
このし繊処理の特徴は、電話人力された不特定話者の音
声綾織i、16組の音素標準パターンによるフレーム別
認識をおこなう第1段と、フレーム別認識の結果と音素
記号系列単語辞書とのDPマツチング全おこなう第2段
とからなる2段のバタン整合に分解し、第1段では音素
標準バタンにたいして話者の音声波形における音響的な
特性にもとづいて16組のクラスタリング(組み合け)
をおこない、第2段では1つの単語に対して複数個の音
素記号系列単語辞薔をもうけて、発話の変化、たとえば
母音の無声化や鼻音化、に対処していることである。本
方式はこの2段処理によって「−桁の数字音(0〜9の
10語月および、「はい」、「いいえ」、「どうぞ」、
「もう一度」、「はりゆう(保留)」、[とりけしく取
り消し)」の6飴を含む16飴に対して620名の男女
による認識結果の一例を表1に示す(を電公社通信研究
所発表)。
表1 男女別の誤り率〔%〕 なお、表1で距離尺度としてとられているのは、を声認
識のための特徴として吠われるパラメータの一例であり
、このいづれを用いても誤り率はほとんど差のないこと
をあられしている。
この方式のもう一つの%徴は、16組に分類8れた多数
の(最大40個程度)音素標準パターンとの整付によっ
て、フレーム別に音素系列を認識し、その結果と単語音
素系列との比較によって単語を認識するに当って、その
処理量を軽減し、実時間認識を可能にするため、そのフ
レーム別音素1g1ll第3図(a)に示すように2段
に分けて階層的に行っていることである。す力わち、1
6組のバタンの中、男声の代表として作られている例え
ば第1の組と、女声の代表として作られている例えば第
16の組との2@の標準パターンで、まず第1段の認識
を行い、その中で整合度の良いものN飴をえらび、その
N梧に対象を限定し、改めて上記16組の音素標準パタ
ーンのすべてを便って再認w#、を行う。Nの数として
は第3図(b)に示す実験結果からN=4にとれば、譲
認識による訓りが少なく、処理t(計算量)も少なくて
すむことがわかる。ここで計算量の比率とは、 結果的に16語に対して16語×16語=256組XI
Fi(7)処理e、2組X 1611+ 16組x4語
=96組X語の処理に軽減している。
さて通常のPB倍信号、いわゆるPB信号受信器で検出
される。通常の使い方では情報を入力する信号の形式が
PB倍信号あるか音声信号であるかはあらかじめ決まっ
ており、分離して行なわれる。例えば通常の1史い力で
はPB倍信号情報センターへのアプローチに使われ、第
1図における発信制御部13で受信検出される。
本発明のポイントはすでに述べた第1図の音声認識部1
3へ、音素および単語の1個としてPB倍信号加え、音
声認識と全く同じ形式でPB倍信号検出することに半っ
て、音声とPB倍信号情報入力手段として併用してもよ
いようにしようとするるものである。ただし音声信号と
PB倍信号同時共存は仮定しない。
まず簡単に、16組の音素バタンのすべてと総当りでフ
レーム別音素醪識が行なわれる場合を考える。このとき
は16組の各組に1個、あわせて16種のPB倍信号擬
音素樟準として割り肖て、その検出に必要な特徴パター
ンを音素標準パターンメモリに記憶させておけばよい。
PB倍信号対応する単語辞書としては、受信検出しなけ
ればならないとされている時間以上(たとえば現行規定
によれば40ミリ秒以上)同一のPB倍信号対する擬音
素標準が維持するという条件を満足するように構成すれ
ばよい。
次に最初2個の代表クラスターによって第1段目の認識
が行なわれるという階層処理の場合に#i次のように考
える。
1)第1段目の認識でPB倍信号あることを検出する。
2)第1段目認識でFB傷信号検出された場合第2段目
でそのいづれであるかを認識する。
以下さらに具体的に説明する。
音韻認識において、LPC(脚形予測)分析にもとづい
てt度比による整合をとる場合について考える。
0.3kHzから3.4 k Hzまでに帯域制限され
た音声信号に対して、通常p=10次の分析が行なわれ
る。
この分析の結果、原理的にはp/2個のスペクトルの共
撮周波数いわゆるホルマント周波数が指定される。すな
わちp=10の場合、5個の周波数を指定することがで
きる。この5個の周波数を、低、高の画周波数帯に、第
4図に示すように割り当てtば、16個の周波数の中の
任貴の6個をカバーするように設定することかで傘、2
組によって任意の12個をカバーするようにすることが
できる。
第4図において、1,2,3,4.5はす1クラスタの
割り当て周波数を示し、I、II、I、IV。
■は+1bクラスタの割り当て周波数を示す。
PB倍信号しては、16個の中から実際には10数字と
制御用に2個(たとえば畳印とφ印)が用いられるのが
普通であり、12個を検出できればよい。日本国内では
低域は4周波(697゜770.852.941H2)
であるが、高域は3周波(1209,1336,149
7H2)Lか使っていない。
これらを横用するパラメータは次式から導出することが
できる。
指定周波数を(ft  )=(fs #’* 、fs 
fa −fs  )とするとき ここでTはサンプリング周期、blけflの共損帯域幅
であり、PB倍信号場合、許容信号周波数変動幅は±2
0%と規定されているがらJ=f@×4%程度にとれば
よい。
これから (Z−β1)  (Z   /1)(Z−β雪)(Z−
7*  +(Z−β6)(Z−β、) ・曲曲曲・・・
・曲(1)のlO次方程式を作り、それを zI0+a、z’ +a、 z’ +−曲−+α、Z+
α、。
・・・・・・・・・・・・ C) とおいて(1)式と(2)式のZの等べき係数をα19
、・・・・・・α1゜ とおけば、(α8.・・団・α
、。)が求められる。
音韻標準バタンとして使われる逆スペクトル係数は、こ
のαの系列にα。とじた1を加えた系列の相関係数とし
て、 八〇=1+α1′+α、!+ ・・・・・・・・・ +
α1o!A、 =α1+αl”l+α、α、+・曲・・
・・+α。α、。
A、 =α。+α、α、。
AIO:dIO と求めらnる。
φ2からφ15までのクラスタに記憶される音素パラメ
ータは、現実の個々のPB倍信号−L PG分析するこ
とによって求めることができる。
なお実際には12個のPB信号全すべて対象とする必要
はなく、第4図にその1例を示すように、ナlクラスタ
によって6種類、ナ16クラスタによって6種類が指定
されるから、この6種類についてのみ第2段の認識実験
を行えばよい。
本発明の一実施例を第2図を用いて説明する。
入力音声20(擬似音声波形としてPB倍信号あること
もある)は音声分析部21で相関係数(r 、 <x)
)の算出とLPC(線形予測)分析がさ1(、残差嘴力
E。Xが計算される。
次に距離計算部23で各フレーム毎に音素標準パタ7(
A+”))、j :0〜10.n=1〜8と入力X(D
相関Qill (r I”’)、 i = 0〜I O
とEoによって次式によって尤度比が計算される。
・・・・・・・・・・・・・・・ (3)このり、”i
尺度とする入方f木系列マトリックスと音素記号系列単
語辞書との間でDPマツチングによる整合がとられ、最
適整合のものがUR結果として出力される。その場合、
すでに説明したよう[16組の音韻クラスタにおいて、
代表的な2つ、たとえば÷1(男声代表)とす16(女
声代表)のみを用いた第1段のv!識が行なわれ、候補
単語がN個にしぼられる。このとき、ナ1とす16のク
ラスターに追加きれたPB信号検出用のバタンによって
第1候補がPB倍信号あると検出されたときは、N個の
候補として、12種類のPB倍信号中の6個を候補とし
て第2段目の開繊を行う。その他は従来の音声認識と全
く同じである。
この場合、個別PB倍信号対応する擬似音素ノ(タンを
2組から15組に1個づつ加えないで、第17組として
PB倍信号のクラスタ全構成すれば、第一段目でPB倍
信号して検出され念ときは、このクラスタについてのみ
フレーム別音素認識を行えばよいように構成することも
できる。
また一般に行なわれている単語レベルでの複数標準バタ
ンによる音声認識においては、PB倍信号対してId1
6組クラヌクラスター総当明した一段目の認識のみでよ
いことは自明である。
以上駿明したように本発明によれば、音声とPB倍信号
何ら区別することなく電話による情報入力手段として利
用することができ、音声入力の簡便さとPB大入力確実
さの特色を活かした情報入力が可能となる。
たとえば、音声によっては比較的長く、文脈効果の利用
しゃすい制ati詰のみを入力し、短かくて文脈効果の
利用しえない数字データはPB大入力するといった使い
方も可能となる。
あるいFiPB電話機を利用できる人には確実なPB人
力を、利用できない人には音声入力を使うシステムをサ
ービスすることもできる。
【図面の簡単な説明】
第1図は従来音声認識応答システムの構成図、第2図は
その音声認識部の説明図、第3図は実際に行なわれてい
る階層認識処理の説明図、第4図はPB信号検出用擬似
音韻パタンによる検出可能領域の説明図である。 第 1  回 ¥J Z 図 (AJ (tλ +  2−−−−−一−−−−// 第 3I21 4t〕山1thf友  N 冨  4  図 r−−−−’−−−−−コ イ色V氏メ≧1メI廻牧

Claims (1)

    【特許請求の範囲】
  1. 1、話者別に分類でれ九複数組の音素標準ノくタンと認
    識すべき単語に対応した!素系列単語辞書とを有する音
    声認識装置において、押しボタン信号の有無を横用する
    逢めの第1の擬*f素ノ(タンを音素標準パタンの特定
    の組の中に有し、残りの組内に個々の押ボタン信号を認
    識するための第2の擬似f累バタyを持ち、第1および
    第2の擬似音素パタンに対応した擬似音素系列単語辞書
    を設けたことを特徴とする電話情報入力装置。
JP57075282A 1982-05-07 1982-05-07 電話情報入力装置 Pending JPS58193595A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57075282A JPS58193595A (ja) 1982-05-07 1982-05-07 電話情報入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57075282A JPS58193595A (ja) 1982-05-07 1982-05-07 電話情報入力装置

Publications (1)

Publication Number Publication Date
JPS58193595A true JPS58193595A (ja) 1983-11-11

Family

ID=13571715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57075282A Pending JPS58193595A (ja) 1982-05-07 1982-05-07 電話情報入力装置

Country Status (1)

Country Link
JP (1) JPS58193595A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS593498A (ja) * 1982-06-30 1984-01-10 株式会社東芝 音声認識装置
EP1316944A2 (en) * 2001-11-28 2003-06-04 Fujitsu Limited Sound signal recognition system and method, and dialog control system and method using it

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS593498A (ja) * 1982-06-30 1984-01-10 株式会社東芝 音声認識装置
JPH0361958B2 (ja) * 1982-06-30 1991-09-24 Tokyo Shibaura Electric Co
EP1316944A2 (en) * 2001-11-28 2003-06-04 Fujitsu Limited Sound signal recognition system and method, and dialog control system and method using it
EP1316944A3 (en) * 2001-11-28 2006-06-07 Fujitsu Limited Sound signal recognition system and method, and dialog control system and method using it
US7177806B2 (en) 2001-11-28 2007-02-13 Fujitsu Limited Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system

Similar Documents

Publication Publication Date Title
TW557443B (en) Method and apparatus for voice recognition
EP0708958B1 (en) Multi-language speech recognition system
US4181813A (en) System and method for speech recognition
US4489433A (en) Speech information transmission method and system
US7672844B2 (en) Voice processing apparatus
TW420959B (en) Voice recognition system in a radio communication system and method therefor
AU5958599A (en) Automatic speech/speaker recognition over digital wireless channels
Gallardo Human and automatic speaker recognition over telecommunication channels
EP1317749B1 (en) Method of and system for improving accuracy in a speech recognition system
JP2006507530A (ja) 音声認識装置及び方法
US6845356B1 (en) Processing dual tone multi-frequency signals for use with a natural language understanding system
JPS58193595A (ja) 電話情報入力装置
EP1298647B1 (en) A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
Bosch On the automatic classification of pitch movements
JPH04369698A (ja) 音声認識方式
JP3183072B2 (ja) 音声符号化装置
RU2801621C1 (ru) Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием
Gallardo Human and automatic speaker recognition over telecommunication channels
JPH04324499A (ja) 音声認識装置
Bennett et al. Speaking to, from, and through computers: Speech technologies and user-interface design
Edwards et al. Better vocoders are coming
JPH10198393A (ja) 会話記録装置
JPH0194398A (ja) 音声標準パターンの作成方法
JP3003136B2 (ja) 音声認識方法および音声応答システム
JPH02124600A (ja) 音声認識装置