JPH10190842A - 音声対話システム - Google Patents

音声対話システム

Info

Publication number
JPH10190842A
JPH10190842A JP8349396A JP34939696A JPH10190842A JP H10190842 A JPH10190842 A JP H10190842A JP 8349396 A JP8349396 A JP 8349396A JP 34939696 A JP34939696 A JP 34939696A JP H10190842 A JPH10190842 A JP H10190842A
Authority
JP
Japan
Prior art keywords
data
voice
telephone number
recognition
caller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8349396A
Other languages
English (en)
Inventor
Toshiyuki Matsuda
俊幸 松田
Hitoshi Sato
均 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8349396A priority Critical patent/JPH10190842A/ja
Publication of JPH10190842A publication Critical patent/JPH10190842A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 自動的に対応する音声認識システムを選択
し、1電話回線で複数の言語に対応できる音声対話シス
テムを提供する。 【解決手段】 デジタル回線に接続する回線インターフ
ェイス手段10と、発呼者の電話番号を識別し電話番号
からセレクタテーブル21を参照して最適の音声認識シ
ステムを識別する電話番号識別手段20と、単語音声を
音声認識用データを用いて認識する音声認識手段30
と、複数の音声認識用データから現在の回線または発呼
者に最も適した音声認識用データを選択する認識データ
セレクタ31と、複数の音声認識用データ32と、音声
認識結果に基づいて音声による対話手順を制御する対話
制御手段40と、対話データセレクタ50と、対話用デ
ータ51と、音声認識結果に基づいて音声ガイダンスを
出力する音声出力手段60と、音声データセレクタ61
と、音声用データ62とからなる音声対話システム。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識を用いて
自動的に対話する通信網に接続されたチケット予約シス
テムや自動交換システムなどに用いられる音声対話シス
テムに関する。
【0002】
【従来の技術】従来、不特定話者認識装置や音声認識応
答装置等の音声認識技術を用いた音声対話システムは、
電話回線を介した不特定話者からの音声を音声認識技術
を用いて認識して、案内サービス等を行っている。これ
らの音声対話システムに用いられる音声認識装置は、大
語彙を対象とした不特定話者の単語音声認識方式を搭載
し、わが国にシステムにおいては、主に日本語の音声を
認識するように設計されている。
【0003】一般的に、不特定話者を対象としたこれら
の音声認識方式は、予め用意されている隠れマルコフモ
デルと単語辞書を用いて、入力された音声を認識する。
ここで隠れマルコフモデルは、音素または音素片の単位
毎のモデル(以後、音素片モデルという)である。単語
辞書とは、単語毎に隠れマルコフモデルの並び順を表記
したものである。
【0004】多数の話者が発声し、且つ音素がバランス
よく含まれている単語セット(以後、学習用データとい
う)を用い、各音素片モデル(隠れマルコフモデル)を
作成する。これは、学習用データを音響分析した後、フ
ォワードバックワード法と呼ばれる最尤学習により各音
素片モデルの状態遷移確率、シンボル出力確率分布等を
推定することであり、一般的にモデルの学習と呼ばれて
いる。
【0005】音声を認識する場合は、音声認識用の単語
辞書の各単語について、音素片モデルを連結して単語の
モデルを生成し、入力音声の特徴ベクトル系列に対して
最大尤度を与える単語を認識結果として出力する。
【0006】この隠れマルコフモデルと単語辞書を用い
た音声認識についての代表的な文献として、「確率モデ
ルによる音声認識:中川聖一著、電子情報通信学会」、
「音声認識の基礎(上、下):Lewrence Ra
biner,Biing−Hwang Juang共
著、古井監訳、NTTアドバンステクノロジ株式会社」
などがある。
【0007】このように従来の技術では、認識の対象と
なる音素と音響的特徴を結んでモデル化を行うので、そ
れぞれの言語毎にモデル化する事が一般的である。した
がって、日本の音声対話システムでは日本語に特化した
音素片モデルを、米国内の音声対話システムでは英語に
特化した音素片モデルを音声認識システムに搭載してい
る。
【0008】
【発明が解決しようとする課題】上記音声認識技術につ
いて、音素とその音響的特徴についてさらに説明する。
ここで、音素とは一つの言語において、言葉の意味を表
すのに用いられる音の単位である。また、音響的特徴と
は、ある音声の波形そのものもしくはその波形を周波数
分析したもの等である
【0009】。音素として識別できる母音の種類は、日
本語では5種類、欧州で使用されている言語では約20
種類である。このことは「デイジタル音声処理:古井貞
煕著、東海大学出版会」の10頁に記載されている。母
音の識別は、主に舌の位置を示す調音位置と顎の開き具
合により分類されている。例えば、/i/と/u/の場
合では、顎の開き具合は等しく、調音位置が前舌のもの
を/i/、後舌のものを/u/と分類する。一方、欧州
では違う音素として分類される中舌の音も存在するが、
これらの中舌の音は日本語では/i/または/u/のい
ずれかに属してしまう。音素の分類は、このように日本
と欧州で違いがある。しかし、音声の音響的特徴はほと
んどかわらない。このことにより日本と欧州の言語にお
いて音素の分類と音響的特徴の対応関係が異なることが
判る。
【0010】次に、音声認識の観点から説明する。上記
従来の音声認識技術では、各国において母国語で音素片
モデルと単語辞書を作成しているので、外国語の音声認
識の対応が不十分になる。例えば、日本語の学習データ
を用いた音素片モデルと日本語の音素を用いて、英単語
の単語辞書を作成する場合、日本語で使用する音素だけ
では英語の音素列を表現することに無理が生じる。ま
た、このモデルと単語辞書を用いて英単語の音声を認識
した場合、英語では区別して取り扱わなければならない
音素でも数少ない日本語の音素で近似していまうことか
ら、英単語の詳細な識別ができず誤認識してしまう問題
がある。
【0011】したがって、複数の言語に対応した高性能
な音声認識を行うには、入力音声に対応させて各言語に
対応した音素片モデルと単語辞書を選択し、音声を認識
しなければならないという問題がある。
【0012】従来、複数の言語に対応した音声認識を用
いて音声応答システムを実現するには、使用する言語毎
に電話回線を割り当てることが必要となる。この方式
は、少なくとも許容する言語の種類の数の電話回線と、
許容する言語の種類の数の音声認識を用いた音声対話シ
ステムが必要になり、装置規模が増大するという問題も
生じる。
【0013】本発明は、音声対話システムが許容する複
数の言語に対して、発呼者の電話番号から自動的に対応
する音素片モデルと単語辞書を選択して音声認識する高
性能な音声認識システムを提供し、さらに1電話回線で
複数の言語に対応することができる音声対話システムを
提供することを課題とする。
【0014】
【課題を解決するための手段】上記問題を解決するため
に、本発明は、発呼者の単語音声を認識する音声認識手
段と、該発呼者に音声の案内(音声ガイダンス)を出力
する音声出力手段と、該発呼者との音声による対話手順
を制御する対話制御手段と、音声認識用データと、対話
用データと、音声ガイダンスに用いる音声用データと、
データ選択手段と、デジタル回線に接続する回線インタ
ーフェイス手段と、該発呼者の電話番号を識別する電話
番号識別手段とから音声対話システムを構成する。
【0015】さらに詳細には、本発明は、発呼者の単語
音声を認識する音声認識手段と、該発呼者に音声の案内
を出力する音声出力手段と、該発呼者との音声による対
話手順を制御する対話制御手段と、音声認識用データ
と、対話用データと、音声用データと、デジタル回線に
接続する回線インターフェイス手段と、該発呼者の電話
番号を識別する電話番号識別手段とからなる音声対話シ
ステムにおいて、上記各データから一つのデータを選択
するデータ選択手段を備え、上記電話番号識別手段は、
デジタル回線から回線インターフェイスを介し入力され
る発呼者の電話番号から必要に応じた情報を識別し、上
記音声認識手段は、デジタル回線から回線インターフェ
イス手段を介し入力される単語音声を音声認識用データ
を用いて認識し、上記音声出力手段は、該発呼者へ次の
操作を促すために必要な音声ガイダンスを音声用データ
を用いて回線インターフェイスを介しデジタル回線へ出
力し、上記対話制御手段は、対話用データを用いて音声
認識手段と音声出力手段を制御し、該発呼者と音声によ
る対話を行いながら、必要な情報を収集し、上記音声認
識用データを複数備えるとともに、上記データ選択手段
は、上記電話番号識別手段の識別結果から、複数の音声
認識用データから現在の回線または該発呼者に最も適し
た音声認識用データを選択することを行うように音声対
話システムを構成した。
【0016】さらに、本発明は、上記音声対話システム
において、上記対話用データおよび上記音声用データを
それぞれ複数備えるとともに、データ選択手段は、上記
音声識別用データ選択手段に加えて対話用データ選択手
段と音声用データ選択手段が設けられ、それぞれのデー
タ選択手段は、上記電話番号識別手段の識別結果から、
対話用データの数のおよび音声用データの複数の内から
現在の回線または該発呼者に最も適した対話用データお
よび音声用データを選択するように構成した。
【0017】加えて、本発明は、上記対話システムにお
いて、電話番号に対応した音声認識用データの対応を示
す音声認識セレクタテーブルを有し、上記電話番号識別
手段は、電話番号に付された国番号または通信システム
番号を識別し、識別結果に基づいて上記音声認識セレク
タテーブルから最適なデータ選択結果を得るように構成
した。
【0018】回線インターフェイス手段は、ISDN等
のデジタル回線と音声データの送受をし、受信した音声
データと発呼者の電話番号を区別し、受信した音声デー
タを音声認識手段へ、電話番号を電話番号識別手段へ送
り出す。
【0019】電話番号識別手段は、ISDN等のデジタ
ル回線の回線インターフェイス手段から発呼者の電話番
号を受信し、音声認識と対話と音声ガイダンスで用いる
最適なデータセット(音声認識用データ、対話用デー
タ、音声用データ)を選択するため、その電話番号(国
番号、通信システム番号)からデータセットのインデッ
クス情報(発呼者の電話番号に対応したデータセットに
関する情報)を抽出する。
【0020】音声認識用データ選択手段は、電話番号識
別手段から出力されたインデックス情報に基づいて、音
声対話システムに搭載されている複数の音声認識用デー
タの内から受信した電話番号に対応した音声認識用デー
タを選択する。音声認識手段は、対話制御手段から制御
され、起動がかかれば選択した音声認識用データに基づ
いて、回線I/Fから送られてきた音声データを音声認
識し、対話制御手段にその結果を通知する。
【0021】対話用データ選択手段は、電話番号識別手
段から出力されたインデックス情報に基づいて、電話番
号識別手段によって選択された対話用データをシステム
に搭載されている対話用データの内から選択する。対話
用データは、それぞれの言語に対応した対話手順からな
る。対話制御手段は、音声認識手段と音声出力手段を対
話用データに基づいて制御し、発呼者と音声対話を行い
必要とする情報を聞き出す。
【0022】音声ガイダンス用の音声データ選択手段
は、電話番号識別手段が出力したインデックス情報に基
づいて、音声ガイダンスに用いる言語に対応した音声デ
ータをシステムに搭載されている音声データの内から選
択する。音声用データは、対話の内容を各言語毎に音声
波形データもしくは音声圧縮データとして有している。
音声出力手段は、対話制御手段から制御され、指定され
た音声データからなる音声ガイダンスを回線インターフ
ェイス手段に送出する。
【0023】
【発明の実施の形態】以下、本発明にかかる音声対話シ
ステムの実施例を図面を用いて説明する。図1は、本発
明にかかる音声対話システムの第1の実施例の機能ブロ
ック図である。第1の実施例は、複数の言語に対応して
音声認識および音声応答を行うシステムである。図1に
おいて、音声対話システム100は、回線インターフェ
イス手段10(以下、回線I/Fという)と、電話番号
識別手段20と、発呼者の電話番号と各種データの対応
付けを記述している音声認識選択データ(以下、セレク
タテーブルという)21と、音声認識手段(以下、音声
認識という)30と、音声認識用データセレクタ(以
下、認識データセレクタという)31と、音声認識に使
用するN個の音声認識用データ32と、対話制御手段
(以下、対話制御という)40と、対話用データセレク
タ(以下、対話データセレクタという)50と、対話制
御40を制御するために使用するN個の対話用データ5
1と、音声出力手段(以下、音声出力という)60と、
音声用データセレクタ(以下、音声データセレクタとい
う)61と、音声出力60が使用する音声が音声波形ま
たは圧縮音声波形で記載されたN個の音声用データ62
と、上位制御部とのインターフェイスで、回線I/F1
0と電話番号識別20と対話制御40を司る制御手段
(以下、音声対話システム制御という)70とを備え
る。
【0024】回線I/F10は、デジタル回線網に接続
され、着信時に音声データと発呼者の電話番号を分離す
る機能を持つ。分離された音声データは音声認識30へ
送られ、発呼者の電話番号は電話番号識別20へ送られ
る。また、回線I/F10は、音声出力60からの音声
データをデジタル回線網へ伝送する。
【0025】電話番号識別20は、回線I/F10から
発呼者の電話番号を受け取り、電話番号に含まれた国番
号に基づいてセレクタテーブル21から音声認識用デー
タと対話用データと音声用データの各々に関するインデ
ックス情報を検索する。
【0026】第1の実施例におけるセレクタテーブルの
構成例を図2を用いて説明する。図2は、各データがメ
モリ上に搭載されている場合のセレクタテーブル(イン
デックス情報)21−1を示す。その内容は、発呼者の
電話番号(国番号)と、各データの開始アドレスとデー
タ量を示す。例えば独国(独国の国番号は「49」)か
ら本システムに着信し、発呼者の電話番号が「49−X
XXXXXXX」の場合、電話番号識別20は、先頭N
桁の電話番号(国番号:49)からセレクタテーブル2
1−1を参照し、認識用データの開始アドレス0x38
00とデータ量0x8000を認識データセレクタ31
へ、対話用データの開始アドレス0x3D000とデー
タ量0x2000を対話データセレクタ50へ、音声用
データの開始アドレス0x18000とデータ量0x4
000を音声データセレクタ61へ送信する。
【0027】音声認識30は、対話制御40から制御さ
れる。音声認識の要求が対話制御40からあった場合、
回線I/F10からの音声データを受信して、電話番号
に基づいて選択した認識用データを用いて音声認識処理
を行う。認識結果は、対話制御40へ通知する。この音
声認識処理は従来技術で述べた音声認識方式を用いてい
る。
【0028】対話制御40は、音声対話システム制御7
0からの指示で動作し、さらに、対話用データによって
音声認識30と音声出力60を制御することによって、
発呼者との会話を制御する。また対話で得られた対話相
手からの情報を記録する機能を有している。
【0029】音声出力60は、対話制御40から制御さ
れる。音声出力の要求が対話制御40からあった場合、
指示された音声を音声用データ62から読み込み、回線
I/F10へ送信する。
【0030】認識データセレクタ31は、電話番号識別
20からのインデックス情報に基づいて、音声認識で使
用する認識用データ32を選択する。対話データセレク
タ50は、電話番号識別20からのインデックス情報に
基づいて対話制御で使用する対話用データ51を選択す
る。音声データセレクタ61は、電話番号識別20から
のインデックス情報に基づいて音声出力60で使用する
音声用データ62を選択する。
【0031】認識用データ32は、音声認識に用いる音
素片データと単語辞書データから構成される。対話用デ
ータ51は、発呼者との対話の手順を表記しているデー
タから構成される。音声用データ62は、システムの音
声ガイダンス用の音声波形データもしくは音声波形デー
タを圧縮したデータから構成される。
【0032】次に、本発明にかかる第1の実施例の音声
対話システムのハードウェア構成を図3を用いて説明す
る。図3において、音声対話システム100は、回線I
/F10と、上位制御インターフェイス(以下、上位制
御I/Fという)11と、電話番号識別20と、セレク
タテーブル21−2と、音声用データが格納されたハー
ドディスク63と、プロセッサ80と、データセレクタ
81と、認識用データと対話用データが格納された高速
メモリ82と、ハードディスク制御手段(以下、ハード
ディスク制御という)83とから構成される。
【0033】回線I/F10は、デジタル回線網に接続
され、着信時に音声データと発呼者の電話番号を分離す
る機能を持つ。分離された音声データと発呼者の電話番
号はプロセッサ80へ送られる。また回線I/F10
は、音声出力ためにプロセッサ80から音声データを受
けデジタル回線網へ送出する。
【0034】上位制御I/F11は、上位制御からプロ
セッサ80の制御コマンドを受信し、プロセッサ80か
ら上位制御へ現在の状態を送信する。
【0035】プロセッサ80は、図1に示した音声対話
システム制御と音声認識と対話制御と音声出力の処理を
行う。このプロセッサ80は、マイクロプロセッサ(M
PU)またはデジタルシグナルプロセッサ(DSP)等
で実現する。
【0036】ハードディスク制御83は、プロセッサ8
0からの要求に応じて必要な音声用データを読み出し、
プロセッサ80に転送する。
【0037】ハードディスク63は、音声ガイダンスに
用いる音声用データを蓄積する。
【0036】高速メモリ82は、音声認識で使用する認
識用データと対話制御で使用する対話用データを搭載す
る。複数の言語に対応する場合は、対象となる言語の音
声認識用データと対話用データを全て搭載する。
【0038】電話番号識別20は、アドレス参照手段
(以下、アドレス参照という)201を有し、回線I/
F10から発呼者の電話番号を受け、セレクタテーブル
21−2を参照してデータセレクタ20で使用するアド
レスをデータセレクタ81へ送信する。ここでは、電話
番号識別20をプロセッサ80の外に配置したが、プロ
セッサ80内に本機能をソフトウェアとして搭載させて
もよい。
【0039】データセレクタ81は、電話番号識別20
で指定されたアドレスをプロセッサ80からのアドレス
に加算し、高速メモリ82のアドレスを決定する。16
bitのアドレシングを行うプロセッサの場合、1Mw
ordのメモリ空間をアクセスするためにデータセレク
タで20bitのアドレスを生成し、メモリアクセスを
行う。
【0040】次いで、本発明にかかる第1の実施例の音
声対話システムの他のハードウェア構成を図4を用いて
説明する。図4において、音声対話システム100は、
回線I/F10と、上位制御インターフェイス11と、
電話番号識別20と、セレクタテーブル21−3と、認
識用データと対話用データと音声用データを格納したハ
ードディスク63と、プロセッサ80と、データセレク
タ81と、高速メモリ82と、ハードディスク制御83
とから構成される。
【0041】回線I/F10は、デジタル回線網とのイ
ンターフェイスと、音声データと発呼者の電話番号を分
離する機能を持つ。分離された音声データはプロセッサ
80へ、発呼者の電話番号は電話番号識別20へ送られ
る。また、回線I/F10は、音声出力ためにプロセッ
サから音声データを受けデジタル回線網へ送出する。
【0042】上位制御I/F11は、上位制御からプロ
セッサ80の制御コマンドを受信し、プロセッサ80か
ら上位制御へ現在の状態を送信する。
【0043】プロセッサ80は、図1に示した音声対話
システム制御と音声認識と対話制御と音声出力の処理を
行う。このプロセッサ80は、マイクロプロセッサ(M
PU)またはデジタルシグナルプロセッサ(DSP)等
で実現する。
【0044】高速メモリ82は、音声認識で使用する認
識用データと対話制御で使用する対話用データの1セッ
トを搭載する。
【0045】ハードディスク制御83は、プロセッサ8
0からの要求に応じて必要な音声用データをハードディ
スク63から読み出しプロセッサ80に転送する機能
と、電話番号に基づいて選択された認識用データ及び対
話用データの1セットをハードディスク63から高速メ
モリ82へダウンロードする機能を有している。
【0046】ハードディスク63は、音声ガイダンス用
の音声用データおよび音声認識に必要な認識用データな
らびに対話制御に必要な対話用データを蓄積する。
【0047】電話番号識別20は、テーブル参照202
とデータセレクタを制御するセレクタ制御手段(以下、
セレクタ制御という)203から構成される。テーブル
参照202は、回線I/F10から発呼者の電話番号を
受け取り、その番号からセレクタテーブル21−3内の
データファイル名を検索し、検索結果をセレクタ制御2
03に渡す。セレクタ制御203は、プロセッサ80か
らの指示でテーブル参照202を起動させ、テーブル参
照の結果であるデータファイル名をハードディスク制御
63に通知し、ハードディスク63に格納された認識用
データと対話用データの高速メモリ82への転送指示を
データセレクタ81へ通知する。
【0048】データセレクタ81は、データ転送手段
(以下、データ転送という)813とゲート812から
構成される。データ転送813は、セレクタ制御203
から転送の指示を受け、ハードディスク制御83からの
認識用データと対話用データをゲート812を介して高
速メモリ82へダウンロードする。この時、セレクタ制
御203は、ゲート812とプロセッサ80に制御信号
を与え、ゲート812にデータを通す場合はプロセッサ
80を停止させ、データバスやアドレスバス上での信号
衝突を回避する。
【0049】図5に、上記したセレクタテーブル21−
3の構成を示す。セレクタテーブル21−3は、発信電
話番号(国番号)と、認識用データファイル名と、対話
用データファイル名と、音声出力インデックスデータフ
ァイル名とから構成されている。電話番号識別20は、
発呼者の電話番号の先頭の番号(国番号)を識別し、テ
ーブル参照202は、この国番号を用いてセレクタテー
ブル31−3を参照し、音声認識用データと対話用デー
タと音声出力データのファイル名を引き出す。例えば、
米国(01)から発信された場合、音声認識用データフ
ァイルは「USA_Recog」が、対話用データファ
イルは「USA_Conv」が、音声出力ファイルは
「USA_Guide」がそれぞれ引き出される。
【0050】図6を用いて、本発明にかかる音声対話シ
ステムの第2の実施例を説明する。この実施例は、単一
の言語を対象とし、国内の通信回線、例えば、通常の有
線電話,PHS,デジタル携帯電話に接続されたPBX
における音声対話システムの例である。PHSは32K
bpsに音声圧縮し、デジタル携帯電話は3.4Kbp
sに音声圧縮して音声を伝送しているので、62Kbp
sで音声圧縮せずに伝送している通常の有線電話とは音
声音質が異なり、それぞれの圧縮形態によって音声認識
に用いる認識データが異なる。第2の実施例は、音質が
異なる相手でも音声認識による精度の高い対応を可能と
した音声対応システムに関する。
【0051】この実施例における対話用データは、単一
のデータであってよく、ガイダンスに用いる音声用デー
タは単一のデータ、例えば、日本語音声用データであっ
て、圧縮処理が行われない音声波形データおよび/また
は音声圧縮データであってよい。
【0052】図6に示した音声対話システム110は、
回線I/F10と、電話番号識別20と、セレクタテー
ブル21−4と、音声認識30と、認識データセレクタ
31と、複数の認識用データ32と、対話制御40と、
対話用データ52と、音声出力60と、音声用データ6
4と、制御70とから構成される。
【0053】回線I/F10は、デジタル回線網に接続
され、着信時に音声データと発呼者の電話番号を分離す
る機能を持つ。分離された音声用データは回線I/F1
0から音声認識30へ送られ、発呼者の電話番号は電話
番号識別20へ送られる。また回線I/F10は、音声
出力60からの音声データをデジタル回線網へ伝送す
る。
【0054】電話番号識別20は、回線I/F10から
発呼者の電話番号を受け取り、セレクタテーブル21−
4から認識用データのインデックス情報を検索する。こ
のセレクタテーブル21−4の例を図7を用いて説明す
る。
【0055】図7は、各データがメモリ上に搭載されて
いる場合のセレクタテーブル21−4の内容を示す。セ
レクタテーブル21−4は、発呼者の電話番号(発信電
話番号:通信システム番号)に対応して各認識用データ
の開始アドレスとデータ量が書き込まれている。例え
ば、PHSから本システムに着信した発呼者の電話番号
が「050−XXX....XX」の場合、電話番号識
別20は先頭の電話番号からセレクタテーブル21−4
を参照し、音声認識のデータの開始アドレス(0x28
000)とそのデータ量(0x8000)を認識データ
セレクタ31へ送信する。
【0056】音声認識30は、対話制御40から制御さ
れる。音声認識の要求が対話制御40からあった場合、
音声認識30は、受信した回線I/F10からの音声デ
ータを、電話番号から得た情報に基づいて選択した認識
用データ32と対比して音声認識処理を行う。認識結果
は対話制御40へ通知される。この音声認識処理は、従
来技術で述べた音声認識方式を用いている。
【0057】対話制御40は、音声対応システム制御7
0からの指示で動作する。対話制御40は、対話用デー
タ52から音声認識結果に対応する対話内容を選び出
し、音声用データ64からこの対話内容を表現する音声
用データを選び出して音声出力60を制御して音声によ
り出力して、発呼者との会話を制御する。また、対話制
御40は、この対話で得られた対話相手の情報を記録す
る機能を有している。
【0058】音声出力60は、対話制御40から制御さ
れる。音声出力の要求が対話制御40からあった場合、
指示された音声を音声用データ64から読み込み、回線
I/F10へ送信する。
【0059】認識データセレクタ31は、電話番号識別
20から得たインデックス情報を用いて認識用データ3
2から音声認識で使用する認識用データを選択する。
【0060】第1の実施例と同様に、複数の認識用デー
タ(32−1,32−2〜32−n)は、音声認識のた
めの音素片データと単語辞書データから構成される。た
だし、第2の実施例の場合、認識用データは、言語はい
ずれも日本語であり、音素片データと単語辞書データが
音声圧縮の有無もしくは音声圧縮の種類(程度)によっ
て異なっている。対話用データ52は、第1の実施と例
同様に、発呼者との対話の手順を表記しているデータか
ら構成されるが、単一の言語を対象としていることか
ら、単一の対話用データであってよい。
【0061】音声用データ64は、音声対話システムの
音声ガイダンス用の音声波形データもしくは音声波形デ
ータを圧縮したデータから構成される。
【0062】第2の実施例のハードウェアブロックは、
図3または図4と同様に構成される。ただし、第2の実
施例では、選択すべきデータは音声認識に用いる認識用
データのみであることから、音声対話システムのセレク
タテーブル21−4の内容は単純化される。すなわち、
図3に示すように認識用データおよび対話用データを高
速メモリ82に格納し音声用データをハードディスクに
格納した場合には、セレクタテーブル21の内容は、図
2に示したセレクタテーブル21−1の内容に対して図
7に示すセレクタテーブル21−4が用いられる。図4
に示すような認識用データをハードディスクから高速メ
モリ82へダウンロードする場合には、セレクタテーブ
ル21の内容は、図3に示したセレクタテーブル21−
3の内容に対して図8に示すセレクタテーブル21−5
が用いられる。図8に示すセレクタテーブル21−5
は、発信番号に対応して認識用データファイル名が記載
されており、電話番号から得た認識用データファイル名
のデータファイルを高速メモリ82へ転送する。
【0063】図9を用いて、本発明にかかる音声対話シ
ステムの運用面での実施例を説明する。図9は、第1の
実施例の音声対話システムを用いて、自動交換システム
を搭載したPBXによって米国との通話の自動交換を行
う通信システムを示す。この通信システムは、米国側の
電話機A901と、米国側の交換機A910と、日本側
の交換機B911と、自動交換システム搭載PBX93
0と、内線電話(内線1〜N)905〜90nとから構
成される。
【0064】米国内の電話番号「01−XXXX……X
X」の電話から日本のある企業に電話をかけ、自動交換
システムを搭載したPBX930で着信した場合を考え
る。自動交換システムを搭載した日本側のPBX930
は、米国の電話A 901を着信し、PBX930内に
搭載された音声対話システム100に接続する。音声対
話システム100では、発呼者の電話番号「01−XX
XX……XX」を受信し、その先頭番号からシステム内
に搭載されたの複数の認識用データと対話用データと音
声用データから米国対応の各データを選択する。以後、
選択された各データに基づいて対話システムは、米国の
発呼者と音声で対話しながら接続を希望する内線番号を
得て、当該着信を内線へ転送する。
【0065】図10は、第2の実施例の音声対話システ
ムを用いて、自動交換システムを搭載したPBXによっ
て形態無線電話やPHSからの着信に対して適正に音声
認識して自動交換する通信システムを示す。この実施例
の通信システムは、電話901と、自動交換システム搭
載PBX931と、PBXに収容された内線電話(内線
1 905、内線2 906、内線N 90n)と、音
声対話システム110とから構成する。これは国内のシ
ステムを想定し、電話機901やデジタル携帯電話90
2やPHS903等から発呼し、自動交換システム搭載
PBX931で着信する例である。
【0066】デジタル携帯電話902やPHS903等
は、伝送路中に音声符号化を入れ音声情報の圧縮を行っ
ているため通常の有線電話とは音質が異なる。このこと
により、有線電話を対象とした認識用データを用いて、
デジタル携帯電話やPHSを通した音声を認識する場
合、音声認識の性能を劣化させてしまう。したがって、
音声対話システム内にデジタル携帯電話やPHSに特化
した認識用データを搭載することで、音声認識の性能を
劣化させない。
【0067】電話番号「050−XXX……XX」のP
HS903からある企業に電話をかけ、自動交換システ
ム搭載PBX931で着信した場合を考える。自動交換
システム搭載PBX931は電話901から着信し、自
動交換システム搭載PBX931内の音声対話システム
110に接続する。音声対話システム110では、発呼
者の電話番号「050−XXX……XX」を受信し、そ
の先頭番号に基づいてシステム内に搭載された複数の認
識用データからPHSに対応したモデルの音声認識用デ
ータを選択する。以後、選択された各データに基づき対
話システムは、PHSを使用している発呼者と音声で対
話しながら接続を希望する内線番号を得て、内線へ転送
する。
【0068】図11を用いて第1の音声対話システムを
用いた電話による自動受付システムを説明する。自動受
付システムは、電話901と、デジタル回線920で結
ばれた交換機A910と交換機B911と、自動受付シ
ステム940とから構成される。この自動受付システム
940は、音声対話システム100と、受付管理システ
ム941とから構成される。
【0069】この自動受付システムを電話による商品販
売受付サービスに使用した場合の動作例を説明する。顧
客が電話901から交換機A910−ディジタル回線9
20−交換機B911を介して電自動受付システム94
0に話をかける。自動受付システム940は、これを着
信すると、音声対話システム100が、発呼者の電話番
号を受信しその電話番号を用いて、受付管理システム9
41に顧客情報を問い合わせる。受付管理システム94
1は、顧客の電話番号情報に基づいて受付管理システム
941内に設けた顧客情報を検索し、当該顧客の本シス
テム使用履歴を参照し、顧客との最適な対話手順を判断
し、その結果を音声対話システム100へ通知する。こ
こで顧客のシステム使用履歴とは、以前にシステムを利
用したときの顧客の音声の特徴や対話の癖、また顧客が
どの商品に興味があるか等の情報を記録したものであ
る。音声対話システム100は、受付管理システム94
1からの情報に基づいて認識用データ、対話用データ、
音声用データを選択し、利用者と対話を行いながら商品
の注文の受付を行う。
【0070】上記のような自動受付システムは、同様な
構成で宅配サービスの自動受付サービスとして利用する
こともできる。
【0071】
【発明の効果】これまでの説明で明らかなように、本発
明によれば、電話番号識別手段とデータ選択手段を持つ
音声対話システムは、音声認識性能を劣化させないで、
一つのシステムで複数の言語に対応することができ、対
話の対象になる言語毎に電話回線を設ける必要がなくな
り、装置規模の増大を防ぐことができる。
【図面の簡単な説明】
【図1】本発明にかかる音声対話システムの第1の実施
例の機能ブロック図。
【図2】本発明の第1の実施例のセレクタテーブルの構
成例。
【図3】図1に示した第1の実施例のハードウェア機能
ブロック図。
【図4】図1に示したの第1の実施例の他のハードウェ
ア機能ブロック図。
【図5】図4に示すハードウェア機能ブロックのセレク
タテーブルの構成例。
【図6】本発明にかかる音声対話システムの第2の実施
例の機能ブロック図。
【図7】図6に示した第2の実施例の第1のセレクタテ
ーブルの構成例。
【図8】図6に示した第2の実施例の第2のセレクタテ
ーブルの構成例。
【図9】本発明にかかる音声対話システムの第1の実施
例の運用例。
【図10】本発明にかかる音声対話システムの第2の実
施例の運用例。
【図11】本発明にかかる音声対話システムを自動受付
に適用した例のシステム構成図。
【符号の説明】
10 回線I/F 11 上位制御I/F 20 電話番号識別 21 セレクタテーブル 30 音声認識 31 認識データセレクタ 32 認識用データ 40 対話制御 50 対話データセレクタ 51,52 対話用データ 60 音声出力 61 音声データセレクタ 62 音声用データ 63 ハードディスク 64 音声用データ 70 音声対応システム制御 80 プロセッサ 82 高速メモリ 83 ハードディスク制御 100,110 音声対話システム 201 アドレス参照 202 テーブル参照 203 セレクタ制御 811 アドレス加算部 812 ゲート 813 データ転送 901 電話 902 携帯電話 903 PHS 905〜90n 内線1〜内線N 910 交換機1 911 交換機2 920 デジタル回線 921 公衆網 930,931 自動交換システム搭載PBX

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 発呼者の単語音声を認識する音声認識手
    段と、該発呼者に音声の案内を出力する音声出力手段
    と、該発呼者との音声による対話手順を制御する対話制
    御手段と、音声認識用データと、対話用データと、音声
    用データと、デジタル回線に接続する回線インターフェ
    イス手段と、該発呼者の電話番号を識別する電話番号識
    別手段とからなる音声対話システムにおいて、 上記各データから一つのデータを選択するデータ選択手
    段を備え、 上記電話番号識別手段は、デジタル回線から回線インタ
    ーフェイスを介し入力される発呼者の電話番号から必要
    に応じた情報を識別し、 上記音声認識手段は、デジタル回線から回線インターフ
    ェイス手段を介し入力される単語音声を音声認識用デー
    タを用いて認識し、 上記音声出力手段は、該発呼者へ次の操作を促すために
    必要な音声ガイダンスを音声用データを用いて回線イン
    ターフェイスを介しデジタル回線へ出力し、 上記対話制御手段は、対話用データを用いて音声認識手
    段と音声出力手段を制御し、該発呼者と音声による対話
    を行いながら、必要な情報を収集し、 上記音声認識用データを複数備えるとともに、 上記データ選択手段は、上記電話番号識別手段の識別結
    果から、複数の音声認識用データから現在の回線または
    該発呼者に最も適した音声認識用データを選択すること
    を行うように構成されていることを特徴とする音声対話
    システム。
  2. 【請求項2】 上記対話用データおよび上記音声用デー
    タをそれぞれ複数備えるとともに、データ選択手段は、
    上記音声識別用データ選択手段に加えて対話用データ選
    択手段と音声用データ選択手段が設けられ、それぞれの
    データ選択手段は、上記電話番号識別手段の識別結果か
    ら、対話用データの数のおよび音声用データの複数の内
    から現在の回線または該発呼者に最も適した対話用デー
    タおよび音声用データを選択するように構成されている
    請求項1記載の音声対話システム。
  3. 【請求項3】 上記電話番号識別手段が識別した電話番
    号に対応した音声認識用データの対応を示す音声認識セ
    レクタテーブルを有することを特徴とする請求項1また
    は請求項2記載の音声対話システム。
  4. 【請求項4】 上記電話番号識別手段は、電話番号に付
    された国番号または通信システム番号を識別し、識別結
    果に基づいて上記音声認識セレクタテーブルから最適な
    データ選択結果を得るように構成された請求項3記載の
    音声対話システム。
JP8349396A 1996-12-27 1996-12-27 音声対話システム Pending JPH10190842A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8349396A JPH10190842A (ja) 1996-12-27 1996-12-27 音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8349396A JPH10190842A (ja) 1996-12-27 1996-12-27 音声対話システム

Publications (1)

Publication Number Publication Date
JPH10190842A true JPH10190842A (ja) 1998-07-21

Family

ID=18403475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8349396A Pending JPH10190842A (ja) 1996-12-27 1996-12-27 音声対話システム

Country Status (1)

Country Link
JP (1) JPH10190842A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007091462A1 (ja) * 2006-02-06 2007-08-16 Nec Corporation 音声認識装置、音声認識方法、及び音声認識用プログラム
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2010175967A (ja) * 2009-01-30 2010-08-12 Ntt Docomo Inc 音声認識サーバ、電話機、音声認識システム、および音声認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007091462A1 (ja) * 2006-02-06 2007-08-16 Nec Corporation 音声認識装置、音声認識方法、及び音声認識用プログラム
JP4905361B2 (ja) * 2006-02-06 2012-03-28 日本電気株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US9165557B2 (en) 2006-02-06 2015-10-20 Nec Corporation Voice recognizing apparatus, voice recognizing method, and program for recognizing voice
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2010175967A (ja) * 2009-01-30 2010-08-12 Ntt Docomo Inc 音声認識サーバ、電話機、音声認識システム、および音声認識方法

Similar Documents

Publication Publication Date Title
US20200227027A1 (en) Updating a voice template
EP0477688B1 (en) Voice recognition telephone dialing
US6629071B1 (en) Speech recognition system
US20020046030A1 (en) Method and apparatus for improved call handling and service based on caller's demographic information
US8990071B2 (en) Telephony service interaction management
JP2003520983A (ja) 改良されたテキスト−音声変換
WO2002058050A2 (en) Voice-enabled user interface for voicemail systems
JPH06242793A (ja) 仲間正規化スコアリングを使用する話者検証法
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
US20100195806A1 (en) Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
US20100114564A1 (en) Dynamic update of grammar for interactive voice response
CN108682421A (zh) 一种语音识别方法、终端设备及计算机可读存储介质
JP3820245B2 (ja) 3者通話方式の自動通訳システム及び方法
KR20220121455A (ko) Stt를 활용한 화자구분 시스템
US20060077967A1 (en) Method to manage media resources providing services to be used by an application requesting a particular set of services
JPH10190842A (ja) 音声対話システム
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
KR100370973B1 (ko) 통화중 음성에 배경음악을 합성해서 전송하는 방법 및 그장치
JP3597398B2 (ja) 音声認識装置
KR100216536B1 (ko) 대화형 자동 민원처리 방법
JP2000151827A (ja) 電話音声認識システム
KR100258140B1 (ko) 음성우편장치의 음성인식 장치 및 방법
KR100277065B1 (ko) 음성인식음성우편시스템에서인식단어변경방법
KR20220122098A (ko) 실시간 화자구분 시스템