JP2000010590A - 音声認識装置およびその制御方法 - Google Patents

音声認識装置およびその制御方法

Info

Publication number
JP2000010590A
JP2000010590A JP10178662A JP17866298A JP2000010590A JP 2000010590 A JP2000010590 A JP 2000010590A JP 10178662 A JP10178662 A JP 10178662A JP 17866298 A JP17866298 A JP 17866298A JP 2000010590 A JP2000010590 A JP 2000010590A
Authority
JP
Japan
Prior art keywords
voice
signal
dictionary
supplied
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10178662A
Other languages
English (en)
Inventor
Takashi Miki
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10178662A priority Critical patent/JP2000010590A/ja
Publication of JP2000010590A publication Critical patent/JP2000010590A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 多様な通信網間接続を経て供給される音声信
号であっても正確に音声認識できる音声認識装置および
その制御方法の提供。 【解決手段】 音声認識装置10は、音声認識制御機能部
12b の制御によって音声辞書選択機能部12a で発信者か
らの信号に含まれる電話番号を検出し、さらに、電話番
号から信号を供給する通信回線および音声信号の符号化
に基づいて音声辞書部14内での最適な音声辞書を想定す
る。音声辞書選択機能部12a は、この想定に対応した音
声辞書からの出力を切換選択機能部12c に供給する。切
換選択機能部12c には、音声認識制御機能部12b で音声
辞書部14と供給される信号にそれぞれ含まれる語句との
対応付けがされた音声辞書部14から音声信号に対応する
語句が出力される。この語句が切換選択機能部12c で選
択された音声辞書の出力としてパターンマッチング機能
部12d に供給される。パターンマッチング機能部12d
は、供給される音声信号から単語等を含む情報の認識を
行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、通信回線を介して
供給される信号に対して回線特性の考慮された音声信号
が格納されている音声辞書を用いて発信者の音声信号に
含まれる情報を音声認識する音声認識装置およびその制
御方法に関し、特に、電話機等のように異なる回線特性
を経て供給される信号に含まれる音声の認識に適用して
好適なものである。
【0002】
【従来の技術】従来、電話機で通話相手である発信者か
らの音声を認識する場合、電話機内の音声認識装置には
一般的な電話回線特性が考慮された音声情報の記録され
た音声辞書が配設されている。音声認識装置は、音声辞
書から供給される音声情報(音声信号)と電話機を介し
て供給される音声信号を比較(パターンマッチング)し
て認識することによって、発信者の音声の情報を取り出
している。
【0003】
【発明が解決しようとする課題】ところで、近年、電話
は使用形態の多様化等と相成って著しい普及およびその
利用が発展してきている。たとえば、有線/無線、これ
らに対してそれぞれアナログ回線/ディジタル回線等に
分けて使用されている。また、使用形態には、交換局、
基地局を介して加入者電話網と接続して通話する自動車
電話、携帯電話や通信衛星や海底ケーブルを介して通話
する国際電話等がある。
【0004】さらに、これらの電話網では、その使用形
態に応じた伝送符号化を施して音声信号の伝送が行われ
る。この結果、上述した方式・使用形態に応じて様々な
種類の回線特性が出現してきている。特に、ディジタル
回線では、電話網の伝送符号化特性に応じて個々の回線
特性が大きく異なることが知られている。このように回
線特性が各種存在するので、音声認識装置は、これまで
のようにある一つの電話網の回線(あるいは伝送)特性
を考慮した音声辞書で多様な網間接続を経由してきた音
声信号から正確に認識して情報を取り出すことができな
くなってきている。
【0005】本発明はこのような従来技術の欠点を解消
し、多様な通信網間接続を経て供給される音声信号であ
っても正確に音声認識できる音声認識装置およびその制
御方法を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は上述の課題を解
決するために、通信回線を介して発信者から供給される
信号に対して回線特性の考慮された音声信号が格納され
ている音声辞書を用いて格納されている音声信号と発信
者からの信号に含まれる音声信号を比較して発信者から
の音声を認識する音声認識装置であって、音声認識に用
いる各種の特性を含む複数の音声辞書手段と、発信者か
らの音声を認識する音声認識手段とを含み、音声認識手
段は、発信者からの信号に含まれる電話番号を検出する
とともに、この電話番号から信号を供給する通信回線お
よび信号の符号化に基づいて想定される音声辞書手段内
の音声辞書を選択する音声辞書選択機能と、この音声辞
書選択機能からの出力に応じて音声辞書手段からの出力
を切り換える辞書切換機能と、音声辞書手段に含まれる
語句と供給される信号に含まれる音声信号の語句との対
応付けを行って音声辞書手段から音声信号に対応する語
句を出力させるとともに、この音声認識手段の制御およ
び音声辞書選択手段の制御を行う音声認識制御機能とを
含むことを特徴とする。
【0007】ここで、音声辞書選択機能は、発信者から
の信号をサンプルホールドし、この信号に含まれる電話
番号を検出する番号検出機能と、信号を供給する通信回
線の回線特性および信号の符号化に基づいて音声辞書手
段内の音声辞書で想定される音声辞書を決定する音声辞
書決定機能と、この音声辞書決定機能の決定に応じて選
択信号を出力する選択信号出力機能とを含むことが好ま
しい。
【0008】番号検出機能は、供給される信号をサンプ
ルホールドするサンプリング機能と、このサンプリング
機能の出力から電話番号を抽出する番号抽出機能と、こ
の番号抽出機能の抽出結果に応じて発信者に使用中の通
信回線の種別を示す種別情報の入力および/または発信
者の発声を促す音声信号の送信を行う音声送出機能と、
番号抽出機能から得られた電話番号に基づいた通信回線
の種別の検出あるいは音声送出手段からの出力に応じて
サンプリング機能から供給される発信者に使用中の通信
回線の種別を示す種別情報の検出を行う回線種別検出機
能とを含むことが望ましい。これにより、対応する回線
種別から最適な音声辞書の選択が可能になる。
【0009】また、音声辞書決定機能は、音声辞書選択
機能に含まれる代表的な音声信号を格納した簡易音声辞
書手段と、この簡易音声辞書手段の出力が番号検出機能
を介して音声送出機能からの要求に基づき発信者から供
給される音声信号に最も高い一致性を示す音声信号の含
まれる音声辞書に決定する音声比較機能とを含むことが
有利である。これにより、たとえ番号の供給がなくて
も、音声比較によって最適な音声辞書を提供できる。
【0010】そして、音声辞書手段は、通信回線の伝送
特性別の第1の音声辞書および前記通信回線すべてに対
して平均的な伝送特性の第2の音声辞書を含むことが好
ましい。これにより、回路網による細かい信号の歪みを
再現する音声辞書を用いた場合、高い音声認識が可能に
なり、回路網が特定できなくても一般的な回路網の歪み
により音声認識の認識を保たせることができる。
【0011】本発明の音声認識装置は、音声認識手段に
おける音声認識制御機能の制御によって音声辞書選択機
能で発信者からの信号に含まれる電話番号を検出し、さ
らに、この電話番号から信号を供給する通信回線および
音声信号の符号化に基づいて音声辞書手段内での最適な
音声辞書を想定する。音声辞書選択機能は、この想定に
対応した音声辞書を選択する出力を辞書切換機能に供給
する。辞書切換機能には、音声認識制御機能によって音
声辞書手段に含まれる語句と供給される信号に含まれる
音声信号の語句との対応付けがされた音声辞書手段から
音声信号に対応する語句が出力されている。この語句が
辞書切換機能で選択された音声辞書の出力として音声認
識機能に供給される。音声認識機能でも音声認識制御機
能の制御を受けて、音声認識機能は辞書切換機能の出力
を基に供給される音声信号から発信者の音声を認識する
ことにより、従来に比べて適切な音声辞書を選択でき、
この音声辞書を用いることから音声認識の処理の負荷を
抑えることができるようになる。
【0012】また、本発明は、通信回線を介して発信者
から供給される信号に対して回線特性の考慮された音声
信号が格納されている音声辞書を用いて格納されている
音声信号と発信者からの信号に含まれる音声信号を比較
して発信者からの音声を認識する音声認識装置の制御方
法であって、発信者からの信号に含まれる電話番号が検
出されるか判定を行う番号検出工程と、供給される信号
から通信回線および信号の符号化に基づいて想定される
音声辞書内から音声辞書を一つずつ選択して出力する音
声辞書選択工程と、供給される信号に含まれる音声信号
の語句と音声辞書に含まれる語句との対応付けを行って
各音声辞書から音声信号に対応する語句を出力させる対
応語句出力工程と、この対応語句出力工程によって対応
の図られた語句を基に供給される信号に含まれる音声信
号の特性と最も類似性の高い音声辞書の情報を抽出する
情報抽出工程と、この情報抽出工程によって得られる情
報に応じて音声辞書を切り換えて出力する辞書切換工程
と、この辞書切換工程によって供給される出力と発信者
からの音声信号とを比較してこの供給される音声信号か
ら最適な音声認識を行う音声認識工程とを含むことを特
徴とする。
【0013】ここで、情報抽出工程は、前記音声送出工
程から供給される種別情報を検出する回線種別検出工程
を含むことが好ましい。回線種別が明らかになることに
より、供給される音声信号から最適な音声辞書を選択で
きるようになる。
【0014】情報抽出工程は、前記回線種別検出工程の
結果を考慮しながら、前記音声送出工程に基づき前記発
信者の発声を促す音声信号に応じて供給される音声信号
から最良な認識をもたらす選定した音声辞書の情報を出
力することが望ましい。回線種別および/または音声信
号から最適な音声辞書を選定できる。
【0015】本発明の音声認識装置の制御方法は、発信
者からの信号に含まれる電話番号を検出し、供給される
信号から通信回線および音声信号の符号化に基づいて音
声辞書内の音声辞書を一つ選択する。そして、供給され
る信号に含まれる音声信号の語句と音声辞書に含まれる
語句との対応付けを行って各音声辞書から音声信号に対
応する語句をそれぞれ出力させる。それぞれ出力される
信号の中で音声辞書を選択する。この音声辞書の選択
時、選択した音声辞書だけしか語句(あるいは語彙)の
音声信号が出力されない。このとき、供給される語句
は、備えた音声辞書中で回線網の歪みに対応した最も音
声認識に適切な語句として供給されることになる。この
適切な語句と発信者からの音声信号とを比較してこの供
給される音声信号から発信者を特定することにより、従
来の音声認識に比べてより迅速に音声認識の処理を抑え
て、その音声認識結果の誤りも減少させることができ
る。
【0016】
【発明の実施の形態】次に添付図面を参照して本発明に
よる音声認識装置およびその制御方法の実施例を詳細に
説明する。本発明は、多様な通信に伴って信号に生じる
歪みにより発信者の音声認識が困難になりつつある現状
を打破するように多様な通信回線の回線特性を考慮して
音声認識することによって正確に発信者の音声を認識さ
せることに特徴があり、この処理に伴って処理の負荷も
低減させている。本実施例は、音声認識装置10を電話機
(図示せず)に適用した場合について図1〜図6を参照
しながら説明する。
【0017】音声認識装置10は、図1に示すように、音
声認識部12および音声辞書部14で構成されている。音声
認識部12は、音声辞書選択機能部12a 、音声認識制御機
能部12b 、切換選択機能部12c およびパターンマッチン
グ機能部12d が含まれている。さらに、これら各部につ
いて説明すると、音声辞書選択機能部12a には、図2に
示すように、番号検出機能部120a、音声辞書決定機能部
122aおよび選択信号出力機能部124aが備えられている。
音声辞書選択機能部122aは、供給される音声信号を含む
信号が通ってきた回線網による歪みを的確に表す特性の
音声辞書を選択する機能を持っている。この機能を発揮
するように、またさらに、番号検出機能部120aには、サ
ンプルホールド機能部1200、電話番号抽出機能部1202、
回線種別検出機能部1204および音声ガイダンス機能部12
06が備えられている。
【0018】サンプルホールド機能部1200は、供給され
る音声信号を音声認識装置10内に所定のタイミングで取
り込んでいる。この取り込まれた音声信号は、電話番号
抽出機能部1202、回線種別検出機能部1204および音声辞
書決定機能部122aのそれぞれに供給される。
【0019】電話番号抽出機能部1202は、サンプルホー
ルド機能部1200から供給される音声信号中に含まれる電
話番号を抽出する。ここで、電話番号の抽出は、たとえ
ばNTT (日本電信電話株式会社)のいわゆる「ナンバー
ディスプレイ」サービスのように発信者から着側交換機
を介して供給される電話番号を検出する。ただし、電話
番号が抽出できなかった場合、電話番号抽出機能部1202
は、抽出不可を示すデータを回線種別検出機能部1204に
出力するとともに、音声ガイダンス機能部1206に制御信
号26a を供給する。
【0020】回線種別検出機能部1204には、サンプルホ
ールド機能部1200と電話番号抽出機能部1202からの信号
が供給される。回線種別検出機能部1204は、電話番号抽
出機能部1202から電話番号がデータとして供給された場
合、このデータを基にして音声信号が経てきた回線網を
特定する。また、上述したように電話番号抽出機能部12
02から抽出不可を示すデータが出力された際に、回線種
別検出機能部1204は、図示しないがサンプルホールド機
能部1200から供給される信号を入力するように内部で接
続を変更する。回線種別検出機能部1204は、音声ガイダ
ンス機能部1206の指示要求に応じて発信者が情報を提供
してきた場合、この供給される情報を検出する機能を備
えている。この情報が検出されると、この情報から音声
信号が経てきた通信網が特定できるので、回線種別検出
機能部1204は、回線種別を示す情報、すなわち、たとえ
ば選択する音声辞書の番号を選択信号出力機能部124aに
出力する。
【0021】音声ガイダンス機能部1206は、発信者に対
して音声による応答信号として音声ガイダンス信号を出
力する。この際、音声ガイダンス機能部1206は、回線を
特定できるように回線の種別項目と対応する番号の例示
を行うとともに、電話機のボタンを介して項目の選択を
依頼する音声ガイダンス信号を出力する。また、発信者
からたとえば特定の語句を発声してもらうように音声ガ
イダンス信号を出力する。
【0022】音声辞書決定機能部122aには、簡易音声辞
書部1220および特性比較機能部1222が備えられている。
簡易音声辞書部1220は、たとえば予め供給される音声信
号に含まれる代表的な2、 3の語句を各伝送特性毎に格納
させておく。簡易音声辞書部1220は、音声認識制御機能
部12b による制御に応じて対応する語句を特性比較機能
部1222に出力する。
【0023】特性比較機能部1222は、サンプルホールド
機能部1200から供給される音声信号と簡易音声辞書部12
20から供給される語句を比較する。この比較は、単に語
句の比較をするだけでなく、この語句における簡易音声
辞書部120bが保持している伝送特性すべてにわたって、
たとえばパターン認識等の手法を用いてこの語句に含ま
れる特性の比較も行われる。その結果、音声信号と最も
類似している語句を選び出す。この選択によって供給さ
れる音声信号に対する伝送特性の最も類似性の高い音声
辞書が何かが判る。特性比較機能部1222は、この選択し
た回線特性が含まれる辞書を示す辞書指示信号を選択信
号出力機能部124aに出力する。
【0024】このように音声辞書決定機能部122aでは、
音声信号を供給する通信回線の回線特性および音声信号
の符号化に基づいて音声辞書部16内の音声辞書の想定を
行い、音声辞書が決定される。このため、音声辞書決定
機能部122aにおいて、簡易音声辞書部1220は、少なくと
も音声辞書部14内の各音声辞書を特定できるように回線
特性と音声辞書の番号を対の関係で格納している。とこ
ろで、この回線特性には、たとえば、回線網による信号
特性の歪みだけでなく、ディジタル回線網を通る信号に
予め規定された符号化が施されることからこの符号化に
伴う伝送特性も含まれている。
【0025】ここで、簡単に回線網・符号化について説
明する。実際に、電話回線網は、収容区域を考慮して区
分された市内電話網、市外電話網、接続範囲の拡大が考
慮された移動体通信網や国際電話網等の他、個別サービ
ス網・専用網等もある。専用網を用いて、たとえば、現
在、インターネットの普及に伴ってディジタルデータ交
換網を介して音声通信することもできるようになってい
る。さらに、これらの電話網には、使用する中継方式・
加入者線伝送方式という要素にも依存しているので、こ
れらの方式の組合せ等も考慮すると非常に様々な回線特
性のあることが判る。これらの中で代表的な音声の特徴
をディジタル回線網の場合、上述したように伝送符号特
性が関係することから、結果として回線特性は伝送符号
特性別に異なることになる。
【0026】選択信号出力機能部124aは、上述した音声
辞書決定機能部122aの決定あるいは前述した番号検出機
能部120aから供給される回線種別に応じて選択信号を出
力する。この選択信号は、選択信号出力機能部124aから
切換選択機能部12c に供給されるとともに、制御信号の
情報として音声認識制御機能部12b にも供給されてい
る。
【0027】音声認識制御機能部12b は、図1に示すよ
うに、音声辞書選択機能部12a 、音声辞書部14およびパ
ターンマッチング機能部12d といった音声認識装置10の
主要な部分を統括制御している。音声認識制御機能部12
b は、供給される音声信号を基にこの音声信号に含まれ
る語句と同じ語句を音声辞書部14から対応付けて出力さ
せる制御を行う。また、音声認識制御機能部12b は、切
換選択機能部12c から供給される語句とパターンマッチ
ング機能部12d に発信者から供給される音声信号の語句
をパターンマッチングさせ、パターンマッチング機能部
12d に得られる類似性の高い単語の情報を音声認識の結
果として出力するように制御を行う。
【0028】音声辞書部14には、伝送特性音声辞書群14
a と一般音声辞書部14b が備えられている。伝送特性音
声辞書群14a は、通信回線の伝送特性別に複数の音声辞
書部140a, 142a, 144a,・・・がある。また、一般音声辞書
部14b は、通信回線すべてに対して平均的な伝送特性を
持っている。各音声辞書部140a, 142a, 144a,・・・および
一般音声辞書部14b には、個々の音声辞書を識別する識
別番号が付されている。伝送特性音声辞書群14a と一般
音声辞書部14b は、音声認識制御機能部12b の制御を受
けるとともに、特に伝送特性音声辞書群14a に対して最
も一致性の高い音声辞書部140a, 142a, 144a,・・・を選択
するように制御が行われる。この制御は、前述した音声
辞書選択機能部12a から供給される選択信号を用い、こ
の選択信号に応じて制御しているからである。各音声辞
書部には、回線網の特性および符号化等が特性を含んだ
単語の音声信号が格納されている。音声辞書部14は、音
声認識制御機能部12b により個々の音声辞書に固有な特
性を含んだ音声信号(データ)が順次出力する。
【0029】切換選択機能部12c には、供給される音声
信号に含まれる語句と同じ語句が音声辞書部16の伝送特
性音声辞書群14a と一般音声辞書部14b からそれぞれ供
給される。このとき、伝送特性音声辞書群14a は、上述
したように音声辞書部140a,142a, 144a,・・・中から選択
された伝送特性の出力が供給されている。切換選択機能
部12c は、音声辞書選択機能部12a から供給される選択
信号によって伝送特性音声辞書群14a と一般音声辞書部
14b のいずれか一方の音声信号を選択している。この選
択された音声辞書からの音声信号がパターンマッチング
機能部12d に供給される。
【0030】パターンマッチング機能部12d は、音声認
識制御機能部12b の制御に応じてたとえば、供給される
音声信号と切換選択機能部12c から供給される音声信号
とのパターン・マッチング等の処理によって格納されて
いる音声信号の内、最も類似している語句を選び出す。
このように構成してパターンマッチング機能部12d は、
迅速に回線網の歪みが考慮されるので、供給される音声
信号に対応した音声辞書に基づく音声認識も高速にでき
るようになる。
【0031】次にこの電話機に適用した音声認識装置10
の動作について説明する。音声認識装置10は、図3に示
すメインフローチャートに従って動作する。電話機への
着呼に伴って供給される信号を音声認識装置10に供給す
る。音声認識装置10は、この信号供給に応じて信号をサ
ンプルホールド機能部1200で所定の期間にわたってサン
プリングし、このサンプリングした信号部分を電話番号
抽出機能部1202に供給して、ステップS10 から動作を開
始する。
【0032】ステップS10 では、発信者から供給される
信号に電話番号が含まれているか電話番号抽出機能部12
02で判定を行う(番号検出工程)。電話番号が検出され
たとき(Yes )、電話番号抽出機能部1202は、抽出した
電話番号を回線種別検出機能部1204に供給して、サブル
ーチンSUB1に進む。また、電話番号が検出されなかった
とき(No)、電話番号抽出機能部1202は、制御信号26a
を音声ガイダンス機能部1206に出力して、サブルーチン
SUB2に進む。
【0033】サブルーチンSUB1では、供給される信号か
ら通信回線および信号の符号化がどのような回線網を経
てきたかを電話番号から知ることができるので、回線種
別を判定して音声辞書部14内の音声辞書を選択する。こ
の電話番号は、供給される音声信号が有する回線網の歪
み等の特性を反映した最も類似性の高い音声辞書を選択
する上での重要な情報である。サブルーチンSUB1では、
この情報に基づいてこの音声辞書と一般音声辞書部14b
の一方を選択する選択信号を生成し、出力する。
【0034】また、ステップS10 で電話番号が検出でき
なかったときの処理をサブルーチンSUB2で行う。このサ
ブルーチンSUB2には、電話番号が検出できなくても音声
辞書の選択を行う処理が含まれている。サブルーチンSU
B2では、供給される信号から通信回線および信号の符号
化に基づいて想定される伝送特性が含まれる音声辞書と
して音声辞書部14の伝送特性別音声辞書群14a および一
般音声辞書部14b 内からいずれか一方を選択するか判定
を行う。特に、伝送特性別音声辞書群14a は、この中で
供給される音声信号が有する回線網の歪み等の特性を反
映した最も類似性の高い音声辞書を選択している。そし
てこの音声辞書と一般音声辞書部14b の一方を選択する
選択信号を生成し、出力する。サブルーチンSUB1, SUB2
ともに処理が終了したならば、処理手順をステップS11
に移行する。
【0035】ステップS11 では、供給される信号に含ま
れる音声信号の語句と音声辞書に含まれる語句との対応
付けを行って各音声辞書から音声信号に対応する語句を
出力させる(対応語句出力工程)。この音声辞書に対す
る制御は、音声認識制御機能部12b が供給する制御信号
によって行われている。
【0036】この制御を詳述すると、音声認識制御機能
部12b は、供給される音声信号から語句の抽出制御と、
伝送特性別音声辞書群14a における回線網に最適な音声
辞書の選択制御と、この音声辞書から供給された音声信
号に含まれる語句に対応した音声信号の出力制御とを行
う。この制御によって、切換選択機能部12c に供給され
る上述した2種類の音声辞書からの信号は、それぞれ音
声認識装置10に供給される音声信号と対応の取れた信号
になる。切換選択機能部12c へのこれらの信号供給は音
声認識装置10が運転中継続させる。
【0037】次にステップS12 では、ステップS11 にお
いて説明したように、語句に関して供給される2種類の
信号の内、いずれか一方の信号を選択する(辞書の切換
選択工程)。すなわち、信号は、上述したように、伝送
特性別音声辞書群14a 中の一つの音声辞書と一般音声辞
書部14b から供給される信号のどちらかが選択されるこ
とになる。この選択は、サブルーチンSUB1あるいはサブ
ルーチンSUB2の処理で得られた選択信号に応じて切換選
択機能部12c が切り換えられる。切換選択機能部12c を
介した信号はパターンマッチング機能部12d に供給され
る。
【0038】次にステップS13 では、切換選択機能部12
d から供給される信号と発信者からの音声信号とを比較
する。さらに、比較した中で最も一致性の高い辞書から
の音声信号をたとえば、パターン・マッチング等の処理
を行って検出する(音声認識工程)。このとき、この検
出によって発信者の音声信号は、辞書から供給される音
声信号と対応付けて単語情報が認識されることになる。
これにより、パターンマッチング機能部12d では回線特
性等の諸特性の考慮された音声認識が行われる。パター
ンマッチング機能部12d は、認識された単語だけでな
く、選択した音声辞書の番号を含んだ認識情報が出力さ
れる。この処理後、図示しないが通話が切れるまでパタ
ーンマッチング処理が継続される。最終的に通話「断」
で終了に進む。一方、通話中、切換選択機能部12c から
選定した音声辞書の出力が継続して供給されるから、選
択された音声辞書を用いて発信者の音声信号の認識処理
を行うことで認識に要する処理量を抑えるとともに、認
識の誤りも低減化させることができる。
【0039】次に前述したサブルーチンSUB1の処理手順
を簡単に図4を用いて説明する。この処理は、電話番号
が検出された場合の処理である。電話番号抽出機能部12
02から供給される電話番号が回線種別検出機能部1204に
供給される。最適な音声辞書を選択するように、まず、
サブステップSS10に進む。サブステップSS10では、回線
種別検出機能部1204で抽出された電話番号がどの伝送特
性の音声辞書に一致するか一つずつ音声辞書の選択を行
い、音声辞書の番号に対する判定を行う。この判定処理
は、音声辞書選択工程および対応語句出力工程に対応す
るにおける工程の一つである。回線種別検出機能部1204
には、辞書選択テーブル(図示せず)が設けているとよ
い。
【0040】辞書選択テーブルには、電話番号の、たと
えば、先頭から3桁分の番号と伝送特性別の音声辞書を
示す識別番号が一組の対をなして格納されている。辞書
選択テーブルの一例を示すと、辞書選択テーブルには、
先頭電話番号「010 」と識別番号「1 」、先頭電話番号
「020 」と識別番号「2 」、先頭電話番号「030 」と識
別番号「3 」、先頭電話番号「050 」と識別番号「4
」、先頭電話番号「060」と識別番号「5 」、先頭電話
番号「080 」と識別番号「6 」、先頭電話番号「090 」
と識別番号「7 」、上述した以外の先頭番号「010 」に
は識別番号「8 」を対応させるように格納されている。
【0041】実際に抽出された電話番号の先頭3桁の番
号に辞書選択テーブルの先頭電話番号を供給して比較を
行う。比較結果が一致しなかったとき(No)、辞書選択
テーブルの先頭電話番号を次の先頭電話番号が出力でき
るように処理してサブステップSS10に戻る。また、比較
結果が一致したとき(Yes )、 サブステップSS11に進
む。
【0042】サブステップSS11では、一致した先頭電話
番号と対をなす識別番号を選択信号出力機能部124aに出
力する。この後、サブステップSS12に進む。
【0043】サブステップSS12では、識別番号に応じて
出力する選択信号を変更する。この変更は、選択信号出
力機能部124aで識別番号が「1 」〜「7 」のとき、音声
辞書部14の伝送特性別音声辞書群14a からの出力が選択
されるように行う。また、識別番号が「8 」のとき、一
般音声辞書部14b からの出力が選択されるように選択信
号を変更する。選択信号出力機能部124aは、たとえば識
別番号「1 」〜「7 」の対応する音声辞書を選択する信
号を音声認識制御機能部12b に供給する。音声認識制御
機能部12b は、この選択信号が供給されることにより伝
送特性別音声辞書群14a の音声辞書だけから格納されて
いる信号を出力させることができる。これから、サブス
テップSS11, SS12の処理が情報抽出工程に対応している
ことが判る。この選択信号の出力後、この一連の処理を
終えてリターンに移行する。サブルーチンSUB1は、リタ
ーンを介してステップS11 に進む。
【0044】また、前述したサブルーチンSUB2の処理手
順を簡単に図5を用いて説明する。この処理は、電話番
号が検出されなかった場合の処理である。電話番号抽出
機能部1202は、電話番号が供給されなかったことを示す
制御信号26a を音声ガイダンス機能部1206に出力する。
電話番号が検出できないことに対応するように、まず、
サブステップSS20に進む。サブステップSS20では、発信
者に使用中の通信回線の種別を示す種別情報の入力を促
す音声信号の送信、いわゆる音声ガイダンスを音声ガイ
ダンス機能部1206で行う(音声送出工程)。音声ガイダ
ンス機能部1206は、最初、発信者に対してたとえば、電
話番号の非通知処理の解除、回線の種類に対応する番号
として該当する識別番号を入力するように、たとえば、
プッシュボタンからの入力等を要求する音声信号を出力
する。また、所定の語句を発声するように音声ガイダン
スを行ってもよい。この音声ガイダンスは、少なくとも
一回は行う。この音声信号の出力の後、サブステップSS
21に進む。
【0045】サブステップSS21では、音声ガイダンス
後、回線種別検出機能部1204でたとえば、プッシュボタ
ンからの入力された情報が供給されたかまたその情報内
容の判定を行う。情報の供給があったとき(Yes )、サ
ブステップSS22に進む。また、情報の供給がなかったと
き(No)、サブステップSS24に進む。
【0046】サブステップSS22では、音声ガイダンスに
よって供給された信号は、電話番号抽出機能部1202でな
く回線種別検出機能部1204に供給し、処理する(回線種
別検出工程)。また、たとえばプッシュボタンからの入
力された情報(辞書選択テーブルの識別番号)を用い、
選択信号出力部12c にこの情報が供給される。この後、
サブステップSS23に進む。
【0047】サブステップSS23では、前述したサブステ
ップSS12と同様に識別番号に応じて出力する選択信号を
変更する。この変更後、リターンに移行する。
【0048】サブステップSS24では、音声ガイダンスに
応じて発信者から所定の語句の発声があったか検証す
る。この検証は、音声辞書決定機能部122aの特性比較機
能部1222で行う。音声辞書決定機能部122aには、伝送特
性を表す代表的な所定の語句が簡易音声辞書部1220に格
納されている。所定の語句の発声があったとき(Yes
)、サブステップSS25に進む。また、所定の語句の発
声がなかったとき(No)、サブステップSS26に進む。
【0049】サブステップSS25では、特性比較機能部12
22で所定の語句を基に回線特性の一致性に関する比較を
簡易音声辞書部1220の出力とサンプルホールド機能部12
00からの出力に基づいて行う。この比較は、回線特性の
最も類似している音声辞書を探すことにある(情報抽出
工程)。この音声辞書の探索後、サブステップSS27に進
む。
【0050】サブステップSS26では、実際の通話中の語
句から最適な音声辞書の候補を探索する。この探索結果
を選択信号出力機能部124aに供給し、サブステップSS27
に進む。なお、このサブステップSS26では、たとえば伝
送特性音声辞書群14a あるいは簡易音声辞書部1220から
の出力を基に類似性を比較した結果(たとえば類似度)
が一般音声辞書部14b より低い場合、一般音声辞書部14
b を選んでもよい。
【0051】サブステップSS27では、サブステップSS2
5, SS26からそれぞれ供給される結果に応じて選択信号
の設定、すなわち2つの音声辞書のいずれを選択するか
を設定するとともに、この設定された選択信号を出力す
る。また、選択信号出力機能部124aは、前述したと同様
に音声認識制御機能部12b に音声辞書の選択を制御する
ように信号を供給している。この処理後、リターンに移
行する。リターンを経てサブルーチンSUB2が終了する。
このサブルーチンSUB2の戻り先は、サブルーチンSUB1の
ときと同様にステップS11 である。
【0052】このように動作させて通信回線の伝送特性
に対応した音声辞書の選択を行うことにより、適切な音
声辞書から供給される信号を用いるので、従来の処理に
比べて発信者から供給される情報を用いて処理量を抑え
るとともに、発信者の音声認識における誤りを少なくす
ることができる。
【0053】また、前述した実施例の変形例として音声
認識装置10は、図6のように構成してもよい。簡易音声
辞書部120bの代わりに音声辞書部14の各音声辞書部から
特性比較機能部1222に信号がそれぞれ供給されるように
接続する。特性比較機能部1222には、各音声辞書部から
の信号を切り換える信号選択機能部(図示せず)が配設
される。信号選択機能部は、音声認識制御機能部12b の
制御に応じて供給される信号を切り換える。さらに、別
な構成として音声辞書部14の出力が音声認識制御機能部
12b の制御に応じて供給されるように構成すると、特性
比較機能部1222には信号選択機能部が不要になり、信号
線も一本で済ませることができる。このように構成する
ことにより、余分な辞書をなくすことができるので、装
置のコスト低減にも大きく寄与することができる。
【0054】また、動作においても、前述したサブルー
チンSUB2のサブステップSS26のように所定の語句を発声
してもらえなくても豊富な語句を有する音声辞書に基づ
いて回線特性が探索できる。これにより、選択する音声
辞書における回線特性の一致性をより一層高め、その音
声辞書の選択の信頼性も上げることができる。
【0055】以上のように構成することにより、現在の
多様化した回線網の伝送特性に対応した音声辞書を提供
することができるので、この音声辞書を用いることによ
り、従来よりも音声認識の処理量を抑えながらも確度の
高い音声認識ができる。これによって、さらにこの情報
を用いて加入者により一層の通話サービスが提供でき
る。
【0056】なお、前述の実施例は、本発明を電話機に
適用した場合について説明したが、この実施例に限定さ
れるものでなく、電話音声を用いたサービスに適用で
き、同様の効果を挙げることができることは言うまでも
ない。
【0057】
【発明の効果】このように本発明の音声認識装置によれ
ば、音声認識手段の音声制御機能の制御によって音声辞
書選択機能において発信者からの信号に含まれる電話番
号を検出し、さらに、この電話番号から信号を供給する
通信回線および音声信号の符号化に基づいて音声辞書手
段内の音声辞書を想定する。音声辞書選択機能は、この
想定に対応した音声辞書を選択する出力を辞書切換機能
に供給する。辞書切換機能には、音声認識制御機能によ
って音声辞書手段に含まれる語句と供給される信号に含
まれる音声信号の語句との対応付けをして音声辞書手段
から音声信号に対応する語句が供給される。この語句が
辞書切換機能の選択によって想定される音声辞書の出力
として音声認識機能に供給される。音声認識機能でも音
声認識制御機能の制御を受けて、音声認識機能は辞書切
換機能の出力を基に供給される音声信号から発信者の音
声を認識することにより、従来に比べて適切な音声辞書
を選択でき、この音声辞書を用いることから音声認識の
処理の負荷を抑えることができ、かつ音声認識の誤りを
なくすことができるようになる。これによって、より一
層の通話サービスを提供できる。
【0058】また、本発明の音声認識装置の制御方法に
よれば、発信者からの信号に含まれる電話番号を検出
し、供給される信号から通信回線および信号の符号化に
基づいて音声辞書手段内の音声辞書を一つ選択する。そ
して、供給される信号に含まれる音声信号の語句と音声
辞書に含まれる語句との対応付けを行って各音声辞書か
ら音声信号に対応する語句をそれぞれ出力させる。それ
ぞれ出力される信号の中で音声辞書を選択する。この選
択した音声辞書だけからの語句の音声信号しか出力され
ない。このとき、供給される語句は最も音声認識に適切
な語句として音声認識手段に供給されることになる。こ
の適切な語句と発信者からの音声信号とを比較してこの
供給される音声信号から発信者を特定すると、従来の音
声認識に比べて音声認識の処理を抑えることができ、そ
の音声認識結果の誤りも減少させることができる。これ
により、たとえば電話のような通信装置に適用した際に
得られた情報を用いてより一層の通話サービスを行うこ
とが可能になる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置を電話機に適用した
際の概略的な構成のブロック図である。
【図2】図1に示した音声辞書選択部における概略的な
構成のブロック図である。
【図3】図1に示した音声認識装置の動作を説明するメ
インフローチャートである。
【図4】図3に示したメインフローチャート中のサブル
ーチンSUB1の動作手順を説明するフローチャートであ
る。
【図5】図3に示したメインフローチャート中のサブル
ーチンSUB2の動作手順を説明するフローチャートであ
る。
【図6】本発明に係る音声認識装置を電話機に適用した
構成の変形例を示すブロック図である。
【符号の説明】
10 音声認識装置 12a 音声辞書選択機能部 12b 音声認識制御機能部 12c 切換選択機能部 12d パターンマッチング機能部 14 音声辞書部 120a 番号検出機能部 122a 音声辞書決定機能部 124a 選択信号出力機能部 14a 伝送特性別音声辞書群 14b 一般音声辞書部 1200 サンプルホールド機能部 1202 電話番号抽出機能部 1204 回線種別検出機能部 1206 音声ガイダンス機能部 1220 簡易音声辞書部 1222 特性比較機能部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 通信回線を介して発信者から供給される
    信号に対して回線特性の考慮された音声信号が格納され
    ている音声辞書を用いて格納されている音声信号と前記
    発信者からの信号に含まれる音声信号を比較して前記発
    信者からの音声を認識する音声認識装置であって、該装
    置は、 前記音声認識に用いる各種の特性を含む複数の音声辞書
    手段と、 前記発信者からの音声を認識する音声認識手段とを含
    み、 前記音声認識手段は、前記発信者からの信号に含まれる
    電話番号を検出するとともに、該電話番号から前記信号
    を供給する通信回線および前記信号の符号化に基づいて
    想定される前記音声辞書手段内の音声辞書を選択する音
    声辞書選択機能と、 該音声辞書選択機能からの出力に応じて前記音声辞書手
    段からの出力を切り換える辞書切換機能と、 前記音声辞書手段に含まれる語句と供給される信号に含
    まれる音声信号の語句との対応付けを行って前記音声辞
    書手段から前記音声信号に対応する語句を出力させると
    ともに、該音声認識手段の制御および前記音声辞書選択
    手段の制御を行う音声認識制御機能とを含むことを特徴
    とする音声認識装置。
  2. 【請求項2】 請求項1に記載の装置において、前記音
    声辞書選択機能は、前記発信者からの信号をサンプルホ
    ールドし、該信号に含まれる電話番号を検出する番号検
    出機能と、 前記信号を供給する前記通信回線の回線特性および前記
    信号の符号化に基づいて前記音声辞書手段内の音声辞書
    で想定される音声辞書を決定する音声辞書決定機能と、 該音声辞書決定機能の決定に応じて選択信号を出力する
    選択信号出力機能とを含むことを特徴とする音声認識装
    置。
  3. 【請求項3】 請求項2に記載の装置において、前記番
    号検出機能は、供給される信号をサンプルホールドする
    サンプリング機能と、 該サンプリング機能の出力から前記電話番号を抽出する
    番号抽出機能と、 該番号抽出機能の抽出結果に応じて前記発信者に使用中
    の通信回線の種別を示す種別情報の入力および/または
    前記発信者の発声を促す音声信号の送信を行う音声送出
    機能と、 前記番号抽出機能から得られた電話番号に基づいた前記
    通信回線の種別の検出あるいは前記音声送出手段からの
    出力に応じて前記サンプリング機能から供給される前記
    発信者に使用中の通信回線の種別を示す種別情報の検出
    を行う回線種別検出機能とを含むことを特徴とする音声
    認識装置。
  4. 【請求項4】 請求項2に記載の装置において、前記音
    声辞書決定機能は、前記音声辞書選択機能に含まれる代
    表的な音声信号を格納した簡易音声辞書手段と、 該簡易音声辞書手段の出力が記番号検出機能を介して前
    記音声送出機能からの要求に基づき前記発信者から供給
    される音声信号に最も高い一致性を示す音声信号の含ま
    れる音声辞書に決定する音声比較機能とを含むことを特
    徴とする音声認識装置。
  5. 【請求項5】 請求項1に記載の装置において、前記音
    声辞書手段は、前記通信回線の伝送特性別の第1の音声
    辞書および前記通信回線すべてに対して平均的な伝送特
    性の第2の音声辞書を含むことを特徴とする音声認識装
    置。
  6. 【請求項6】 通信回線を介して発信者から供給される
    信号に対して回線特性の考慮された音声信号が格納され
    ている音声辞書を用いて格納されている音声信号と前記
    発信者からの信号に含まれる音声信号を比較して前記発
    信者からの音声を認識する音声認識装置の制御方法であ
    って、該方法は、 前記発信者からの信号に含まれる電話番号が検出される
    か判定を行う番号検出工程と、 前記供給される信号から通信回線および前記信号の符号
    化に基づいて想定される前記音声辞書内から音声辞書を
    一つずつ選択して出力する音声辞書選択工程と、 前記供給される信号に含まれる音声信号の語句と前記音
    声辞書に含まれる語句との対応付けを行って前記各音声
    辞書から前記音声信号に対応する語句を出力させる対応
    語句出力工程と、 該対応語句出力工程によって対応の図られた語句を基に
    供給される信号に含まれる音声信号の特性と最も類似性
    の高い音声辞書の情報を抽出する情報抽出工程と、 該情報抽出工程によって得られる情報に応じて前記音声
    辞書を切り換えて出力する辞書切換工程と、 該辞書切換工程によって供給される出力と前記発信者か
    らの音声信号とを比較して該供給される音声信号から最
    適な音声認識を行う音声認識工程とを含むことを特徴と
    する音声認識装置の制御方法。
  7. 【請求項7】 請求項6に記載の方法において、前記情
    報抽出工程は、前記音声送出工程から供給される種別情
    報を検出する回線種別検出工程を含むことを特徴とする
    音声認識装置の制御方法。
  8. 【請求項8】 請求項6または7に記載の方法におい
    て、前記情報抽出工程は、前記回線種別検出工程の結果
    を考慮しながら、前記音声送出工程に基づき前記発信者
    の発声を促す音声信号に応じて供給される音声信号から
    最良な認識をもたらす選定した音声辞書の情報を出力す
    ることを特徴とする音声認識装置の制御方法。
JP10178662A 1998-06-25 1998-06-25 音声認識装置およびその制御方法 Pending JP2000010590A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10178662A JP2000010590A (ja) 1998-06-25 1998-06-25 音声認識装置およびその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10178662A JP2000010590A (ja) 1998-06-25 1998-06-25 音声認識装置およびその制御方法

Publications (1)

Publication Number Publication Date
JP2000010590A true JP2000010590A (ja) 2000-01-14

Family

ID=16052389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10178662A Pending JP2000010590A (ja) 1998-06-25 1998-06-25 音声認識装置およびその制御方法

Country Status (1)

Country Link
JP (1) JP2000010590A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229591A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 音声通訳システムおよび音声通訳方法
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
EP2219355A2 (en) 2009-01-30 2010-08-18 NTT DoCoMo, Inc. Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
WO2014069798A1 (en) * 2012-10-29 2014-05-08 Samsung Electronics Co., Ltd. Voice recognition apparatus and voice recognition method thereof
US9165557B2 (en) 2006-02-06 2015-10-20 Nec Corporation Voice recognizing apparatus, voice recognizing method, and program for recognizing voice

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229591A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 音声通訳システムおよび音声通訳方法
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US9165557B2 (en) 2006-02-06 2015-10-20 Nec Corporation Voice recognizing apparatus, voice recognizing method, and program for recognizing voice
EP2219355A2 (en) 2009-01-30 2010-08-18 NTT DoCoMo, Inc. Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
US8238525B2 (en) 2009-01-30 2012-08-07 Ntt Docomo, Inc. Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
EP2219355A3 (en) * 2009-01-30 2014-06-11 NTT DoCoMo, Inc. Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
WO2014069798A1 (en) * 2012-10-29 2014-05-08 Samsung Electronics Co., Ltd. Voice recognition apparatus and voice recognition method thereof

Similar Documents

Publication Publication Date Title
CA2250050C (en) Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US6629071B1 (en) Speech recognition system
US5719921A (en) Methods and apparatus for activating telephone services in response to speech
US5917889A (en) Capture of alphabetic or alphanumeric character strings in an automated call processing environment
US6198808B1 (en) Controller for use with communications systems for converting a voice message to a text message
US20020181669A1 (en) Telephone device and translation telephone device
US6882973B1 (en) Speech recognition system with barge-in capability
US6438520B1 (en) Apparatus, method and system for cross-speaker speech recognition for telecommunication applications
CN100502571C (zh) 通信方法及系统
JP3204632B2 (ja) 音声ダイヤルサーバー
JP2003513341A (ja) 遠隔通信端末における音声入力命令の認識率を上げるシステム及び方法
CN107690038A (zh) 业务语音导航方法和装置
US7643992B2 (en) Method, system and device for automatic recognition of limited speech
US6788767B2 (en) Apparatus and method for providing call return service
JP2000010590A (ja) 音声認識装置およびその制御方法
US6845356B1 (en) Processing dual tone multi-frequency signals for use with a natural language understanding system
US6229881B1 (en) Method and apparatus to provide enhanced speech recognition in a communication network
EP1315146A2 (en) Method and apparatus for improving access to numerical information in voice messages
KR100414064B1 (ko) 음성인식에 의한 이동통신 단말기 제어시스템 및 방법
KR100264852B1 (ko) 디지털휴대용전화기의음성인식장치및방법
KR100304126B1 (ko) 음성 인식시스템에서의 다단계 입력 처리를 위한 인식결과 확인 방법
JP2815971B2 (ja) 音声認識データ蓄積システム
KR100349675B1 (ko) 음성인식시스템에서 인식시간을 이용한 부가정보 안내 방법
EP1385148A1 (en) Method for improving the recognition rate of a speech recognition system, and voice server using this method
JP2000151827A (ja) 電話音声認識システム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040907