JP2007033901A

JP2007033901A - 音声認識システム、音声認識方法、および音声認識用プログラム

Info

Publication number: JP2007033901A
Application number: JP2005217534A
Authority: JP
Inventors: Takeshi Hanazawa; 健花沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-07-27
Filing date: 2005-07-27
Publication date: 2007-02-08
Also published as: US7809562B2; US20070027693A1; CN100590711C; CN1905007A

Abstract

【課題】クライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を供給するようにする。
【解決手段】第１音声認識部１１２Ｂは音声前処理部１１２Ａより出力された音声特徴量に基づき、入力された音声を第１認識辞書１１３を用いて音声認識する。結果判定部１１５は第１音声認識部１１２Ｂにより音声認識された認識結果の信頼性を判定し、該認証結果を受理するか棄却するかを判定し、その結果、認証結果を棄却するものとした判定された場合には、通信部１１６は、他の音声認識手段としてのサーバ装置１２０からの認識結果を受信する。結果出力部１１は受理された認証結果，又は通信手段１１６により受信したサーバ装置１２０からの認識結果を出力し、辞書更新制御部１１９は確定結果入力部１１８により入力された確定結果に基づき、第１認識辞書１１３を更新する。
【選択図】図１

Description

本発明は、音声認識システム、音声認識方法、および音声認識用プログラムに係り、特に、サーバ・クライアント型の音声認識システム、音声認識方法、および音声認識用プログラムに関する。

従来のサーバ・クライアント型の音声認識システム（以下、単に「音声認識システム」という）は、クライアント端末装置が比較的負荷の小さい音声認識処理行い、サーバ装置が負荷の高い音声認識処理を行うシステムであって、図８に示すように、通信網３３０を介して通信接続されたクライアント端末装置３１０とサーバ装置３２０から構築されている。

クライアント端末装置３１０は、ユーザからの音声を入力する音声入力部３１１と、入力された音声データを波形分析等の前処理する音声前処理部３１２と、前処理された音声データの内容認識を内部（クライアント側）で行うか外部（サーバ側）へ依存するかを切り替える切替え部３１３と、内部で内容認識する場合に作動する第１音声認識部３１４とおよび第１認識辞書３１５と、サーバ側と相互通信する場合の通信部３１６と、音声認識の結果を外部へ送信する認識結果出力部３１７とから構成されている。
又、サーバ装置３２０は、クライアント端末装置３１０はと相互通信する場合の通信部３２１と、音声認識する場合の第２音声認識部３２２および第２の認識辞書３２３とを備えている。この種の音声認識システムとしては、例えば後述する特許文献１，特許文献２等に、近似した内容の技術が開示されている。

このような構成を有する従来の音声認識システムでは、クライアント端末装置３１０及びサーバ装置３２０は、次のような動作行う。
即ち、クライアント端末装置３１０では、音声入力部３１１で音声データが入力されると、これに基づいて音声前処理部３１２が、入力された音声データに例えば、音声波形分析などの前処理を施す。次に、切替え部３１３は、前述した音声波形分析当の結果に基づいて作動し当該音声データの内容認識を第１音声認識部３１４に委託するか又はサーバ装置３２０が備えている第２音声認識部３２２に委託するかを選択する。

切替え部３１３は、第１音声認識部３１４を用いるものと選択した場合には当該第１音声認識部３１４が第１認識辞書３１５を用いて音声認識し、その認識結果を認識結果出力部３１７に出力する。一方、切替え部３１３が、第２音声認識部３２２を用いるものと選択した場合には前処理した音声データを通信部３１６から通信網３３０を介してサーバ装置３２０に送信する。

サーバ装置３２０は、通信部３２１がクライアント端末装置３１０から音声データを受信すると、直ちに第２音声認識部３２２が作動して受信した音声データを第２認識辞書３２３を用いて音声認識し、通信部３２１が音声認識結果を通信網３３０を介してクライアント端末装置３１０に返信する。クライアント端末装置３１０は、通信部３１７が音声認識結果を受信すると、認識結果出力部３１７がその結果をユーザに出力する。

特開２００３−２４１７９６号公報特開２００４−１３３６９９号公報

しかしながら、上述した従来の音声認識システムでは、クライアント端末装置３１０において、音声認識に要する処理を低負荷に抑えるために第１認識辞書３１５の容量を小さく設定されているので、クライアント端末装置３１０で認識できる語彙は大幅に制限され、ユーザの発声内容によっては音声認識できない場合があるという問題点があった。
この場合、認識できない単語が存在した場合には、ユーザが目的に応じてクライアント端末装置３１０の第１認識辞書３１５に単語を追加していくという手法もあるが、このような作業はユーザに負担を強いることになると共に、単語を追加した際には、クライアント側の計算量が増加し、結果的に遅延などが発生するという不都合が生じる。

更に、上記従来例では、クライアント端末装置３１０はサーバ装置３２０側から受信した音声認識結果をユーザに出力するのみで、音声認識結果を蓄積することがないので、例えば、使用頻度の高い語彙（単語）あるいは最近使用した語彙を取得したいというユーザの要求を満たすことができないという不都合があった。

本発明は、かかる従来例の有する不都合を改善し、例えばクライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を有効に供給する音声認識システム、音声認識方法、及び音声認識プログラムを提供することを、その目的とする。

上記目的を達成するため、本発明にかかる音声認識システムでは、ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて音声情報を一次認識する音声認識手段と、この音声認識手段による音声認識の一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定手段と、この認識結果判定手段で前記一次認識結果が棄却された場合に作動し前記音声認識手段に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する送受信手段と、前記認識結果判定手段から出力される一次認識結果又は前記送受信手段から得られる二次認識結果を外部へ出力する認識結果出力手段とを備えている。
更に本発明では、前述した認識結果出力手段から外部へ出力された前記一次又は二次認識結果に対する確定情報を入力する確定結果入力手段と、この確定された認識結果に基づいて前記認識辞書を更新する辞書構成制御手段とを備えている（請求項１）。

このため、本発明では、一次認識する音声認識手段の処理能力が小さい場合でも、辞書構成制御手段によって予め確定された認識結果を常に更新するように機能していることから、ユーザの目的に合った認識語彙を提供する事ができ、又、前述した認識辞書にない単語をユーザが発した場合でも前述した音声認識手段の一次認識結果を他の音声認識手段の有する音声認識機能によって容易に認識結果（二次認識結果）が得られるので、音声認識手段の処理能力が小さくて認識辞書にない単語をユーザが発声した場合でも認識することができ、更に、過去にサーバ側で処理された認識結果の単語あるいは単語列を辞書構成制御手段によって自動的に前述した認識辞書に追加できるので、認識辞書をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができる。

ここで、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存するために前述した認識結果判定手段に代えて、外部の他の判定システムに前述した一次認識結果を提示する認識結果提示手段と、前記他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを判定情報として取り扱う判定結果入力手段とを装備した構成としてもよい（請求項２）。

このようにしても前述した請求項１記載の発明と同等の機能を有するほか、更に外部の他の判定システム（例えばユーザ自身）により出される判定結果（指令）が入力された場合にこれを一次認識結果の内容に対する判定情報として取り扱うようにしたので、ユーザの確認により認識辞書の更新を行うことが可能となり、音声認識を行う際に処理効率がよい認識辞書を形成することができ、音声情報の処理に対する信頼性を確実に高めることができる。

更に、前述した音声認識手段を、ユーザから入力された音声を分析してその特徴量を抽出する音声前処理部と、この抽出された音声特徴量に基づいて前記音声の一次認識結果を出力する１次音声認識部とにより構成してもよい（請求項３）。このようにすると、音声認識手段による音声の一次認識を迅速に実行することができ、二次認識に際しても高精度に音声認識処理を実行することができる。

更に、前述した辞書構成制御手段が、前述した認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前述した音声認識動作の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する語彙削除機能を備えているように構成してもよい（請求項４）。このようにすることにより、前述した認識辞書の容量が小さくて音声認識手段による処理能力が小さくとも、一次認識結果をユーザの目的に合わせて迅速に出力することが可能となる。更に、当該一次認識結果を得るための認識辞書の構成情報として過去のユーザの使用履歴を用いるので、ユーザの嗜好に合わせた情報を取得することが可能となるという利点もある。

又、前述した辞書構成制御手段が、前述した認識辞書の更新に際しては当該更新する情報を前述した他の音声認識手段に送信する更新情報送信機能を備えた構成としてもよい（請求項５）。このようにすることにより、前述した他の音声認識手段における認識辞書を前述した音声認識手段に併設された認識辞書の内容を常時含んだ状態に設定しておくことができ、音声認識に際しての迅速なる対応が可能となるという利点がある。
ここで、前述した他の音声認識手段を、所定の音声認識機能を備えると共に通信回線で接続されたサーバ装置により構成してもよい（請求項６）。

又、本発明にかかる音声認識方法は、ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて音声情報を一次認識する音声認識工程と、この一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定工程と、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得工程と、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力工程とを備えている。更に本発明に係る音声認識方法は、前述した認識結果出力工程で外部へ出力した一次又は二次認識結果に対する確定情報を入力する確定結果入力工程と、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御工程とを備えた構成とした（請求項７）。

このため、本発明では、一次認識する音声認識手段の処理能力が小さいにもかかわらずユーザの目的に合った認識語彙を効率良く鹿も迅速に提供する事ができ、更に、過去にサーバ側で処理された認識結果の単語あるいは単語列を辞書構成制御手段によって自動的に前述した認識辞書に追加できるので、認識辞書をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができるという利点を備えている。

ここで、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存するために前述した認識結果判定工程に代えて、外部の他の判定システムに前述した一次認識結果を提示する認識結果提示工程と、前記他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力工程とを装備した構成としてもよい（請求項８）。このようにしても前述した請求項８記載の発明と同等の機能を有するほか、更に外部の他の判定システム（例えばユーザ自身）により出された判定結果（指令）を一次認識結果の内容に対する判定情報として入力するようにしたので、ユーザの確認による認識辞書の更新が可能となり、音声認識の処理効率のよい認識辞書を形成することができる。

又、上述した音声認識方法において、前述した辞書更新制御工程では、前述した認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する手順を備えているように構成してもよい（請求項９）。更に、上述した音声認識方法において、認識辞書更新工程が、前述した認識辞書の更新に際しては当該更新する情報を前記他の音声認識システムに送信する更新情報送信手順を備えた構成としてもよい（請求項１０）。

更に、本発明にかかる音声認識用プログラムでは、クライアント側端末に入力されたユーザが発する音声情報を予め装備した認識辞書に基づいて一次認識する音声認識機能、この一次認識結果の信頼性を判定しこれに基づいて当該一次認識結果を受理するか棄却するかを判定する認識結果判定機能、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得機能、およびこの一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力機能を、更に、前記認識結果出力機能を実行しで外部へ出力した前記一次又は二次認識結果に対する確定情報が入力された場合にこれを取り込む確定結果入力機能、およびこの確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御機能を、前述したクライアント側端末が備えているにコンピュータに実行させるように構成したことを特徴とする（請求項１１）。

このため、本発明では、一次認識する音声認識手段の処理能力が小さい場合でも、認識辞書更新機能によって予め確定された認識結果を常に更新されていることから、ユーザの目的に合った認識語彙を常時提供する事ができ、又、前述した認識辞書にない単語をユーザが発した場合でも前述した音声認識機能によって一次認識結果を他の音声認識システムの有する音声認識機能に依存して容易に認識結果（二次認識結果）が得られるので、音声認識機能の処理能力が小さくて認識辞書にない単語をユーザが発声した場合でも容易に認識処理することができ、更に、過去にサーバ側で処理された認識結果の単語あるいは単語列を認識辞書更新機能によって自動的に前述した認識辞書に追加できるので、認識辞書をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができる。

又、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存するために前述した認識結果判定機能に代えて、外部の他の判定システムに前述した一次認識結果を提示する認識結果提示機能，および前記他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを判定情報として取り扱う判定結果入力機能とを装備した構成としてもよい（請求項１２）。
このようにしても前述した請求項１１記載の発明と同等の機能を有するほか、更に外部の他の判定システム（例えばユーザ自身）により出される判定結果（指令）が入力された場合にこれを一次認識結果の内容に対する判定情報として取り扱うようにしたので、ユーザの確認による認識辞書の更新であることから、音声認識を行う際に処理効率がよい認識辞書を形成することができ、音声情報の処理に対する信頼性が確実に高められる。

ここで、上述した音声認識プログラムにおいて、前述した認識辞書更新機能が、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいてその語彙を削除する処理機能を含むように構成してもよい（請求項１３）。又、上述した音声認識プログラムにおいて、前述した認識辞書更新機能が、前述した認識辞書の更新に際し、当該更新する情報を前記他の音声認識システムに送信する送信処理機能を含むように構成してもよい（請求項１４）。

クライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を供給することができる。
本発明は前述したように構成され機能するので、これによると、一次認識の処理能力が小さいクライアント端末装置又は音声認識手段等を装備したものであっても、認識辞書が予め確定された認識結果を常に更新するようになっていることから、常にユーザの目的に合った認識語彙を提供することが可能となる。

次に、本発明の実施形態を添付図面に基づいて説明する。
＜第１の実施形態＞
図１に、本発明に係る第１実施形態の音声認識システムの全体的な構成を示す。この図１における音声認識システムは、ユーザからの音声を入力し一次認識するクライアント端末装置１１０と、このクライアント端末装置１１０に通信網１３０を介して通信接続された音声認識にかかる二次認識結果を出力するサーバ装置（他の音声認識手段）１２０とから構築されている。

クライアント端末装置１１０は、ユーザからの音声を入力する音声入力部１１１と、入力した音声を予め装備した第１認識辞書（認識辞書）１１３に基づいて一次認識する音声認識手段１１２と、この一次認識の結果を受理するか棄却するかを判定する結果判定部（認識結果判定手段）１１５と、一次認識された音声データが棄却判定された場合に作動し前述したサーバ装置（他の音声認識手段）１２０に当該音声データを送信して一次認識を委託すると共にその結果を取得する通信部（送受信手段）１１６と、認識された結果を外部へ出力する結果出力部（認識結果出力手段）１１７とを備えている。
更に、このクライアント端末装置１１０は、出力された認識結果がユーザによって確定されその結果が入力された場合にこれを取り込む確定結果入力部（確定結果入力手段）１１８と、この確定された認識結果に基づいて前述した第１認識辞書（認識辞書）１１３を行進する辞書構成制御部（辞書構成制御手段）１１９とを備えている。

前述した音声データを一次認識する音声認識手段１１２は、入力された音声を分析しその特徴量を抽出する音声前処理部１１２Ａと、この抽出された音声特徴量に基づいて前記音声データの一次認識結果を出力する１次音声認識部１１２Ｂとを備えた構成となっている。
ここで、クライアント端末装置１１０には、音声認識用プログラムをメモリ（図示せず）に記憶しておき、図示しないＣＰＵがメモリに記憶されている音声認識用プログラムを実行することにより、音声前処理部１１２Ａ、第１音声認識部１１２、結果判定部１１５、通信部１１６、結果出力部１１７、確定結果入力部１１８、及び辞書構成制御部１１９をそれぞれ機能させるように構成してもよい。

続いて、各構成部分の機能について説明する。
音声入力部１１１は、マイク等からなりユーザが発声した音声を受け付ける。音声前処理部（特徴量出力手段）１１２Ａは、入力された音声を音響分析してその特徴を示す音声特徴量を取り出す。第１認識辞書（認識辞書）１１３は、図２に示すように、語彙（単語）とその語彙の読みとからなる辞書データが登録されている。

第１音声認識部（音声認識手段）１１２Ｂ、音声前処理部１１２Ａにより取り出された音声特徴量に基づき、ユーザが発声した音声に対応する単語が第１認識辞書１１３に登録されているかを検索する。例えば、ユーザにより「メールアドレス」と発声された場合には、第１音声認識部１１２Ｂは、第１認識辞書１１３を検索し、音声前処理部１１２Ａより入力された特徴量から、「メール」及び「アドレス」を第１認識辞書１１３から読み出し、これら「メール」及び「アドレス」の語彙をつなげた「メールアドレス」を結果判定部１１５に出力する。尚、第１音声認識部１１２Ｂは、該当する語彙を読み出すことができなかった場合には、その旨を結果判定部１１５に出力する。

結果判定部（結果判定手段）１１５は、第１音声認識部１１２Ｂから語彙が入力された場合には、入力された語彙を例えば尤度を算出し、尤度が高い場合にはユーザが要求する語彙であると判定しこの語彙を受理し、一方、尤度が低い場合には、ユーザが要求しない語彙であると判定して語彙を棄却する。例えば、第１認識辞書１１３に登録されていた「メールアドレス」の場合には、この語彙の尤度は高く判定されて受理される。一方、登録されていない「登録する」の場合には、第１音声認識部１１２Ｂが誤認識した例えば「変更する」という語彙を受けた場合には、この語彙は尤度が低く判定されて棄却される。

通信部（送受信手段）１１６は、第１音声認識部１１２Ｂから出力された語彙が結果判定部１１５に棄却された場合には、音声前処理部１１２Ａが取り出した音声特徴量を通信網１３０を介してサーバ装置１２０に送信するとともに、サーバ装置１２０から通信網１３０介して音声認識結果を受信する。結果出力部（認識結果出力手段）１１７は、クライアント端末装置１１０またはサーバ装置１２０により認識したユーザが発声した音声の音声認識結果（一次又は二次認識結果）を外部出力する。

確定結果入力部（確定結果入力手段）１１８は、出力された認識結果を確定する要求をユーザから入力されると、その要求を辞書構成制御部（辞書構成制御手段）１１９に出力する。辞書構成制御部（辞書構成制御手段）１１９は、受けた要求に従って第１認識辞書１１４に新たに辞書データを登録するとともに、クライアント端末装置１１０の処理能力に応じた語彙数以上を超えた場合には、古いものから削除する（語彙削除機能の実行）。

これに対し、前述した他の音声認識手段であるサーバ装置１２０は、図１に示すように、通信部１２１と、第２認識辞書１２２と、第２音声認識部１２３とを備えている。通信部１２１は、通信網１３０を介してクライアント端末装置１１０から特徴量を受信するとともに、音声認識結果をクライアント端末装置１１０に送信する。第２認識辞書１２２は、前述したクライアント端末装置１１０が判定不可能とされた音声認識に対応する語彙（単語）とその語彙の読みとを有する辞書データが登録されている。又、第２音声認識部１２３は、クライアント端末装置１１０から受信した音声特徴量に基づき、ユーザが発声した音声に対応する単語を第２認識辞書１２２から読み出し音声認識を行い、その二次認識結果としてクライアント端末装置１１０側へ送り返すように機能する。

次に、本第１実施形態の全体的な動作を説明する。
図２において、ユーザから発せられた音声は、クライアント端末装置１１０の音声入力部１１１から入力される（ステップ１５１）。この入力された音声は音声前処理部１１２で音響分析されその特徴を示す特徴量が取り出される（ステップ１５２）。その後、第１音声認識部１１２Ｂは、第１認識辞書１１３を検索することにより、音声前処理部１１２Ａが取り出した特徴量に基づき音声認識を行う（ステップ１５３：音声認識工程）。

例えば、ユーザにより「メールアドレス」と発声された場合には、第１音声認識部１１２Ｂは、第１認識辞書１１３を検索し、特徴量から「メール」及び「アドレス」を第１認識辞書１１３から読み出し、「メールアドレス」を結果判定部１１５に出力する。第１音声認識部１１２Ｂは、該当する語彙を読み出すことができなかった場合には、誤った語彙を結果判定部１１５に出力する。図３に第１認識辞書１１３に格納されている語彙の例を示す。

次に、判定結果部１１５は、入力された語彙について尤度を算出し、この語彙を受理するか棄却するか否かを判定する（ステップ１５４：認識結果判定工程）。判定結果部１１５は、入力された語彙の尤度が高く算出され、語彙を受理するもの判定した場合には（ステップ１５４；受理）、第１音声認識部１１４から入力された認識結果としての語彙を結果出力部１１７に出力し（ステップ１５５）、前述したステップ１５２に処理を移行する。一方、判定結果部１１５は、入力された語彙の尤度が低く算出され、語彙を棄却するもの判定した場合には（ステップ１５４；棄却）、音声前処理部１１２Ａから音声特徴量を取得し、この音声特徴量を通信部１１６に出力する。通信部１１６は、入力された音声特徴量を通信網１３０を介して他の音声認識手段であるサーバ装置１２０の通信部１２１に送信する（ステップ１５６）。

サーバ装置（他の音声認識手段）１２０の通信部１２１は、クライアント端末装置１１０から音声特徴量を受信すると（ステップ１５７）、この音声特徴量を第２音声認識部１２３に出力する。次に、第２音声認識部１２３は、入力された音声特徴量に基づき、ユーザが発声した音声に対応する単語を第２認識辞書１２２から読み出し、音声認識する（ステップ１５８）。その後、第２音声認識部１２３は、音声認識して得た認識結果を通信部１２１に出力する。すると、通信部１２１は、通信網１３０を介してクライアント端末装置１１０の通信部１１６に認識結果を送信する（ステップ１５９）。

クライアント端末装置１１０の通信部１１６は、他の音声認識手段であるサーバ装置１２０から認識結果を受信すると（ステップ１６０：二次認識結果取得工程）、結果出力部１１７に出力し、結果出力部１１７は、この音声認識結果をユーザが認識可能な状態で出力する（ステップ１６１：認識結果出力工程）。その後、確定結果入力部１１８は、出力された認識結果を確定する要求をユーザから入力されると、その要求を辞書構成制御部１１９に出力する（ステップ１６２：確定結果入力工程）。辞書構成制御部１１９は、受けた要求に従って第１認識辞書１１３に新たに辞書データを登録するとともに、クライアント端末装置１１０の処理能力に応じた語彙数以上を超えた場合には、古いものから削除して第１認識辞書を更新し（ステップ１６３：辞書更新制御工程）、処理を終了する。

この第１実施形態によれば、クライアント端末装置１１０を構成する第１認識辞書１１３にない単語をユーザが発声した場合でも、サーバ装置１２０の音声処理した語彙を得ることができるので、クライアント端末装置１１０の処理能力が小さい場合でもユーザの目的に合った語彙を提供できる。

又、この第１実施形態によれば、クライアント端末装置１１０で認識できなかった場合には、より大語彙の第２認識辞書１２２を持つサーバ側（他の音声認識手段）で認識できる可能性が高いので、クライアント端末装置１１０の第１認識辞書１１３にない単語をユーザが発声した場合でも認識可能になる。

更に、この第１実施形態によれば、過去にサーバ装置１２０で処理された認識結果の単語あるいは単語列を自動的にクライアント端末装置１１０の第１認識辞書１１３に追加できるので、第１認識辞書１１３をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができる。

＜第２の実施形態＞
次に、図４に、本発明にかかる第２実施形態の全体的な構成を図４に示す。この図４に示す第２の実施形態は、前述した第１実施形態における音声認識システムと同様に、クライアント端末装置２００と、このクライアント端末装置２００に通信網１３０を介して通信接続された他の音声認識手段であるサーバ装置１２０とから構築されている。ここで、前述した第１に実施形態と同一に機能する同一の構成部材については同一の符号を用いることとする。

この第２実施形態におけるクライアント端末装置２００では、前述した第１実施形態における音声認識システムで装備した結果判定部（認識結果判定手段）に代えて、外部の他の判定システムに前述した一次認識結果を提示する結果提示部（認識結果提示手段）２０５と、前述した他の判定システムにより成される前述した一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを判定情報として取り込む判定結果入力部（判定結果入力手段）２０６とを装備し、これによって、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存することとした。この場合、外部判定システムについては、ユーザに依存するようにしてもよい。その他の構成は、図４に示すように、前述した第１実施形態における音声認識システム（図１参照）と同様となっている。

ここで、クライアント端末装置２００では、予め音声認識プログラムをメモリ（図示せず）に記憶しておき、図示しないＣＰＵがメモリに記憶されている音声認識プログラムを実行することにより、音声認識手段１１２（音声前処理部１１２Ａ、第１音声認識部１１２Ｂ）、結果提示部２０５、結果判定入力部２０６、通信部１１６、結果判定部１１５、結果出力部１１７、確定結果入力部１１８、及び辞書構成制御部１１９を機能させるように構成してもよい。

前述した結果提示部（認識結果提示手段）２０５は、前述した第１音声認識部１１２Ｂから出力される一次認識結果をユーザ（外部の判定システム）に認識可能な状態にして提示する。結果判定入力部（結果判定入力手段）２０６は、先に提示された一次認識結果としての語彙に対する結果の判定をユーザ（外部の判定システム）から入力される先に提示した一次認識結果に対する「受理するか棄却するか」の判定結果を取り込む。

ここで、前述した辞書構成制御部１１９は、第１認識辞書１１３を更新制御するためのものであって、例えば図５に示すように、単語、その読み、数値が最も大きいものほど最近使用したものであることを示す使用順序、及び使用頻度が記述された単語履歴データからなる単語履歴リスト２１２を有している。この辞書構成制御部１１９は、第１認証辞書１１３に新たに単語を登録するに際し、第１認識辞書１１３に登録されている単語が一杯で、第１認識辞書１１３を削除する場合には、単語履歴リスト１１３ａの使用順序を示す数値が最も小さいものを（図５中では「番号」のもの）を削除してもよいし、また、使用頻度が最も少ないもの（図５中では「変更」のもの）を削除してもよい）。

辞書構成制御部１１９が第１認証辞書１１３に単語を登録した場合には、単語履歴リスト１１３ａには、登録した単語の単語履歴データ中の使用順序が最も大きい数値が記述され、または、使用頻度が「００００１」と記述される。ここで、辞書構成制御部１１９は、第１認識辞書１１３から削除した単語を単語履歴リスト１１３ａからかならずしも削除する必要はない。従って、単語履歴リスト１１３ａに登録されている単語の数は、第１認識辞書１１３に登録されている語彙数と同じかそれより多くなる。

次に、上記第２実施形態の動作を図６に基づいて説明する。
この第２の実施形態では、ユーザが音声を発声すると、クライアント端末装置２００の音声入力部１１１は、その音声を入力し音声前処理部１１２Ａに出力する（ステップ２５１）、音声前処理部１１２Ａは、入力された音声を音響分析してその特徴を示す音声特徴量を取り出す（ステップ２５２）。その後、第１音声認識部１１２Ｂは、第１認識辞書１１３を検索することにより、音声前処理部１１２Ａが取り出した音声特徴量に基づき音声認識を行う（ステップ２５３）。

例えば、ユーザにより「メールアドレス」と発声された場合には、第１音声認識部１１２Ｂは、第１認識辞書１１３を検索し、音声特徴量から、「メール」及び「アドレス」を第１認識辞書１１３から読み出し、「メールアドレス」を結果提示部２０５に出力する。第１音声認識部１１２Ｂは、該当する語彙を読み出すことができなかった場合には、誤った語彙を結果提示部２０５に出力する。

次に、結果提示部２０５は、入力された語彙を外部判定システム（例えばユーザ）に提示する（ステップ２５４：認識結果提示工程）。その後、結果判定入力部２０６は、先に提示し認識結果としての語彙に対する結果判定を外部判定システムから受け（判定結果入力工程）、この結果判定を結果判定部１１５に出力する。すると、結果判定部１１５は、入力された結果判定に従って先に提示した認識結果を受理するか棄却するかを判定する（ステップ２５５）。結果判定部１１５は、認識結果を受理するもの判定した場合には（ステップ２５６；受理）、第１音声認識部１１２Ｂから入力された語彙としての認識結果を結果出力部１１５に出力し、ステップ２５３に処理を移行する。

一方、結果判定部１１５は、認識結果を棄却するもの判定した場合には（ステップ２５５；棄却）、音声前処理部１１２Ａに対して先に取得した音声特徴量を通信部１１６を介して他の音声認識手段であるサーバ装置１２０に向けて出力させる。
通信部１１６は、音声前処理部１１２Ａから入力された音声特徴量を通信網１３０を介してサーバ装置１２０の通信部１２１に送信する（ステップ２５７）。

サーバ装置１２０の通信部１２１は、クライアント端末装置２００から音声特徴量を受信すると（ステップ２５８）、この音声特徴量を第２音声認識部１２３に出力する。次に、第２音声認識部１２３は、入力された音声特徴量に基づき、ユーザが発声した音声に対応する単語を第２認識辞書１２２から読み出し、音声認識する（ステップ２５９）。その後、第２音声認識部１２３は、音声認識して得た認識結果としての語彙を通信部１２１に出力する。すると、通信部１２１は、通信網１３０を介してクライアント端末装置２００の通信部１１６に送信する（ステップ２６０）。

クライアント端末装置２００の通信部１１６は、サーバ装置１２０から認識結果を受信すると（ステップ２６１）、結果出力部１１７に出力し、結果出力部１１７は、この認識結果をユーザが認識可能な状態にして出力する（ステップ２６２）。その後、確定結果入力部１１８は、出力された認識結果を確定する要求をユーザから入力されると、その要求を辞書構成制御部１１９に出力する（ステップ２６３）。辞書構成制御部１１９は、単語履歴リスト１１３ａを参照して、受けた要求に従って必要が有る場合には、第１認識辞書１１３に新たに辞書データを登録するとともに、クライアント端末装置２００の処理能力に応じた語彙数以上を超えた場合には、古いものから削除して第１認識辞書を更新し（ステップ２６４）、処理を終了する。

この第２の実施形態によれば、前述した第１の実施形態の音声認識システムと同様な効果を有するとともに、更に、クライアント端末装置２００の第１認識辞書１１３を構成するための情報として、辞書構成制御部１１９の単語履歴リスト１１３ａに記述されている過去のユーザの使用履歴を用いるので、ユーザの嗜好に合わせた情報を取得することが可能となる。

第１及び第２実施形態の音声認識システムでは、クライアントからサーバへ送信する音声データとして音声前処理部１１２Ａにおいて出力した音声特徴量が用いられているが、これ以外として、音声波形データをそのまま送信しても良い。
又、前述した第１実施形態の音声認識システムは、辞書構成制御部１１９および第１認識辞書１１３の代わりに、第２の実施形態の認識音声システムに使用されている辞書構成制御部１１９および第１認識辞書１１３を使用してもよい。
更に、上述した第２実施形態の音声認識システムにおいて、操作履歴として使用順序あるいは使用頻度の場合を説明したが、操作履歴はこれら２つに限らない。またこれらを単独で用いても良いし、組み合わせで用いてもよい。また、第１認識辞書１１３の語彙数の上限は処理能力に応じて設定すれば良く、環境によって負荷が変わる場合には上限を動的に変更しても良い。

＜第３実施形態＞
本発明に係る第３実施形態の音声認識システムでは、前述した第１又は第２の実施形態における音声認識システムを構成する辞書構成制御部１１９に、図７に示すような単語履歴リスト２１３を併設し、これに基づいて前述した辞書構成制御部１１９が第１認識辞書２０３の語彙を制御するという構成とした。この場合、本第３実施形態では、クライアント端末装置２００の通信部１１６から単語履歴リスト２１３の情報をサーバ装置１２０に送信することにより、サーバ装置１２０が単語履歴リスト２１３の情報を受け取ることができるようになっている。従って、ユーザがその場でいなくても、またユーザの使用状況を別途モニタリングすることなく、ユーザがどのような入力履歴を持っていたかがわかる。

ここで、上述した図７に示した例は、携帯端末を用いた価格検索サービスを想定したもので、例えばテレビの購入に興味があるらしいことが容易に推測でき、例えばサーバを管理している企業側で新製品の情報を送付するなど、企業の販売促進活動に活用することが可能となる。また、このような情報を複数のユーザから集めることで顧客管理を行うことも可能になる。従来の方法では、顧客情報を得るために音声認識した結果を解析する必要があったが、本方式では単語履歴リスト１１３ａを利用することで音声認識結果を解析する必要がなくなる。

この第３実施形態における音声認識システムでは、クライアント端末装置２００の通信部から単語履歴リスト２１３を送信するものとしたが、ユーザの指定により送信しない設定とすることも可能である。また、音声認識時にサーバ装置１２０との通信を行うたびに送信するという設定にすることも可能である。

本発明にかかる音声認識システムによれば、携帯電話や携帯情報端末などの音声入力インタフェースといった用途に適用できる。

本発明に係る第１実施形態を示す全体的な構成図である。図１における第１実施形態の動作を示すフローチャートである。図１中に開示した第１認証辞書の構成例を示す説明図である。本発明に係る第２実施形態を示す全体的な構成図である。図４中に開示した単語履歴リスト及び第１認証辞書を示す説明図図である。図４における第２実施形態の動作を示すフローチャートである。本発明に係る第３実施形態における音声認識システムの辞書構成制御部が有する単語履歴リストを示す説明図である。従来例を示す説明図である。

符号の説明

１１０２００クライアント端末装置
１１１音声入力部
１１２音声認識手段
１１２Ａ音声前処理部
１１２Ｂ第１音声認識部
１１３認識辞書としての第１認識辞書
１１３ａ単語履歴リスト
１１５結果判定部（認識結果判定手段）
１１６通信部（送受信手段）
１１７結果出力部（認識結果出力手段）
１１８確定結果入力部（確定結果入力手段）
１１９辞書構成制御部（辞書構成制御手段）
１２０サーバ装置（他の音声認識手段）
１３０通信網
２０５認識結果提示部（認識結果提示手段）
２０６認識結果判定入力部（結果判定入力手段）

Claims

ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて一次認識する音声認識手段と、この音声認識手段による音声認識の一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定手段と、この認識結果判定手段で前記一次認識結果が棄却された場合に作動し前記音声認識手段に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する送受信手段と、前記認識結果判定手段から出力される一次認識結果又は前記送受信手段から得られる二次認識結果を外部へ出力する認識結果出力手段とを有し、
前記認識結果出力手段から外部へ出力された前記一次又は二次認識結果に対する確定情報を入力する確定結果入力手段と、この確定された認識結果に基づいて前記認識辞書を更新する辞書構成制御手段とを備えたことを特徴とする音声認識システム。
ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて一次認識する音声認識手段と、この音声認識手段による音声情報の一次認識結果を予め外部に設定した他の判定システムに提示する認識結果提示手段と、前記他の判定システムにより成された前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力手段と、前記判定結果が前記一次認識結果の棄却とされた場合に作動し前記音声認識手段に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する送受信手段と、前記認識結果判定手段から出力される一次認識結果又は前記送受信手段から得られる二次認識結果を外部へ出力する認識結果出力手段とを有し、
前記認識結果出力手段から外部へ出力された前記一次又は二次認識結果に対する確定情報を入力する確定結果入力手段と、この確定された認識結果に基づいて前記認識辞書を更新する辞書構成制御手段とを備えたことを特徴とする音声認識システム。
前記請求項１又は２に記載の音声認識システムにおいて、
前記音声認識手段が、前記入力された音声を分析してその特徴量を抽出する音声前処理部と、この抽出された音声特徴量に基づいて前記音声の一次認識結果を出力する１次音声認識部とにより構成されていることを特徴とした音声認識システム。
前記請求項１乃至３のいずれか一つに記載の音声認識システムにおいて、
前記辞書構成制御手段が、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する語彙削除機能を備えていることを特徴とした音声認識システム。
前記請求項１乃至４のいずれか一つに記載の音声認識システムにおいて、
前記辞書構成制御手段が、前記認識辞書の更新に際しては当該更新する情報を前記他の音声認識手段に送信する更新情報送信機能を備えていることを特徴とした音声認識システム。
前記請求項１乃至４のいずれか一つに記載の音声認識システムにおいて、
前記他の音声認識手段を、所定の音声認識機能を備えると共に通信回線で接続されたサーバ装置により構成したことを特徴とする音声認識システム。
ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて当該音声情報を一次認識する音声認識工程と、この一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定工程と、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得工程と、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力工程とを有し、
前記認識結果出力工程で外部へ出力した前記一次又は二次認識結果に対する確定情報を入力する確定結果入力工程と、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御工程とを備えたことを特徴とする音声認識方法。
ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて当該音声情報を一次認識する音声認識工程と、この音声情報の一次認識結果を予め外部に設定した他の判定システムに提示する認識結果提示工程と、この他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力工程と、この判定結果が前記一次認識結果が棄却と判断された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得工程と、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力工程とを有し、
前記認識結果出力工程で外部へ出力した前記一次又は二次認識結果に対する確定情報を入力する確定結果入力工程と、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御工程とを備えたことを特徴とする音声認識方法。
前記請求項７又は８に記載の音声認識方法において、
前記辞書更新制御工程では、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する語彙削除手順を備えていることを特徴とした音声認識方法。
前記請求項７乃至９のいずれか一つに記載の音声認識方法において、
前記認識辞書更新工程では、前記認識辞書の更新に際しては当該更新する情報を前記他の音声認識システムに送信する更新情報送信手順を備えていることを特徴とした音声認識方法。
クライアント側端末に入力されたユーザが発する音声情報を予め装備した認識辞書に基づいて一次認識する音声認識機能、この一次認識結果の信頼性を判定しこれに基づいて当該一次認識結果を受理するか棄却するかを判定する認識結果判定機能、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得機能、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力機能を、
更に、前記認識結果出力機能を実行しで外部へ出力した前記一次又は二次認識結果に対する確定情報が入力された場合にこれを取り込む確定結果入力機能、およびこの確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御機能を、
前記クライアント側端末が備えているにコンピュータに実行させることを特徴とした音声認識用プログラム。
クライアント側端末に入力されたユーザが発する音声情報を予め装備した認識辞書に基づいて一次認識する音声認識機能、この音声情報の一次認識結果を予め外部に設定した他の判定システムに提示する認識結果提示機能、この他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力機能、この判定結果が一次認識結果を棄却すると判断された場合に作動し前記クライアント側端末に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果が入力された場合にこれを取り込む二次認識結果取得機能、および前記一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力機能を、
更に、前記認識結果出力工程で外部へ出力した前記一次又は二次認識結果に対する確定情報が入力された場合にこれを取り込む確定結果入力機能、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御機能を、
前記クライアント側端末が備えているにコンピュータに実行させることを特徴とした音声認識用プログラム。
前記請求項１１又は１２に記載の音声認識用プログラムにおいて、
前記認識辞書更新機能が、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいてその語彙を削除する処理機能を含むことを特徴とした音声認識用プログラム。
前記請求項１１乃至１３のいずれか一つに記載の音声認識用プログラムにおいて、
前記認識辞書更新機能が、前記認識辞書の更新に際し、当該更新する情報を前記他の音声認識手段に送信する送信処理機能を含むことを特徴とした音声認識用プログラム。