JP2012013910A

JP2012013910A - 音声認識端末

Info

Publication number: JP2012013910A
Application number: JP2010149674A
Authority: JP
Inventors: Kunio Yokoi; 邦雄横井; Kazuhisa Suzuki; 一久鈴木; Masayuki Takami; 雅之高見; Tadanori Tanzawa; 直頼丹澤
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2012-01-19
Anticipated expiration: 2030-06-30
Also published as: US20120004908A1; CN102314872B; CN102314872A; US8706492B2; JP5464078B2

Abstract

【課題】ユーザがローカル音声認識とセンタ音声認識を容易に区別できるようにする。
【解決手段】センタ音声認識に伴ってスピーカ１１より出力させる音声とローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ１１より出力させる音声を加工し、この加工した音声を用いて音声認識に伴う音声をスピーカ１１より出力させる（Ｓ１０４〜Ｓ１１０）。
【選択図】図２

Description

本発明は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末に関するものである。

従来、車載ナビゲーション装置のような車載情報端末においては、安全性や利便性向上のために、端末内での音声認識処理（ローカル音声認識処理）を用いたＨＭＩ（ＨｕｍａｎＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ）が多く採用されている。

また、端末内での音声認識機能を有する端末において、通信機器を備え、この通信機器を介してセンタに接続し、このセンタ側での音声認識処理（センタ音声認識処理）により、情報検索等を行うことが可能となったものもある（例えば、特許文献１参照）。

特許第３８６２１６９号公報

ところで、音声認識処理では、大量の演算処理やメモリを必要とするため処理性能によって認識可能な語彙数や認識可能な文章の構造等が異なる。

すなわち、車載ナビゲーション装置のような車載情報端末においては演算処理部の処理性能が比較的低いため、ローカル音声認識処理では特定の操作コマンドの認識、電話番号の認識、住所の認識や比較的簡単な単語の認識等に特化して音声認識を行うようになっている。

これに対し、センタ側で実施されるセンタ音声認識処理では、演算処理部の処理性能が高く、認識可能な語彙数も多く比較的複雑な文章でも認識することが可能となっている。

このように、ローカル音声認識処理とセンタ音声認識処理とでは、音声認識の目的、認識可能な語彙の種類や数、認識可能な文章の複雑さ等が異なる。したがって、ローカル音声認識処理とセンタ音声認識処理の両方を利用することが可能な端末では、ユーザがローカル音声認識とセンタ音声認識を使い分けて発声する必要がある。

しかし、従来の車載情報端末では、音声認識機能を利用して発声する際に、ローカル音声認識機能であるかセンタ音声認識機能であるかを容易に区別することができないため、ユーザがローカル音声認識とセンタ音声認識を使い分けて発声することができない場合がある。

例えば、ナビゲーション装置には、メニュー画面に従ってユーザにより電話検索、住所検索、施設検索等のスイッチが操作されるとローカル音声認識が開始され、メニュー画面に従ってユーザにより情報検索、ニュース等のスイッチが操作されるとセンタ音声認識が開始されるようになったものがある。このような構成の装置では、ユーザがローカル音声認識機能であるかセンタ音声認識機能であるかを意識して発声しないと、意図しない動作が開始されてしまうといった状況が発生してしまう。

例えば、センタ音声認識で「渋谷のおいしいラーメン屋」と発声した場合、「渋谷のおいしいラーメン屋」が認識され、「渋谷のおいしいラーメン屋」の検索結果を表示させることができるが、ローカル音声認識処理で「渋谷のおいしいラーメン屋」と発声しても、「渋谷のおいしいラーメン屋」が正確に音声認識されず、例えば、「近くのおにぎり屋」として誤認識され、ユーザの意図しない「近くのおにぎり屋」の検索結果が表示されてしまう。

また、ローカル音声認識で、地図画面の拡大表示を指示する操作コマンドとして「拡大」と発声すると、「拡大」が操作コマンドとして認識され、地図画面を拡大表示させることができるが、センタ音声認識で、地図画面の拡大表示を指示する操作コマンドとして「拡大」と発声すると、「拡大」が操作コマンドと認識されずに、例えば、センタ音声認識では、「拡大」をキーワードにウェブ検索を開始してしまう。このような動作はユーザにとって想定外の動作であり、ユーザに混乱を与えてしまう。

本発明は上記問題に鑑みたもので、ユーザがローカル音声認識とセンタ音声認識を容易に区別できるようにすることを目的とする。

上記目的を達成するため、請求項１に記載の発明は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末であって、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工する音声加工手段と、音声加工手段により加工された音声を用いて音声認識に伴う音声をスピーカより出力させる音声出力手段と、を備えたことを特徴としている。

このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工し、この加工された音声を用いて音声認識に伴う音声がスピーカより出力されるので、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。

また、請求項２に記載の発明では、音声加工手段は、ローカル音声認識に伴ってスピーカより出力させる音声の質およびセンタ音声認識に伴ってスピーカより出力させる音声の質のいずれか一方を意図的に劣化させることを特徴としている。

このような構成によれば、ローカル音声認識に伴ってスピーカより出力させる音声の質およびセンタ音声認識に伴ってスピーカより出力させる音声の質のいずれか一方が劣化して聞こえる。したがって、ユーザは音声認識に伴ってスピーカより出力させる音声の質によりローカル音声認識とセンタ音声認識を容易に区別することができる。

また、請求項３に記載の発明では、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声のいずれか一方にバックグラウンド音を流すことを特徴としている。

このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声のいずれか一方にバックグラウンド音が流れる。したがって、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音の有無により、ローカル音声認識とセンタ音声認識を容易に区別することができる。

また、請求項４に記載の発明では、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声に、それぞれ異なるバックグラウンド音を流すことを特徴としている。

このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声に、それぞれ異なるバックグラウンド音が流れる。したがって、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音により、ローカル音声認識とセンタ音声認識を容易に区別することができる。

また、請求項５に記載の発明は、複数のスピーカより音声を出力させるようになっており、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声の位置とローカル音声認識に伴ってスピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量を異ならせることを特徴としている。

このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の位置とローカル音声認識に伴ってスピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量が聞こえる。したがって、ユーザは音声認識に伴ってスピーカより出力される音声の位置によりローカル音声認識とセンタ音声認識を容易に区別することができる。

また、請求項６に記載の発明は、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する音声特徴特定手段を備え、音声加工手段は、音声特徴特定手段により特定された特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工することを特徴としている。

このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定し、この特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方が加工されるので、センタ音声認識に伴ってスピーカより出力させる音声の特徴が変化しても、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。

なお、請求項７に記載の発明では、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を記憶する記憶手段を備え、音声特徴特定手段は、記憶手段に記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することを特徴としている。

このように、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を記憶する記憶手段を備え、この記憶手段に記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することができる。

また、請求項８に記載の発明では、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声解析を実施し、当該音声解析の解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することを特徴としている。

このように、センタ音声認識に伴ってスピーカより出力させる音声解析を実施し、当該音声解析の解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することができる。

また、請求項９に記載の発明では、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、音声加工手段は、音声特徴特定手段により特定されたセンタ音声認識に伴ってスピーカより出力させる音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工することを特徴としている。

このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、この音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の性別により、ローカル音声認識とセンタ音声認識を容易に区別することができる。

また、請求項１０に記載の発明は、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声の口調を特定し、音声加工手段は、音声特徴特定手段により特定されたセンタ音声認識に伴ってスピーカより出力させる音声の口調と異なる口調の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工することを特徴としている。

このように、センタ音声認識に伴ってスピーカより出力させる音声の口調を特定し、この音声の口調と異なる口調の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の口調により、ローカル音声認識とセンタ音声認識を容易に区別することができる。

なお、この欄および特許請求の範囲で記載した各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。

本発明の第１実施形態に係る音声認識端末の構成を示す図である。第１実施形態に係る制御部のフローチャートである。

（第１実施形態）
本発明の第１実施形態に係る音声認識端末の構成を図１に示す。本音声認識端末は、ナビゲーション端末１の一機能として実現されている。本ナビゲーション端末１は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ２側の処理により音声認識を行うセンタ音声認識を利用することが可能となっている。

ナビゲーション端末１は、マイク１０、スピーカ１１、表示部１２、操作部１３、通信部１４および制御部１５を備えている。

マイク１０は、ユーザの音声を集音するためのものであり、ユーザの音声に応じた音声信号を制御部１５へ送出する。スピーカ１１は、制御部１５より入力される音声信号に応じた音声を出力する。

表示部１２は、液晶等のディスプレイを有し、当該ディスプレイに制御部１５より入力される映像信号に応じた映像を表示させる。

操作部１３は、表示部１２のディスプレイの前面に重ねて配置されたタッチスイッチ、ディスプレイの周囲に配置されたメカニカルスイッチ等により構成され、ユーザのスイッチ操作に応じた信号を制御部１５へ送出する。

通信部１４は、無線通信網を介して外部機器と通信を行うためのものである。本実施形態では、無線通信網を介してセンタ２に設置されたサーバ２０と通信を行うことが可能となっている。

制御部１５は、ＣＰＵ、メモリ、Ｉ／Ｏ等を備えたコンピュータとして構成されており、ＣＰＵはメモリに記憶されたプログラムに従って各種処理を実施する。

本実施形態における制御部１５は、音声解析処理を実施することが可能となっている。すなわち、通信部１４を介して接続されたセンタ２のサーバ２０にて実施されるセンタ音声認識処理に伴ってスピーカ１１より出力させる音声（トークバック音声およびガイダンス音声）の音声解析処理を実施し、この解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴（例えば、性別、口調）を特定する。なお、周波数解析により性別（男性または女性）を特定し、音声の韻律解析により口調（ロボット口調またはオペレータ口調）等を特定することができる。また、音声解析によりバックグラウンド音の有無を特定することもできる。

制御部１５は、音声合成部（図示せず）を有しており、当該音声合成部にスピーカ１１より出力させる音声の性別、口調（ロボット口調またはオペレータ口調）を指定すると、指定した特徴の音声が音声合成部により生成され、スピーカ１１より出力されるようになっている。

本ナビゲーション装置１では、ユーザ操作に応じてメニュー画面を表示させるようになっている。このメニュー画面には、音声入力された電話番号に該当する施設を検索する電話番号検索、音声入力された住所に該当する施設を検索する住所検索、音声入力された楽曲に該当する楽曲を検索する楽曲検索、音声入力された内容に関する情報を検索する情報検索、音声入力されたニュースを検索するニュース検索等がある。

本実施形態では、ユーザにより電話番号検索、住所検索、楽曲検索が指示された場合には、ローカル音声認識による音声認識サービスを実施し、情報検索およびニュース検索が指示された場合には、センタ２側でのセンタ音声認識を利用したサービスを実施するようになっている。

図２に、制御部１５のフローチャートを示す。メニュー画面に従ってユーザによる音声認識処理の開始を指示する操作が実施されると、制御部１５は図に示す処理を実施する。

まず、センタ音声認識に伴ってスピーカ１１より出力させる音声の音声解析を実施して、当該音声の特徴を特定する（Ｓ１００）。具体的には、周波数解析により性別（男性または女性）を特定し、音声の韻律解析により口調（ロボット口調またはオペレータ口調）を特定する。また、更に、バックグラウンド音の有無についても特定する。なお、ここでは、センタ音声認識に伴ってスピーカ１１より出力させる音声の特徴が、女性、オペレータ口調と解析され、バックグラウンド音が有ると判定されたものとする。

次に、メニュー画面に従って、ユーザにより指示された内容に基づき、ローカル音声認識か否かを判定する（Ｓ１０２）。ここで、例えば、ユーザにより電話番号検索が指示された場合、Ｓ１０２の判定はＹＥＳとなり、次に、センタ音声認識に伴ってスピーカ１１より出力させる音声とローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴を決定する（Ｓ１０４）。具体的には、ローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴として、男性、ロボット口調、バックグラウンド音なしと決定する。

次に、Ｓ１０４にて決定した音声の特徴となるようにガイダンス音声を加工してスピーカ１１より流す（Ｓ１０６）。具体的には、バックグラウンド音なしの状態で、男性およびロボット口調となるように加工して、例えば、「電話番号を発声してください」といったガイダンス音声をスピーカ１１より音声出力させる。

次に、ローカル音声認識を実施する（Ｓ１０８）。ここで、ユーザが、例えば、「０１−２３４５−６７８９」と発声すると、この音声を音声認識する。

次に、Ｓ１０４にて決定した音声の特徴となるようにトークバック音声を加工してスピーカ１１より流す（Ｓ１１０）。具体的には、バックグラウンド音なしの状態で、男性およびロボット口調となるように加工して、「０１−２３４５−６７８９ですね」といったトークバック音声をスピーカ１１より音声出力させる。

次に、音声認識結果に基づく機能を実行する（Ｓ１１２）。具体的には、認識した電話番号について電話番号検索を実行し、検索結果を表示部１２に表示させ、本処理を終了する。

また、メニュー画面に従って、例えば、ユーザにより情報検索が指示された場合、Ｓ１０２の判定はＮＯとなり、次に、センタ音声認識に伴ってスピーカ１１より出力させる音声とローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカ１１より出力させる音声の特徴を決定する（Ｓ１１４）。ここでは、Ｓ１００にて特定した特徴を、そのままセンタ音声認識に伴ってスピーカ１１より出力させる音声の特徴とする。すなわち、女性、オペレータ口調、バックグラウンド音ありと決定する。

次に、Ｓ１１４にて決定した音声の特徴に従ってガイダンス音声をスピーカ１１より流す（Ｓ１１６）。具体的には、バックグラウンド音ありの状態で、女性およびオペレータ口調で、例えば、「検索条件を発声してください」といったガイダンスをスピーカ１１より音声出力させる。

次に、センタ音声認識を実施する（Ｓ１１８）。ここで、ユーザが、例えば、「渋谷のおいしいラーメン屋」と発声すると、この音声を音声認識する。

次に、Ｓ１１４にて決定した音声の特徴に従ってトークバック音声を発声せる（Ｓ１２０）。具体的には、バックグラウンド音ありの状態で、女性およびオペレータ口調で、例えば、「渋谷のおいしいラーメン屋ですね」といったトークバック音声をスピーカ１１より音声出力させる。

次に、音声認識結果に基づく機能を実行する（Ｓ１１２）。具体的には、認識した検索条件について情報検索を実行し、検索結果を表示部１２に表示させ、本処理を終了する。

上記した構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工し、この加工された音声を用いて音声認識に伴う音声がスピーカより出力されるので、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。

また、センタ音声認識に伴ってスピーカより出力させる音声の特徴（性別および口調）を特定し、この特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、センタ音声認識に伴ってスピーカより出力させる音声の特徴が変化しても、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。

また、センタ音声認識に伴ってスピーカより出力させる音声にバックグラウンド音が流れるので、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音の有無により、ローカル音声認識とセンタ音声認識を容易に区別することができる。

また、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、この音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の性別により、ローカル音声認識とセンタ音声認識を容易に区別することができる。

なお、本実施形態では、センタ音声認識に伴ってスピーカ１１より出力させる音声とローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ１１より出力させる音声を加工したが、反対に、センタ音声認識に伴ってスピーカ１１より出力させる音声を加工するようにしてもよい。この場合、例えば、センタ音声認識に伴ってスピーカ１１より出力させる音声が女性の場合、男性の音声に聞こえるように、より低音となるように音声を加工し、反対に、センタ音声認識に伴ってスピーカ１１より出力させる音声が男性の場合、女性の音声に聞こえるように、より高音となるように音声を加工すればよい。

また、本実施形態では、センタ音声認識に伴ってスピーカ１１より出力させる音声とローカル音声認識に伴ってスピーカ１１より出力させる音声の特徴が区別可能となるように、音声の性別、口調およびバックグラウンド音の有無を異ならせたが、これらの少なくとも１つを異ならせるようにしてもよい。また、別々のバックグラウンド音を流すようにしてもよい。

（第２実施形態）
上記第１実施形態では、センタ２のサーバ２０にて実施されるセンタ音声認識処理に伴ってスピーカ１１より出力させる音声（トークバック音声およびガイダンス音声）の音声解析を実施して、当該音声の特徴（例えば、性別、口調）を特定したが、本実施形態では、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を制御部１５のメモリに記憶させておき、このメモリに記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する。

すなわち、ナビゲーション装置１の基本設定画面に従って、センタ音声認識に伴ってスピーカより出力させる音声の特徴（例えば、性別、口調）およびバックグラウンド音の有無をユーザが指定するようになっており、ユーザが、基本設定画面に従って、過去にセンタ音声認識を実施した際の音声の特徴を指定すると、指定された特徴が制御部１５のメモリに記憶されるようになっている。以降、制御部１５のメモリに記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することが可能となる。

（その他の実施形態）
上記実施形態では、本音声認識端末をナビゲーション端末１の一機能として実現したが、このような構成に限定されるものではなく、例えば、ナビゲーション機能を省略した音声認識専用端末として構成することもできる。

また、上記第１、第２実施形態では、音声の性別、口調、バックグラウンド音の有無が異なるように、ローカル音声認識に伴ってスピーカ１１より出力させる音声とセンタ音声認識に伴ってスピーカ１１より出力させる音声の少なくとも一方を加工する構成を示したが、例えば、音声に雑音を重畳させたり、音声歪みを発声させたり、音量を低下させる等、音声の質を意図的に劣化させるように加工しても良い。

また、複数のスピーカ１１を備え、センタ音声認識に伴ってスピーカ１１より出力させる音声の位置とローカル音声認識に伴ってスピーカ１１より出力させる音声の位置が異なるように、各スピーカ１１より出力させる音声の音量を異ならせるようにしてもよい。

また、ローカル音声認識であるかセンタ音声認識であるかを示すメッセージを表示部１２に表示させるようにしてもよい。更に、ローカル音声認識であるかセンタ音声認識であるかを示すメッセージをスピーカより音声出力させてもよい。

また、男性の音声を出力させる場合には男性のキャラクターを表示させ、女性の音声を出力させる場合には女性のキャラクターを表示させてもよい。

また、スピーカよりバックグラウンド音を流す場合には、音声認識の認識率が低下することも考えられるため、例えば、入力信号に基づいて自己適応する適応フィルタを用いてバックグラウンド音による認識率の低下を防ぐようにしてもよい。

また、例えば、センタ音声認識の場合にはオートアンテナを伸ばし、ローカル音声認識の場合にはオートアンテナを格納する等、ローカル音声認識であるかセンタ音声認識であるかを車載装備の状態により認識できるようにしてもよい。

なお、上記実施形態における構成と特許請求の範囲の構成との対応関係について説明すると、Ｓ１０４〜Ｓ１１０、Ｓ１１４〜Ｓ１２０が音声加工手段および音声出力手段に相当し、Ｓ１００が音声特徴特定手段に相当し、制御部１５のメモリが記憶手段に相当する。

１ナビゲーション端末
２センタ
１０マイク
１１スピーカ
１２表示部
１３操作部
１４通信部
１５制御部
２０サーバ

Claims

端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末であって、
前記センタ音声認識に伴ってスピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の特徴が区別可能となるように前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の少なくとも一方を加工する音声加工手段と、
前記音声加工手段により加工された前記音声を用いて前記音声認識に伴う音声を前記スピーカより出力させる音声出力手段と、を備えたことを特徴とする音声認識端末。
前記音声加工手段は、前記ローカル音声認識に伴って前記スピーカより出力させる音声の質および前記センタ音声認識に伴って前記スピーカより出力させる音声の質のいずれか一方を意図的に劣化させることを特徴とする請求項１に記載の音声認識端末。
前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声のいずれか一方にバックグラウンド音を流すことを特徴とする請求項１または２に記載の音声認識端末。
前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声に、それぞれ異なるバックグラウンド音を流すことを特徴とする請求項１または２に記載の音声認識端末。
複数の前記スピーカより前記音声を出力させるようになっており、
前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の位置と前記ローカル音声認識に伴って前記スピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量を異ならせることを特徴とする請求項１ないし４のいずれかつに記載の音声認識端末。
前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定する音声特徴特定手段を備え、
前記音声加工手段は、前記音声特徴特定手段により特定された前記特徴に基づいて前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の少なくとも一方を加工することを特徴とする請求項１に記載の音声認識端末。
前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定するための情報を記憶する記憶手段を備え、
前記音声特徴特定手段は、前記記憶手段に記憶された前記情報に基づいて前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定することを特徴とする請求項６に記載の音声認識端末。
前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声解析を実施し、当該音声解析の解析結果に基づいて前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定することを特徴とする請求項６に記載の音声認識端末。
前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の性別を特定し、
前記音声加工手段は、前記音声特徴特定手段により特定された前記センタ音声認識に伴って前記スピーカより出力させる音声の性別と異なる性別の音声となるように前記ローカル音声認識に伴って前記スピーカより出力させる音声を加工することを特徴とする請求項６ないし８のいずれか１つに記載の音声認識端末。
前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の口調を特定し、
前記音声加工手段は、前記音声特徴特定手段により特定された前記センタ音声認識に伴って前記スピーカより出力させる音声の口調と異なる口調の音声となるように前記ローカル音声認識に伴って前記スピーカより出力させる音声を加工することを特徴とする請求項８に記載の音声認識端末。