JP2010258989A

JP2010258989A - 携帯電話機および音声情報提供システム

Info

Publication number: JP2010258989A
Application number: JP2009109701A
Authority: JP
Inventors: Hisashi Matsuyama; 久松山
Original assignee: Seiko Precision Inc
Current assignee: Seiko Precision Inc
Priority date: 2009-04-28
Filing date: 2009-04-28
Publication date: 2010-11-11

Abstract

【課題】通話中の所定の音声を認識してそれに関する情報（例えば、時刻等）を通話中の音声として提供する。
【解決手段】マイクロホン２９から入力された音声信号は、Ａ／Ｄ２８でデジタル信号に変換された後、加算器２３を介して音声認識部２０に与えられ、予め登録されている語句の検出が行われる。例えば、「今何時？」等の語句が検出されると、制御部１２によって時計部１６の時刻データが読み出され、音声合成部１８に与えられる。時刻データは、音声合成部１８で時刻を表す合成音声データに変換され、加算器２１に与えられる。加算器２１において、合成音声データは復号器１７から出力される通話相手の音声データに重畳され、Ｄ／Ａ２６でアナログの音声信号に変換されてスピーカ２７から出力される。
【選択図】図１

Description

本発明は、通話中の音声を認識してそれに関する情報を音声で提供する携帯電話機および音声情報提供システムに関する。

下記特許文献１には、サービスセンターに対して付加サービスの登録や設定をする場合の操作の簡略化を目的として、サービスセンターから受信する音声ガイダンスを音声認識処理を用いて判断し、音声ガイダンスに対して自動的に応答し、目的とするサービスセンターへの情報設定と登録を可能にする機能を備えた携帯電話機が記載されている。

特許文献２には、単音節単位で認識処理可能な不特定話者半音節音声認識器を備え、登録時には、氏名と電話番号を音節単位で離散発生した音声信号によって電話番号登録を行い、ダイアル時には、音節単位で離散発生した音声信号によって宛先の氏名を認識してダイアル操作を行う音声認識ダイアル装置が記載されている。

特許文献３には、現在時刻等を表示する表示部を持たず、マイクロホンから入力される使用者の音声を認識してそれに応じたメッセージを合成してスピーカから出力し、これに使用者が音声で応答していき、あたかも使用者が時計と会話しているような状況で、現在時刻の告知やタイマーの設定等を行う音声時計が記載されている。

特許文献４には、携帯電話機と通話相手の電話機との間の通話音声を中継する電話中継機に、音声データを重畳する機能を付加し、携帯電話機から指定された音声データベースの音声データを重畳して、通話相手の電話機に伝送する携帯電話システムが記載されている。

特許第３０１２６１９号公報特開平１１−６５５９０号公報特開２０００−９８６４号公報特開２００６−１７３８１５号公報

しかしながら、特許文献１〜４では、通話中に各種の情報（例えば、時刻）を音声で得ることができないという課題があった。
即ち、特許文献１の携帯電話機は、サービスセンターに対して、予め定められた付加サービスの登録や設定を行うものであり、特許文献２の音声認識ダイアル装置は、音声認識を利用して電話番号の登録や音声ダイヤルを行うものである。また、特許文献３の音声時計は、単に音声認識を利用して、時計の操作や表示を音声で行うようにしたものである。更に、特許文献４の携帯電話システムは、携帯電話機から音声データベースの音声データを指定すると記載されているものの、具体的にどのような手段を用いて指定するのかについては明示されていない。

本発明は上記課題に鑑みてなされたものであり、通話中の所定の音声を認識してそれに関する情報を通話中の音声として出力することができる携帯電話機および情報提供システムを提供することを目的とする。

上記目的を達成するために、本発明の第１の観点に係る携帯電話機は、通話中のユーザの音声データに含まれる特定の語句を検出する音声認識手段と、前記音声認識手段で検出された語句に応じて情報を出力する情報出力手段と、前記情報出力手段から出力される情報を合成音声データに変換して出力する音声合成手段と、前記合成音声データを前記ユーザに音声信号として出力する出力手段と、を備えることを特徴とする。

なお、前記音声認識手段は、前記ユーザの音声データに加えて、通話相手の音声データに含まれる前記特定の語句を検出し、前記出力手段は、前記合成音声データを前記ユーザに音声信号として出力すると共に、該合成音声データを前記ユーザの音声データに重畳して前記通話相手に送信するように、構成することができる。

また、前記出力手段は、前記合成音声データを前記通話相手の音声データに重畳し、前記音声信号として出力するように構成しても良い。

更に、前記出力手段は、前記合成音声データと前記通話相手の音声データを、それぞれ第１および第２の音響出力手段から音声信号として出力するように構成することもできる。その場合、第１および第２の音響出力手段の内の１つは、骨伝導スピーカとすることができる。

ここで、前記特定の語句は、現在の時刻または日時を問い合わせるための語句であり、前記情報出力手段は、該特定の語句に応じて時刻または日時の情報を出力するように構成することができる。また、前記音声認識手段は、前記音声データに含まれる検出対象の特定の語句が複数の単語を所定の順番に並べた構成となっている場合に、該語句を複数の単語に分解して順次検出するように構成することができる。

本発明の第２の観点に係る音声情報提供システムは、電話交換網に接続され、通話中の音声データに含まれる特定の語句に応じて対応する情報を該音声データに重畳して出力する音声情報提供システムであって、前記通話中の音声データに含まれる特定の語句を検出する音声認識手段と、前記音声認識手段で検出された語句に応じて情報を出力する情報出力手段と、前記情報出力手段から出力される情報を合成音声データに変換して出力する音声合成手段と、前記合成音声データを前記音声データに重畳して出力する出力手段と、を備えることを特徴とする。

この音声情報提供システムにおいても、前記特定の語句は、現在の時刻または日時を問い合わせるための語句であり、前記情報出力手段は、該特定の語句に応じて時刻または日時の情報を出力するように構成することができる。また、前記音声認識手段は、前記音声データに含まれる検出対象の特定の語句が複数の単語を所定の順番に並べた構成となっている場合に、該語句を複数の単語に分解して順次検出するように構成することができる。

本発明の携帯電話機や音声情報提供システムは、通話中の音声データに含まれる特定の語句を検出する音声認識手段と、音声認識手段で検出された語句に応じて情報を出力する情報出力手段と、情報出力手段から出力される情報を合成音声データに変換して出力する音声合成手段を備えている。これにより、通話中の所定の音声を認識してそれに関する情報を通話中の音声として出力することができる。

本発明の第１の実施形態を示す携帯電話機の構成図である。図１における第１の音声サービス処理のフローチャートである。図１における第２の音声サービス処理のフローチャートである。本発明の第２の実施形態を示す音声情報提供システムの構成図である。図４における第１の音声サービス処理のフローチャートである。図４における第２の音声サービス処理のフローチャートである。図４の動作シーケンス（その１）を示す説明図である。図４の動作シーケンス（その２）を示す説明図である。本発明のその他の実施形態を示す携帯電話機の構成図である。コンシェルジェ・サービスの一例を示す図である。

以下、本発明の実施の形態について図面を参照して詳細に説明する。
（第１の実施形態）
図１に示すように、本発明の第１の実施形態の携帯電話機は、大きく分けて無線ブロックと、制御ブロックと、通話・音声ブロックを備えている。この内、無線ブロックは、一般的な携帯電話機と同様に、無線を介して電話交換網の交換装置に接続するための携帯電話無線部１１で構成されている。

制御ブロックは、無線ブロックや通話・音声ブロックの動作を制御するもので、プロセッサで構成される制御部１２、プロセッサ用のプログラムや各種のデータを記憶するためのメモリ１３、押しボタンスイッチ等の操作部１４、液晶表示器等で構成される表示部１５、現在時刻等の時刻データを提供するための時計部１６等を有している。制御部１２は、ユーザの発着呼操作に応じて携帯電話無線部１１を制御する一般的な通話制御機能に加えて、後述するように、音声認識結果に応じて時計部１６の時刻情報等を出力する機能を有している。

通話・音声ブロックは、ユーザとの間で通話等の音声の授受を行うもので、復号器１７、音声合成部１８、符号器１９、音声認識部２０、加算器２１，２２，２３、スイッチ（ＳＷ）２４，２５、デジタル・アナログ変換器（以下、「Ｄ／Ａ」という）２６、スピーカ２７、アナログ・デジタル変換器（以下、「Ａ／Ｄ」という）２８、マイクロホン２９等を有している。

復号器１７は、携帯電話無線部１１で受信した相手側からの符号化された音声データを、アナログ信号に変換しやすい符号形式に復号するものである。音声合成部１８は、例えば制御部１２で読み出されて与えられる時計部１６の時刻データを、音声で出力するための合成音声データに変換するものである。復号器１７と音声合成部１８から出力される音声データは、加算器２１に与えられて加え合わされ、その加算結果がＤ／Ａ２６に与えられるようになっている。Ｄ／Ａ２６は、加算器２１の加算結果であるデジタル信号を、アナログ信号に変換するものである。Ｄ／Ａ２６から出力されるアナログ信号は、スピーカ２７に与えられ、音響信号としてユーザに出力されるようになっている。

一方、マイクロホン２９は、ユーザの発した音声を電気信号に変換するものである。マイクロホン２９から出力されるアナログの電気信号は、Ａ／Ｄ２８によってデジタル信号に変換されて、加算器２２，２３の第１の入力端子に与えられるようになっている。

加算器２２の第２の入力端子には、音声合成部１８の出力信号がスイッチ２４を介して与えられ、この加算器２２の加算結果が、符号器１９に与えられている。符号器１９は、デジタル化された音声信号を、無線伝送に適した符号形式のデジタル信号に変換するもので、この符号器１９の出力信号が携帯電話無線部１１に与えられるようになっている。

加算器２３の第２の入力端子には、復号器１７の出力信号がスイッチ２５を介して与えられ、この加算器２３の加算結果が、音声認識部２０に与えられている。音声認識部２０は、デジタル化された音声信号の中に、予め決められた特定の語句の存在を検出するものである。音声認識部２０は、特定の語句の存在を検出したときに、制御部１２に対して、検出結果の信号を出力するようになっている。

スイッチ２４，２５は、制御部１２から与えられる制御信号に従って、それぞれ加算器２２，２３の第２の入力端子に与えるデジタル信号をオン・オフ制御するものである。

次に、図２を参照しつつ、図１の携帯電話機における第１の音声サービス処理を説明する。
制御部１２は、携帯電話による通話の開始を監視し（ステップＳ１）、通話が開始されない間（ステップＳ１；いいえ）、監視を継続する。通話が開始されると（ステップＳ１；はい）、ステップＳ２の送受話認識設定処理に移る。

送受話認識設定処理では、認識対象として特定の語句を検出する音声を、送話音声に限定するか、あるいは送話音声に加えて相手からの受話音声も含めるかを設定する。送受話を認識対象とする場合（ステップＳ２；はい）、制御部１２は、制御信号によってスイッチ２４，２５をオンに設定する。これにより、受話データの出力がオンとなり（ステップＳ３）、マイクロホン２９から入力され、Ａ／Ｄ２８でデジタル信号に変換された送話の音声信号と、復号器１７から出力されてスイッチ２５を通る受話の音声信号が加算器２３で加算され、音声認識部２０に与えられるようになる。

一方、送話のみを認識対象とする場合（ステップＳ２；いいえ）、制御部１２は、制御信号によってスイッチ２４，２５をオフに設定する。これにより、復号器１７から出力される受話の音声信号はスイッチ２５で遮断される（ステップＳ４）。そして、マイクロホン２９から入力され、Ａ／Ｄ２８でデジタル信号に変換された送話の音声信号のみが、加算器２３を介して音声認識部２０に与えられるようになる。なお、スイッチ２４，２５は同時にオン・オフされる。送受話認識設定処理によってスイッチ２４，２５の設定が行われると、音声認識部２０による音声認識処理が開始される（ステップＳ５）。

音声認識処理が開始されると、音声認識部２０は、加算器２３から与えられる音声データを、予め登録されている特定の単語や句の音声パターン（例えば、現在時刻を問い合わせるための、「今何時」、「今の時刻は」等の音声パターン）と比較し、特定の語句の検出を行う。音声認識部２０による音声認識処理は、特定の音声パターンが検出されなくても（ステップＳ６；いいえ）、通話中（ステップＳ１０；いいえ）は常に繰り返して実行される。

加算器２３から与えられる音声データ中に所定の語句が検出されると（ステップＳ６；はい）、音声認識部２０は、制御部１２に対して検出結果の信号を出力する。これにより、制御部１２は、時計部１６から時刻データを読み出して、音声合成部１８に与える（ステップＳ７）。

音声合成部１８は、制御部１２から与えられた時刻データを、音声合成して合成音声データを出力する（ステップＳ８）。
音声合成部１８で合成されて出力された合成音声データは、加算器２１に与えられ、復号器１７から出力される受話データに加算される（ステップＳ９）。そして、加算器２１の加算結果は、Ｄ／Ａ２６でアナログ信号に変換され、スピーカ２７から音響信号として出力される。

更に、スイッチ２４がオンの場合（即ち、相手からの受話音声も音声認識の対象としている場合）、音声合成部１８から出力された合成音声データは、スイッチ２４を介して加算器２２に与えられる。そして、マイクロホン２９から入力され、Ａ／Ｄ２８でデジタル信号に変換された送話の音声信号と、音声合成部１８から出力された合成音声データが、加算器２３で加算されて符号器１９に与えられる（ステップＳ９）。なお、スイッチ２４がオフの場合（即ち、相手からの受話音声を音声認識の対象としていない場合）、合成音声データは、加算器２２に与えられない。

符号器１９で符号化された送話データは、携帯電話無線部１１を介して、相手側の電話機に伝えられる。
音声認識部２０による音声認識処理は、特定の音声パターンが検出されなくても（ステップＳ６；いいえ）通話が行われている間（ステップＳ１０；いいえ）、継続して繰り返し行われる。そして、通話が終了すると（ステップＳ１０；はい）、音声認識処理も終了する（ステップＳ１１）。

図２で説明した第１の音声サービス処理は、認識対象の語句を一括してパターン・マッチング等によって検出しているため、認識対象の語句の範囲を拡大すると比較するデータ量が膨大になり、処理時間が長くなるおそれがあった。以下に説明する第２の音声サービス処理では、認識対象の語句を２つに分離して処理することによって、音声認識処理の負担を軽減するものである。

次に、図３を参照しつつ、図１の携帯電話機における第２の音声サービス処理を説明する。なお、この図３において、図２と同様のステップについては同じ符号を付し、その説明を簡略化する。

図３のステップＳ２の送受話認識設定処理によってスイッチ２４，２５の設定が行われると、音声認識部２０による第１の音声認識処理が開始される（ステップＳ１２）。

第１の音声認識処理では、認識対象の語句（例えば、「今何時」、「今の時刻は」、「今日は何日」、「今日は何曜日」等）の内の、最初の単語である第１登録単語（この場合は、「今」、「今日は」）のみを認識対象単語として検出処理を行う（ステップＳ１３）。このステップＳ１３の検出処理は、第１登録単語が検出されず（ステップＳ１３；いいえ）、かつ、通話が行われている間（ステップＳ１４；いいえ）、継続して行われる。通話が終了すれば（ステップＳ１４；はい）、ステップＳ１９の音声認識終了処理へ進む。

ステップＳ１３の検出処理で第１登録単語（例えば、「今」）が検出されると（ステップＳ１３；はい）、第２の音声認識処理が開始される（ステップＳ１５）。
第２の音声認識処理が開始されると、第１登録単語（この場合は、「今」）の後に続く第２登録単語（この場合は、「何時」と「時刻」）の検出処理を行う（ステップＳ１６）。もしも、第１登録単語として「今日は」が検出された場合には、第２登録単語として、「何日」とび「何曜日」の検出処理を行うことになる。

第２登録単語の検出処理において、検出された単語が第２登録単語ではなく（ステップＳ１６；いいえ）、かつ、その単語が登録外単語でない（ステップＳ１７；いいえ）場合は、第２登録単語の検出処理が継続される。第２登録単語の検出処理（ステップＳ１６）において、第２登録単語が検出されると（ステップＳ１６；はい）、音声認識部２０は、制御部１２に対して検出結果の信号を出力する。これにより、制御部１２は、時計部１６から時刻データを読み出して、音声合成部１８に与える（ステップＳ７）。

音声合成部１８は、時刻データを音声合成して合成音声データを出力し（ステップＳ８）、加算器２１はこの合成音声データを、復号器１７から出力される受話データに加算する（ステップＳ９）。更に、加算器２１の加算結果は、Ｄ／Ａ２６でアナログ信号に変換され、スピーカ２７から音響信号として出力される。なお、制御部１２では、通話終了の判定が行われる（ステップＳ１８）。

第２登録単語の検出処理において、検出された単語が第２登録単語ではなく（ステップＳ１６；いいえ）、かつ、その単語が登録外単語の場合（ステップＳ１７；はい）、通話終了の判定を行う（ステップＳ１８）。更に、通話が継続されていれば（ステップＳ１８；いいえ）、ステップＳ１２へ戻って、再び第１音声認識処理が開始される。そして、通話の終了により（ステップＳ１８；はい）、音声認識処理も終了する（ステップＳ１９）。

以上詳細に説明したように、この第１の実施形態の携帯電話機は、次のような利点がある。
（１）この携帯電話機は、通話中の音声を認識する音声認識部２０と、認識結果に応じて要求された情報（例えば時刻情報）を出力する制御部１２と、制御部１２から出力される情報を音声データに変換する音声合成部１８を有している。これにより、ユーザは、通話中に携帯電話機の操作部を操作せずに、必要な情報を音声で得ることができる。従って、ユーザは必要な情報を得るために、通話中に携帯電話機を耳から離して特別な操作をする必要がなくなり、通話をスムーズに継続しながら、必要な情報を取得することができる。

（２）携帯電話機の所有者の音声だけでなく、通話相手の音声を認識して必要な情報を音声で相手側にも伝えるための加算器２２，２３や、スイッチ２４，２５を有している。これにより、スイッチ２４，２５の設定により、通話相手にも音声サービスを提供することができる。

（３）図３に示した第２の音声サービス処理では、音声認識処理を２段階に分離している。これにより、各段階での認識対象の語句の種類が減少すると共に、認識対象の語句の長さ（即ち、データ量）も削減することができる。従って、音声認識処理のための負荷を大幅に軽減することができ、処理速度を向上することができる。

（第２の実施形態）
図４に示すように、本発明の第２の実施形態の音声情報提供システムは、複数の交換機１ａ，１ｂ，…を収容する交換網１と、この交換網１に接続される音声サービス・サーバ２とで構成されている。交換機１ａ，１ｂ，…には、図示していないが、電話機（携帯電話機、固定電話機を問わない）が接続されている。

音声サービス・サーバ２は、予め登録された電話機からの発呼や予め登録された電話機への着呼に応じて、３者通話における第３者として接続され、発呼側の電話機と着呼側の電話機の間の通話音声を認識し、所望の情報を音声データとして提供するものである。
音声サービス・サーバ２は、信号処理部２ａ、音声認識部２ｂ、音声合成部２ｃ、データベース２ｄ、時計部２ｅ、および制御部２ｆを備えている。

信号処理部２ａは、３者通話のための接続制御や音声信号の加算等の信号処理を行うものである。音声認識部２ｂは、発呼側と着呼側の電話機から出力される音声信号を入力し、その音声信号の中に予め定められた語句があればその検出を行うものである。この音声認識部２ｂは、予め定められた語句を検出したときに、その検出内容を制御部２ｆに与えるようになっている。

音声合成部２ｃは、制御部２ｆから与えられる情報を音声データに変換するものである。この音声合成部２ｃで生成された合成音声データは、信号処理部２ａに与えられ、発呼側と着呼側の電話機間で送受信される音声信号に重畳されるようになっている。

データベース２ｄは、音声サービスとして提供するための各種の情報を格納するものである。このデータベース２ｄは、制御部２ｆから与えられる検索要求に従って提供すべきデータを読み出し、制御部２ｆに出力するようになっている。時計部２ｅは、制御部２ｆからの要求に従って、現在時刻等の時刻データを提供するものである。

制御部２ｆは、音声サービス・サーバとしての全体の動作を制御するものである。即ち、この制御部２ｆは、交換網１からの接続要求を受けたときに、接続先の発呼側または着呼側の電話機がサービス対象の電話機として登録されているか否かを判定して信号処理部２ａに対して接続の可否を指示するものである。また、制御部２ｆは、接続後に、音声認識部２ｂの検出結果に基づいて、データベース２ｄや時計部２ｅを検索して要求された情報を取得し、音声合成部２ｃに与える機能を有している。

次に、図５を参照しつつ、図４の音声情報提供システムにおける第１の音声サービス処理を説明する。
音声サービス・サーバ２の制御部２ｆは、信号処理部２ａを介して交換網１から与えられる接続要求を監視する（ステップＳ２１）。登録された電話機１ａ等からの接続要求がくるまでの間（ステップＳ２１；いいえ）、監視処理を継続する。登録された電話機１ａ等からの接続要求があると（ステップＳ２１；はい）、ステップＳ２２の音声認識・合成チャネル設定処理に移る。

音声認識・合成チャネル設定処理では、発呼側交換機の発信者・着信者のサービス提供有無に従って、音声認識部２ｂと音声合成部２ｃに所定の信号を接続する（ステップＳ２２）。これにより、交換網１からの音声信号が音声認識部２ｂに与えられ、音声認識処理が開始される（ステップＳ２３）。また、音声合成部２ｃで合成される音声信号は、交換機１側へ出力されるようになる。

音声認識処理が開始されると、音声認識部２ｂは、信号処理部２ａから与えられる音声データを、予め登録されている特定の語句の音声パターン（例えば、現在時刻を問い合わせるための、「今何時」、「今の時刻は」等の音声パターン）と比較し、特定の語句の検出を行う。音声認識部２ｂによる検出処理は、特定の音声パターンが検出されなくても（ステップＳ２４；いいえ）、回線が通話状態となっている間は（ステップＳ２８；いいえ）、常に繰り返して実行される。

信号処理部２ａから与えられる音声データ中に所定の語句が検出されると（ステップＳ２４；はい）、音声認識部２ｂは、制御部２ｆに対して検出結果の信号を出力する。これにより、制御部２ｆは、検出結果に応じてデータベース２ｄや時計部２ｅから所望の情報（例えば、「今何時」の場合は、時計部２ｅから時刻情報）を読み出して、音声合成部２ｃに与える（ステップＳ２５）。

音声合成部２ｃは、制御部２ｆから与えられた情報（この場合は、時刻データ）を、音声合成して合成音声データを出力する（ステップＳ２６）。音声合成部２ｃから出力された合成音声データは、信号処理部２ａに与えられ、送受話データに加算される（ステップＳ２７）。そして、信号処理部２ａの加算結果は、交換網１を介して発呼側と着呼側の電話機に送信される。

音声認識部２ｂによる音声認識処理は、電話機間の回線が接続されて通話状態となっている間（ステップＳ２８；いいえ）、継続して繰り返し行われる。そして、通話が終了すると（ステップＳ２８；はい）、ステップＳ２９の音声認識・合成チャネルクローズ処理が行われる。

音声認識・合成チャネルクローズ処理では、通話が終了した回線の信号を、音声認識部２ｂと音声合成部２ｃから開放し（ステップＳ２９）、これによって音声サービス処理は終了する。

図５で説明した第１の音声サービス処理は、認識対象の語句を一括してパターン・マッチング等によって検出するようにしているため、認識対象の語句等の範囲を拡大すると比較するデータ量が膨大になり、処理時間が長くなるおそれがあった。以下に説明する第２の音声サービス処理は、図１および図３を用いて説明した携帯電話機における第２の音声サービスと同様に、認識対象の語句等を２つに分割して処理することによって、図４の音声サービス・サーバにおける音声認識処理の負担を軽減するものである。

次に、図６を参照しつつ、図４の音声情報提供システムにおける第２の音声サービス処理を説明する。なお、この図６において、図５と同様のステップについては同じ符号を付し、その説明を簡略化する。

音声サービス・サーバ２の制御部２ｆは、交換網１からの接続要求を監視し（ステップＳ２１）、登録された電話機１ａ等からの接続要求がくるまでの間（ステップＳ２１；いいえ）監視処理を継続する。登録された電話機１ａ等からの接続要求があると（ステップＳ２１；はい）、ステップＳ２２の音声認識・合成チャネル設定処理を行う。

音声認識・合成チャネル設定処理（ステップＳ２２）の完了により、第１の音声認識処理が開始される（ステップＳ３０）。

第１の音声認識処理では、認識対象の語句（例えば、「今何時」、「今の時刻は」、「今日は何日」、「今日は何曜日」等）の内の、最初の単語である第１登録単語（この場合は、「今」、「今日は」）のみを認識対象単語として検出処理を行う（ステップＳ３１）。このステップＳ３１の検出処理は、第１登録単語が検出されず（ステップＳ３１；いいえ）、かつ、通話が行われている間（ステップＳ３２；いいえ）、継続して行われる。通話が終了すれば（ステップＳ３２；はい）、ステップＳ２９の音声認識・合成チャネルクローズ処理へ進む。

ステップＳ３１の検出処理で第１登録単語（例えば、「今」）が検出されると（ステップＳ３１；はい）、第２の音声認識処理が開始される（ステップＳ３３）。
第２の音声認識処理が開始されると、第１登録単語（この場合は、「今」）の後に続く第２登録単語（この場合は、「何時」と「時刻」）の検出処理を行う（ステップＳ３４）。もしも、第１登録単語として「今日は」が検出された場合には、第２登録単語として、「何日」と「何曜日」の検出処理を行うことになる。

第２登録単語の検出処理において、検出された単語が第２登録単語ではなく（ステップＳ３４；いいえ）、かつ、その単語が登録外単語でない（ステップＳ３５；いいえ）場合は、第２登録単語の検出処理が継続される。第２登録単語の検出処理（ステップＳ３４）において、第２登録単語が検出されると（ステップＳ３４；はい）、音声認識部２ｂは、制御部２ｆに対して検出結果の信号を出力する。これにより、制御部２ｆは、データベース２ｄや時計部２ｅから所望の情報を読み出して、音声合成部２ｃに与える（ステップＳ２５）。

音声合成部２ｃは、制御部２ｆから与えられた情報を音声合成して合成音声データを出力し（ステップＳ２６）、信号処理部２ａはこの合成音声データを、送受話データに加算する（ステップＳ２７）。そして、信号処理部２ａの加算結果は、交換網１を介して発呼側と着呼側の電話機に送信される。音声認識部２ｂによる音声認識処理は、電話機間の回線が接続されて通話状態となっている間（ステップＳ２８；いいえ）継続して繰り返し行われ、通話が終了すると（ステップＳ２８；はい）、ステップＳ２９の音声認識・合成チャネルクローズ処理が行われる。

第２登録単語の検出処理において、検出された単語が第２登録単語ではなく（ステップＳ３４；いいえ）、かつ、その単語が登録外単語の場合（ステップＳ３５；はい）、通話終了の判定を行う（ステップＳ２８）。更に、通話が継続されていれば（ステップＳ２８；いいえ）、ステップＳ３０へ戻って、再び第１音声認識処理が開始される。そして、通話の終了により（ステップＳ２８；はい）、ステップＳ２９の音声認識・合成チャネルクローズ処理が行われる。

図４の音声情報提供システムにおける発呼側と着呼側の電話機間での接続動作は、図７および図８に示すようなシーケンスで行われる。

図７は、音声サービス・サーバによるサービスが提供される場合の動作シーケンスを示している。
発呼電話機から発呼側交換機１ａに対して「呼設定」が行われると、発呼側交換機１ａは音声サービス・サーバ２に対して「サービス問い合わせ」を行い、音声サービス・サーバ２は、これに対して「サービス通知」を返す。発呼側交換機１ａは、更に、着呼側交換機１ｂに対して「回線接続要求」を行う。

着呼側交換機１ｂは、発呼側交換機１ａに対して「回線接続確認応答」を返すと共に、着呼電話機に対して「一斉呼び出し」と「呼設定」を行う。「呼設定」を受信した着呼電話機は、着信音を出力すると共に、着呼側交換機１ｂに対して「呼び出し中」信号を送信する。「呼び出し中」信号は、着呼側交換機１ｂから発呼側交換機１ａを介して発呼電話機に送信され、発呼電話機から呼び出し中を示す呼び出し音が出力される。

着呼電話機のユーザが、着信音に従って応答すると、着呼電話機から通話開始を示す「応答」信号が着呼側交換機１ｂを介して発呼側交換機１ａに送信される。「応答」信号を受けた発呼側交換機１ａは、音声サービス・サーバ２に対して「サービス回線接続要求」を送信する。「サービス回線接続要求」を受けた音声サービス・サーバ２は、発呼側交換機１ａに対して「サービス回線接続確認応答」を送信する。

発呼側交換機１ａは発呼電話機に対して通話開始を示す「応答」信号を出力する。発呼電話機は、発呼側交換機１ａに対して「確認応答」を送信し、この「確認応答」は、着呼側交換機１ｂを経由して着呼電話機に伝えられる。これにより、発呼電話機と着呼電話機の間の回線接続が行われると共に、この回線に音声サービス・サーバ２が接続され、音声サービスの提供が開始される。

通話を終了するとき、発呼電話機から発呼側交換機１ａに「呼開放」信号を送信すると、この発呼側交換機１ａは、着呼側交換機１ｂに「呼開放」信号を送信すると共に、音声サービス・サーバ２に対して「サービス回線開放要求」を送信する。これにより、音声サービス・サーバ２では、サービス回線を開放し、その回線に対する音声サービス処理を終了する。一方、「呼開放」信号を受信した着呼側交換機１ｂは、着呼電話機に「呼開放」信号を送信して回線を切断する。

図８は、音声サービス・サーバによるサービスが提供されない場合の動作シーケンスを示している。
発呼電話機から発呼側交換機１ａに対して「呼設定」が行われると、発呼側交換機１ａは音声サービス・サーバ２に対して「サービス問い合わせ」を行い、音声サービス・サーバ２は、これに対して「サービス通知」を返す。発呼交換機１ａは、更に、着呼側交換機１ｂに対して「回線接続要求」を行う。

着呼側交換機１ｂは、発呼交換機１ａに対して「回線接続確認応答」を返すと共に、着呼電話機に対して「一斉呼び出し」と「呼設定」を行う。「呼設定」を受信した着呼電話機は、着信音を出力すると共に、着呼側交換機１ｂに対して「呼び出し中」信号を送信する。「呼び出し中」信号は、着呼側交換機１ｂから発呼側交換機１ａを介して発呼電話機に送信され、発呼電話機から呼び出し中を示す呼び出し音が出力される。

着呼電話機のユーザが、着信音に従って応答すると、着呼電話機から通話開始を示す「応答」信号が着呼側交換機１ｂを介して発呼側交換機１ａに送信される。「応答」信号を受けた発呼側交換機１ａは、音声サービス・サーバ２に対して「サービス回線接続要求」を送信する。「サービス回線接続要求」を受けた音声サービス・サーバ２は、発呼電話機や着呼電話機が登録されていない電話機の場合、発呼側交換機１ａに対して「サービス回線接続不可応答」を送信する。

発呼側交換機１ａは発呼電話機に対して通話開始を示す「応答」信号を出力する。発呼電話機は、発呼側交換機１ａに対して「確認応答」を送信し、この「確認応答」は、着呼側交換機１ｂを経由して着呼電話機に伝えられる。
これにより、発呼電話機と着呼電話機の間の回線接続が行われる。この場合、回線に音声サービス・サーバ２は接続されず、音声サービスの提供は行われない。

通話を終了するとき、発呼電話機から発呼側交換機１ａに「呼開放」信号を送信すると、この発呼側交換機１ａは、着呼側交換機１ｂに「呼開放」信号を送信する。「呼開放」信号を受信した着呼側交換機１ｂは、着呼電話機に「呼開放」信号を送信して回線を切断する。

以上詳細に説明したように、この第２の実施形態の音声情報提供システムは、次のような利点がある。
交換網１に、３者通話における第３者として接続され、発呼側の電話機と着呼側の電話機の間の通話音声を認識し、所望の情報を音声データとして提供する機能を有する音声サービス・サーバ２を接続している。これにより、第１の実施形態の携帯電話機のように個々の電話機に音声認識機能等を設ける必要がない。即ち、一般的な電話機を使用して音声によって情報を得ることができる。
更に、図６に示した第２の音声サービス処理では、音声認識処理を２段階に分離している。これにより、各段階での認識対象の語句の種類が減少すると共に、認識対象の語句の長さ（即ち、データ量）も削減することができる。従って、音声認識処理のための負荷を大幅に削減することができ、処理速度を向上することができる。

なお、本発明は、上記実施形態に限定されるものではなく、下記のような種々の変形が可能である。
（ａ）図１の携帯電話機では、スイッチ２４，２５を同時にオン・オフ制御するようにしているが、個別にオン・オフ制御するようにしても良い。例えば、スイッチ２４をオン、スイッチ２５をオフにすれば、受話音声は音声認識の対象とはならないが、送話音声に基づいて音声合成された音声データを相手側に送信することができる。
（ｂ）携帯電話機は、図１の構成に限定されない。例えば、図９に示すように、復号器１７で復号された受話音声データと、音声合成部１８で生成された合成音声データを、それぞれ別のＤ／Ａ２６ａ，２６ｂでアナログ信号に変換し、更に別のスピーカ２７ａ，２７ｂから音響信号として出力するように構成しても良い。例えば、このとき、スピーカ２７ｂに骨伝導スピーカを使用することもできる。これにより、受話音声と合成音声を明瞭に聞き分けることができる。

（ｃ）更に、図９に示すように、Ａ／Ｄ２８と加算器２２の間にスイッチ３０を挿入し、押しボタン等によって、このスイッチ３０をオフ状態にできるように構成しても良い。これにより、ユーザが音声認識部２０に時刻を問い合わせるときに、スイッチ３０をオフ状態にして、例えば「今何時」と発声すると、この声は相手側の電話機に送信されない。従って、問い合わせの声やそれに対する応答の音声が相手側に送信されず、不必要な音声で相手側を混乱させるおそれをなくすことができる。
（ｄ）音声サービスとして提供する音声情報は、時刻情報に限定されない。時間、場所、天気、テレビ、番号・数、言語、買い物等の各種のカテゴリに対して、各種の情報を合成音声によって提供することができる。いわゆるコンシェルジェ・サービス（ホテルマンが、泊まり客の求めに応じて各種の案内を行うサービス）として考えられるサービスの例を図１０に示す。
（ｅ）図３および図６では、音声認識を２段階に分けて行う音声サービス処理を説明したが、３段階以上に分けて音声認識を行うようにしても良い。これにより、図１０に示すような複雑な要求を認識して、的確な情報を提供することが可能になる。

１交換網
１ａ発呼側交換機
１ｂ着呼側交換機
２音声サービス・サーバ
２ａ信号処理部
２ｂ，２０音声認識部
２ｃ音声合成部
２ｄデータベース
２ｅ，１６時計部
２ｆ，１２制御部
１１携帯電話無線部
１３メモリ
１４操作部
１５表示部
１７復号器
１８音声合成部
１９符号器
２１〜２３加算器
２４，２５，３０スイッチ
２６，２６ａ，２６ｂＤ／Ａ（デジタル・アナログ変換器）
２７，２７ａスピーカ
２７ｂ骨伝導スピーカ
２８Ａ／Ｄ（アナログ・デジタル変換器）
２９マイクロホン

Claims

通話中のユーザの音声データに含まれる特定の語句を検出する音声認識手段と、
前記音声認識手段で検出された語句に応じて情報を出力する情報出力手段と、
前記情報出力手段から出力される情報を合成音声データに変換して出力する音声合成手段と、
前記合成音声データを前記ユーザに音声信号として出力する出力手段と、
を備えることを特徴とする携帯電話機。
前記音声認識手段は、前記ユーザの音声データに加えて、通話相手の音声データに含まれる前記特定の語句を検出し、
前記出力手段は、前記合成音声データを前記ユーザに音声信号として出力すると共に、該合成音声データを前記ユーザの音声データに重畳して前記通話相手に送信する、
ことを特徴とする請求項１に記載の携帯電話機。
前記出力手段は、前記合成音声データを前記通話相手の音声データに重畳し、前記音声信号として出力することを特徴とする請求項１または２に記載の携帯電話機。
前記出力手段は、前記合成音声データと前記通話相手の音声データを、それぞれ第１および第２の音響出力手段から音声信号として出力することを特徴とする請求項１または２に記載の携帯電話機。
前記第１および第２の音響出力手段の内の１つは、骨伝導スピーカであることを特徴とする請求項４に記載の携帯電話機。
前記特定の語句は、現在の時刻または日時を問い合わせるための語句であり、前記情報出力手段は、該特定の語句に応じて時刻または日時の情報を出力することを特徴とする請求項１乃至５のいずれか１項に記載の携帯電話機。
前記音声認識手段は、前記音声データに含まれる検出対象の特定の語句が複数の単語を所定の順番に並べた構成となっている場合に、該語句を複数の単語に分解して順次検出することを特徴とする請求項１乃至６のいずれか１項に記載の携帯電話機。
電話交換網に接続され、通話中の音声データに含まれる特定の語句に応じて対応する情報を該音声データに重畳して出力する音声情報提供システムであって、
前記通話中の音声データに含まれる特定の語句を検出する音声認識手段と、
前記音声認識手段で検出された語句に応じて情報を出力する情報出力手段と、
前記情報出力手段から出力される情報を合成音声データに変換して出力する音声合成手段と、
前記合成音声データを前記音声データに重畳して出力する出力手段と、
を備えることを特徴とする音声情報提供システム。
前記特定の語句は、現在の時刻または日時を問い合わせるための語句であり、前記情報出力手段は、該特定の語句に応じて時刻または日時の情報を出力することを特徴とする請求項８に記載の音声情報提供システム。
前記音声認識手段は、前記音声データに含まれる検出対象の特定の語句が複数の単語を所定の順番に並べた構成となっている場合に、該語句を複数の単語に分解して順次検出することを特徴とする請求項８または９に記載の音声情報提供システム。