JP2010217628A

JP2010217628A - 音声によってテキストを入力する音声認識処理方法及びシステム

Info

Publication number: JP2010217628A
Application number: JP2009065542A
Authority: JP
Inventors: Toshiaki Uchibe; 利明内部; Yasutaka Shinto; 安孝新堂; Tomohiro Obara; 朋広小原
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-03-18
Filing date: 2009-03-18
Publication date: 2010-09-30
Anticipated expiration: 2029-03-18
Also published as: JP5244663B2

Abstract

【課題】リアルタイムに音声データが認識され、且つ、ネットワークの負荷をできる限り小さくすることができる音声認識方法及びシステムを提供する。
【解決手段】端末が、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用のＲＴＰのセッションと、テキストデータ用のＴＣＰのセッションとを確立する。次に、端末が、所定単位の音声データを、ＲＴＰのセッションを介して音声認識サーバへ送信する。これに対し、音声認識サーバが、音声認識処理手段を用いて変換した１次候補テキストデータを、ＴＣＰのセッションを介して端末へ送信する。利用者による音声入力が終了するまで、これらステップを連続的に繰り返し、利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した１次候補以外のテキストデータが存在する場合、そのテキストデータを、端末へ送信する。
【選択図】図１

Description

本発明は、音声によってテキストを入力する音声認識処理方法及びシステムに関する。

パーソナルコンピュータのように比較的処理能力が高い端末を用いて、利用者が発声した音声を、テキストデータに変換するソフトウェアがある。端末は、マイクによって利用者が発声した音声を取得する。その音声は、音声データに符号化される。そして、その音声データは、音声認識処理によってテキストデータに変換される。

また、携帯端末のように比較的処理能力が低い端末の場合、数千語彙程度のキーワードを音声認識することはできる。しかしながら、処理能力の観点から、ディクテーションのように数万語以上の大語彙に対応する文章を、音声認識することはできない。

そのために、携帯端末が、ネットワークを介して音声認識サーバに接続することによって、音声認識処理を実行する技術がある。この技術によれば、携帯端末は、符号化された音声データを、ＨＴＴＰ(HyperText Transfer Protocol)によって音声認識サーバへ一括して送信する。音声認識サーバは、音声認識処理によって音声データをテキストデータへ変換する。変換されたテキストデータは、携帯端末へ返信される。これにより、音声認識処理の中で負荷が大きい処理を、サーバで実行することができる。即ち、処理能力の低い携帯端末であっても、大語彙の高精度な音声認識を実行することができる。

特開２００５−２８３９７２号公報

従来技術によれば、携帯端末は、音声認識サーバへ、ＨＴＴＰリクエストを用いて音声データを一括して送信する。これに対し、音声認識サーバも、音声データを一括してテキストデータに変換する。そして、全てのテキストデータを、ＨＴＴＰレスポンスによって一括して返信する。ＨＴＴＰのリクエスト及びレスポンスのシーケンスを用いることによって、複数の携帯端末から１つの音声認識サーバへのアクセスも可能とする。

しかしながら、利用者は、マイクへ発声しながら、ディスプレイでテキストデータを視認することができない。特に、入力される文章が長くなるほど、テキストデータの表示までに遅延が発生し、利便性に欠ける。また、ＨＴＴＰの場合、下位プロトコルにＴＣＰ(Transmission Control Protocol)を用いるために、エラーフリーである反面、オーバヘッドが大きく且つネットワークへの負荷が大きい。

そこで、本発明は、リアルタイムに音声データが認識され、且つ、ネットワークの負荷をできる限り小さくすることができる音声認識方法及びシステムを提供することを目的とする。

本発明によれば、
セッション制御サーバと、
セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
セッション制御サーバに対する呼接続手段と、音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
端末が、テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用の第１のセッションと、テキストデータ用の第２のセッションとを確立する第１のステップと、
端末が、利用者によって発声された所定単位の音声データを、第１のセッションを介して音声認識サーバへ送信する第２のステップと、
音声認識サーバが、音声認識処理手段を用いて変換した１次候補テキストデータを、第２のセッションを介して端末へ送信する第３のステップと、
端末及び音声認識サーバが、利用者による音声入力が終了するまで、第２のステップ及び第３のステップを連続的に繰り返す第４のステップと、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した１次候補以外のテキストデータが存在する場合、該テキストデータを、端末へ送信する第５のステップと
を有することを特徴とする。

本発明の音声認識処理方法における他の実施形態によれば、第１のステップについて、音声データ用の第１のセッションは、ＲＴＰ(Realtime Transport Protocol)によって確立されており、テキストデータ用の第２のセッションは、ＴＣＰ(Transmission Control Protocol)によって確立されていることも好ましい。

本発明の音声認識処理方法における他の実施形態によれば、第１のステップについて、
端末のテキスト処理アプリケーションは、音声入力インタフェース手段へ音声認識パラメータを引き渡し、音声入力インタフェース手段は、音声認識パラメータを、呼接続手段へ引き渡し、呼接続手段は、音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、
音声認識サーバは、音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信することも好ましい。

本発明の音声認識処理方法における他の実施形態によれば、第１のステップについて、音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことも好ましい。

本発明によれば、端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用の第１のセッションと、テキストデータ用の第２のセッションとを確立する呼接続手段と、
音声入力インタフェース手段によって取得された所定単位の音声データを、第１のセッションを介して音声認識サーバへ送信する音声データ送信手段と
を有し、
音声認識サーバは、
セッション制御サーバに対する呼接続手段と、
音声データをテキストデータに変換する音声認識処理手段と、
１次候補テキストデータを第２のセッションを介して端末へ送信するテキストデータ送信手段と、
利用者による音声入力が終了するまで、音声認識処理手段及びテキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した１次候補以外の候補テキストデータが存在する場合、該テキストデータを、端末へ送信する他候補蓄積手段と
を有することを特徴とする。

本発明のシステムにおける他の実施形態によれば、音声データ用の第１のセッションは、ＲＴＰによって確立されており、テキストデータ用の第２のセッションは、ＴＣＰによって確立されていることも好ましい。

本発明のシステムにおける他の実施形態によれば、
端末について、
テキスト処理アプリケーションは、音声入力インタフェース手段へ音声認識パラメータを引き渡し、
音声入力インタフェース手段は、音声認識パラメータを、呼接続手段へ引き渡し、
呼接続手段は、音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、
音声認識サーバについて、
音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことも好ましい。

本発明のシステムにおける他の実施形態によれば、音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことも好ましい。

本発明の音声認識方法及びシステムによれば、携帯端末は、所定単位の音声データをＲＴＰのデータストリームで送信すると共に、音声認識によって変換されたテキストデータをＴＣＰのデータストリームで受信する。これにより、音声データとテキストデータとを一括して送受信するＨＴＴＰの場合に比べて、ネットワークの負荷をできる限り小さくすることができる。

また、携帯端末は、音声入力中には、音声データを逐次的に変換した第１候補テキストデータをディスプレイに表示すると共に、音声入力終了後に、他候補テキストデータをディスプレイに表示する。これにより、利用者から見て、音声入力中に、リアルタイムに音声データが認識されると共に、音声入力終了後に、最適なテキストデータを選択することができる。

本発明における第１のシステム構成図である。本発明における端末及び音声認識サーバの機能構成図である。本発明におけるフローチャートである。本発明における端末の第１の表示画面例である。本発明における端末の第２の表示画面例である。 INVITEリクエストのＳＤＰの記述例である。 INVITEレスポンスのＳＤＰの記述例である。本発明における第２のシステム構成図である。本発明における第３のシステム構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明における第１のシステム構成図である。

図１によれば、端末１は、セッション制御サーバ３を介して、音声認識サーバ２と呼接続する。端末１は、例えば携帯電話機のような比較的処理能力が低い携帯端末である。セッション制御サーバ３は、呼制御プロトコルとしてのＳＩＰ(Session Initiation Protocol)サーバであって、例えばＩＭＳ／ＭＭＤ(IP Multimedia Subsystem / Multimedia Domain)網のコントロールネットワークに接続される。携帯端末１は、例えば携帯電話網のようなアクセスネットワークを介して、ＩＭＳ／ＭＭＤ網に接続する。

図１によれば、携帯端末１は、テキスト処理アプリケーションとして、例えばメールソフトウェアを起動する。ここで、利用者は、携帯端末１のマイクに向かって発声することによって、メールソフトウェアのエディタにテキストを入力することができる。

音声認識サーバ２は、ＳＩＰサーバ３を介して、携帯端末１から呼接続される。音声認識サーバ２は、携帯端末１から受信した音声データを、音声認識処理によってテキストデータに変換する。変換されたテキストデータは、携帯端末１へ返信させる。

携帯端末１と音声認識サーバ２との間では、音声データ用のＲＴＰのセッションと、認識候補となるテキストデータ用のＴＣＰのセッションとが確立される。ＲＴＰは、音声又は動画等のデータをストリーミングで伝送するためのプロトコルである。ＴＣＰは、ファイル等のデータをエラーフリーで伝送するためのプロトコルである。

ＲＴＰは、下位プロトコルにＵＤＰ(User Datagram Protocol)が用いられる。そのために、ＲＴＰパケットに、ＦＥＣ(Forward Error Correction：前方誤り訂正)やＭＦＴ(Missing Feature Theory：ミッシングフィーチャー理論)の誤り訂正符号を付加することも好ましい。これによって、パケットロスによる認識性能への影響が軽減される。

図２は、本発明における端末及び音声認識サーバの機能構成図である。

携帯端末１は、ハードウェアとして、通信インタフェース部１０１と、利用者によって発声された音声を取得するマイク１０２と、テキストデータを表示するディスプレイ１０３と、操作及びテキストを選択するキー操作部１０４とを有する。

また、携帯端末１は、ソフトウェアとして、呼接続部１１１と、トランスポートインタフェース部１１２と、テキスト処理アプリケーション１１３と、音声入力インタフェース部１１４と、音声データ送信部１２１と、テキストデータ受信部１２２と、他候補選択部１２３とを有する。これら機能構成部は、携帯端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

テキスト処理アプリケーション１１３は、テキストエディタ機能を有し、例えばメールアプリケーションであってもよい。テキスト処理アプリケーション１１３は、音声認識パラメータを引数として音声入力インタフェース部１１４を起動する。音声認識パラメータは、少なくとも、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とである。音声入力終了後、テキスト処理アプリケーション１１３は、音声入力インタフェース部１１４から、テキストデータを取得する。

音声入力インタフェース部１１４は、ユーザインタフェースとして機能する。音声入力インタフェース部１１４は、利用者が発声した音声をマイク１０２から取得し、ＡＭＲ(Adaptive Multi-Rate)やＥＶＲＣ(Enhanced Variable Rate Codec)等によって音声データに符号化する。又は、信号処理によって特徴抽出した音声データに変換するものであってもよい。音声入力インタフェース部１１４は、音声入力が終了した際に、呼接続部１１１へ、音声入力終了を通知する。

尚、音声入力インタフェース部１１４は、テキスト処理アプリケーション１１３と重畳的に機能する。即ち、音声入力インタフェース部１１４は、種々のアプリケーションから共通に利用可能なミドルウェアとして実装される。そのため、テキスト処理アプリケーション１１３を設計する際に、音声認識処理を考慮する必要がない。また、

呼接続部１１１は、ＳＩＰサーバ３に対してクライアントとして機能する。呼接続部１１１は、音声入力インタフェース部１１４が起動された際に、音声認識パラメータを含むINVITEメッセージ(呼接続要求)を、ＳＩＰサーバ３を介して音声認識サーバ２へ送信する。また、呼接続部１１１は、音声入力インタフェース部１１４の指示に応じて、音声入力開始又は終了の制御情報を含むINFOメッセージを、ＳＩＰサーバ３を介して音声認識サーバ２へ送信する。

トランスポートインタフェース部１１２は、音声認識サーバ２との間で、音声データ用のＲＴＰのデータストリームと、テキストデータ用のＴＣＰのデータストリームとを確立する。

音声データ送信部１２１は、音声入力インタフェース部１１４によって取得された所定単位の音声データを、ＲＴＰのデータストリームを介して音声認識サーバ２へ送信する。

テキストデータ受信部１２２は、音声認識サーバ２から、音声認識によって得られたテキストデータを受信する。音声入力中には、逐次的に１次候補テキストデータを受信する。また、音声入力終了後には、１次候補テキストデータと、１つ以上の他候補テキストデータとの組み合わせを受信する。受信されたテキストデータは、テキスト処理アプリケーション１１３へ出力される。

他候補選択部１２３は、利用者によって他候補テキストデータを選択させる。音声入力終了後、テキスト処理アプリケーションは、既にディスプレイに表示しているテキストデータの中から、他候補テキストデータに対応する１次候補テキストデータを検索する。一致した１次候補テキストデータについて、他候補テキストデータをディスプレイに表示し、利用者に選択させる。

音声認識サーバ２は、通信インタフェース部２０１と、呼接続部２１１と、トランスポートインタフェース部２１２と、音声認識処理部２２１と、テキストデータ送信部２２２と、他候補蓄積部２２３と、音声認識制御部２２４とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行させることによって実現される。

呼接続部２１１は、ＳＩＰサーバ３に対してクライアントとして機能する。呼接続部２１１は、受信したINVITEメッセージから、音声認識パラメータを取得する。その音声認識パラメータは、音声認識処理部２２１へ出力される。

トランスポートインタフェース部２１２は、携帯端末１との間で、音声データ用のＲＴＰのデータストリームと、テキストデータ用のＴＣＰのデータストリームとを確立する。

音声認識処理部２２１は、ＲＴＰのデータストリームを介して音声データを受信し、音声認識によってその音声データをテキストデータに変換する。ここで、音声認識処理部２２１は、発声途中の暫定的な１次候補テキストデータをテキストデータ送信部２２２へ出力し、他の候補テキストデータを他候補蓄積部２２３へ出力する。

音声認識処理部２２１は、辞書及び言語モデルを参照し、音声データをテキストデータに変換する。音声認識処理部２２１には、例えば、文章の「てにをは」を含めて認識するＮグラムモデルがある。Ｎグラムモデルは、サンプルデータから統計的に確率を計算する言語モデルである。Ｎ＝３（トライグラム）として、与えられた単語列ｗ_１ｗ_２・・・ｗ_ｎの出現確率Ｐ（ｗ_１ｗ_２・・・ｗ_ｎ）の推定をする場合に、Ｐ（ｗ_１ｗ_２・・・ｗ_ｎ）＝ΠＰ（ｗ_i｜ｗ_i-2、ｗ_i-1）×Ｐ（ｗ_１ｗ_２）のように近似する。右辺のＰ（ｗ_i｜ｗ_i-2、ｗ_i-1）は、単語ｗ_i-2、ｗ_i-1と来たときに、次にｗ_iが来る条件付確率を表す。Ｐ（ｗ_i｜ｗ_i-2、ｗ_i-1）の全ての積を計算し、Ｐ（ｗ_１ｗ_２・・・ｗ_ｎ）が最も大きな値を取る単語列の組み合わせを認識結果として決定する。

Ｎグラムモデルでは、発話中のある部分の音声認識に、前後の単語との相関を用いる。このため、ある部分の音声認識結果を得るために、その後の部分の発話が必要となる。当該部分の発話よりも数単語先までの発話を得てから音声認識結果が確定する。つまり、音声認識結果が確定するのは、当該部分の発話がなされてから数単語分遅れることになる。

そこで、音声認識処理部２２１は、Ｎグラムモデルにおける１次候補テキストデータを、テキストデータ送信部２２２へ出力する。また、音声認識処理部２２１は、１次候補テキストデータと、その１次候補テキストデータから数単語先で確定した他候補テキストデータとの組み合わせを、他候補蓄積部２２３へ出力する。

テキストデータ送信部２２２は、発声途中の暫定的な１次候補テキストデータを、ＴＣＰのデータストリームを介して、携帯端末１へ送信する。

音声認識制御部２２４は、利用者による音声入力が終了するまで、音声認識処理部２２１及びテキストデータ送信部２２２を繰り返し機能させる。

他候補蓄積部２２３は、利用者による音声入力が終了した際に、１次候補テキストデータと、１つ以上の他候補テキストデータとの組み合わせを、携帯端末１へ送信する。

図３は、本発明におけるフローチャートである。図３のシーケンスに対応して、図４は、本発明における端末の第１の表示画面例である。また、図５は、本発明における端末の第２の表示画面例である。

（Ｓ３０１）音声認識サーバ２は、REGISTERメソッドを用いて、当該サーバの位置情報（ＡＯＲ(Address-Of-Record)、コンタクトアドレス）を、ＳＩＰサーバ３へ登録する。

（Ｓ３０２）図４（ａ）によれば、テキスト処理アプリケーションは、メールソフトウェアであって、利用者がメールの「本文」にテキストを入力しようとしている。

（Ｓ３０３）図４（ｂ）によれば、携帯端末１について、メールソフトウェアのエディタが起動している。そして、利用者は、項目「認識開始」を選択する。

（Ｓ３０４）図４（ｃ）によれば、携帯端末１は、利用者へ、マイクに向かって発声するべく指示する。このとき、テキスト処理アプリケーションは、音声入力インタフェース部へ、音声認識パラメータを引き渡す。これにより、音声入力インタフェース部が起動する。

（Ｓ３０５）携帯端末１は、REGISTERメソッドを用いて、当該端末の位置情報（ＡＯＲ、コンタクトアドレス）を、ＳＩＰサーバ３へ登録する。ＡＯＲは、ＳＩＰにおける端末のロケーションを表す論理的なアドレスである。ここで、ＡＯＲは、音声認識サーバのアドレスを表す。コンタクトアドレスは、携帯端末の実アドレスであり、ＡＯＲと紐付けされる。これにより、ＡＯＲからコンタクトアドレスを検索することができる。尚、ＡＯＲとコンタクトアドレスとは、必ずしも１対１とは限らない。１つのＡＯＲに対して複数のコンタクトアドレスを割り当てることにより、複数の音声認識サーバに対して同時に発信することもできる。

（Ｓ３１１）携帯端末１は、呼接続要求(INVITE)を、ＳＩＰサーバ３を介して音声認識サーバ２へ送信する。ここで、INVITEリクエストのＳＤＰ(Specification Description Protocol)には、携帯端末１と音声認識サーバ２との間で、音声データ用のＲＴＰのデータストリームと、テキストデータ用のＴＣＰのデータストリームとを確立するべく記述される。

図６は、INVITEリクエストのＳＤＰの記述例である。

"m"は、データストリーム種別を表し、"a"は、そのデータストリームに対するパラメータを表す。本発明のＳＤＰには、音声データストリーム（m=audio）と、テキストデータストリーム（m=message）とが記述される。また、ペイロードタイプとコーデック／フォーマットとがマッピングされる。更に、音声認識パラメータが設定される。音声認識パラメータとしては、例えば、音声認識種別、パケットサイズ、転送間隔、及びテキストデータの出力候補数が設定されている。

図６によれば、種々のパラメータも設定されている。例えば"gps"によれば、携帯端末の位置情報に基づいて音声認識の辞書を切り替えることもできる。また、例えば"user"によれば、個人識別情報又は個人履歴情報に基づいて音声認識の辞書を切り替えることもできる。

音声認識サーバ２は、INVITEリクエストを受信した際に、音声認識パラメータを判定する。音声認識サーバ２は、その音声認識パラメータを許容できる場合、INVITEレスポンスを返信する。

図７は、INVITEレスポンスのＳＤＰの記述例である。

INVITEレスポンスには、データストリーム毎に、音声認識サーバ側のポート番号が記述される。

（Ｓ３１２）携帯端末１と音声認識サーバ２との間で、音声データ用のＲＴＰのデータストリームと、テキストデータ用のＴＣＰのデータストリームとが確立される。

音声入力開始時に、音声認識サーバ２とのセッションが既に確立されている場合、REGISTERメソッド（Ｓ３０５）及びINVITEメソッド（Ｓ３１１）は省略する。

（Ｓ３２１）携帯端末１は、音声入力開始の制御情報を含むINFOメッセージを、ＳＩＰサーバ３を介して音声認識サーバ２へ送信する。INFOメソッドは、音声認識パラメータの設定変更、及び音声認識処理の制御情報（開始・終了・中止、エラー等）の通知に用いられる。

（Ｓ３２２）携帯端末１は、利用者によって発声された所定単位の音声データを、ＲＴＰのデータストリームを介して音声認識サーバ２へ送信する。これに対し、音声認識サーバ２は、音声認識処理によってテキストデータに変換し、発声途中の暫定的な１次候補テキストデータを、ＴＣＰのデータストリームを介して携帯端末１へ返信する。ここで、逐次的に返信されるテキストデータは、音声認識処理による１次候補のものである。携帯端末１は、ＴＣＰのデータストリームを介してテキストデータを受信すると同時に、利用者に視認させるべくディスプレイに表示する。

音声データにおける所定単位は、パラメータで指定した転送サイズであって、ネットワーク状態に応じたバッファリングサイズ等によって可変に制御されるものであってもよい。

図４（ｄ）によれば、利用者の発声から認識された「おはようございます」が表示されている。
図４（ｅ）によれば、利用者の発声から認識された「今日の」が表示されている。
図４（ｆ）によれば、利用者の発声から認識された「回避は」が表示されている。実は、利用者は、「会議は」の意味で発声しているにも関わらず、音声認識処理によって１次候補として「回避は」と認識された。
図５（ａ）によれば、利用者の発声から認識された「午後３次より」が表示されている。実は、利用者は、「午後３時より」の意味で発声しているにも関わらず、音声認識処理によって１次候補として「午後３次より」と認識された。
図５（ｂ）によれば、利用者の発声から認識された「いつもの場所ではじめます」が表示されている。

（Ｓ３２３）携帯端末１は、利用者による音声入力が終了すると、音声入力終了の制御情報を含むINFOメッセージを、ＳＩＰサーバ３を介して音声認識サーバ２へ送信する。

音声入力終了のINFOメッセージを受信した音声認識サーバ２は、既に送信した１次候補以外の他候補テキストデータが存在する場合、他候補テキストデータを、携帯端末１へ送信する。

図５（ｃ）によれば、携帯端末１は、１次候補テキストデータ「回避は」に対して、他候補テキストデータ「会費は」「会議は」を受信する。このとき、既にディスプレイに表示された１次候補テキストデータ「回避は」を検索し、その位置にアンカーを表示する。そして、「回避は」「会費は」「会議は」の中で、いずれが正しいテキストデータであるかを、利用者に選択させる。ここでは、「会議は」が選択されている。

図５（ｄ）によれば、携帯端末１は、１次候補テキストデータ「３次」に対して、他候補テキストデータ「賛辞」「３次」を受信する。このとき、既にディスプレイに表示された１次候補テキストデータ「３次」を検索し、その位置にアンカーを表示する。そして、「３次」「賛辞」「３時」の中で、いずれが正しいテキストデータであるかを、利用者に選択させる。ここでは、「３時」が選択されている。

（Ｓ３２４）携帯端末１は、利用者によるテキストデータの選択が終了すると、テキスト処理アプリケーションへテキストデータを引き渡す。これによって、テキスト処理アプリケーションに対するテキストデータの入力が終了する。

（Ｓ３２５）携帯端末１は、BYEメソッドで音声認識サーバ２と接続を切断し、セッションを終了する。

（Ｓ３２６）最後に、携帯端末１は、REGISTERメソッドを用いて、当該携帯端末の位置登録を削除する。

図８は、本発明における第２のシステム構成図である。

図８のシステムは、ＩＰ電話又は電話会議システムへの適用例である。例えば、利用者自身又は相手方の発声を音声認識し、テキストデータを得る。そのテキストデータは、メモや議事録として保存され、又は、メールで第三者に転送されることもできる。

図９は、本発明における第３のシステム構成図である。

図９のシステムは、テレビ字幕システムへの適用例である。例えば、ＩＰテレビ受信端末によって、放送番組又はビデオストリーミング番組を視聴する場合、放送内容の音声を認識し、テキストデータとして携帯端末で字幕表示する。

以上、詳細に説明したように、本発明の音声認識方法及びシステムによれば、携帯端末は、所定単位の音声データをＲＴＰのデータストリームで送信すると共に、音声認識によって変換されたテキストデータをＴＣＰのデータストリームで受信する。これにより、音声データとテキストデータとを一括して送受信するＨＴＴＰの場合に比べて、ネットワークの負荷をできる限り小さくすることができる。

前述した本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１携帯端末、端末、携帯電話機
１０１通信インタフェース部
１０２マイク
１０３ディスプレイ
１０４キー操作部
１１１呼接続部
１１２トランスポートインタフェース部
１１３テキスト処理アプリケーション
１１４音声入力インタフェース部
１２１音声データ送信部
１２２テキストデータ受信部
１２３他候補選択部
２音声認識サーバ
２０１通信インタフェース部
２１１呼接続部
２１２トランスポートインタフェース部
２２１音声認識処理部
２２２テキストデータ送信部
２２３他候補蓄積部
２２４音声認識制御部
３ＳＩＰサーバ、セッション制御サーバ

Claims

セッション制御サーバと、
前記セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
前記セッション制御サーバに対する呼接続手段と、前記音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
前記端末が、前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバとの間で、音声データ用の第１のセッションと、テキストデータ用の第２のセッションとを確立する第１のステップと、
前記端末が、利用者によって発声された所定単位の音声データを、第１のセッションを介して前記音声認識サーバへ送信する第２のステップと、
前記音声認識サーバが、前記音声認識処理手段を用いて変換した１次候補テキストデータを、第２のセッションを介して前記端末へ送信する第３のステップと、
前記端末及び前記音声認識サーバが、前記利用者による音声入力が終了するまで、第２のステップ及び第３のステップを連続的に繰り返す第４のステップと、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した１次候補以外のテキストデータが存在する場合、該テキストデータを、前記端末へ送信する第５のステップと
を有することを特徴とする音声認識処理方法。
第１のステップについて、音声データ用の第１のセッションは、ＲＴＰ(Realtime Transport Protocol)によって確立されており、テキストデータ用の第２のセッションは、ＴＣＰ(Transmission Control Protocol)によって確立されていることを特徴とする請求項１に記載の音声認識処理方法。
第１のステップについて、
前記端末の前記テキスト処理アプリケーションは、前記音声入力インタフェース手段へ音声認識パラメータを引き渡し、前記音声入力インタフェース手段は、前記音声認識パラメータを、前記呼接続手段へ引き渡し、前記呼接続手段は、前記音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、
前記音声認識サーバは、前記音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことを特徴とする請求項１又は２に記載の音声認識処理方法。
第１のステップについて、前記音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことを特徴とする請求項３に記載の音声認識処理方法。
端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
前記端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバとの間で、音声データ用の第１のセッションと、テキストデータ用の第２のセッションとを確立する呼接続手段と、
前記音声入力インタフェース手段によって取得された所定単位の音声データを、第１のセッションを介して前記音声認識サーバへ送信する音声データ送信手段と
を有し、
前記音声認識サーバは、
前記セッション制御サーバに対する呼接続手段と、
前記音声データをテキストデータに変換する音声認識処理手段と、
１次候補テキストデータを第２のセッションを介して前記端末へ送信するテキストデータ送信手段と、
前記利用者による音声入力が終了するまで、前記音声認識処理手段及び前記テキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した１次候補以外の候補テキストデータが存在する場合、該テキストデータを、前記端末へ送信する他候補蓄積手段と
を有することを特徴とするシステム。
音声データ用の第１のセッションは、ＲＴＰによって確立されており、テキストデータ用の第２のセッションは、ＴＣＰによって確立されていることを特徴とする請求項５に記載のシステム。
前記端末について、
前記テキスト処理アプリケーションは、前記音声入力インタフェース手段へ音声認識パラメータを引き渡し、
前記音声入力インタフェース手段は、前記音声認識パラメータを、前記呼接続手段へ引き渡し、
前記呼接続手段は、前記音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、
前記音声認識サーバについて、
前記音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことを特徴とする請求項５又は６に記載のシステム。
前記音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことを特徴とする請求項７に記載のシステム。