JP4197271B2

JP4197271B2 - 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体

Info

Publication number: JP4197271B2
Application number: JP2003172559A
Authority: JP
Inventors: 浩二田島
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2003-06-17
Filing date: 2003-06-17
Publication date: 2008-12-17
Anticipated expiration: 2023-06-17
Also published as: JP2005012377A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識による文字入力を行うことができる通信端末および音声認識処理を行う音声認識処理装置に関するものである。
【０００２】
【従来の技術】
近年、e-mailの送受信やスケジュール管理、電話帳やアドレス帳の管理などを行うために、文字入力を行うことができる携帯通信装置が普及している。しかしながら、携帯通信装置（携帯機器）は小型化が求められるため、通常は、１つのキーに複数の意味（あるいは文字、記号等）が割り振られる。このため、携帯通信装置での文字入力作業は煩雑なものとなっている。
【０００３】
そこで、文字や画像を表示するための表示部に、使用者によってペン等で入力された文字を認識し、文字入力を行うことができる携帯通信装置がある。しかしながら、このような携帯通信装置は、価格が高価な上、表示部（文字入力部）のサイズが小さいため、入力し辛いといった問題点がある。
【０００４】
一方、パーソナルコンピュータ（ＰＣ）の分野では、近年、音声による文字入力（音声認識）が実現している。
【０００５】
また、携帯電話の分野では、例えば特許文献１に、使用者が音声入力した通話したい相手先の名前（または電話番号）を音声認識し、文字列に変換する技術が開示されている。
【０００６】
さらに、特許文献２には、音声パターンデータおよび文字コードで構成される各レコードを認識辞書に格納しておき、入力された音声から抽出した音声データと前記音声パターンデータとが一致するレコードを認識辞書から検索し、一致したレコードの文字コードに対応する文字を表示する技術が開示されている。
【０００７】
【特許文献１】
特開２０００−１９７１２８号公報（公開日平成１２年７月１４日）
【０００８】
【特許文献２】
特開２００１−１５９８９６号公報（公開日平成１３年６月１２日）
【０００９】
【特許文献３】
特開２００１−２０３８１８号公報（公開日平成１３年７月２７日）
【００１０】
【発明が解決しようとする課題】
しかしながら、特許文献１および２に示されているような従来の携帯電話（携帯通信装置）では、数秒程度の限定された言葉に関する音声認識しか実現できない。すなわち、予め記録された数秒の音声パターンと一致する程度の内容しか音声認識できないという問題がある。以下に、この理由について説明する。
【００１１】
高度な音声認識を行うためには、高い演算処理能力が必要である。しかしながら、携帯通信装置では、装置を小型化する必要があること、消費電力を低く抑える必要があること、価格を低く抑える必要があることなどを理由として、ＰＣ並みの高い演算処理能力を備えることは困難となっている。
【００１２】
すなわち、従来の携帯通信装置は、ＰＣなどと比較すれば処理能力の低いＣＰＵしか搭載できず、多様な言葉を認識できるような高度な音声認識をＣＰＵが実行するソフトウェアによって実現することは困難である。
【００１３】
そこで、携帯通信装置に、音声認識用ＩＣなどの専用ハードウェアを搭載する方法が考えられる。しかしながら、このような音声認識用ハードウェアを搭載したとしても、高度な音声認識を行うためには、入力された音声データを一時記憶するための大容量のＲＡＭや、多様な言葉を判別するための膨大な音声パターンを記憶するためのＲＯＭなどが必要となる。したがって、携帯通信装置の大型化、コストアップ、および消費電力の増加といった問題が生じることになる。
【００１４】
また、ソフトウェアによって音声認識を行う構成の場合、音声認識率を高めるような新たな音声認識アルゴリズムが開発された際には、アップデートという形でソフトウェアの更新を行うことが可能である。しかしながら、上記のように音声認識用のハードウェアを搭載する場合には、携帯通信装置購入後の音声認識アルゴリズムの変更を行うことは困難であるといった問題もある。
【００１５】
なお、特許文献１および２に示されているような従来の携帯通信装置では、数秒程度の限定された言葉に関する音声認識を行う構成となっているが、このような簡易的な音声認識であっても、携帯通信装置にある程度の演算性能、およびＲＡＭやＲＯＭなどの記憶装置容量が必要とされる。すなわち、携帯通信装置内で音声認識を行う場合には、携帯通信装置の大型化、コストアップ、および消費電力の増加といった問題を避けることはできない。
【００１６】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、装置の大型化やコストアップ、消費電力の増加を伴うことなく、多様な言葉でも音声による文字入力が可能な通信端末、およびこの通信端末を実現するための音声認識処理装置を提供することにある。
【００１７】
【課題を解決するための手段】
本発明に係る通信端末は、上記の課題を解決するために、利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段と、当該通信端末の動作を制御する制御手段とを備えた通信端末において、上記制御手段が、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う外部の音声認識処理装置に送信するとともに、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させる制御を行う通信制御手段を有することを特徴としている。
【００１８】
また、本発明に係る通信端末の制御方法は、利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段とを備えた通信端末の制御方法において、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う音声認識処理装置に送信するステップと、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させるステップとを有することを特徴としている。
【００１９】
ここで、音声認識とは、音声データの意味する文字を認識し、該音声データに対応する文字のデータを生成する動作である。また、音声認識結果データとは、音声認識により生成されたデータである。
【００２０】
上記の構成および方法によれば、通信端末における音声による文字入力は、利用者によって入力された音声データを上記音声認識処理装置に送信し、該音声認識処理装置によって音声認識されて返信された音声認識結果データを受信することによって実現することができる。
【００２１】
このため、音声認識のためのハードウェアやメモリ等は、音声認識処理装置に搭載されればよく、通信端末に搭載する必要がない。また、上記の音声認識処理装置は携帯する必要がないため、大型化やコストアップ、消費電力に対する制限が比較的緩く、音声認識のための高性能な設備を搭載することができる。したがって、多様な言葉でも音声による文字入力が可能な通信端末を、装置の大型化やコストアップ、消費電力の増加などを伴うことなく提供することができる。
【００２２】
また、本発明に係る端末装置は、上記の構成において、文字を表示する表示手段と、利用者からの編集指示入力を受け付ける操作手段とをさらに備えるとともに、上記制御手段が、上記音声認識結果データを上記表示手段に表示させる表示制御手段と、上記操作手段によって受け付けられた編集指示入力に基づいて上記音声認識結果データを編集する編集処理手段とをさらに備えている構成としてもよい。
【００２３】
上記の構成によれば、音声認識結果データが表示制御手段によって表示手段に表示されるとともに、利用者は、この表示手段に表示された音声認識結果データに対して、操作手段によって編集処理を行うことが可能となっている。これにより、利用者は、音声認識結果の誤りの有無を確認し、誤りがある場合には文字の修正を行うことができる。
【００２４】
また、本発明に係る端末装置は、上記の構成において、上記制御手段が、上記音声入力手段によって取得された音声データを圧縮する処理を行う圧縮処理手段をさらに備え、上記圧縮処理手段によって圧縮処理された圧縮音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【００２５】
上記の構成によれば、音声入力手段によって取得された音声データは、圧縮処理が行われた上で音声認識処理装置に対して送信されるようになっている。したがって、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができる。
【００２６】
また、本発明に係る端末装置は、上記の構成において、上記制御手段が、上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出する有効データ抽出手段をさらに備え、上記有効データ抽出手段によって抽出された音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【００２７】
上記の構成によれば、有効データ抽出手段によって、音声認識に必要なデータのみが抽出された後に音声認識処理装置に送信するようになっている。したがって、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができる。
【００２８】
また、本発明に係る端末装置は、上記の構成において、上記通信制御手段が、上記音声認識結果データに対して上記編集処理手段によって編集処理された編集結果を、上記通信手段を介して上記音声認識処理装置に送信する制御を行う構成としてもよい。
【００２９】
上記の構成によれば、音声認識結果データに対して、利用者が修正を加えた場合、音声認識処理装置に修正結果を通知することができる。これにより、音声認識処理装置は利用者操作により修正されたデータを、次回以降の音声認識に反映させることが可能となる。
【００３０】
本発明に係る音声認識処理装置は、上記の課題を解決するために、データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置において、上記制御手段が、上記通信手段を介して、外部の通信端末から音声データを受信させるとともに、音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信する制御を行う通信制御手段と、上記通信制御手段から受け取った音声データに対して音声認識処理を施すことによって、これを文字データに変換した上記音声認識結果データを生成する音声認識手段とを有することを特徴としている。
【００３１】
また、本発明に係る音声認識処理装置の制御方法は、データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置の制御方法において、上記通信手段を介して、外部の通信端末から音声データを受信させるステップと、上記受信した音声データに対して音声認識処理を施すことによって、これを文字データに変換した音声認識結果データを生成するステップと、上記音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信するステップとを有することを特徴としている。
【００３２】
上記の構成および方法によれば、通信端末から送信された音声データを受信し、受信した音声データに対して音声認識手段によって音声認識処理が行われる。そして、この音声認識結果データが通信端末に送信される。これにより、通信端末では、音声認識のためのハードウェアやメモリ等を搭載することなく音声による文字入力を行うことが可能となる。
【００３３】
また、上記音声認識処理装置は携帯する必要がないため、大型化やコストアップ、消費電力に対する制限が比較的緩く、音声認識のための高性能な設備を搭載することができる。したがって、通信端末において、多様な文言の音声による文字入力を、通信端末の大型化やコストアップ、消費電力の増加を伴うことなく実現することが可能となる。さらに、音声認識に関するハードウェア、ソフトウェアの保守、バージョンアップ等を、通信端末側に何ら変更を加えることなく、音声認識処理装置側のみで行うことができる。
【００３４】
また、本発明に係る音声認識処理装置は、上記の構成において、上記音声認識手段が上記音声認識処理を行う際に必要とされるデータベースを記憶する記憶部をさらに備えている構成としてもよい。
【００３５】
上記の構成によれば、音声認識処理を行う際に必要とされるデータベースが記憶部に記憶されている。上記したように、音声認識処理装置は装置の大型化に対する制限が少ないので、比較的大容量の記憶部を備えることが可能となっている。したがって、音声認識処理のための大容量のデータベースを設けることが可能となるので、より多様な言葉の音声認識を行うことが可能となる。
【００３６】
また、本発明に係る音声認識処理装置は、上記の構成において、上記音声認識手段が、音声認識処理を行う際に、かな漢字変換処理も行う構成としてもよい。
【００３７】
上記の構成によれば、音声認識結果データは、かな漢字変換処理まで行われたデータとなるので、これを受信した通信端末側では、かな漢字変換処理を行う必要がなく、誤りがある場合にのみ適宜修正を行えばよいことになる。よって、通信端末側での利用者の操作を簡素化することができる。
【００３８】
また、本発明に係る音声認識処理装置は、上記の構成において、上記制御手段が、上記通信端末から、該通信端末に対して送信した音声認識結果データに対する修正データを受信した際に、該修正データに基づいて上記記憶部におけるデータベースを更新するデータベース更新処理手段をさらに有している構成としてもよい。
【００３９】
上記の構成によれば、音声認識処理装置が作成した音声認識結果データに対して、利用者が修正を加えた場合、その修正結果を通信端末から受信し、修正結果に基づいて音声認識処理に利用しているデータベースを更新することができる。これにより、利用者操作により修正されたデータを、次回以降の音声認識処理に反映されることができる。したがって、音声認識処理を行う毎に、音声認識の精度を向上させることができる。ここで、上記データベースには、音声認識を行う際の音声パターンを記憶する音声認識用データベース、および／または、かな漢字変換処理において用いられる変換辞書としてのかな漢字変換用データベースなどが含まれる。
【００４０】
また、本発明に係る通信端末制御プログラムは、通信端末の制御手段が備える各手段をコンピュータに実現させることを特徴としている。
【００４１】
上記プログラムをコンピュータシステムにロードすることによって、上記通信端末を実現することが可能となる。
【００４２】
また、本発明に係る音声認識処理装置制御プログラムは、音声認識処理装置の制御手段が備える各手段をコンピュータに実現させることを特徴としている。
【００４３】
上記プログラムをコンピュータシステムにロードすることによって、上記音声認識処理装置を実現することが可能となる。
【００４４】
【発明の実施の形態】
〔実施の形態１〕
本発明の音声認識システムに関する実施の一形態について図面に基づいて説明すれば以下のとおりである。
【００４５】
（システム構成）
本実施形態に係る音声認識システムの構成の概要を、図２に示す。同図に示すように、この音声認識システムは、携帯電話機（通信端末）１０と音声認識処理を行うサーバ（音声認識処理装置）２０とから構成されている。携帯電話機１０とサーバ２０とは、携帯電話通信事業者による携帯電話網５１、および、インターネット５２を介して接続されており、両者の間でデータ通信を行うことが可能となっている。携帯電話機１０としては、通常の通話機能に加えて、インターネットを介してのデータ通信機能を有するものが用いられる。
【００４６】
なお、本実施形態では、携帯電話機１０とサーバ２０とは、携帯電話通信事業者による携帯電話網５１、および、インターネット５２を介して接続されるシステムとなっているが、これに限定されるものではなく、携帯電話機１０とサーバ２０との間で信号の送受信が可能な通信経路が設けられていればよい。例えば、インターネット５２の代わりに、専用通信回線を用いた構成であってもよいし、携帯電話網５１から直接サーバ２０に接続される構成であってもよい。
【００４７】
以上のような音声認識システムにおける音声認識処理の概要は次のようになる。まず、利用者によって携帯電話機１０に対して音声認識対象としての音声が入力される。この音声データが携帯電話網５１および／またはインターネット５２を介してサーバ２０に送信される。サーバ２０は、受信した音声データに対して音声認識処理、すなわち、音声を文字に変換する処理を行い、変換結果データを携帯電話機１０に送信する。
【００４８】
（携帯電話機の構成）
図１は、上記携帯電話機１０の概略構成を示すブロック図である。同図に示すように、携帯電話機１０は、筐体内に、制御部（制御手段）１、操作部（操作手段）１１、マイク（音声入力手段）１２、Ａ／Ｄ変換部１３、ＲＦ通信部（通信手段）１４、表示部（表示手段）１５、ＲＡＭ１６、ＲＯＭ１７、制御部１スピーカー１８、およびＤ／Ａ変換部１９を備えた構成となっている。
【００４９】
操作部１１は、利用者からの操作入力を受け付ける手段であり、例えばボタンやジョグダイヤルなどによって構成される。この操作部１１は、文字、記号、番号等の入力や、各種データの送受信、記録、および削除等に関する利用者からの指示を受け付け、制御部１に伝達する。利用者は、操作部１１の各キーを押すことにより、制御部１に対して各種の動作指示を与えることができる。さらに、操作部１１は、利用者から、音声認識による文字入力を行う旨の指示を受け付け、制御部１に伝達する機能を有している。
【００５０】
マイク１２は、利用者の声を音声入力として取得し、電気信号（アナログ信号）に変換する音声入力手段である。このマイク１２で取得された音声の電気信号は、Ａ／Ｄ変換部１３に送られる。
【００５１】
Ａ／Ｄ変換部１３は、マイク１２から送られた音声信号を、アナログ信号からデジタル信号に変換するものである。変換されたデジタル信号は、制御部１に送られる。
【００５２】
ＲＦ通信部１４は、携帯電話機１０における通話機能および通信機能を実行するものであり、アンテナ部およびＲＦ処理部などによって構成されるものである。このＲＦ通信部１４によって、携帯電話通信事業者の基地局との間での無線通信・無線通話が行われる。すなわち、ＲＦ通信部１４は、制御部１から送られてきた通話信号や通信信号などのデジタルデータを無線信号に変換し、上記基地局に送信する。また、通信部１４は、上記基地局からの無線信号を受信して制御部１に伝達する機能を有している。
【００５３】
Ｄ／Ａ変換部１９は、ＲＦ通信部１４において、通話信号を受信した際に、制御部１を介して入力されるデジタル通話信号をアナログ信号に変換するものである。変換されたアナログ信号はスピーカー１８に送られる。
【００５４】
スピーカー１８は、Ｄ／Ａ変換部１９から送られてきたアナログ信号を音声に変換して出力するものである。
【００５５】
表示部１５は、文字、画像等の各種情報を表示する表示パネルによって構成される。この表示部１５は、液晶表示パネルや有機ＥＬパネルなどのフラットパネルディスプレイなどによって構成される。
【００５６】
ＲＯＭ（Read Only Memory）１７は、制御部１が行う各機能を実現する各種プログラムや各種データを記憶するための記憶手段である。このＲＯＭ１７は、書き換え不可能なＲＯＭによって構成されていてもよいし、例えばＥＥＰＲＯＭ(Electrically Erasable/Programmable ROM)などによって構成されていてもよい。なお、ＲＯＭ１７として、その他の不揮発性記憶手段（例えば不揮発性のＲＡＭなど）を用いても構わない。
【００５７】
ＲＡＭ（Random Access Memory）１６は、制御部１によって使用される一次記憶部である。このＲＡＭ１６には、Ａ／Ｄ変換部１３でデジタル信号に変換された音声データ、および音声認識後のテキスト変換データ等が一時的に記憶される。ここで、テキスト変換データとは、音声認識により、音声データに対応して作成された文字に関するデータである。また、制御部１は、ＲＯＭ１７内のプログラムを使用する際に、これを作業メモリとしてのＲＡＭ１６に読み込ませることによって該プログラムを実行するようになっている。
【００５８】
制御部１は、携帯電話機１０の全動作を制御する中枢部である。図１に示すように、制御部１は、通信制御部（通信制御手段）２、圧縮処理部（圧縮処理手段）３、編集処理部（編集処理手段）４、アプリケーション処理部５、および表示制御部（表示制御手段）６を備えた構成となっている。
【００５９】
通信制御部２は、ＲＦ通信部１４を介しての通話処理および通信処理を制御するものである。通話処理時には、通信制御部２は、マイク１２およびＡ／Ｄ変換部１３を介して入力されるデジタル送信音声信号をＲＦ通信部１４に伝送するとともに、ＲＦ通信部１４から入力されるデジタル受信音声信号をＤ／Ａ変換部１９に伝送する。通信処理時、すなわち、データの送受信が行われる際には、通信制御部２は、圧縮処理部３から入力される送信データを通信に適した形式にエンコードしてＲＦ通信部１４に伝送するとともに、ＲＦ通信部１４から入力される受信データをデコードして編集処理部４に伝送する。
【００６０】
圧縮処理部３は、Ａ／Ｄ変換部１３から入力される音声認識用のデジタル音声信号に対してのデータ圧縮処理を行うものである。ここで圧縮処理された圧縮音声データは通信制御部２およびＲＦ通信部１４を介してサーバ２０に送信される。なお、サーバ２０から受信する音声認識結果データは、基本的にテキストデータであるので、データサイズは比較的小さいものである。よって、基本的には音声認識結果データに対しては圧縮処理はされていない。しかしながら、場合によっては、音声認識結果データが圧縮処理された状態でサーバ２０から送信されることも考えられるので、この場合には、受信した圧縮データを解凍処理する構成が設けられていてもよい。
【００６１】
編集処理部４は、サーバ２０から受信した音声認識結果データに対して、利用者が認識結果を修正する際の処理を行うものである。この編集処理部４は、通信制御部２から音声認識結果データを受信し、操作部１１から利用者による指示入力を受信し、修正データをアプリケーション処理部５に送信し、変換結果データおよび修正データを表示制御部６に送信する。
【００６２】
アプリケーション処理部５は、各種アプリケーションプログラムを実行するものである。このアプリケーションプログラムとしては、例えばメール作成プログラム、アドレス管理プログラム、およびメモ帳プログラムなどの文書作成に関わるプログラムが挙げられる。
【００６３】
表示制御部６は、表示部１５における表示を制御するものであり、編集処理部４およびアプリケーション処理部５からの出力に応じた表示制御を行う。なお、この表示制御部６は、その他通常の携帯電話機において行われる各種表示の制御も行う。
【００６４】
以上のような構成の制御部１は、例えばＣＰＵ(Central Processing Unit)が、制御部１に含まれている各機能ブロックを実現するためのプログラムを実行することによって実現される。上記のプログラムとは、処理を実現するソフトウェアのプログラムコード（実行形式プログラム，中間コードプログラム，ソースプログラム等）のことである。このプログラムは、単体で使用されるものでも、他のプログラム（ＯＳ等）と組み合わせて用いられるものでもよい。
【００６５】
また、上記の構成では、上記プログラムはＲＯＭ１７に記憶されており、このＲＯＭ１７から読み出されて実行されるようになっているがこれに限定されるものではない。プログラムが記録される記録媒体としては、例えば携帯電話機１０と容易に分離できるものでもよいし、携帯電話機１０に固定的に装着されるものでもよい。さらに、外部記憶機器として装置に接続するものでもよい。
【００６６】
また、通信ネットワーク（ＬＡＮ、インターネット等）を介して携帯電話機１０と接続される記録媒体を用いてもよい。この場合、携帯電話機１０は、該記録媒体からネットワークを介してダウンロードすることによってプログラムを取得する。すなわち、上記のプログラムが、ネットワーク（有線回線あるいは無線回線に接続されたもの）等の伝送媒体（流動的にプログラムを保持する媒体）を介して取得されるようになっていてもよい。
【００６７】
（サーバの構成）
図４は、本実施の形態に係る音声認識処理装置として機能するサーバ２０の概略構成を示すブロック図である。同図に示すように、サーバ２０は、通信Ｉ／Ｆ（通信手段）２１、制御部（制御手段）２２、記憶部２３、ＲＡＭ２４、操作部２５、および表示部２６を備えた構成となっている。
【００６８】
通信Ｉ／Ｆ２１は、サーバ２０における通信インターフェースとして機能するものである。この通信部Ｉ／Ｆ２１によって、インターネット５２または携帯電話網５１を介しての携帯電話機１０とのデータ通信が行われる。
【００６９】
操作部２５は、サーバ２０を保守・管理する際に、サーバ２０の管理者が入力指示を行うためのものである。この操作部２５は、例えばキーボードや、マウスなどのポインティングデバイスなどによって構成される。表示部２６は、サーバ２０を保守・管理する際に、サーバ２０の管理者が、サーバ２０における処理状況を把握するために用いられる表示手段である。この表示部２６は、例えばＣＲＴ(Cathode Ray Tube)や、液晶表示装置などのフラットディスプレイなどによって構成される。
【００７０】
制御部２２は、サーバ２０の全動作を制御する中枢部であり、通信制御部（通信制御手段）２７、解凍処理部２８、および音声認識部（音声認識手段）２９を備えた構成となっている。通信制御部２７は、通信Ｉ／Ｆ２１におけるデータ送受信を制御するものであり、送受信されるデータのプロトコル変換などを行うものである。
【００７１】
解凍処理部２８は、通信制御部２７から入力される受信データの解凍処理を行うものである。ここで解凍処理された音声データは、音声認識部２９に送信される。なお、上記したように、音声認識結果データのサイズは比較的小さいものであるので、基本的には音声認識結果データを携帯電話機１０に送信する際には圧縮処理をする必要はない。しかしながら、場合によっては、音声認識結果データを圧縮処理して携帯電話機１０に送信する構成としてもよい。
【００７２】
音声認識部２９は、携帯電話機１０から送られてきた音声データに対して音声認識処理を施すことによって、これを文字データに変換する処理を行うものである。音声認識処理時には、記憶部２３に記憶されている音声認識用データベース２３ａが参照される。また、音声認識部２９は、文字データに変換する際に、記憶部２３に記憶されているかな漢字変換用データベース２３ｂを参照しながら、日本語におけるかな漢字変換処理も行うようになっている。
【００７３】
記憶部２３は、制御部２２によって用いられる各種データ、プログラムなどを記憶するものであり、例えばハードディスクなどによって構成される。この記憶部２３には、音声認識処理を行う際に用いられる音声認識用データベース（データベース）２３ａおよびかな漢字変換処理の際に用いられるかな漢字版権用データベース（データベース）２３ｂが記憶されている。また、記憶部２３には、制御部２２における各機能を実現するためのプログラムや、ＯＳ(Operation System)プログラムなどが記憶されている。
【００７４】
ＲＡＭ２４は、制御部２２によって使用される一次記憶部である。このＲＡＭ２４には、通信Ｉ／Ｆ２１を介して送受信されるデータ、解凍処理部２８において解凍処理が行われる対象としてのデータ、音声認識部２９によって音声認識処理される対象としてのデータ等が一時的に記憶される。また、制御部２２は、制御部２２内の各機能ブロックを機能させる際に、記憶部２３から該当プログラムを作業メモリとしてのＲＡＭ２４に読み込ませることによって該プログラムを実行するようになっている。
【００７５】
以上のような構成の制御部１は、例えばＣＰＵ(Central Processing Unit)が、制御部２２に含まれている各機能ブロックを実現するためのプログラムを実行することによって実現される。上記のプログラムとは、処理を実現するソフトウェアのプログラムコード（実行形式プログラム，中間コードプログラム，ソースプログラム等）のことである。このプログラムは、単体で使用されるものでも、他のプログラム（ＯＳ等）と組み合わせて用いられるものでもよい。
【００７６】
また、上記の構成では、上記プログラムは記憶部２３に記憶されており、この記憶部２３から読み出されて実行されるようになっているがこれに限定されるものではない。プログラムが記録される記録媒体としては、例えばサーバ２０と容易に分離できるものでもよいし、サーバ２０に固定的に装着されるものでもよい。さらに、外部記憶機器として装置に接続するものでもよい。
【００７７】
また、通信ネットワーク（ＬＡＮ、インターネット等）を介してサーバ２０と接続される記録媒体を用いてもよい。この場合、サーバ２０は、該記録媒体からネットワークを介してダウンロードすることによってプログラムを取得する。すなわち、上記のプログラムが、ネットワーク（有線回線あるいは無線回線に接続されたもの）等の伝送媒体（流動的にプログラムを保持する媒体）を介して取得されるようになっていてもよい。
【００７８】
（処理の流れ）
次に、上記のような音声認識システムにおける処理の流れについて、図４および図５を用いて説明する。
【００７９】
（携帯電話機における処理の流れ）
まず、携帯電話機１０における処理の流れについて図４に示すフローチャートを参照しながら以下に説明する。
【００８０】
まず、操作部１１が、利用者からの音声認識処理の開始指示を受け付け、制御部１に伝えることにより動作が開始する（音声認識モードに入る）。
【００８１】
通信制御部２は、ＲＦ通信部１４を介して、サーバ２０に対して音声認識の準備指示を送信する（ステップ１、以降、Ｓ１のように称する）。ここで、上記の音声認識の準備指示には、音声認識処理を開始する旨と、携帯電話機１０の識別情報とが含まれている。そして、携帯電話機１０から送信された音声認識の準備指示は、携帯電話網５１を少なくとも経由してサーバ２０に送られる。
【００８２】
次に、通信制御部２は、サーバ２０による音声認識後のデータ（音声変換後のデータ）を、いつでも受信できるように受信準備を行う（Ｓ２）。すなわち、文字入力を行うアプリケーションソフトの起動や、音声認識処理に必要な記憶領域の確保などを行い、サーバ２０から送信されてくる音声認識結果データをいつでも受信できる状態にする。
【００８３】
その後、利用者は、マイク１２に向かって音声認識させたい文言を発声する。マイク１２によって取り込まれた音声信号は、Ａ／Ｄ変換部１３に伝送され、逐次デジタルデータとしての音声データに変換される（Ｓ３）。この音声データは、圧縮処理部３に伝送され、圧縮処理が行われる（Ｓ４）。ここでの圧縮処理における圧縮アルゴリズムは特に限定されるものではなく、可逆圧縮でもよいし、不可逆圧縮でもよい。不可逆圧縮の場合、サーバ２０において解凍された際の音声データが、音声認識処理を行うことが可能な程度の劣化度合いであればよい。圧縮処理された圧縮音声データは、ＲＡＭ１６に一時記憶される。
【００８４】
次に、通信制御部２は、ＲＡＭ１６に一時記憶されている圧縮音声データを順次読み出し、通信に適した形式にエンコードし、一定時間毎にＲＦ通信部１４を介してサーバ２０に送信する（Ｓ５）。そして、ＲＡＭ１６に一時記憶されている未送信の圧縮音声データが無くなるまで、Ｓ５の処理を継続する（Ｓ６）。
【００８５】
そして、通信制御部２は、利用者からの音声入力終了操作を待機しており、音声入力終了操作が行われるまで、Ｓ３からＳ５までの処理を繰り返す（Ｓ７）。
【００８６】
一方、Ｓ５でサーバ２０に圧縮音声データを送信した後、サーバ２０側では携帯電話機１０から送信された音声データに基づいて音声認識がなされ、音声認識結果データが、携帯電話機１０に返信される。その後、携帯電話機１０は、サーバ２０から返信された音声認識結果データをＲＦ通信部１４で受信する（Ｓ８）。なお、サーバ２０での音声認識処理については、後で詳述する。
【００８７】
ＲＦ通信部１４によって受信された音声認識結果データは、ＲＡＭ１６に一時記憶される（Ｓ９）。そして、ＲＡＭ１６に一時記憶された音声認識結果データによる文字列が、体裁が整えられて表示部１５に順次表示され（Ｓ１０）、利用者に音声認識処理の結果が通知される。
【００８８】
この際に、編集処理部２９は、利用者による操作部１１に対しての修正指示を待機する（Ｓ１１）。すなわち、利用者は、サーバ２０から送られてきた音声認識結果データにおいて、間違って認識されている文字に関して、操作部１１を介して修正を行うことが可能となっている。そして、編集処理部２９は、利用者の修正指示入力を受け付けた場合に、その指示に応じて文字を修正する（Ｓ１２）。Ｓ１１およびＳ１２の処理は、利用者が修正を完了するまで繰り返される。修正の完了は、利用者によって確定指示が行われるなどによって検出される。
【００８９】
その後、Ｓ７における音声入力終了操作がなされていない場合（Ｓ１３においてＮＯ）には、Ｓ８に戻ってサーバ２０から送信される音声認識結果データの受信を継続する。一方、音声入力終了操作がなされている場合（Ｓ１３においてＹＥＳ）には、利用者によって音声入力された全ての音声データに対する音声認識結果データをサーバ２０から受信したかが確認される（Ｓ１４）。そして、未受信の音声認識結果データがある場合には、Ｓ８以降の動作を継続する。また、全ての音声認識結果データを受信している場合には、音声認識処理の終了指示をサーバ２０に送信（Ｓ１５）して、サーバ２０を開放し、音声認識処理の動作を終了する。
【００９０】
（サーバにおける処理の流れ）
次に、サーバ２０における処理の流れについて図５に示すフローチャートを参照しながら以下に説明する。
【００９１】
まず、通信制御部２７が、通信Ｉ／Ｆ２１を介して携帯電話機１０から送信された音声認識の準備指示を受信することにより動作が開始する。そして、通信制御部２７は、音声認識の準備指示に含まれている携帯電話機１０の識別情報を抽出し、該携帯電話機１０が音声認識処理サービスに対応しているものであるか否かを確認する（Ｓ２１）。音声認識処理サービスに対応している携帯電話機とは、利用者によって音声認識処理サービスの申し込みが行われている携帯電話機である。ここで、携帯電話機１０が音声認識処理サービスに対応していないものである場合（Ｓ２１においてＮＯ）には、通信制御部２７は、その旨を携帯電話機１０に返信し（Ｓ２２）、処理を終了する。
【００９２】
一方、携帯電話機１０が音声認識処理サービスに対応しているものである場合（Ｓ２１においてＹＥＳ）には、通信制御部２７は、音声認識の準備を行い、音声データを受信可能な状態へ移行させる。
【００９３】
次に、通信制御部２７が、通信Ｉ／Ｆ２１を介して携帯電話機１０から送信された圧縮音声データを受信すると（Ｓ２４）、これを解凍処理部２８に送信し、解凍処理部２８において解凍処理が行われ、音声データが復元される（Ｓ２５）。
【００９４】
その後、復元された音声データは、音声認識部２９に送られ、音声認識処理が行われる。すなわち、音声認識部２９は、記憶部２３に記憶されている音声認識用データベース３３ａを用いて、音声認識アルゴリズムによって受信した音声データをテキストデータに変換する処理を行う。なお、この音声認識処理においては、かな漢字変換用データベース２３ｂが参照されることによってかな漢字変換処理も行われ、これによって音声認識結果データが生成される。
【００９５】
音声認識部２２で作成された音声認識結果データは、ＲＡＭ２４に一時記憶される（Ｓ２７）。そして、通信制御部２７は、ＲＡＭ２４に一時記憶されている音声認識結果データを、携帯電話機１０に送信する（Ｓ２８）。なお、本実施の形態では、音声認識結果データの携帯電話機１０への送信は、携帯電話機１０から一定時間毎に受信した音声データ毎に行うものとしている。
【００９６】
また、通信制御部２７は、携帯電話機１０からの音声認識の終了指示を待機しており（Ｓ２９）、音声認識の終了指示があるまでＳ２４以降の動作を繰り返す。なお、音声認識の終了指示があった場合には、動作を終了する。
【００９７】
（上記音声認識システムによる効果）
以上のように、本実施の形態に係る音声認識システムは、データ通信が可能な携帯電話機１０と、音声認識処理を行うサーバ２０とが接続されることにより構成されている。これにより、携帯電話機１０は、入力された音声データをサーバ２０に送信し、サーバ２０によって音声認識された音声認識結果データを受信することにより、音声による文字入力を行うことができる。すなわち、携帯電話機１０では、サーバ２０から送られてきた音声認識結果データにおける認識誤りや変換誤りを修正するのみでよいことになる。
【００９８】
したがって、音声認識を行うために必要とされるハードウェアの処理能力はすべてサーバ２０側に搭載すればよく、携帯電話機１０では、高性能のＣＰＵおよび大容量のメモリや、新たに音声認識専用のハードウェアなどを搭載することなく、高度な音声認識処理を実現できる。このため、携帯電話機１０の小型化、低価格化、消費電力の減少による利用可能時間の増加といった性能を向上させることが可能となる。すなわち、長い文章でも音声による文字入力が可能な携帯電話機１０を、装置の大型化やコストアップ、消費電力の増加を伴うことなく提供することができる。
【００９９】
また、音声認識処理はサーバ２０側で行うため、高性能な音声認識処理を行うことが可能である。さらに、例えば、新しい高認識率の音声認識処理装置が実用化された場合でも、携帯電話機１０側の機能変更を行うことなしに、サーバ側のみで音声認識アルゴリズムのバージョンアップ等を容易に行うことが可能である。このため、携帯電話機１０は利用者が現在使用している機器を変更することなく、そのままの機器で最新の音声認識処理を利用することが可能となる。
【０１００】
（上記音声認識システムの変形例）
なお、上記音声認識システムでは、携帯電話機１０がＳ１で送信した音声認識の準備指示を、サーバ２０が受信することにより、サーバ２０の動作を開始するように設定されているが、この構成に限るものではない。例えば、Ｓ５の処理で携帯電話機１０から送信された音声データを、サーバ２０が受信することにより動作が開始される形態であってもよい。
【０１０１】
また、携帯電話機１０では、音声データを一定時間毎にサーバ２０に送信するようになっているが、これに限るものではない。例えば、一定のデータ容量毎に送信してもよい。また、サーバ２０から携帯電話機１０への音声認識結果データの送信は、携帯電話機１０から一定時間毎に送信された音声データ毎行うとしているが、これに限るものではない。例えば、一定のデータ容量毎に返信するようにしてもよい。
【０１０２】
また、本実施の形態では、Ｓ１５で音声認識処理の終了をサーバ２０に伝え、サーバ２０を開放しているが、これに限るものではない。例えば、Ｓ７の音声入力終了指示があった後、音声データを全てサーバ２０に送信した時に送信の終了がサーバ２０に通知されるようにしてもよい。この場合には、サーバ２０に送信された音声データの音声認識処理が全て終了した時点でサーバ２０が開放される構成とすることができる。あるいは、サーバ２０が受信した音声データの音声認識結果データの返信が終了しており、一定時間以上、携帯電話機１０から新たな音声データが送信されなかったときにサーバ２０の音声認識処理が終了されるようにしてもよい。
【０１０３】
また、携帯電話機１０とサーバ２０との通信手段は、従来の携帯電話で用いられている通信プロトコルのほか、無線ＬＡＮ、ｂｌｕｅｔｏｏｔｈ、ＩｒＤＡ（赤外線）等、多様な無線通信手段を利用することが可能である。このため、利用者は携帯機器とそのときの通信環境に応じて自由に変更が可能なため、通信費を安く抑えることが可能となる。また、場合によっては、携帯電話機１０とサーバ２０との通信手段を例えばＬＡＮなどの有線による通信手段によって接続する構成としてもかまわない。
【０１０４】
また、本実施形態では、利用者による音声が入力され、サーバ２０から音声認識結果データを受信する構成として携帯電話機１０が用いられているが、これに限定されるものではない。すなわち、文字入力機能を有し、音声認識機能を有するサーバとの通信が可能な機器、例えばＰＤＡ(Personal Digital Assistants)機器などを携帯電話機１０の代わりに用いてもよい。
【０１０５】
〔実施の形態２〕
本発明の音声認識システムに関する他の実施形態について、図６および図８に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施の形態１にて説明した構成と同じ機能を有する構成については、同じ符号を付記し、その説明を省略する。
【０１０６】
本実施の形態に係る携帯電話機１０は、実施の形態１における携帯電話機１０の構成に加えて、制御部１に、さらに有効データ抽出部３１を備えた構成となっている。この構成によって、入力された音声データを録音し、音声認識処理に必要なデータのみを抽出して送信する機能を有することになる。また、本実施の形態におけるサーバ２０は、実施の形態１におけるサーバ２０と同じ装置構成および機能を有するものである。
【０１０７】
（携帯電話機の構成）
本実施形態に係る携帯電話機１０の概略構成を図８に示す。有効データ抽出部３１は、Ａ／Ｄ変換部１３から送られてきたデジタル音声データの中から、音声認識が必要とされる部分のみを有効音声データとして抽出する機能を有するものである。ここで、有効音声データとは、音声認識処理が必要とされるデータのことであり、例えば音声入力時の空白部分などが削除されたものである。その他の構成については、実施の形態１で図１で示した構成と同様であるので、ここではその説明を省略する。
【０１０８】
（携帯電話機における処理の流れ）
以下に、本実施の形態における携帯電話機１０の処理の流れについて図６に示すフローチャートを参照しながら説明する。
【０１０９】
まず、操作部１１が、利用者からの音声認識処理の開始指示を受け付け、制御部１に伝えることにより動作が開始する（音声認識モードに入る）。
【０１１０】
次に、利用者は、音声認識させたい文言を発声し、これがマイク１２によって取り込まれる（Ｓ２０１）。マイク１２から取り込まれた音声信号は、Ａ／Ｄ変換部１３で逐次デジタルデータに変換され、ＲＡＭ１６に一時記憶される（Ｓ２０２）。そして、通信制御部２は、利用者からの音声入力終了操作を待機しており、音声入力終了操作が行われるまで、Ｓ２０１およびＳ２０２の処理が繰り返される（Ｓ２０３）。すなわち、Ｓ２０１およびＳ２０２における処理は、利用者による音声の録音が行われていることになる。その後、利用者は、文字入力すべき文言の音声を録音し終えたと判断した場合には、操作部１１に対して音声入力終了操作を行う。
【０１１１】
音声入力終了操作がなされると、有効データ抽出部３１は、ＲＡＭ１６に一時記憶されている音声データを読み込み、該音声データの中から有効な部分の音声データのみを抽出する（Ｓ２０４）。そして、有効データ抽出部３１によって抽出された有効音声データは、圧縮処理部３において圧縮処理される。その後、通信制御部２は、圧縮音声データを通信に適した形式にエンコードし、ＲＦ通信部１４を介してサーバ２０に送信する（Ｓ２０５）。
【０１１２】
送信されたデータは、サーバ２０によって、実施の形態１の場合と同様に、音声認識されてテキスト変換データに変換され、携帯電話機１０に返信される。なお、本実施の形態におけるサーバ２０の動作は、実施の形態１における音声データの受信（図５のＳ２４）以降の動作と同様であるので、ここでは説明を省略する。
【０１１３】
サーバ２０から送信されてきた音声認識結果データは、携帯電話機１０のＲＦ通信部１４で受信される（Ｓ２０６）。その後、この音声認識結果データは、ＲＡＭ１６に一時記憶される（Ｓ２０７）。そして、ＲＡＭ１６に一時記憶された音声認識結果データによる文字列が、体裁が整えられて表示部１５に順次表示され（Ｓ２０８）、利用者に音声認識処理の結果が通知される。
【０１１４】
また、音声認識結果データが、アプリケーション処理部５に伝送され、アプリケーション処理部５において、利用者によって指示されたアプリケーションプログラムが、音声認識結果データに基づく文字列が利用された状態で実行される（Ｓ２０９）。なお、このアプリケーションプログラムは、文字入力を利用する機能を有するプログラムであればどのようなプログラムであってもよい。
【０１１５】
その後、通信制御部２は、音声認識処理を継続するか否かについて、利用者の指示を待機する（Ｓ２１０）。すなわち、音声認識処理を再度行うか否かの入力待ちであることを表示部１５に表示させ、操作部１５に対する利用者の指示を待つ。
【０１１６】
そして、引き続き音声認識処理を行う場合は(Ｓ２０１)に戻り、再度音声入力から開始する。また音声認識処理を再度行わない場合は、音声認識処理の動作を終了させる。
【０１１７】
（上記音声認識システムによる効果）
以上のように、本実施の形態における携帯電話機１０は、音声入力されたデータを録音し、有効なデータのみを抽出した後に、サーバ２０に送信する。そして、サーバ２０で音声認識が行われた後に返信された音声認識結果データを受信することにより、音声による文字入力が実現される。
【０１１８】
これにより、本実施の形態における携帯電話機１０は、音声認識処理を必要とする音声データのみを送信して音声認識処理を行うことが可能となる。すなわち、必要なときのみデータを送受信させることにより、送信データをまとめて最短時間で送信させることが可能となる。
【０１１９】
したがって、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となるため、データ送信量または通信時間に応じて通信費用がかかる場合、利用者の通信費用を安く抑えることができる。また、サーバ２０が処理するデータ量を少なくできることから、サーバ２０側の負荷を抑えることが可能となるため、サーバ２０側の費用（運用費用および設備費用）を安く抑えることが可能となる。したがって、音声認識システム全体の運用費用および設備費用（サービス全体の費用）のコストダウンを図ることができる。
【０１２０】
〔実施の形態３〕
本発明の音声認識システムに関する他の実施形態について、図７に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施の形態１および２にて説明した構成と同じ機能を有する構成については、同じ符号を付記し、その説明を省略する。
【０１２１】
本実施の形態に係る携帯電話機１０は、実施の形態２において図８で示した携帯電話機１０と同じ構成となっているが、サーバ２０から音声認識結果データを受信した後、利用者が文字の修正を行った場合、修正データをサーバ２０に送信する機能を備えている点が実施の形態２と異なっている。
【０１２２】
また、本実施の形態に係るサーバ２０は、実施の形態１または２におけるサーバ２０の構成に加えて、制御部２２に、さらにデータベース更新処理部３２を備えた構成となっている。この構成によって、携帯電話機１０から上記の修正データを受信した場合に、記憶部２３におけるかな漢字変換用データベース２３ｂの内容、すなわち、変換辞書を更新させる機能、および、音声認識用データベース２３ａの内容を更新させる機能を有することになる。
【０１２３】
（サーバの構成）
本実施形態に係るサーバ２０の概略構成を図９に示す。データベース更新処理部３２は、携帯電話機１０から通信Ｉ／Ｆ２１を介して上記の修正データを受信した際に、通信制御部２７から該修正データを受信する。そして、この修正データを解析することによって、記憶部２３におけるかな漢字変換用データベース２３ｂの変換辞書を改訂する処理、および、音声認識用データベース２３ａの内容を更新させる処理を行う。その他の構成については、実施の形態１で図３で示した構成と同様であるので、ここではその説明を省略する。
【０１２４】
（携帯電話機およびサーバにおける処理の流れ）
以下に、携帯電話機１０およびサーバ２０における処理の流れについて図７に示すフローチャートを参照しながら説明する。
【０１２５】
まず、携帯電話機１０において、操作部１１が、利用者からの音声認識処理の開始指示を受け付け、制御部１に伝えることにより動作が開始する（音声認識モードに入る）。
【０１２６】
その後、携帯電話機１０において、利用者による音声の入力処理、有効データの抽出処理、およびサーバ２０への送信処理が行われる（Ｓ３０１）。なお、このＳ３０１における処理は、実施の形態２において、図６に示すフローチャートのＳ２０１からＳ２０５までの処理と同様であるので、詳細な説明は省略する。
【０１２７】
サーバ２０は、携帯電話機１０から圧縮音声データを受信すると、音声認識処理、および音声認識結果データの携帯電話機１０への送信処理を行う（Ｓ３０２）。なお、このＳ３０２における処理は、実施の形態１における音声データの受信（図５のＳ２４）以降の動作と同様であるので、ここでは説明を省略する。
【０１２８】
サーバ２０から送信されてきた音声認識結果データは、携帯電話機１０のＲＦ通信部１４で受信される（Ｓ３０３）。その後、この音声認識結果データは、ＲＡＭ１６に一時記憶される（Ｓ３０４）。そして、ＲＡＭ１６に一時記憶された音声認識結果データによる文字列が、体裁が整えられて表示部１５に順次表示され（Ｓ３０５）、利用者に音声認識処理の結果が通知される。
【０１２９】
この際に、編集処理部２９は、利用者による操作部１１に対しての修正指示を待機する（Ｓ３０６）。すなわち、利用者は、サーバ２０から送られてきた音声認識結果データにおいて、間違って認識されている文字に関して、操作部１１を介して修正を行うことが可能となっている。そして、編集処理部２９は、利用者の修正指示入力を受け付けた場合に、その指示に応じて文字を修正する（Ｓ３０７）。Ｓ３０６およびＳ３０７の処理は、利用者が修正を完了するまで繰り返される。修正の完了は、利用者によって確定指示が行われるなどによって検出される。
【０１３０】
そして、確定した文字列が、アプリケーション処理部５に伝送され、アプリケーション処理部５において、利用者によって指示されたアプリケーションプログラムが、音声認識結果データに基づく文字列が利用された状態で実行される（Ｓ３０８）。その後、確定前に利用者操作により修正処理が行われている場合（Ｓ３０９においてＹＥＳ）は、修正データをサーバ２０に送信する（Ｓ３１０）。修正処理が行われていない場合には、Ｓ３１０をスキップしてＳ３１１の処理が行われる。
【０１３１】
サーバ２０は、送信された修正データを通信Ｉ／Ｆ２１を介して受信すると、（Ｓ３１２）、受信した修正データが、通信制御部２７を介してデータベース更新処理部３２に送られる。そして、データベース更新処理部３２が、修正データを解析し、この解析結果に基づいてかな漢字変換データベース２３ｂの変換辞書が更新され、また、音声認識用データベース２３ａの内容が更新される（Ｓ３１３）。
【０１３２】
一方、携帯電話機１０の通信制御部２は、修正データをサーバ２０に送付した後、音声認識処理を継続するか否かについて、利用者の指示を待機する（Ｓ３１１）。そして、引き続き音声認識処理を行う場合は(Ｓ３０１)に戻り、再度音声入力から開始する。また音声認識処理を再度行わない場合は、音声認識処理の動作を終了させる。
【０１３３】
（上記音声認識システムによる効果）
以上のように、本実施の形態に係る音声認識システムは、サーバ２０で作成された音声認識結果データに対して利用者が修正を加えた場合、かな漢字変換データベース２３ｂの変換辞書を更新する。
【０１３４】
これにより、利用者操作により修正されたデータを、次回以降の音声認識処理に反映されることができる。すなわち、音声認識後の音声認識結果データに対して利用者が行った修正の内容をサーバ２０にフィードバックさせることにより、音声認識処理を使用する毎に、音声認識および日本語変換（文字変換処理）の精度を向上させることができる。
【０１３５】
本発明は上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【０１３６】
【発明の効果】
本発明に係る通信端末は、上記の課題を解決するために、上記制御手段が、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う外部の音声認識処理装置に送信するとともに、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させる制御を行う通信制御手段を有する構成である。
【０１３７】
また、本発明に係る通信端末の制御方法は、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う音声認識処理装置に送信するステップと、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させるステップとを有する方法である。
【０１３８】
これにより、多様な言葉でも音声による文字入力が可能な通信端末を、装置の大型化やコストアップ、消費電力の増加などを伴うことなく提供することができるという効果を奏する。
【０１３９】
また、本発明に係る端末装置は、文字を表示する表示手段と、利用者からの編集指示入力を受け付ける操作手段とをさらに備えるとともに、上記制御手段が、上記音声認識結果データを上記表示手段に表示させる表示制御手段と、上記操作手段によって受け付けられた編集指示入力に基づいて上記音声認識結果データを編集する編集処理手段とをさらに備えている構成としてもよい。
【０１４０】
これにより、上記の構成による効果に加えて、利用者は、音声認識結果の誤りの有無を確認し、誤りがある場合には文字の修正を行うことができるという効果を奏する。
【０１４１】
また、本発明に係る端末装置は、上記制御手段が、上記音声入力手段によって取得された音声データを圧縮する処理を行う圧縮処理手段をさらに備え、上記圧縮処理手段によって圧縮処理された圧縮音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【０１４２】
これにより、上記の構成による効果に加えて、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができるという効果を奏する。
【０１４３】
また、本発明に係る端末装置は、上記制御手段が、上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出する有効データ抽出手段をさらに備え、上記有効データ抽出手段によって抽出された音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【０１４４】
これにより、上記の構成による効果に加えて、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができるという効果を奏する。
【０１４５】
また、本発明に係る端末装置は、上記通信制御手段が、上記音声認識結果データに対して上記編集処理手段によって編集処理された編集結果を、上記通信手段を介して上記音声認識処理装置に送信する制御を行う構成としてもよい。
【０１４６】
これにより、上記の構成による効果に加えて、音声認識処理装置は利用者操作により修正されたデータを、次回以降の音声認識に反映させることが可能となるという効果を奏する。
【０１４７】
本発明に係る音声認識処理装置は、上記制御手段が、上記通信手段を介して、外部の通信端末から音声データを受信させるとともに、音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信する制御を行う通信制御手段と、上記通信制御手段から受け取った音声データに対して音声認識処理を施すことによって、これを文字データに変換した上記音声認識結果データを生成する音声認識手段とを有する構成である。
【０１４８】
また、本発明に係る音声認識処理装置の制御方法は、上記通信手段を介して、外部の通信端末から音声データを受信させるステップと、上記受信した音声データに対して音声認識処理を施すことによって、これを文字データに変換した音声認識結果データを生成するステップと、上記音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信するステップとを有する方法である。
【０１４９】
これにより、通信端末では、音声認識のためのハードウェアやメモリ等を搭載することなく音声による文字入力を行うことが可能となるという効果を奏する。
【０１５０】
また、通信端末において、多様な文言の音声による文字入力を、通信端末の大型化やコストアップ、消費電力の増加を伴うことなく実現することが可能となるという効果を奏する。さらに、音声認識に関するハードウェア、ソフトウェアの保守、バージョンアップ等を、通信端末側に何ら変更を加えることなく、音声認識処理装置側のみで行うことができるという効果を奏する。
【０１５１】
また、本発明に係る音声認識処理装置は、上記音声認識手段が上記音声認識処理を行う際に必要とされるデータベースを記憶する記憶部をさらに備えている構成としてもよい。
【０１５２】
これにより、上記の構成による効果に加えて、音声認識処理のための大容量のデータベースを設けることが可能となるので、より多様な言葉の音声認識を行うことが可能となるという効果を奏する。
【０１５３】
また、本発明に係る音声認識処理装置は、上記音声認識手段が、音声認識処理を行う際に、かな漢字変換処理も行う構成としてもよい。
【０１５４】
これにより、上記の構成による効果に加えて、通信端末側での利用者の操作を簡素化することができるという効果を奏する。
【０１５５】
また、本発明に係る音声認識処理装置は、上記制御手段が、上記通信端末から、該通信端末に対して送信した音声認識結果データに対する修正データを受信した際に、該修正データに基づいて上記記憶部におけるデータベースを更新するデータベース更新処理手段をさらに有している構成としてもよい。
【０１５６】
これにより、上記の構成による効果に加えて、利用者操作により修正されたデータを、次回以降の音声認識処理に反映されることができる。したがって、音声認識処理を行う毎に、音声認識の精度を向上させることができるという効果を奏する。
【０１５７】
また、本発明に係る通信端末制御プログラムは、通信端末の制御手段が備える各手段をコンピュータに実現させるものである。
【０１５８】
これにより、上記プログラムをコンピュータシステムにロードすることによって、上記通信端末を実現することが可能となるという効果を奏する。
【０１５９】
また、本発明に係る音声認識処理装置制御プログラムは、音声認識処理装置の制御手段が備える各手段をコンピュータに実現させるものである。
【０１６０】
これにより、上記プログラムをコンピュータシステムにロードすることによって、上記音声認識処理装置を実現することが可能となるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声認識システムが備える携帯電話機の概略構成を示すブロック図である。
【図２】上記音声認識システムの構成の概要を示す模式図である。
【図３】上記音声認識システムが備える音声認識処理装置の概略構成を示すブロック図である。
【図４】上記携帯電話機における処理の流れを示すフローチャートである。
【図５】上記音声認識処理装置における処理の流れを示すフローチャートである。
【図６】本発明の他の実施形態に係る携帯電話機における処理の流れを示すフローチャートである。
【図７】本発明のさらに他の実施の形態に係る音声認識システムにおける処理の流れを示すフローチャートである。
【図８】図１に示す構成とは異なる構成の携帯電話機の概略構成を示すブロック図である。
【図９】図３に示す構成とは異なる構成の音声認識処理装置の概略構成を示すブロック図である。
【符号の説明】
１制御部（制御手段）
２通信制御部（通信制御手段）
３圧縮処理部（圧縮処理手段）
４編集処理部（編集処理手段）
５アプリケーション処理部
６表示制御部（表示制御手段）
１０携帯電話機（通信端末）
１１操作部（操作手段）
１２マイク（音声入力手段）
１３Ａ／Ｄ変換部
１４ＲＦ通信部（通信手段）
１５表示部（表示手段）
１６ＲＡＭ
１７ＲＯＭ
２０サーバ（音声認識処理装置）
２１通信Ｉ／Ｆ（通信手段）
２２制御部（制御手段）
２３記憶部
２３ａ音声認識用データベース（データベース）
２３ｂかな漢字変換用データベース（データベース）
２４ＲＡＭ
２７通信制御部（通信制御手段）
２８解凍処理部
２９音声認識部（音声認識手段）
５１携帯電話網
５２インターネット

Claims

利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段と、当該通信端末の動作を制御する制御手段とを備えた通信端末において、
上記制御手段が、
上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う外部の音声認識処理装置に送信するとともに、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させる制御を行う通信制御手段を備えていると共に、
上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出する有効データ抽出手段を備えており、
上記有効データ抽出手段によって抽出された音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信されるようになっており、
上記音声入力手段によって取得された音声データから上記有効データ抽出手段によって抽出された音声認識に必要なデータの全てが、音声認識処理装置に送信された時に、送信の終了を音声認識処理装置に通知する手段を備えていることを特徴とする通信端末。
文字を表示する表示手段と、利用者からの編集指示入力を受け付ける操作手段とをさらに備えるとともに、
上記制御手段が、
上記音声認識結果データを上記表示手段に表示させる表示制御手段と、
上記操作手段によって受け付けられた編集指示入力に基づいて上記音声認識結果データを編集する編集処理手段とをさらに備えていることを特徴とする請求項１に記載の通信端末。
上記制御手段が、
上記音声入力手段によって取得された音声データを圧縮する処理を行う圧縮処理手段をさらに備え、
上記圧縮処理手段によって圧縮処理された圧縮音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信されることを特徴とする請求項１または２に記載の通信端末。
上記通信制御手段が、
上記音声認識結果データに対して上記編集処理手段によって編集処理された編集結果を、上記通信手段を介して上記音声認識処理装置に送信する制御を行うことを特徴とする請求項２に記載の通信端末。
利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段とを備えた通信端末の制御方法において、
上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出するステップと、
上記音声入力手段によって取得された音声データから抽出された音声認識に必要なデータを、上記通信手段によって、音声認識処理を行う音声認識処理装置に送信するステップと、
上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させるステップと、
上記抽出された音声認識に必要なデータを全て音声認識処理装置に送信した時に、送信の終了を音声認識処理装置に通知するステップとを含むことを特徴とする通信端末の制御方法。
データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置において、
上記制御手段が、
上記通信手段を介して、請求項１から４の何れか１項に記載の通信端末から音声データを受信させるとともに、音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信する制御を行う通信制御手段と、
上記通信制御手段から受け取った音声データに対して音声認識処理を施すことによって、これを文字データに変換した上記音声認識結果データを生成する音声認識手段とを有し、
上記通信制御手段が、上記音声認識結果データを上記通信端末に向けて送信させた後、音声データ送信の終了の通知を上記通信端末から受信したときに、音声認識処理を終了することを特徴とする音声認識処理装置。
上記音声認識手段が上記音声認識処理を行う際に必要とされるデータベースを記憶する記憶部をさらに備えていることを特徴とする請求項６に記載の音声認識処理装置。
上記音声認識手段が、音声認識処理を行う際に、かな漢字変換処理も行うことを特徴とする請求項６または７に記載の音声認識処理装置。
上記制御手段が、
上記通信端末から、該通信端末に対して送信した音声認識結果データに対する修正データを受信した際に、該修正データに基づいて上記記憶部におけるデータベースを更新するデータベース更新処理手段をさらに有していることを特徴とする請求項７に記載の音声認識処理装置。
データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置の制御方法において、
上記通信手段を介して、請求項１から４の何れか１項に記載の通信端末から音声データを受信させるステップと、
上記受信した音声データに対して音声認識処理を施すことによって、これを文字データに変換した音声認識結果データを生成するステップと、
上記音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信するステップと、
上記音声認識結果データを上記通信端末に向けて送信するステップの終了後、音声データ送信の終了の通知を上記通信端末から受信したときに、音声認識処理を終了するステップとを含むことを特徴とする音声認識処理装置の制御方法。
請求項１から４のいずれか一項に記載の通信端末の制御手段が備える各手段をコンピュータに実現させるための通信端末制御プログラム。
請求項１から４のいずれか一項に記載の通信端末の制御手段が備える各手段をコンピュータに実現させるための通信端末制御プログラムを記録した記録媒体。
請求項６から９のいずれか一項に記載の音声認識処理装置の制御手段が備える各手段をコンピュータに実現させるための音声認識処理装置制御プログラム。
請求項６から９のいずれか一項に記載の音声認識処理装置の制御手段が備える各手段をコンピュータに実現させるための音声認識処理装置制御プログラムを記録した記録媒体。