JP4197271B2 - 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 - Google Patents
通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4197271B2 JP4197271B2 JP2003172559A JP2003172559A JP4197271B2 JP 4197271 B2 JP4197271 B2 JP 4197271B2 JP 2003172559 A JP2003172559 A JP 2003172559A JP 2003172559 A JP2003172559 A JP 2003172559A JP 4197271 B2 JP4197271 B2 JP 4197271B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- communication
- voice recognition
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識による文字入力を行うことができる通信端末および音声認識処理を行う音声認識処理装置に関するものである。
【0002】
【従来の技術】
近年、e-mailの送受信やスケジュール管理、電話帳やアドレス帳の管理などを行うために、文字入力を行うことができる携帯通信装置が普及している。しかしながら、携帯通信装置(携帯機器)は小型化が求められるため、通常は、1つのキーに複数の意味(あるいは文字、記号等)が割り振られる。このため、携帯通信装置での文字入力作業は煩雑なものとなっている。
【0003】
そこで、文字や画像を表示するための表示部に、使用者によってペン等で入力された文字を認識し、文字入力を行うことができる携帯通信装置がある。しかしながら、このような携帯通信装置は、価格が高価な上、表示部(文字入力部)のサイズが小さいため、入力し辛いといった問題点がある。
【0004】
一方、パーソナルコンピュータ(PC)の分野では、近年、音声による文字入力(音声認識)が実現している。
【0005】
また、携帯電話の分野では、例えば特許文献1に、使用者が音声入力した通話したい相手先の名前(または電話番号)を音声認識し、文字列に変換する技術が開示されている。
【0006】
さらに、特許文献2には、音声パターンデータおよび文字コードで構成される各レコードを認識辞書に格納しておき、入力された音声から抽出した音声データと前記音声パターンデータとが一致するレコードを認識辞書から検索し、一致したレコードの文字コードに対応する文字を表示する技術が開示されている。
【0007】
【特許文献1】
特開2000−197128号公報(公開日平成12年7月14日)
【0008】
【特許文献2】
特開2001−159896号公報(公開日平成13年6月12日)
【0009】
【特許文献3】
特開2001−203818号公報(公開日平成13年7月27日)
【0010】
【発明が解決しようとする課題】
しかしながら、特許文献1および2に示されているような従来の携帯電話(携帯通信装置)では、数秒程度の限定された言葉に関する音声認識しか実現できない。すなわち、予め記録された数秒の音声パターンと一致する程度の内容しか音声認識できないという問題がある。以下に、この理由について説明する。
【0011】
高度な音声認識を行うためには、高い演算処理能力が必要である。しかしながら、携帯通信装置では、装置を小型化する必要があること、消費電力を低く抑える必要があること、価格を低く抑える必要があることなどを理由として、PC並みの高い演算処理能力を備えることは困難となっている。
【0012】
すなわち、従来の携帯通信装置は、PCなどと比較すれば処理能力の低いCPUしか搭載できず、多様な言葉を認識できるような高度な音声認識をCPUが実行するソフトウェアによって実現することは困難である。
【0013】
そこで、携帯通信装置に、音声認識用ICなどの専用ハードウェアを搭載する方法が考えられる。しかしながら、このような音声認識用ハードウェアを搭載したとしても、高度な音声認識を行うためには、入力された音声データを一時記憶するための大容量のRAMや、多様な言葉を判別するための膨大な音声パターンを記憶するためのROMなどが必要となる。したがって、携帯通信装置の大型化、コストアップ、および消費電力の増加といった問題が生じることになる。
【0014】
また、ソフトウェアによって音声認識を行う構成の場合、音声認識率を高めるような新たな音声認識アルゴリズムが開発された際には、アップデートという形でソフトウェアの更新を行うことが可能である。しかしながら、上記のように音声認識用のハードウェアを搭載する場合には、携帯通信装置購入後の音声認識アルゴリズムの変更を行うことは困難であるといった問題もある。
【0015】
なお、特許文献1および2に示されているような従来の携帯通信装置では、数秒程度の限定された言葉に関する音声認識を行う構成となっているが、このような簡易的な音声認識であっても、携帯通信装置にある程度の演算性能、およびRAMやROMなどの記憶装置容量が必要とされる。すなわち、携帯通信装置内で音声認識を行う場合には、携帯通信装置の大型化、コストアップ、および消費電力の増加といった問題を避けることはできない。
【0016】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、装置の大型化やコストアップ、消費電力の増加を伴うことなく、多様な言葉でも音声による文字入力が可能な通信端末、およびこの通信端末を実現するための音声認識処理装置を提供することにある。
【0017】
【課題を解決するための手段】
本発明に係る通信端末は、上記の課題を解決するために、利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段と、当該通信端末の動作を制御する制御手段とを備えた通信端末において、上記制御手段が、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う外部の音声認識処理装置に送信するとともに、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させる制御を行う通信制御手段を有することを特徴としている。
【0018】
また、本発明に係る通信端末の制御方法は、利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段とを備えた通信端末の制御方法において、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う音声認識処理装置に送信するステップと、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させるステップとを有することを特徴としている。
【0019】
ここで、音声認識とは、音声データの意味する文字を認識し、該音声データに対応する文字のデータを生成する動作である。また、音声認識結果データとは、音声認識により生成されたデータである。
【0020】
上記の構成および方法によれば、通信端末における音声による文字入力は、利用者によって入力された音声データを上記音声認識処理装置に送信し、該音声認識処理装置によって音声認識されて返信された音声認識結果データを受信することによって実現することができる。
【0021】
このため、音声認識のためのハードウェアやメモリ等は、音声認識処理装置に搭載されればよく、通信端末に搭載する必要がない。また、上記の音声認識処理装置は携帯する必要がないため、大型化やコストアップ、消費電力に対する制限が比較的緩く、音声認識のための高性能な設備を搭載することができる。したがって、多様な言葉でも音声による文字入力が可能な通信端末を、装置の大型化やコストアップ、消費電力の増加などを伴うことなく提供することができる。
【0022】
また、本発明に係る端末装置は、上記の構成において、文字を表示する表示手段と、利用者からの編集指示入力を受け付ける操作手段とをさらに備えるとともに、上記制御手段が、上記音声認識結果データを上記表示手段に表示させる表示制御手段と、上記操作手段によって受け付けられた編集指示入力に基づいて上記音声認識結果データを編集する編集処理手段とをさらに備えている構成としてもよい。
【0023】
上記の構成によれば、音声認識結果データが表示制御手段によって表示手段に表示されるとともに、利用者は、この表示手段に表示された音声認識結果データに対して、操作手段によって編集処理を行うことが可能となっている。これにより、利用者は、音声認識結果の誤りの有無を確認し、誤りがある場合には文字の修正を行うことができる。
【0024】
また、本発明に係る端末装置は、上記の構成において、上記制御手段が、上記音声入力手段によって取得された音声データを圧縮する処理を行う圧縮処理手段をさらに備え、上記圧縮処理手段によって圧縮処理された圧縮音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【0025】
上記の構成によれば、音声入力手段によって取得された音声データは、圧縮処理が行われた上で音声認識処理装置に対して送信されるようになっている。したがって、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができる。
【0026】
また、本発明に係る端末装置は、上記の構成において、上記制御手段が、上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出する有効データ抽出手段をさらに備え、上記有効データ抽出手段によって抽出された音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【0027】
上記の構成によれば、有効データ抽出手段によって、音声認識に必要なデータのみが抽出された後に音声認識処理装置に送信するようになっている。したがって、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができる。
【0028】
また、本発明に係る端末装置は、上記の構成において、上記通信制御手段が、上記音声認識結果データに対して上記編集処理手段によって編集処理された編集結果を、上記通信手段を介して上記音声認識処理装置に送信する制御を行う構成としてもよい。
【0029】
上記の構成によれば、音声認識結果データに対して、利用者が修正を加えた場合、音声認識処理装置に修正結果を通知することができる。これにより、音声認識処理装置は利用者操作により修正されたデータを、次回以降の音声認識に反映させることが可能となる。
【0030】
本発明に係る音声認識処理装置は、上記の課題を解決するために、データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置において、上記制御手段が、上記通信手段を介して、外部の通信端末から音声データを受信させるとともに、音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信する制御を行う通信制御手段と、上記通信制御手段から受け取った音声データに対して音声認識処理を施すことによって、これを文字データに変換した上記音声認識結果データを生成する音声認識手段とを有することを特徴としている。
【0031】
また、本発明に係る音声認識処理装置の制御方法は、データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置の制御方法において、上記通信手段を介して、外部の通信端末から音声データを受信させるステップと、上記受信した音声データに対して音声認識処理を施すことによって、これを文字データに変換した音声認識結果データを生成するステップと、上記音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信するステップとを有することを特徴としている。
【0032】
上記の構成および方法によれば、通信端末から送信された音声データを受信し、受信した音声データに対して音声認識手段によって音声認識処理が行われる。そして、この音声認識結果データが通信端末に送信される。これにより、通信端末では、音声認識のためのハードウェアやメモリ等を搭載することなく音声による文字入力を行うことが可能となる。
【0033】
また、上記音声認識処理装置は携帯する必要がないため、大型化やコストアップ、消費電力に対する制限が比較的緩く、音声認識のための高性能な設備を搭載することができる。したがって、通信端末において、多様な文言の音声による文字入力を、通信端末の大型化やコストアップ、消費電力の増加を伴うことなく実現することが可能となる。さらに、音声認識に関するハードウェア、ソフトウェアの保守、バージョンアップ等を、通信端末側に何ら変更を加えることなく、音声認識処理装置側のみで行うことができる。
【0034】
また、本発明に係る音声認識処理装置は、上記の構成において、上記音声認識手段が上記音声認識処理を行う際に必要とされるデータベースを記憶する記憶部をさらに備えている構成としてもよい。
【0035】
上記の構成によれば、音声認識処理を行う際に必要とされるデータベースが記憶部に記憶されている。上記したように、音声認識処理装置は装置の大型化に対する制限が少ないので、比較的大容量の記憶部を備えることが可能となっている。したがって、音声認識処理のための大容量のデータベースを設けることが可能となるので、より多様な言葉の音声認識を行うことが可能となる。
【0036】
また、本発明に係る音声認識処理装置は、上記の構成において、上記音声認識手段が、音声認識処理を行う際に、かな漢字変換処理も行う構成としてもよい。
【0037】
上記の構成によれば、音声認識結果データは、かな漢字変換処理まで行われたデータとなるので、これを受信した通信端末側では、かな漢字変換処理を行う必要がなく、誤りがある場合にのみ適宜修正を行えばよいことになる。よって、通信端末側での利用者の操作を簡素化することができる。
【0038】
また、本発明に係る音声認識処理装置は、上記の構成において、上記制御手段が、上記通信端末から、該通信端末に対して送信した音声認識結果データに対する修正データを受信した際に、該修正データに基づいて上記記憶部におけるデータベースを更新するデータベース更新処理手段をさらに有している構成としてもよい。
【0039】
上記の構成によれば、音声認識処理装置が作成した音声認識結果データに対して、利用者が修正を加えた場合、その修正結果を通信端末から受信し、修正結果に基づいて音声認識処理に利用しているデータベースを更新することができる。これにより、利用者操作により修正されたデータを、次回以降の音声認識処理に反映されることができる。したがって、音声認識処理を行う毎に、音声認識の精度を向上させることができる。ここで、上記データベースには、音声認識を行う際の音声パターンを記憶する音声認識用データベース、および/または、かな漢字変換処理において用いられる変換辞書としてのかな漢字変換用データベースなどが含まれる。
【0040】
また、本発明に係る通信端末制御プログラムは、通信端末の制御手段が備える各手段をコンピュータに実現させることを特徴としている。
【0041】
上記プログラムをコンピュータシステムにロードすることによって、上記通信端末を実現することが可能となる。
【0042】
また、本発明に係る音声認識処理装置制御プログラムは、音声認識処理装置の制御手段が備える各手段をコンピュータに実現させることを特徴としている。
【0043】
上記プログラムをコンピュータシステムにロードすることによって、上記音声認識処理装置を実現することが可能となる。
【0044】
【発明の実施の形態】
〔実施の形態1〕
本発明の音声認識システムに関する実施の一形態について図面に基づいて説明すれば以下のとおりである。
【0045】
(システム構成)
本実施形態に係る音声認識システムの構成の概要を、図2に示す。同図に示すように、この音声認識システムは、携帯電話機(通信端末)10と音声認識処理を行うサーバ(音声認識処理装置)20とから構成されている。携帯電話機10とサーバ20とは、携帯電話通信事業者による携帯電話網51、および、インターネット52を介して接続されており、両者の間でデータ通信を行うことが可能となっている。携帯電話機10としては、通常の通話機能に加えて、インターネットを介してのデータ通信機能を有するものが用いられる。
【0046】
なお、本実施形態では、携帯電話機10とサーバ20とは、携帯電話通信事業者による携帯電話網51、および、インターネット52を介して接続されるシステムとなっているが、これに限定されるものではなく、携帯電話機10とサーバ20との間で信号の送受信が可能な通信経路が設けられていればよい。例えば、インターネット52の代わりに、専用通信回線を用いた構成であってもよいし、携帯電話網51から直接サーバ20に接続される構成であってもよい。
【0047】
以上のような音声認識システムにおける音声認識処理の概要は次のようになる。まず、利用者によって携帯電話機10に対して音声認識対象としての音声が入力される。この音声データが携帯電話網51および/またはインターネット52を介してサーバ20に送信される。サーバ20は、受信した音声データに対して音声認識処理、すなわち、音声を文字に変換する処理を行い、変換結果データを携帯電話機10に送信する。
【0048】
(携帯電話機の構成)
図1は、上記携帯電話機10の概略構成を示すブロック図である。同図に示すように、携帯電話機10は、筐体内に、制御部(制御手段)1、操作部(操作手段)11、マイク(音声入力手段)12、A/D変換部13、RF通信部(通信手段)14、表示部(表示手段)15、RAM16、ROM17、制御部1スピーカー18、およびD/A変換部19を備えた構成となっている。
【0049】
操作部11は、利用者からの操作入力を受け付ける手段であり、例えばボタンやジョグダイヤルなどによって構成される。この操作部11は、文字、記号、番号等の入力や、各種データの送受信、記録、および削除等に関する利用者からの指示を受け付け、制御部1に伝達する。利用者は、操作部11の各キーを押すことにより、制御部1に対して各種の動作指示を与えることができる。さらに、操作部11は、利用者から、音声認識による文字入力を行う旨の指示を受け付け、制御部1に伝達する機能を有している。
【0050】
マイク12は、利用者の声を音声入力として取得し、電気信号(アナログ信号)に変換する音声入力手段である。このマイク12で取得された音声の電気信号は、A/D変換部13に送られる。
【0051】
A/D変換部13は、マイク12から送られた音声信号を、アナログ信号からデジタル信号に変換するものである。変換されたデジタル信号は、制御部1に送られる。
【0052】
RF通信部14は、携帯電話機10における通話機能および通信機能を実行するものであり、アンテナ部およびRF処理部などによって構成されるものである。このRF通信部14によって、携帯電話通信事業者の基地局との間での無線通信・無線通話が行われる。すなわち、RF通信部14は、制御部1から送られてきた通話信号や通信信号などのデジタルデータを無線信号に変換し、上記基地局に送信する。また、通信部14は、上記基地局からの無線信号を受信して制御部1に伝達する機能を有している。
【0053】
D/A変換部19は、RF通信部14において、通話信号を受信した際に、制御部1を介して入力されるデジタル通話信号をアナログ信号に変換するものである。変換されたアナログ信号はスピーカー18に送られる。
【0054】
スピーカー18は、D/A変換部19から送られてきたアナログ信号を音声に変換して出力するものである。
【0055】
表示部15は、文字、画像等の各種情報を表示する表示パネルによって構成される。この表示部15は、液晶表示パネルや有機ELパネルなどのフラットパネルディスプレイなどによって構成される。
【0056】
ROM(Read Only Memory)17は、制御部1が行う各機能を実現する各種プログラムや各種データを記憶するための記憶手段である。このROM17は、書き換え不可能なROMによって構成されていてもよいし、例えばEEPROM(Electrically Erasable/Programmable ROM)などによって構成されていてもよい。なお、ROM17として、その他の不揮発性記憶手段(例えば不揮発性のRAMなど)を用いても構わない。
【0057】
RAM(Random Access Memory)16は、制御部1によって使用される一次記憶部である。このRAM16には、A/D変換部13でデジタル信号に変換された音声データ、および音声認識後のテキスト変換データ等が一時的に記憶される。ここで、テキスト変換データとは、音声認識により、音声データに対応して作成された文字に関するデータである。また、制御部1は、ROM17内のプログラムを使用する際に、これを作業メモリとしてのRAM16に読み込ませることによって該プログラムを実行するようになっている。
【0058】
制御部1は、携帯電話機10の全動作を制御する中枢部である。図1に示すように、制御部1は、通信制御部(通信制御手段)2、圧縮処理部(圧縮処理手段)3、編集処理部(編集処理手段)4、アプリケーション処理部5、および表示制御部(表示制御手段)6を備えた構成となっている。
【0059】
通信制御部2は、RF通信部14を介しての通話処理および通信処理を制御するものである。通話処理時には、通信制御部2は、マイク12およびA/D変換部13を介して入力されるデジタル送信音声信号をRF通信部14に伝送するとともに、RF通信部14から入力されるデジタル受信音声信号をD/A変換部19に伝送する。通信処理時、すなわち、データの送受信が行われる際には、通信制御部2は、圧縮処理部3から入力される送信データを通信に適した形式にエンコードしてRF通信部14に伝送するとともに、RF通信部14から入力される受信データをデコードして編集処理部4に伝送する。
【0060】
圧縮処理部3は、A/D変換部13から入力される音声認識用のデジタル音声信号に対してのデータ圧縮処理を行うものである。ここで圧縮処理された圧縮音声データは通信制御部2およびRF通信部14を介してサーバ20に送信される。なお、サーバ20から受信する音声認識結果データは、基本的にテキストデータであるので、データサイズは比較的小さいものである。よって、基本的には音声認識結果データに対しては圧縮処理はされていない。しかしながら、場合によっては、音声認識結果データが圧縮処理された状態でサーバ20から送信されることも考えられるので、この場合には、受信した圧縮データを解凍処理する構成が設けられていてもよい。
【0061】
編集処理部4は、サーバ20から受信した音声認識結果データに対して、利用者が認識結果を修正する際の処理を行うものである。この編集処理部4は、通信制御部2から音声認識結果データを受信し、操作部11から利用者による指示入力を受信し、修正データをアプリケーション処理部5に送信し、変換結果データおよび修正データを表示制御部6に送信する。
【0062】
アプリケーション処理部5は、各種アプリケーションプログラムを実行するものである。このアプリケーションプログラムとしては、例えばメール作成プログラム、アドレス管理プログラム、およびメモ帳プログラムなどの文書作成に関わるプログラムが挙げられる。
【0063】
表示制御部6は、表示部15における表示を制御するものであり、編集処理部4およびアプリケーション処理部5からの出力に応じた表示制御を行う。なお、この表示制御部6は、その他通常の携帯電話機において行われる各種表示の制御も行う。
【0064】
以上のような構成の制御部1は、例えばCPU(Central Processing Unit)が、制御部1に含まれている各機能ブロックを実現するためのプログラムを実行することによって実現される。上記のプログラムとは、処理を実現するソフトウェアのプログラムコード(実行形式プログラム,中間コードプログラム,ソースプログラム等)のことである。このプログラムは、単体で使用されるものでも、他のプログラム(OS等)と組み合わせて用いられるものでもよい。
【0065】
また、上記の構成では、上記プログラムはROM17に記憶されており、このROM17から読み出されて実行されるようになっているがこれに限定されるものではない。プログラムが記録される記録媒体としては、例えば携帯電話機10と容易に分離できるものでもよいし、携帯電話機10に固定的に装着されるものでもよい。さらに、外部記憶機器として装置に接続するものでもよい。
【0066】
また、通信ネットワーク(LAN、インターネット等)を介して携帯電話機10と接続される記録媒体を用いてもよい。この場合、携帯電話機10は、該記録媒体からネットワークを介してダウンロードすることによってプログラムを取得する。すなわち、上記のプログラムが、ネットワーク(有線回線あるいは無線回線に接続されたもの)等の伝送媒体(流動的にプログラムを保持する媒体)を介して取得されるようになっていてもよい。
【0067】
(サーバの構成)
図4は、本実施の形態に係る音声認識処理装置として機能するサーバ20の概略構成を示すブロック図である。同図に示すように、サーバ20は、通信I/F(通信手段)21、制御部(制御手段)22、記憶部23、RAM24、操作部25、および表示部26を備えた構成となっている。
【0068】
通信I/F21は、サーバ20における通信インターフェースとして機能するものである。この通信部I/F21によって、インターネット52または携帯電話網51を介しての携帯電話機10とのデータ通信が行われる。
【0069】
操作部25は、サーバ20を保守・管理する際に、サーバ20の管理者が入力指示を行うためのものである。この操作部25は、例えばキーボードや、マウスなどのポインティングデバイスなどによって構成される。表示部26は、サーバ20を保守・管理する際に、サーバ20の管理者が、サーバ20における処理状況を把握するために用いられる表示手段である。この表示部26は、例えばCRT(Cathode Ray Tube)や、液晶表示装置などのフラットディスプレイなどによって構成される。
【0070】
制御部22は、サーバ20の全動作を制御する中枢部であり、通信制御部(通信制御手段)27、解凍処理部28、および音声認識部(音声認識手段)29を備えた構成となっている。通信制御部27は、通信I/F21におけるデータ送受信を制御するものであり、送受信されるデータのプロトコル変換などを行うものである。
【0071】
解凍処理部28は、通信制御部27から入力される受信データの解凍処理を行うものである。ここで解凍処理された音声データは、音声認識部29に送信される。なお、上記したように、音声認識結果データのサイズは比較的小さいものであるので、基本的には音声認識結果データを携帯電話機10に送信する際には圧縮処理をする必要はない。しかしながら、場合によっては、音声認識結果データを圧縮処理して携帯電話機10に送信する構成としてもよい。
【0072】
音声認識部29は、携帯電話機10から送られてきた音声データに対して音声認識処理を施すことによって、これを文字データに変換する処理を行うものである。音声認識処理時には、記憶部23に記憶されている音声認識用データベース23aが参照される。また、音声認識部29は、文字データに変換する際に、記憶部23に記憶されているかな漢字変換用データベース23bを参照しながら、日本語におけるかな漢字変換処理も行うようになっている。
【0073】
記憶部23は、制御部22によって用いられる各種データ、プログラムなどを記憶するものであり、例えばハードディスクなどによって構成される。この記憶部23には、音声認識処理を行う際に用いられる音声認識用データベース(データベース)23aおよびかな漢字変換処理の際に用いられるかな漢字版権用データベース(データベース)23bが記憶されている。また、記憶部23には、制御部22における各機能を実現するためのプログラムや、OS(Operation System)プログラムなどが記憶されている。
【0074】
RAM24は、制御部22によって使用される一次記憶部である。このRAM24には、通信I/F21を介して送受信されるデータ、解凍処理部28において解凍処理が行われる対象としてのデータ、音声認識部29によって音声認識処理される対象としてのデータ等が一時的に記憶される。また、制御部22は、制御部22内の各機能ブロックを機能させる際に、記憶部23から該当プログラムを作業メモリとしてのRAM24に読み込ませることによって該プログラムを実行するようになっている。
【0075】
以上のような構成の制御部1は、例えばCPU(Central Processing Unit)が、制御部22に含まれている各機能ブロックを実現するためのプログラムを実行することによって実現される。上記のプログラムとは、処理を実現するソフトウェアのプログラムコード(実行形式プログラム,中間コードプログラム,ソースプログラム等)のことである。このプログラムは、単体で使用されるものでも、他のプログラム(OS等)と組み合わせて用いられるものでもよい。
【0076】
また、上記の構成では、上記プログラムは記憶部23に記憶されており、この記憶部23から読み出されて実行されるようになっているがこれに限定されるものではない。プログラムが記録される記録媒体としては、例えばサーバ20と容易に分離できるものでもよいし、サーバ20に固定的に装着されるものでもよい。さらに、外部記憶機器として装置に接続するものでもよい。
【0077】
また、通信ネットワーク(LAN、インターネット等)を介してサーバ20と接続される記録媒体を用いてもよい。この場合、サーバ20は、該記録媒体からネットワークを介してダウンロードすることによってプログラムを取得する。すなわち、上記のプログラムが、ネットワーク(有線回線あるいは無線回線に接続されたもの)等の伝送媒体(流動的にプログラムを保持する媒体)を介して取得されるようになっていてもよい。
【0078】
(処理の流れ)
次に、上記のような音声認識システムにおける処理の流れについて、図4および図5を用いて説明する。
【0079】
(携帯電話機における処理の流れ)
まず、携帯電話機10における処理の流れについて図4に示すフローチャートを参照しながら以下に説明する。
【0080】
まず、操作部11が、利用者からの音声認識処理の開始指示を受け付け、制御部1に伝えることにより動作が開始する(音声認識モードに入る)。
【0081】
通信制御部2は、RF通信部14を介して、サーバ20に対して音声認識の準備指示を送信する(ステップ1、以降、S1のように称する)。ここで、上記の音声認識の準備指示には、音声認識処理を開始する旨と、携帯電話機10の識別情報とが含まれている。そして、携帯電話機10から送信された音声認識の準備指示は、携帯電話網51を少なくとも経由してサーバ20に送られる。
【0082】
次に、通信制御部2は、サーバ20による音声認識後のデータ(音声変換後のデータ)を、いつでも受信できるように受信準備を行う(S2)。すなわち、文字入力を行うアプリケーションソフトの起動や、音声認識処理に必要な記憶領域の確保などを行い、サーバ20から送信されてくる音声認識結果データをいつでも受信できる状態にする。
【0083】
その後、利用者は、マイク12に向かって音声認識させたい文言を発声する。マイク12によって取り込まれた音声信号は、A/D変換部13に伝送され、逐次デジタルデータとしての音声データに変換される(S3)。この音声データは、圧縮処理部3に伝送され、圧縮処理が行われる(S4)。ここでの圧縮処理における圧縮アルゴリズムは特に限定されるものではなく、可逆圧縮でもよいし、不可逆圧縮でもよい。不可逆圧縮の場合、サーバ20において解凍された際の音声データが、音声認識処理を行うことが可能な程度の劣化度合いであればよい。圧縮処理された圧縮音声データは、RAM16に一時記憶される。
【0084】
次に、通信制御部2は、RAM16に一時記憶されている圧縮音声データを順次読み出し、通信に適した形式にエンコードし、一定時間毎にRF通信部14を介してサーバ20に送信する(S5)。そして、RAM16に一時記憶されている未送信の圧縮音声データが無くなるまで、S5の処理を継続する(S6)。
【0085】
そして、通信制御部2は、利用者からの音声入力終了操作を待機しており、音声入力終了操作が行われるまで、S3からS5までの処理を繰り返す(S7)。
【0086】
一方、S5でサーバ20に圧縮音声データを送信した後、サーバ20側では携帯電話機10から送信された音声データに基づいて音声認識がなされ、音声認識結果データが、携帯電話機10に返信される。その後、携帯電話機10は、サーバ20から返信された音声認識結果データをRF通信部14で受信する(S8)。なお、サーバ20での音声認識処理については、後で詳述する。
【0087】
RF通信部14によって受信された音声認識結果データは、RAM16に一時記憶される(S9)。そして、RAM16に一時記憶された音声認識結果データによる文字列が、体裁が整えられて表示部15に順次表示され(S10)、利用者に音声認識処理の結果が通知される。
【0088】
この際に、編集処理部29は、利用者による操作部11に対しての修正指示を待機する(S11)。すなわち、利用者は、サーバ20から送られてきた音声認識結果データにおいて、間違って認識されている文字に関して、操作部11を介して修正を行うことが可能となっている。そして、編集処理部29は、利用者の修正指示入力を受け付けた場合に、その指示に応じて文字を修正する(S12)。S11およびS12の処理は、利用者が修正を完了するまで繰り返される。修正の完了は、利用者によって確定指示が行われるなどによって検出される。
【0089】
その後、S7における音声入力終了操作がなされていない場合(S13においてNO)には、S8に戻ってサーバ20から送信される音声認識結果データの受信を継続する。一方、音声入力終了操作がなされている場合(S13においてYES)には、利用者によって音声入力された全ての音声データに対する音声認識結果データをサーバ20から受信したかが確認される(S14)。そして、未受信の音声認識結果データがある場合には、S8以降の動作を継続する。また、全ての音声認識結果データを受信している場合には、音声認識処理の終了指示をサーバ20に送信(S15)して、サーバ20を開放し、音声認識処理の動作を終了する。
【0090】
(サーバにおける処理の流れ)
次に、サーバ20における処理の流れについて図5に示すフローチャートを参照しながら以下に説明する。
【0091】
まず、通信制御部27が、通信I/F21を介して携帯電話機10から送信された音声認識の準備指示を受信することにより動作が開始する。そして、通信制御部27は、音声認識の準備指示に含まれている携帯電話機10の識別情報を抽出し、該携帯電話機10が音声認識処理サービスに対応しているものであるか否かを確認する(S21)。音声認識処理サービスに対応している携帯電話機とは、利用者によって音声認識処理サービスの申し込みが行われている携帯電話機である。ここで、携帯電話機10が音声認識処理サービスに対応していないものである場合(S21においてNO)には、通信制御部27は、その旨を携帯電話機10に返信し(S22)、処理を終了する。
【0092】
一方、携帯電話機10が音声認識処理サービスに対応しているものである場合(S21においてYES)には、通信制御部27は、音声認識の準備を行い、音声データを受信可能な状態へ移行させる。
【0093】
次に、通信制御部27が、通信I/F21を介して携帯電話機10から送信された圧縮音声データを受信すると(S24)、これを解凍処理部28に送信し、解凍処理部28において解凍処理が行われ、音声データが復元される(S25)。
【0094】
その後、復元された音声データは、音声認識部29に送られ、音声認識処理が行われる。すなわち、音声認識部29は、記憶部23に記憶されている音声認識用データベース33aを用いて、音声認識アルゴリズムによって受信した音声データをテキストデータに変換する処理を行う。なお、この音声認識処理においては、かな漢字変換用データベース23bが参照されることによってかな漢字変換処理も行われ、これによって音声認識結果データが生成される。
【0095】
音声認識部22で作成された音声認識結果データは、RAM24に一時記憶される(S27)。そして、通信制御部27は、RAM24に一時記憶されている音声認識結果データを、携帯電話機10に送信する(S28)。なお、本実施の形態では、音声認識結果データの携帯電話機10への送信は、携帯電話機10から一定時間毎に受信した音声データ毎に行うものとしている。
【0096】
また、通信制御部27は、携帯電話機10からの音声認識の終了指示を待機しており(S29)、音声認識の終了指示があるまでS24以降の動作を繰り返す。なお、音声認識の終了指示があった場合には、動作を終了する。
【0097】
(上記音声認識システムによる効果)
以上のように、本実施の形態に係る音声認識システムは、データ通信が可能な携帯電話機10と、音声認識処理を行うサーバ20とが接続されることにより構成されている。これにより、携帯電話機10は、入力された音声データをサーバ20に送信し、サーバ20によって音声認識された音声認識結果データを受信することにより、音声による文字入力を行うことができる。すなわち、携帯電話機10では、サーバ20から送られてきた音声認識結果データにおける認識誤りや変換誤りを修正するのみでよいことになる。
【0098】
したがって、音声認識を行うために必要とされるハードウェアの処理能力はすべてサーバ20側に搭載すればよく、携帯電話機10では、高性能のCPUおよび大容量のメモリや、新たに音声認識専用のハードウェアなどを搭載することなく、高度な音声認識処理を実現できる。このため、携帯電話機10の小型化、低価格化、消費電力の減少による利用可能時間の増加といった性能を向上させることが可能となる。すなわち、長い文章でも音声による文字入力が可能な携帯電話機10を、装置の大型化やコストアップ、消費電力の増加を伴うことなく提供することができる。
【0099】
また、音声認識処理はサーバ20側で行うため、高性能な音声認識処理を行うことが可能である。さらに、例えば、新しい高認識率の音声認識処理装置が実用化された場合でも、携帯電話機10側の機能変更を行うことなしに、サーバ側のみで音声認識アルゴリズムのバージョンアップ等を容易に行うことが可能である。このため、携帯電話機10は利用者が現在使用している機器を変更することなく、そのままの機器で最新の音声認識処理を利用することが可能となる。
【0100】
(上記音声認識システムの変形例)
なお、上記音声認識システムでは、携帯電話機10がS1で送信した音声認識の準備指示を、サーバ20が受信することにより、サーバ20の動作を開始するように設定されているが、この構成に限るものではない。例えば、S5の処理で携帯電話機10から送信された音声データを、サーバ20が受信することにより動作が開始される形態であってもよい。
【0101】
また、携帯電話機10では、音声データを一定時間毎にサーバ20に送信するようになっているが、これに限るものではない。例えば、一定のデータ容量毎に送信してもよい。また、サーバ20から携帯電話機10への音声認識結果データの送信は、携帯電話機10から一定時間毎に送信された音声データ毎行うとしているが、これに限るものではない。例えば、一定のデータ容量毎に返信するようにしてもよい。
【0102】
また、本実施の形態では、S15で音声認識処理の終了をサーバ20に伝え、サーバ20を開放しているが、これに限るものではない。例えば、S7の音声入力終了指示があった後、音声データを全てサーバ20に送信した時に送信の終了がサーバ20に通知されるようにしてもよい。この場合には、サーバ20に送信された音声データの音声認識処理が全て終了した時点でサーバ20が開放される構成とすることができる。あるいは、サーバ20が受信した音声データの音声認識結果データの返信が終了しており、一定時間以上、携帯電話機10から新たな音声データが送信されなかったときにサーバ20の音声認識処理が終了されるようにしてもよい。
【0103】
また、携帯電話機10とサーバ20との通信手段は、従来の携帯電話で用いられている通信プロトコルのほか、無線LAN、bluetooth、IrDA(赤外線)等、多様な無線通信手段を利用することが可能である。このため、利用者は携帯機器とそのときの通信環境に応じて自由に変更が可能なため、通信費を安く抑えることが可能となる。また、場合によっては、携帯電話機10とサーバ20との通信手段を例えばLANなどの有線による通信手段によって接続する構成としてもかまわない。
【0104】
また、本実施形態では、利用者による音声が入力され、サーバ20から音声認識結果データを受信する構成として携帯電話機10が用いられているが、これに限定されるものではない。すなわち、文字入力機能を有し、音声認識機能を有するサーバとの通信が可能な機器、例えばPDA(Personal Digital Assistants)機器などを携帯電話機10の代わりに用いてもよい。
【0105】
〔実施の形態2〕
本発明の音声認識システムに関する他の実施形態について、図6および図8に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施の形態1にて説明した構成と同じ機能を有する構成については、同じ符号を付記し、その説明を省略する。
【0106】
本実施の形態に係る携帯電話機10は、実施の形態1における携帯電話機10の構成に加えて、制御部1に、さらに有効データ抽出部31を備えた構成となっている。この構成によって、入力された音声データを録音し、音声認識処理に必要なデータのみを抽出して送信する機能を有することになる。また、本実施の形態におけるサーバ20は、実施の形態1におけるサーバ20と同じ装置構成および機能を有するものである。
【0107】
(携帯電話機の構成)
本実施形態に係る携帯電話機10の概略構成を図8に示す。有効データ抽出部31は、A/D変換部13から送られてきたデジタル音声データの中から、音声認識が必要とされる部分のみを有効音声データとして抽出する機能を有するものである。ここで、有効音声データとは、音声認識処理が必要とされるデータのことであり、例えば音声入力時の空白部分などが削除されたものである。その他の構成については、実施の形態1で図1で示した構成と同様であるので、ここではその説明を省略する。
【0108】
(携帯電話機における処理の流れ)
以下に、本実施の形態における携帯電話機10の処理の流れについて図6に示すフローチャートを参照しながら説明する。
【0109】
まず、操作部11が、利用者からの音声認識処理の開始指示を受け付け、制御部1に伝えることにより動作が開始する(音声認識モードに入る)。
【0110】
次に、利用者は、音声認識させたい文言を発声し、これがマイク12によって取り込まれる(S201)。マイク12から取り込まれた音声信号は、A/D変換部13で逐次デジタルデータに変換され、RAM16に一時記憶される(S202)。そして、通信制御部2は、利用者からの音声入力終了操作を待機しており、音声入力終了操作が行われるまで、S201およびS202の処理が繰り返される(S203)。すなわち、S201およびS202における処理は、利用者による音声の録音が行われていることになる。その後、利用者は、文字入力すべき文言の音声を録音し終えたと判断した場合には、操作部11に対して音声入力終了操作を行う。
【0111】
音声入力終了操作がなされると、有効データ抽出部31は、RAM16に一時記憶されている音声データを読み込み、該音声データの中から有効な部分の音声データのみを抽出する(S204)。そして、有効データ抽出部31によって抽出された有効音声データは、圧縮処理部3において圧縮処理される。その後、通信制御部2は、圧縮音声データを通信に適した形式にエンコードし、RF通信部14を介してサーバ20に送信する(S205)。
【0112】
送信されたデータは、サーバ20によって、実施の形態1の場合と同様に、音声認識されてテキスト変換データに変換され、携帯電話機10に返信される。なお、本実施の形態におけるサーバ20の動作は、実施の形態1における音声データの受信(図5のS24)以降の動作と同様であるので、ここでは説明を省略する。
【0113】
サーバ20から送信されてきた音声認識結果データは、携帯電話機10のRF通信部14で受信される(S206)。その後、この音声認識結果データは、RAM16に一時記憶される(S207)。そして、RAM16に一時記憶された音声認識結果データによる文字列が、体裁が整えられて表示部15に順次表示され(S208)、利用者に音声認識処理の結果が通知される。
【0114】
また、音声認識結果データが、アプリケーション処理部5に伝送され、アプリケーション処理部5において、利用者によって指示されたアプリケーションプログラムが、音声認識結果データに基づく文字列が利用された状態で実行される(S209)。なお、このアプリケーションプログラムは、文字入力を利用する機能を有するプログラムであればどのようなプログラムであってもよい。
【0115】
その後、通信制御部2は、音声認識処理を継続するか否かについて、利用者の指示を待機する(S210)。すなわち、音声認識処理を再度行うか否かの入力待ちであることを表示部15に表示させ、操作部15に対する利用者の指示を待つ。
【0116】
そして、引き続き音声認識処理を行う場合は(S201)に戻り、再度音声入力から開始する。また音声認識処理を再度行わない場合は、音声認識処理の動作を終了させる。
【0117】
(上記音声認識システムによる効果)
以上のように、本実施の形態における携帯電話機10は、音声入力されたデータを録音し、有効なデータのみを抽出した後に、サーバ20に送信する。そして、サーバ20で音声認識が行われた後に返信された音声認識結果データを受信することにより、音声による文字入力が実現される。
【0118】
これにより、本実施の形態における携帯電話機10は、音声認識処理を必要とする音声データのみを送信して音声認識処理を行うことが可能となる。すなわち、必要なときのみデータを送受信させることにより、送信データをまとめて最短時間で送信させることが可能となる。
【0119】
したがって、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となるため、データ送信量または通信時間に応じて通信費用がかかる場合、利用者の通信費用を安く抑えることができる。また、サーバ20が処理するデータ量を少なくできることから、サーバ20側の負荷を抑えることが可能となるため、サーバ20側の費用(運用費用および設備費用)を安く抑えることが可能となる。したがって、音声認識システム全体の運用費用および設備費用(サービス全体の費用)のコストダウンを図ることができる。
【0120】
〔実施の形態3〕
本発明の音声認識システムに関する他の実施形態について、図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施の形態1および2にて説明した構成と同じ機能を有する構成については、同じ符号を付記し、その説明を省略する。
【0121】
本実施の形態に係る携帯電話機10は、実施の形態2において図8で示した携帯電話機10と同じ構成となっているが、サーバ20から音声認識結果データを受信した後、利用者が文字の修正を行った場合、修正データをサーバ20に送信する機能を備えている点が実施の形態2と異なっている。
【0122】
また、本実施の形態に係るサーバ20は、実施の形態1または2におけるサーバ20の構成に加えて、制御部22に、さらにデータベース更新処理部32を備えた構成となっている。この構成によって、携帯電話機10から上記の修正データを受信した場合に、記憶部23におけるかな漢字変換用データベース23bの内容、すなわち、変換辞書を更新させる機能、および、音声認識用データベース23aの内容を更新させる機能を有することになる。
【0123】
(サーバの構成)
本実施形態に係るサーバ20の概略構成を図9に示す。データベース更新処理部32は、携帯電話機10から通信I/F21を介して上記の修正データを受信した際に、通信制御部27から該修正データを受信する。そして、この修正データを解析することによって、記憶部23におけるかな漢字変換用データベース23bの変換辞書を改訂する処理、および、音声認識用データベース23aの内容を更新させる処理を行う。その他の構成については、実施の形態1で図3で示した構成と同様であるので、ここではその説明を省略する。
【0124】
(携帯電話機およびサーバにおける処理の流れ)
以下に、携帯電話機10およびサーバ20における処理の流れについて図7に示すフローチャートを参照しながら説明する。
【0125】
まず、携帯電話機10において、操作部11が、利用者からの音声認識処理の開始指示を受け付け、制御部1に伝えることにより動作が開始する(音声認識モードに入る)。
【0126】
その後、携帯電話機10において、利用者による音声の入力処理、有効データの抽出処理、およびサーバ20への送信処理が行われる(S301)。なお、このS301における処理は、実施の形態2において、図6に示すフローチャートのS201からS205までの処理と同様であるので、詳細な説明は省略する。
【0127】
サーバ20は、携帯電話機10から圧縮音声データを受信すると、音声認識処理、および音声認識結果データの携帯電話機10への送信処理を行う(S302)。なお、このS302における処理は、実施の形態1における音声データの受信(図5のS24)以降の動作と同様であるので、ここでは説明を省略する。
【0128】
サーバ20から送信されてきた音声認識結果データは、携帯電話機10のRF通信部14で受信される(S303)。その後、この音声認識結果データは、RAM16に一時記憶される(S304)。そして、RAM16に一時記憶された音声認識結果データによる文字列が、体裁が整えられて表示部15に順次表示され(S305)、利用者に音声認識処理の結果が通知される。
【0129】
この際に、編集処理部29は、利用者による操作部11に対しての修正指示を待機する(S306)。すなわち、利用者は、サーバ20から送られてきた音声認識結果データにおいて、間違って認識されている文字に関して、操作部11を介して修正を行うことが可能となっている。そして、編集処理部29は、利用者の修正指示入力を受け付けた場合に、その指示に応じて文字を修正する(S307)。S306およびS307の処理は、利用者が修正を完了するまで繰り返される。修正の完了は、利用者によって確定指示が行われるなどによって検出される。
【0130】
そして、確定した文字列が、アプリケーション処理部5に伝送され、アプリケーション処理部5において、利用者によって指示されたアプリケーションプログラムが、音声認識結果データに基づく文字列が利用された状態で実行される(S308)。その後、確定前に利用者操作により修正処理が行われている場合(S309においてYES)は、修正データをサーバ20に送信する(S310)。修正処理が行われていない場合には、S310をスキップしてS311の処理が行われる。
【0131】
サーバ20は、送信された修正データを通信I/F21を介して受信すると、(S312)、受信した修正データが、通信制御部27を介してデータベース更新処理部32に送られる。そして、データベース更新処理部32が、修正データを解析し、この解析結果に基づいてかな漢字変換データベース23bの変換辞書が更新され、また、音声認識用データベース23aの内容が更新される(S313)。
【0132】
一方、携帯電話機10の通信制御部2は、修正データをサーバ20に送付した後、音声認識処理を継続するか否かについて、利用者の指示を待機する(S311)。そして、引き続き音声認識処理を行う場合は(S301)に戻り、再度音声入力から開始する。また音声認識処理を再度行わない場合は、音声認識処理の動作を終了させる。
【0133】
(上記音声認識システムによる効果)
以上のように、本実施の形態に係る音声認識システムは、サーバ20で作成された音声認識結果データに対して利用者が修正を加えた場合、かな漢字変換データベース23bの変換辞書を更新する。
【0134】
これにより、利用者操作により修正されたデータを、次回以降の音声認識処理に反映されることができる。すなわち、音声認識後の音声認識結果データに対して利用者が行った修正の内容をサーバ20にフィードバックさせることにより、音声認識処理を使用する毎に、音声認識および日本語変換(文字変換処理)の精度を向上させることができる。
【0135】
本発明は上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0136】
【発明の効果】
本発明に係る通信端末は、上記の課題を解決するために、上記制御手段が、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う外部の音声認識処理装置に送信するとともに、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させる制御を行う通信制御手段を有する構成である。
【0137】
また、本発明に係る通信端末の制御方法は、上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う音声認識処理装置に送信するステップと、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させるステップとを有する方法である。
【0138】
これにより、多様な言葉でも音声による文字入力が可能な通信端末を、装置の大型化やコストアップ、消費電力の増加などを伴うことなく提供することができるという効果を奏する。
【0139】
また、本発明に係る端末装置は、文字を表示する表示手段と、利用者からの編集指示入力を受け付ける操作手段とをさらに備えるとともに、上記制御手段が、上記音声認識結果データを上記表示手段に表示させる表示制御手段と、上記操作手段によって受け付けられた編集指示入力に基づいて上記音声認識結果データを編集する編集処理手段とをさらに備えている構成としてもよい。
【0140】
これにより、上記の構成による効果に加えて、利用者は、音声認識結果の誤りの有無を確認し、誤りがある場合には文字の修正を行うことができるという効果を奏する。
【0141】
また、本発明に係る端末装置は、上記制御手段が、上記音声入力手段によって取得された音声データを圧縮する処理を行う圧縮処理手段をさらに備え、上記圧縮処理手段によって圧縮処理された圧縮音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【0142】
これにより、上記の構成による効果に加えて、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができるという効果を奏する。
【0143】
また、本発明に係る端末装置は、上記制御手段が、上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出する有効データ抽出手段をさらに備え、上記有効データ抽出手段によって抽出された音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信される構成としてもよい。
【0144】
これにより、上記の構成による効果に加えて、送信するデータ量を低く抑えることができ、また、通信時間の短縮が可能となる。このため、データ送信量または通信時間に応じて通信費用が発生する場合、通信費用を安く抑えることができるという効果を奏する。
【0145】
また、本発明に係る端末装置は、上記通信制御手段が、上記音声認識結果データに対して上記編集処理手段によって編集処理された編集結果を、上記通信手段を介して上記音声認識処理装置に送信する制御を行う構成としてもよい。
【0146】
これにより、上記の構成による効果に加えて、音声認識処理装置は利用者操作により修正されたデータを、次回以降の音声認識に反映させることが可能となるという効果を奏する。
【0147】
本発明に係る音声認識処理装置は、上記制御手段が、上記通信手段を介して、外部の通信端末から音声データを受信させるとともに、音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信する制御を行う通信制御手段と、上記通信制御手段から受け取った音声データに対して音声認識処理を施すことによって、これを文字データに変換した上記音声認識結果データを生成する音声認識手段とを有する構成である。
【0148】
また、本発明に係る音声認識処理装置の制御方法は、上記通信手段を介して、外部の通信端末から音声データを受信させるステップと、上記受信した音声データに対して音声認識処理を施すことによって、これを文字データに変換した音声認識結果データを生成するステップと、上記音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信するステップとを有する方法である。
【0149】
これにより、通信端末では、音声認識のためのハードウェアやメモリ等を搭載することなく音声による文字入力を行うことが可能となるという効果を奏する。
【0150】
また、通信端末において、多様な文言の音声による文字入力を、通信端末の大型化やコストアップ、消費電力の増加を伴うことなく実現することが可能となるという効果を奏する。さらに、音声認識に関するハードウェア、ソフトウェアの保守、バージョンアップ等を、通信端末側に何ら変更を加えることなく、音声認識処理装置側のみで行うことができるという効果を奏する。
【0151】
また、本発明に係る音声認識処理装置は、上記音声認識手段が上記音声認識処理を行う際に必要とされるデータベースを記憶する記憶部をさらに備えている構成としてもよい。
【0152】
これにより、上記の構成による効果に加えて、音声認識処理のための大容量のデータベースを設けることが可能となるので、より多様な言葉の音声認識を行うことが可能となるという効果を奏する。
【0153】
また、本発明に係る音声認識処理装置は、上記音声認識手段が、音声認識処理を行う際に、かな漢字変換処理も行う構成としてもよい。
【0154】
これにより、上記の構成による効果に加えて、通信端末側での利用者の操作を簡素化することができるという効果を奏する。
【0155】
また、本発明に係る音声認識処理装置は、上記制御手段が、上記通信端末から、該通信端末に対して送信した音声認識結果データに対する修正データを受信した際に、該修正データに基づいて上記記憶部におけるデータベースを更新するデータベース更新処理手段をさらに有している構成としてもよい。
【0156】
これにより、上記の構成による効果に加えて、利用者操作により修正されたデータを、次回以降の音声認識処理に反映されることができる。したがって、音声認識処理を行う毎に、音声認識の精度を向上させることができるという効果を奏する。
【0157】
また、本発明に係る通信端末制御プログラムは、通信端末の制御手段が備える各手段をコンピュータに実現させるものである。
【0158】
これにより、上記プログラムをコンピュータシステムにロードすることによって、上記通信端末を実現することが可能となるという効果を奏する。
【0159】
また、本発明に係る音声認識処理装置制御プログラムは、音声認識処理装置の制御手段が備える各手段をコンピュータに実現させるものである。
【0160】
これにより、上記プログラムをコンピュータシステムにロードすることによって、上記音声認識処理装置を実現することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識システムが備える携帯電話機の概略構成を示すブロック図である。
【図2】上記音声認識システムの構成の概要を示す模式図である。
【図3】上記音声認識システムが備える音声認識処理装置の概略構成を示すブロック図である。
【図4】上記携帯電話機における処理の流れを示すフローチャートである。
【図5】上記音声認識処理装置における処理の流れを示すフローチャートである。
【図6】本発明の他の実施形態に係る携帯電話機における処理の流れを示すフローチャートである。
【図7】本発明のさらに他の実施の形態に係る音声認識システムにおける処理の流れを示すフローチャートである。
【図8】図1に示す構成とは異なる構成の携帯電話機の概略構成を示すブロック図である。
【図9】図3に示す構成とは異なる構成の音声認識処理装置の概略構成を示すブロック図である。
【符号の説明】
1 制御部(制御手段)
2 通信制御部(通信制御手段)
3 圧縮処理部(圧縮処理手段)
4 編集処理部(編集処理手段)
5 アプリケーション処理部
6 表示制御部(表示制御手段)
10 携帯電話機(通信端末)
11 操作部(操作手段)
12 マイク(音声入力手段)
13 A/D変換部
14 RF通信部(通信手段)
15 表示部(表示手段)
16 RAM
17 ROM
20 サーバ(音声認識処理装置)
21 通信I/F(通信手段)
22 制御部(制御手段)
23 記憶部
23a 音声認識用データベース(データベース)
23b かな漢字変換用データベース(データベース)
24 RAM
27 通信制御部(通信制御手段)
28 解凍処理部
29 音声認識部(音声認識手段)
51 携帯電話網
52 インターネット
Claims (14)
- 利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段と、当該通信端末の動作を制御する制御手段とを備えた通信端末において、
上記制御手段が、
上記音声入力手段によって取得された音声データを、上記通信手段によって、音声認識処理を行う外部の音声認識処理装置に送信するとともに、上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させる制御を行う通信制御手段を備えていると共に、
上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出する有効データ抽出手段を備えており、
上記有効データ抽出手段によって抽出された音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信されるようになっており、
上記音声入力手段によって取得された音声データから上記有効データ抽出手段によって抽出された音声認識に必要なデータの全てが、音声認識処理装置に送信された時に、送信の終了を音声認識処理装置に通知する手段を備えていることを特徴とする通信端末。 - 文字を表示する表示手段と、利用者からの編集指示入力を受け付ける操作手段とをさらに備えるとともに、
上記制御手段が、
上記音声認識結果データを上記表示手段に表示させる表示制御手段と、
上記操作手段によって受け付けられた編集指示入力に基づいて上記音声認識結果データを編集する編集処理手段とをさらに備えていることを特徴とする請求項1に記載の通信端末。 - 上記制御手段が、
上記音声入力手段によって取得された音声データを圧縮する処理を行う圧縮処理手段をさらに備え、
上記圧縮処理手段によって圧縮処理された圧縮音声データが、上記通信制御手段によって上記音声認識処理装置に対して送信されることを特徴とする請求項1または2に記載の通信端末。 - 上記通信制御手段が、
上記音声認識結果データに対して上記編集処理手段によって編集処理された編集結果を、上記通信手段を介して上記音声認識処理装置に送信する制御を行うことを特徴とする請求項2に記載の通信端末。 - 利用者によって発せられた音声を入力する音声入力手段と、データの送受信を行う通信手段とを備えた通信端末の制御方法において、
上記音声入力手段によって取得された音声データから音声認識に必要なデータを抽出するステップと、
上記音声入力手段によって取得された音声データから抽出された音声認識に必要なデータを、上記通信手段によって、音声認識処理を行う音声認識処理装置に送信するステップと、
上記音声認識処理装置で音声認識処理された結果である音声認識結果データを上記通信手段に受信させるステップと、
上記抽出された音声認識に必要なデータを全て音声認識処理装置に送信した時に、送信の終了を音声認識処理装置に通知するステップとを含むことを特徴とする通信端末の制御方法。 - データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置において、
上記制御手段が、
上記通信手段を介して、請求項1から4の何れか1項に記載の通信端末から音声データを受信させるとともに、音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信する制御を行う通信制御手段と、
上記通信制御手段から受け取った音声データに対して音声認識処理を施すことによって、これを文字データに変換した上記音声認識結果データを生成する音声認識手段とを有し、
上記通信制御手段が、上記音声認識結果データを上記通信端末に向けて送信させた後、音声データ送信の終了の通知を上記通信端末から受信したときに、音声認識処理を終了することを特徴とする音声認識処理装置。 - 上記音声認識手段が上記音声認識処理を行う際に必要とされるデータベースを記憶する記憶部をさらに備えていることを特徴とする請求項6に記載の音声認識処理装置。
- 上記音声認識手段が、音声認識処理を行う際に、かな漢字変換処理も行うことを特徴とする請求項6または7に記載の音声認識処理装置。
- 上記制御手段が、
上記通信端末から、該通信端末に対して送信した音声認識結果データに対する修正データを受信した際に、該修正データに基づいて上記記憶部におけるデータベースを更新するデータベース更新処理手段をさらに有していることを特徴とする請求項7に記載の音声認識処理装置。 - データの送受信を行う通信手段と、当該音声認識処理装置の動作を制御する制御手段とを備えた音声認識処理装置の制御方法において、
上記通信手段を介して、請求項1から4の何れか1項に記載の通信端末から音声データを受信させるステップと、
上記受信した音声データに対して音声認識処理を施すことによって、これを文字データに変換した音声認識結果データを生成するステップと、
上記音声認識結果データを、上記通信手段を介して上記通信端末に向けて送信するステップと、
上記音声認識結果データを上記通信端末に向けて送信するステップの終了後、音声データ送信の終了の通知を上記通信端末から受信したときに、音声認識処理を終了するステップとを含むことを特徴とする音声認識処理装置の制御方法。 - 請求項1から4のいずれか一項に記載の通信端末の制御手段が備える各手段をコンピュータに実現させるための通信端末制御プログラム。
- 請求項1から4のいずれか一項に記載の通信端末の制御手段が備える各手段をコンピュータに実現させるための通信端末制御プログラムを記録した記録媒体。
- 請求項6から9のいずれか一項に記載の音声認識処理装置の制御手段が備える各手段をコンピュータに実現させるための音声認識処理装置制御プログラム。
- 請求項6から9のいずれか一項に記載の音声認識処理装置の制御手段が備える各手段をコンピュータに実現させるための音声認識処理装置制御プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003172559A JP4197271B2 (ja) | 2003-06-17 | 2003-06-17 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003172559A JP4197271B2 (ja) | 2003-06-17 | 2003-06-17 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005012377A JP2005012377A (ja) | 2005-01-13 |
JP4197271B2 true JP4197271B2 (ja) | 2008-12-17 |
Family
ID=34096669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003172559A Expired - Lifetime JP4197271B2 (ja) | 2003-06-17 | 2003-06-17 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4197271B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210886B2 (en) | 2014-09-17 | 2019-02-19 | Kabushiki Kaisha Toshiba | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158328A (ja) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | 端末装置及び判別方法 |
US9886231B2 (en) | 2008-03-28 | 2018-02-06 | Kopin Corporation | Head worn wireless computer having high-resolution display suitable for use as a mobile internet device |
US8407048B2 (en) * | 2008-05-27 | 2013-03-26 | Qualcomm Incorporated | Method and system for transcribing telephone conversation to text |
US8498425B2 (en) * | 2008-08-13 | 2013-07-30 | Onvocal Inc | Wearable headset with self-contained vocal feedback and vocal command |
US10013976B2 (en) | 2010-09-20 | 2018-07-03 | Kopin Corporation | Context sensitive overlays in voice controlled headset computer displays |
CN109116985A (zh) | 2011-05-10 | 2019-01-01 | 寇平公司 | 控制信息显示的方法 |
EP2842055B1 (en) * | 2012-04-25 | 2018-06-27 | Kopin Corporation | Instant translation system |
JP6276132B2 (ja) | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
CN105848374A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种灯光控制系统及方法 |
EP3276618A4 (en) * | 2015-03-23 | 2018-11-07 | Sony Corporation | Information processing system and information processing method |
EP3382696B1 (en) * | 2017-03-28 | 2022-09-14 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service and electronic device supporting the same |
JP2019135609A (ja) * | 2018-02-05 | 2019-08-15 | 東京瓦斯株式会社 | 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム |
JP2019159333A (ja) * | 2019-05-14 | 2019-09-19 | 東京瓦斯株式会社 | 文字入力支援システム、文字入力支援プログラム |
JP6822540B2 (ja) * | 2019-10-29 | 2021-01-27 | 株式会社Jvcケンウッド | 端末装置、通信方法及び通信プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000151827A (ja) * | 1998-11-12 | 2000-05-30 | Matsushita Electric Ind Co Ltd | 電話音声認識システム |
JP3531564B2 (ja) * | 2000-01-28 | 2004-05-31 | 株式会社デンソー | 情報通信システム用電話端末 |
JP2001309049A (ja) * | 2000-04-20 | 2001-11-02 | Casio Comput Co Ltd | メール作成システム、装置、方法及び記録媒体 |
JP2001350493A (ja) * | 2000-06-07 | 2001-12-21 | Japan Telecom Co Ltd | 音声データ変換システム |
JP4383637B2 (ja) * | 2000-06-30 | 2009-12-16 | ヤフー株式会社 | 携帯電話機向けの音声/テキスト変換サービス装置 |
JP2002108391A (ja) * | 2000-09-29 | 2002-04-10 | Nissan Motor Co Ltd | 音声入力装置 |
JP4070963B2 (ja) * | 2001-05-15 | 2008-04-02 | アルゼ株式会社 | 移動体通信機器 |
JP3982307B2 (ja) * | 2002-04-11 | 2007-09-26 | 日本電気株式会社 | 文字入力装置 |
-
2003
- 2003-06-17 JP JP2003172559A patent/JP4197271B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210886B2 (en) | 2014-09-17 | 2019-02-19 | Kabushiki Kaisha Toshiba | Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2005012377A (ja) | 2005-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4197271B2 (ja) | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 | |
AU2004218693B2 (en) | Sequential multimodal input | |
EP2036079B1 (en) | A method, a system and a device for converting speech | |
US6839877B2 (en) | E-mail terminal automatically converting character string of reception e-mail, and e-mail system | |
JP2008544629A (ja) | 文字メッセージに含まれている電話番号にハイパーリンク機能を提供する移動通信端末機及びその方法 | |
CN1617559B (zh) | 顺序多模输入 | |
JP2006510989A5 (ja) | ||
US8983835B2 (en) | Electronic device and server for processing voice message | |
US8370141B2 (en) | Device, system and method for enabling speech recognition on a portable data device | |
JP2010175967A (ja) | 音声認識サーバ、電話機、音声認識システム、および音声認識方法 | |
US20180139320A1 (en) | Method of processing information inputted while a mobile communication terminal is in an active communications state | |
US20060129402A1 (en) | Method for reading input character data to output a voice sound in real time in a portable terminal | |
TWI260531B (en) | Communications terminal apparatus, reception apparatus, and method therefor | |
JP2007108881A (ja) | 携帯情報端末、文字入力支援プログラム及び方法 | |
KR100654916B1 (ko) | 전화 번호 검색 기능이 있는 이동통신 단말기 및 그 방법 | |
JP2003203069A (ja) | 携帯情報通信端末、文字変換方法、プログラムおよび該プログラムを記録した記録媒体 | |
JP2003202890A (ja) | 音声認識装置及びその方法、プログラム | |
JP2010041689A (ja) | 映像表示装置および情報送信方法 | |
TW535365B (en) | Encoding method | |
JP2006086852A (ja) | 情報処理装置及び情報処理方法 | |
JP4125708B2 (ja) | 携帯電話端末およびメール送受信方法 | |
KR20060063420A (ko) | 휴대단말기에서의 음성인식방법 및 이를 구비한 휴대단말기 | |
JP4472761B2 (ja) | 移動通信端末の予測テキスト入力及びデータ圧縮方法 | |
JP2004185200A (ja) | 文字変換方法、携帯端末 | |
JP2001350493A (ja) | 音声データ変換システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070918 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080804 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080924 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080925 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111010 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4197271 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121010 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131010 Year of fee payment: 5 |
|
EXPY | Cancellation because of completion of term |