JP2005134819A - 移動体通信端末 - Google Patents

移動体通信端末 Download PDF

Info

Publication number
JP2005134819A
JP2005134819A JP2003373342A JP2003373342A JP2005134819A JP 2005134819 A JP2005134819 A JP 2005134819A JP 2003373342 A JP2003373342 A JP 2003373342A JP 2003373342 A JP2003373342 A JP 2003373342A JP 2005134819 A JP2005134819 A JP 2005134819A
Authority
JP
Japan
Prior art keywords
recognition
recognition processing
information
sound
mobile communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003373342A
Other languages
English (en)
Other versions
JP4149898B2 (ja
Inventor
Mineko Moroto
美年子 諸戸
Koki Watanabe
工起 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
Vodafone KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vodafone KK filed Critical Vodafone KK
Priority to JP2003373342A priority Critical patent/JP4149898B2/ja
Publication of JP2005134819A publication Critical patent/JP2005134819A/ja
Application granted granted Critical
Publication of JP4149898B2 publication Critical patent/JP4149898B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】 音認識処理のための情報処理能力を高めることなく、複数種類の音情報について認識処理が可能になる移動体通信端末を提供する。
【解決手段】 音情報を取得するマイク等の音情報取得手段213と、音情報取得手段で取得した音情報について認識処理を実行する認識処理手段212と、携帯電話通信網10を介して通信を行うための通信手段215とを備えた携帯電話機20において、認識処理手段212は、互いに異なる複数種類の音認識機能(音声認識エンジン1,2、鳴き声認識エンジン)を有し、これらの複数の音認識機能(認識エンジン)を切り換えて認識処理を実行するように認識処理手段212を制御する主制御部210を設ける。
【選択図】 図1

Description

本発明は、マイク等の音情報取得手段で取得した人の音声や動物の鳴き声等の音情報について認識処理を実行することができる携帯電話機等の移動体通信端末に関するものである。
従来、この種の移動体通信端末として、人が話す音声をマイクで受けて音声情報を取得し、その音声情報について認識処理を実行することができる携帯電話機が知られている。この認識処理結果は、実行中のゲーム等のアプリケーションプログラムで使用したり、ディスプレイ上に文字情報やイラスト等の画像情報として表示したりすることができる。特に携帯電話機の場合は、その携帯性を確保するために操作性が犠牲になっているキー入力に代わって、文字情報の入力を行うユーザインターフェースとして利用することも可能である。
ところが、上記従来の携帯電話機のような移動体通信端末では、その携帯性を確保したり低コスト化を実現するために、情報処理能力の高いCPU等のハードウェアを組み込むことが難しかった。したがって、比較的処理能力が低いハードウェア構成で利用者が発する言葉のすべてについて認識処理可能に構成すると、認識処理の負荷が増加し、迅速な認識処理を行うことができないという不具合があった。そこで、認識処理結果の用途に応じて、特定の言葉のみを認識できるような認識処理機能を有するように構成することが考えられる。しかしながら、このように認識処理機能に制約を設けると、様々な音声情報について認識処理することができなくなってしまうという問題点がある。
また、上記従来の音声認識機能を有する携帯電話機では、特定の言語の音声情報だけでなく、複数の言語の音声情報について認識処理したい場合がある。この場合、音声認識対象の言語が変わると、その音声認識処理の内容が変わってくるため、1種類の音認識機能を備えているだけでは、複数の言語の音声情報について正確に認識処理できないおそれがあるという問題点がある。
また、人の音声情報以外の音情報について認識処理し、その認識処理結果を利用したい場合もある。例えば、犬等の動物の鳴き声情報をマイクで受けて取得し、その鳴き声情報について認識処理を実行し、そのときの動物の喜怒哀楽の感情を判別したい場合がある。ところが、上記従来の携帯電話機では1種類の音認識機能しか有していないため、人の音声と動物の鳴き声の両方について認識処理をすることができないという問題点がある。
本発明は以上の問題点に鑑みなされたものであり、その目的は、音認識処理のための情報処理能力を高めることなく、複数種類の音情報について認識処理が可能になる移動体通信端末を提供することである。
上記目的を達成するために、請求項1の発明は、音情報を取得する音情報取得手段と、該音情報取得手段で取得した音情報について認識処理を実行する認識処理手段と、移動体通信ネットワークを介して通信を行うための通信手段とを備えた移動体通信端末であって、該認識処理手段は、互いに異なる複数種類の音認識機能を有し、該複数種類の音認識機能を切り換えて認識処理を実行するように該認識処理手段を制御する制御手段を備えたことを特徴とするものである。
請求項2の発明は、請求項1の移動体通信端末において、上記制御手段との間で制御指令情報の送受信が可能に構成された、アプリケーションプログラムの実行環境を管理するアプリケーションプログラム実行環境管理手段を備え、上記制御手段は、該アプリケーションプログラム実行環境管理手段から受けた音認識機能指定用の制御指令情報に基づいて上記複数種類の音認識機能のいずれかを選択して認識処理を実行するように上記認識処理手段を制御することを特徴とするものである。
請求項3の発明は、請求項1の移動体通信端末において、上記複数種類の音認識機能のいずれかを利用者が指定するための指定操作手段を備え、上記制御手段は、該指定操作手段の操作によって生成された音認識機能指定用の制御指令情報に基づいて上記複数種類の音認識機能のいずれかを選択して認識処理を実行するように上記認識処理手段を制御することを特徴とするものである。
請求項4の発明は、請求項1乃至3のいずれかの移動体通信端末において、上記認識処理手段は、上記複数の音認識機能のそれぞれについて所定の認識処理用の辞書データと所定の認識処理アルゴリズムとを用いて認識処理を実行し、該辞書データを切り換えることによって上記音認識機能の切り換えを行うことを特徴とするものである。
請求項5の発明は、請求項4の移動体通信端末において、上記認識処理手段は、上記辞書データとともに上記認識処理アルゴリズムを切り換えることによって上記音認識機能の切り換えを行うことを特徴とするものである。
請求項6の発明は、請求項4又は5の移動体通信端末において、上記辞書データ及び上記認識処理アルゴリズムのプログラムの少なくとも一方を記憶したメモリーカードを装着するためのカード装着手段と、上記制御手段は、上記辞書データ及び上記認識処理アルゴリズムのプログラムの少なくとも一方を記憶したメモリーカードが該カード装着手段に装着されたとき、該メモリカードに記憶されている該辞書データ及び該認識処理アルゴリズムのプログラムの少なくとも一方を用いて上記認識処理を実行するように、上記認識処理手段を制御することを特徴とするものである。
請求項7の発明は、請求項1乃至6のいずれかの移動体通信端末において、上記認識処理手段の認識処理結果の情報又は該認識処理結果に関連する情報を、文字情報、音声情報及び画像情報の少なくとも一つとして出力する情報出力手段を備えたことを特徴とするものである。
請求項8の発明は、請求項1乃至7のいずれかの移動体通信端末において、上記制御手段は、上記認識処理手段の認識処理結果の情報又は該認識処理結果に関連する情報を所定の送信先に上記通信ネットワークを介して送信するように上記通信手段を制御することを特徴とするものである。
請求項1の移動体通信端末では、認識対象の音情報の種類が変わった場合は、その音情報に応じて適切な音認識機能に切り換えられ、音情報の認識処理が実行される。
請求項2の移動体通信端末では、アプリケーションプログラム実行環境管理手段で管理する実行環境上で実行するアプリケーションプログラムが、音情報の認識処理を必要とする場合は、制御手段に音認識機能指定用の制御指令情報が送られる。この制御指令情報を受けた制御手段により、アプリケーションプログラム実行環境管理手段から受けた制御指令情報に基づいて適切な音認識機能が選択され、音情報の認識処理が実行される。
請求項3の移動体通信端末では、利用者が指定操作手段を操作することにより、複数種類の音認識機能のいずれかを指定すると、音認識機能指定用の制御指令情報が生成される。この制御指令情報に基づいて、複数種類の音認識機能のいずれかが選択され、音情報の認識処理が実行される。
請求項4の移動体通信端末では、認識処理アルゴリズムと組み合わせて用いる辞書データを切り換えることにより、上記音情報について認識処理を実行する音認識機能を切り換える。
請求項5の移動体通信端末では、認識処理アルゴリズムと辞書データの両方を切り換えることにより、上記音情報について認識処理を実行する音認識機能を切り換える。
請求項6の移動体通信端末では、辞書データ及び認識処理アルゴリズムのプログラムの少なくとも一方を記憶したメモリーカードをカード装着手段に装着する。このカード装着手段に装着したメモリーカードに記憶されている辞書データ及び認識処理アルゴリズムのプログラムの少なくとも一方を制御手段に読み出し、上記音情報について認識処理を実行する。
請求項7の移動体通信端末では、上記認識処理手段の認識処理結果の情報又は認識処理結果に関連する情報を、文字情報、音声情報及び画像情報の少なくとも一つとして出力する。これにより、認識処理結果の情報又は認識処理結果に関連する情報を、利用者が文字や画像として見たり、音声として聞いたりすることができるようにする。
請求項8の移動体通信端末では、上記認識処理手段の認識処理結果の情報又は認識処理結果に関連する情報を、所定の送信先に通信ネットワークを介して送信することにより、遠隔地で利用できるようにする。
なお、上記「移動体通信端末」には、PDC(Personal Digital Cellular)方式、GSM(Global System for Mobile Communication)方式、TIA(Telecommunications Industry Association)方式等の携帯電話機、IMT(International Mobile Telecommunications)−2000で標準化された携帯電話機が含まれる。また、「移動体通信端末」には、PHS(Personal Handyphone Service)、自動車電話等の電話機のほか、携帯電話モジュールを付加した情報通信端末や、固定電話機も含まれる。
また、上記認識処理対象の「音情報」には、人の音声の情報のほか、動物の鳴き声の情報や、生物以外の物体から発せられる音の情報も含まれる。
また、上記「認識結果に関する情報」は、上記認識処理で得られた認識結果の情報そのものではなく、例えばその認識結果に予め対応させて設定しておいた情報である。例えば、移動体通信端末でゲームのアプリケーションプログラムを実行しているときに利用者が音声でゲームの進行内容を指示した場合、その指示の内容のそのものではなく、ゲームのアプリケーションプログラム側が上記指示の内容に応答する応答内容の情報も含まれる。
また、上記移動体通信端末における制御や認識処理は、その移動体通信端末内に設けられたコンピュータで所定のプログラムを実行することによって実現することもできる。このコンピュータで用いる制御プログラム、認識処理アルゴリズムのプログラム、アプリケーションプログラム等のプログラムの受け渡しは、デジタル情報としてプログラムを記録したFD,CD−ROM等の記録媒体を用いて行なってもいいし、コンピュータネットワーク等の通信ネットワークを用いて行なってもよい。
請求項1乃至8の発明によれば、複数種類の認識対象の音情報ごとに、適切な音認識機能に切り換えて認識処理を実行することができるので、音認識処理のための情報処理能力を高めることなく、複数種類の認識対象の音情報について認識処理して各認識処理の結果を利用できるようになるという効果がある。
特に、請求項2の発明によれば、アプリケーションプログラムの実行内容に応じて適切な音認識機能に切り換えて認識処理を実行できるようになるという効果がある。
特に、請求項3の発明によれば、利用者の指定内容に応じて適切な音認識機能に切り換えて認識処理を実行できるようになるという効果がある。
特に、請求項4の発明によれば、認識処理アルゴリズムを固定したまま、その認識処理アルゴリズムと組み合わせて用いる辞書データのみを切り換えることにより、音認識機能の切り換え処理が簡易になるという効果がある。
特に、請求項5の発明によれば、認識処理アルゴリズムと辞書データの両方を切り換えることにより、切り換え可能な音認識機能の種類の自由度が高まるという効果がある。
特に、請求項6の発明によれば、カード装着手段に装着するメモリーカードを変えることにより、音認識機能に切り換えることができるという効果がある。
特に、請求項7の発明によれば、音情報の認識処理結果の情報又はその認識処理結果に関連する情報を、利用者が文字、画像あるいは音声の情報として利用できるという効果がある。
特に、請求項8の発明によれば、音情報の認識処理結果の情報又はその認識処理結果に関連する情報を、遠隔地で利用できるという効果がある。
以下、本発明を移動体通信端末としての携帯電話機に適用した実施形態について説明する。
図2は、本実施形態に係る携帯電話機20を用いる移動体通信システムの主要部を示す説明図である。この移動体通信システムにおいて、利用者1が使用する携帯電話機20は、プラットフォームに依存しないオブジェクト指向プログラミングによって開発されたアプリケーションプログラムを実行可能な構成を有している。このアプリケーションプログラムとしては、JAVA(登録商標)、C、C++等のプログラム言語で記述されたアプリケーションプログラムなどが挙げられる。また、これらのアプリケーションプログラムの実行環境は、JAVA(登録商標)のVMやBREW(登録商標)等のミドルウェアによって構築される。
本実施形態の携帯電話機20は、後述するように、人の音声や動物の鳴き声等の音情報について認識処理を実行するための互いに異なる複数種類の音認識機能を有している。また、携帯電話機20は、上記アプリケーションプログラムの実行内容に応じて複数種類の音認識機能を切り換えて認識処理を実行できるように構成されている。
携帯電話機20は、通信ネットワークとしての携帯電話通信網10に接続可能である。この携帯電話通信網10には、プログラム提供用サーバとしてのアプリケーションプログラムダウンロードサーバ(以下、「ダウンロードサーバ」という。)11が接続されている。また、携帯電話通信網10には、ダウンロードサーバ11のほか、図示しない情報提供サーバ、位置登録サーバ、メールサーバ等も接続されている。なお、これらサーバは単一のサーバで構成してもよい。また、これらのサーバは、互いに異なる構成を有する専用の制御装置として構成してもいいし、汎用のコンピュータシステムを用いて構成してもよい。また、各サーバは、1台のコンピュータで構成してもいいし、複数の機能をそれぞれ受け持つ複数台のコンピュータをネットワークで結んで構成してもよい。
ダウンロードサーバ11は、携帯電話機20からのダウンロード要求を受け付けると、その要求に係るアプリケーションプログラムを携帯電話機20に対して送信する。また、Webサーバ12は、携帯電話機20からの閲覧要求を受け付けると、その要求に係る閲覧画面であるWebページ画面を携帯電話機20に対して送信する。
ダウンロードサーバ11から提供されるアプリケーションプログラムは、アプリケーションプログラムの開発元2から提供される。具体的には、例えば、アプリケーションプログラム開発元2側のパーソナルコンピュータ等から、専用回線や公衆回線を介してダウンロードサーバ11にアップロードして提供する。なお、開発したアプリケーションプログラムを記録した光ディスクや磁気ディスク等の記録媒体を、アプリケーションプログラム開発元2からダウンロードサーバ11を管理・運営する通信事業者に送り、その記録媒体内のアプリケーションプログラムをダウンロードサーバ11で読み取るようにして、提供してもよい。このようにして提供されたアプリケーションプログラムは、携帯電話機20から携帯電話通信網10を介してダウンロード可能な状態でダウンロードサーバ11に登録される。
上記位置登録サーバは、各携帯電話機20の位置している現在位置の情報すなわち各携帯電話機10が位置している位置登録管理エリアの位置情報を登録して管理するサーバである。この位置登録管理エリアは、各携帯電話機20と無線通信する基地局が管轄する一つのセルからなるエリアであっていいし、隣接する複数のセルを一つのグループとして管理されるエリアであってもよい。一つの位置登録管理エリアの典型的なサイズは数km〜数百mである。上記位置登録サーバに対する各携帯電話機20の位置登録は、電源ON時に、定期的に、及び携帯電話機20が位置するセルが変わるたびに行われる。
上記情報提供サーバは、各位置登録管理エリアの基地局を介して、所定の通信チャンネルによって地域情報、該当する位置登録管理エリアの位置情報(緯度、経度、住所)、コンテンツ情報等の各種情報を配信する。このように各種情報が送信されている通信チャンネルについて、携帯電話機10が所定のタイミングで受信動作を実行することにより、その通信チャンネルで送信されている情報を取得し情報記憶手段としての内部メモリーに保存することができる。各通信チャンネルに対する受信動作は、予め初期設定で設定されているタイミングや、利用者が設定したタイミングで実行することができる。この受信動作は定期的に実行してもいいし、不定期に実行してもよい。
上記メールサーバは、各携帯電話機20から送信されたメールのデータを次のメールサーバに転送したり、各携帯電話機20宛に送られてきたメールを受信して保存・管理し、各携帯電話機20からのメール取得要求に応じて受信メールのデータを各携帯電話機に送信したりする。
図3は、携帯電話機20の外観図であり、図4は、その携帯電話機20のハードウェア構成を示す概略構成図である。この携帯電話機20は、システムバス200、CPU201、RAM202やROM203等からなるデータ記憶手段、入力装置204、出力装置205及び携帯電話通信網用通信装置206を備えている。CPU201やRAM202等の構成要素は、システムバス200を介して、互いに各種データや後述のプログラムの命令等のやり取りを行っている。
上記入力装置204は、データ入力キー(テンキー、*キー、#キー)21、通話開始キー22、終話キー23、スクロールキー24、多機能キー25、ソフトキー26,27、マイク28等から構成されている。ソフトキー26,27は、携帯電話機で実行されるプログラムによって操作時の機能が定義されるキーである。
この入力装置204の各種キーは、利用者が操作可能な操作部として用いられる。この各種キーを操作することにより、利用者は、携帯電話機20に対してURL等のデータを入力したり、電話着信の際に通話の開始及び終了を行ったり、アプリケーションプログラムの選択、起動及び停止を行ったりすることができる。また、利用者は各種キーを操作することにより、上記ダウンロードサーバ11からアプリケーションプログラムをダウンロードして登録したり、登録したアプリケーションプログラムを選択して実行したりすることができる。また、利用者は各種キーを操作することにより、携帯電話通信網10の情報提供サーバから受信した情報を表示することもできる。
また、入力装置204の各種キーは、複数種類の音認識機能のいずれかを利用者が指定するための指定操作手段としても用いられる。利用者は各種キーを操作することにより、携帯電話機内に予め組み込まれている人の音声認識機能や動物の鳴き声認識機能などの複数種類の音認識機能から、実際に使用する一つ又は二つ以上の音認識機能を指定することができる。
さらに、入力装置204のマイク28は、通話中の音声入力のほか、音認識対象の人の音声や動物の鳴き声等の音情報を取得する取得手段としても用いられる。
上記出力装置205は、画像表示手段としての液晶ディスプレイ(LCD)からなるディスプレイ29、スピーカ30等から構成されている。
この出力装置205により、携帯電話通信網10を介して受信したWebページ画面をディスプレイ29に表示したり、携帯電話通信網10から情報を着信した旨を利用者に報知したりすることができる。具体的には、その情報を着信すると、ディスプレイ29に着信報知画像を表示したり、スピーカ30から着信音を出力させたりする。また、出力装置205は、上記ゲーム等のアプリケーションプログラムの実行中に、そのプログラム実行に関連した画像の表示や音の出力に用いたり、情報提供サーバから受信した情報を表示したりするときにも用いられる。
さらに、出力装置205は、人の音声や動物の鳴き声などの音情報について認識処理したときの認識処理結果の情報又はその認識処理結果に関連する情報を出力する情報出力手段としても用いられる。すなわち、この出力装置205により、認識処理結果の情報又はその認識処理結果に関連する情報を、文字情報やイラストなどの画像情報としてディスプレイ29上に表示したり、利用者が認識可能な音声情報としてスピーカ30から出力したりすることができる。
上記携帯電話通信網用通信装置206は、携帯電話通信網10の基地局との間で所定の手順による無線通信のための信号処理を行う無線通信回路等で構成され、携帯電話通信網10を介して他の携帯電話機や上述したサーバ11等と通信するためのものである。この携帯電話通信網用通信装置206により、携帯電話機通信網10を介して他の携帯電話機とメールのやり取りを行ったり、携帯電話機通信網10からゲートウェイサーバを介してインターネット等の外部の通信ネットワークに接続し、インターネット上での電子メールのやり取り等を行ったりすることができる。更に、この携帯電話通信網用通信装置206は、携帯電話通信網10を介して、ダウンロードサーバ11が提供するアプリケーションプログラムをダウンロードしたり、現在位置の位置情報を含む配信情報を受信したりする情報受信手段としても用いられる。
また、携帯電話通信網用通信装置206は、音情報の認識処理結果の情報又はその認識処理結果に関連する情報を、外出先にある携帯電話機やパソコンあるいは友人の携帯電話機やパソコン等の送信先に携帯電話通信網10を介して送信する手段としても用いられる。
図5は、本発明の特徴部に係る携帯電話機20の主要な機能を抽出して示した機能ブロック図である。また、図6は、その携帯電話機20におけるソフトウェア構造の説明図である。この携帯電話機20は、制御手段としての主制御部210と、アプリケーションプログラム実行管理手段211と、音情報取得手段213と、通信手段214とを備えている。
主制御部210は、上述のシステムバス200、CPU201やRAM202等で構成され、基本ソフト(OS)や所定のミドルウェアにより携帯電話機本来の通話やデータ通信等を行う電話機プラットフォームを主に制御するいわゆるネイテブ側の制御手段として用いられる。また、この主制御部210は、人の音声や動物の鳴き声などの音情報について認識処理を実行する認識処理手段212としても用いられる。
上記アプリケーションプログラム実行管理手段211は、上述のシステムバス200、CPU201やRAM202等で構成されている。このアプリケーションプログラム実行手段211は、図6のソフトウェア構造上において中央の「プログラム実行環境」に対応しており、オブジェクト指向プログラミングで開発されたアプリケーションプログラムに利用されるクラスライブラリ、実行環境管理ライブラリ、アプリケーション管理等のソフトウェアを提供し、アプリケーションプログラムの実行環境を管理する。
ここで、アプリケーションプログラムは、クラスライブラリAPI(アプリケーションインターフェース)を介して上記プログラム実行環境内にある関数等のクラスライブラリを呼び出して使用できるようになっている。この関数等のクラスライブラリの呼び出しの履歴は、アプリケーションプログラムの仮想的な実行環境(仮想マシン:VM)が終了するまで保持される。
また、プログラム実行環境内の実行環境管理ライブラリは、電話機プラットフォームAPIを介して後述の電話機プラットフォーム内の電話機プラットフォームライブラリを呼び出して使用できるようになっている。
上記音情報取得手段213は、上記入力装置204のマイク28等で構成され、主制御部210からの制御指令に基づいて、音認識対象の人の音声や動物の鳴き声等の音情報を取得する。
上記情報出力手段は、上記出力装置205のディスプレイ29、スピーカ30等で構成されている。この情報出力手段は、人の音声や動物の鳴き声などの音情報について認識処理したときの認識処理結果の情報又はその認識処理結果に関連する情報を、文字情報、イラストなどの画像情報、又は利用者が認識可能な音声情報として出力する。
上記通信手段215は、上記携帯電話通信網用通信装置206等で構成され、主制御部210からの制御指令に基づいて、音情報の認識処理結果の情報又はその認識処理結果に関連する情報を、外出先にある携帯電話機やパソコンあるいは友人の携帯電話機やパソコン等の送信先に携帯電話通信網10を介して送信する。
上記主制御部210は、アプリケーションプログラム実行管理手段211、音情報取得手段213、情報出力手段214、通信手段214等との間で制御命令や各種データのやりとりを行い、これらと協働して制御を行う。また、主制御部210は、図6のソフトウェア構造上において最下部の「電話機プラットフォーム」にあり、上記電話通信等を制御するための制御用プログラムやユーザインターフェースを実行したり、電話機プラットフォームライブラリを提供したりする。この電話機プラットフォームは、上記プログラム実行環境内の実行環境管理ライブラリに対してイベントを送ることによりアプリケーションプログラムにおける各種処理を実行したり、アプリケーション管理APIを介して上記プログラム実行環境内のアプリケーション管理のソフトウェアを呼び出して使用したりできるようになっている。
また、上記主制御部210は、前述のように人の音声や動物の鳴き声などの音情報について認識処理を実行する認識処理手段212としても用いられる。この認識処理手段212は、互いに異なる複数種類の音認識機能を有している。本実施形態では、3種類の音認識機能を有している。第1の音認識機能(以下、「音声認識エンジン1」という)は、利用者が発する「ミギ」という言葉の音声情報を認識する機能である。第2の音認識機能(以下、「音声認識エンジン2」という)は、利用者が発する「ヒダリ」という言葉の音声情報を認識する機能である。また、第3の音認識機能(以下、「鳴き声認識エンジン」という)は、犬等の動物の鳴き声の音声情報を認識し、その動物の喜怒哀楽などの感情を分析する機能である。これらの音認識機能(認識エンジン)はそれぞれ、認識処理用の辞書データと認識処理アルゴリズムとを組み合わせて実現することができる。辞書データは、認識対象の音情報について予め測定及び分析を行うことにより作成しておく。音認識機能(認識エンジン)の切り換えは、辞書データ及び認識処理アルゴリズムの切り換えによって行うことができる。この場合、辞書データ及び認識処理アルゴリズムの両方を切り換えてもいいし、辞書データ及び認識処理アルゴリズムのいずれか一方を切り換えてもよい。
携帯電話機20を所定の手順に従って動作させる電話機プラットフォームを構築するための制御用プログラムは、RAM202やROM203に記憶されている。また、基本OS(オペレーティングシステム)やミドルウェアのプログラムや、上記プログラム実行環境を構築するためのプログラム、アプリケーションプログラム及びエンジンのも、RAM202やROM203に記憶されている。そして、これらのプログラムやデータは、必要に応じてCPU201やRAM202中の作業エリアに呼び出されて実行される。
上記構成の携帯電話機20において、ダウンロードサーバ11からアプリケーションプログラムをダウンロードするときは、利用者1は、入力装置204のキーを操作して、ダウンロードサーバ11にアクセスする。これにより、ダウンロード可能なアプリケーションプログラムを選択するためのダウンロード選択画面がディスプレイ29上に表示される。そして、そのダウンロード選択画面において、利用者が希望するアプリケーションプログラムをスクロールキー24を用いて選択し、多機能キー25を押下すると、主制御部210が携帯電話通信網用通信装置206を制御して、そのアプリケーションプログラムをダウンロードサーバ11からダウンロードする。
このようにしてダウンロードしたアプリケーションプログラムを実行する場合、利用者1は、操作部のキーを操作して、実行するアプリケーションプログラムを選択するためのアプリケーション選択画面をディスプレイ29上に表示させる。そして、そのアプリケーション選択画面において、利用者が希望するアプリケーションプログラムをスクロールキー24を用いて選択し、多機能キー25を押下すると、上記アプリケーションプログラム実行管理手段211はアプリケーションプログラムを起動する。このとき、必要に応じて設定データを参照し、その設定データに従った処理動作を行う環境を設定する。また、アプリケーションプログラム実行中に特定の処理動作を行う際、その処理動作に関する設定データを参照し、そのアプリケーションプログラムに適した処理動作を行うようにする。
アプリケーションプログラムとしては、各種キーを操作してゲーム等を楽しむアプリケーションプログラムのほか、ディスプレイ29上に3次元動画からなる待ち受け画面を表示させたりする常駐型のアプリケーションプログラムなど、あらゆるアプリケーションプログラムが含まれる。
次に、本発明の特徴部分である、アプリケーションプログラムの実行中における音声や鳴き声の認識処理について説明する。
図1は、アプリケーションプログラムの実行中に利用者が発した音声(「ミギ」又は「ヒダリ」)を認識するときの処理を示すシーケンス図である。また、図7は、主制御部210における音認識機能(認識エンジン)の切り換え制御のフローチャートである。
まず、利用者は、携帯電話機20のメインディスプレイ29に表示したアプリケーションプログラムのリストから希望のアプリケーションプログラムを選択して実行することができる。このアプリケーションプログラムの実行中に、そのアプリケーションプログラムで定義されているソフトキー26、27を操作すると、そのキー操作の情報がアプリケーション側に送られる。アプリケーション側では、受け取ったキー操作の情報を用いてゲームを進行したり、再生音楽の曲目を選択したりすることができる。
次に、上記アプリケーションプログラムの実行中に、そのアプリケーションプログラムが音声認識処理又は鳴き声認識処理を要求する場合は、認識エンジン指定用の画面がディスプレイ29に表示される。利用者はキーを操作し、上記3つの認識エンジン(音声認識エンジン1、音声認識エンジン2、鳴き声認識エンジン)の中からいずれか一つの認識エンジンを指定し、画面上の確定用アイコン(例えば「OK」)をクリックする。これにより、アプリケーションプログラム実行管理手段によるプログラム実行環境(VM)上で、利用者が指定した認識エンジンの識別子(1、2又は3)が付加された音認識開始要求の関数が呼び出される。この関数が呼び出されたプログラム実行環境(VM)は、上記識別子の情報とともに音認識開始要求の制御指令情報を電話機プラットフォームの主制御部210に送る。
電話機プラットフォームの主制御部210では、プログラム実行環境(VM)から受けた認識エンジン指定情報である識別子を解釈し、3つの認識エンジン(音声認識エンジン1、音声認識エンジン2、鳴き声認識エンジン)の中からいずれか一つの認識エンジンを選択する。そして、その選択した音認識処理が可能な待ち状態にする。この状態で、利用者は上記指定した認識エンジンに応じて、自分の音声(「ミギ」又は「ヒダリ」)や、犬などの動物の鳴き声等の音情報を入力する。この音情報が入力されると、上記指定された認識エンジンを用いた音認識処理(音声認識処理又は鳴き声認識処理)が実行される。この認識処理の結果の情報を生成し、プログラム実行環境(VM)に送る。図1は、鳴き声認識エンジンに切り換えて犬などの動物の鳴き声を認識する場合を示している。
プログラム実行環境(VM)は、主制御部210から受けた認識結果情報を用いて、ゲームなどのアプリケーションプログラムを進行させるように処理する。例えば、認識処理結果の情報が、人の音声の「ミギ」である場合は、アプリケーションプログラムの実行画面を右側にスクロールしたり、ゲームの実行画面上のキャラクターを右側に移動させたりする。また、認識処理結果の情報が、犬などの動物の鳴き声を認識して得られた喜怒哀楽の感情等を表す事柄(例えば「寂しい」、「うれしい」、「楽しい」、「お腹がすいた」)である場合は、その事柄を表す言葉を待受け画面上に表示したり、メールで遠隔地に送信したりする。また、これらの感情等の事柄を表す情報に基づいて、ゲームの進行を切り換えたりすることもできる。
なお、上記図1の例では、音声認識エンジン1及び音声認識エンジン2が日本語の複数の言葉(「ミギ」、「ヒダリ」)それぞれに対する音声認識エンジンである場合について示したが、複数の言語について音声認識エンジンを切り換えて使用できるようにしてもよい。
例えば、図8のように音声認識エンジン1が日本語の音声認識エンジンであり、音声認識エンジン2が英語の音声認識エンジンであり、これらの音声認識エンジン1及び音声認識エンジン2を切り換えて使用できるようにしてもよい。そして、日本語を話す利用者から英語を話す利用者に変わったときは、認識エンジン指定用の画面上で音声認識エンジン2を指定し、画面上の確定用アイコン(例えば「OK」)をクリックする。これにより、アプリケーションプログラム実行管理手段によるプログラム実行環境(VM)上で、利用者が指定した認識エンジンの識別子「2」が付加された音認識開始要求の関数が呼び出される。この関数が呼び出されたプログラム実行環境(VM)は、上記識別子の情報とともに音認識開始要求の制御指令情報を電話機プラットフォームの主制御部210に送る。
電話機プラットフォームの主制御部210では、プログラム実行環境(VM)から受けた認識エンジン指定情報である識別子を解釈し、音声認識エンジン2を選択し、その選択した音認識処理が可能な待ち状態にする。この状態で、利用者が英語で音声を入力すると、英語用の音声認識エンジン2を用いた音声認識処理が実行され、認識処理の結果の情報を生成してプログラム実行環境(VM)に送る。
以上、本実施形態によれば、3種類の認識対象の音情報(音声情報、鳴き声情報)ごとに、適切な音声認識エンジン又は鳴き声認識エンジンに切り換えて認識処理を実行することができる。したがって、音認識処理のための情報処理能力を高めることなく、3種類の認識対象の音情報について認識処理し、各認識処理の結果を利用できるようになる。
また、本実施形態によれば、アプリケーションプログラムの実行内容に応じて適切な音認識機能に切り換えて認識処理を実行できる。
また、本実施形態によれば、利用者の指定内容に応じて適切な音認識機能に切り換えて認識処理を実行できる。
なお、上記実施形態において、上記認識エンジンの切換えは、認識処理アルゴリズムを固定したまま、その認識処理アルゴリズムと組み合わせて用いる辞書データのみを切り換えることで行うことができる。この場合は、音認識機能の切り換え処理が簡易になる。
また、上記実施形態において、上記認識エンジンの切換えは、認識処理アルゴリズムと辞書データの両方を切り換えるようにしてもよい。この場合は、切り換え可能な音認識機能の種類の自由度が高まる。
また、上記実施形態において、上記辞書データをメモリカードに記憶させておき、このメモリーカードを携帯電話機20のカード装着手段に装着して音認識処理を実行するようにしてもよい。メモリーカードに記憶されている辞書データは、主制御部210に読み出して音認識処理に使用される。この場合は、メモリーカードを変えることにより音認識機能に切り換えることができる。なお、メモリーカードには、上記辞書データだけでなく、その辞書データと組み合わせて用いる認識処理アルゴリズムのプログラムを記憶させておいてもよい。
また、上記実施形態において、音声情報や鳴き声情報の認識処理結果の情報を、利用者が認識可能な文字情報や、音声情報、イラスト等の画像情報として出力してもよい。この場合は、認識処理結果の情報又は認識処理結果に関連する情報を、利用者が文字や画像として見たり、音声として聞いたりすることができ、利用者が文字、画像あるいは音声の情報として利用できる。
また、上記実施形態において、音声情報や鳴き声情報の認識処理結果の情報を、携帯電話通信網10を介して他の携帯電話機やパーソナルコンピュータに送信してもよい。この場合は、音情報の認識処理結果の情報又はその認識処理結果に関連する情報を、遠隔地で利用できる。
また、上記出力したり送信したりする情報は、認識処理結果の情報そのものだけでなく、その認識処理結果に関連する情報であってもよい。この認識処理結果に関連する情報は、認識結果に予め対応させて設定しておいた情報である。例えば、上記ゲームのアプリケーションプログラムを実行しているときに利用者が音声でゲームの進行内容を指示した場合、その指示の内容のそのものではなく、ゲームのアプリケーションプログラム側が上記指示の内容に応答する応答内容の情報であってもよい。
また、上記実施形態では、人の音声や犬などの動物の鳴き声をマイクで入力することによって音情報を取得しているが、音情報の取得の形態はこれに限定されるものではない。例えば、電子データになっている音情報のファイルを携帯電話通信網などの通信ネットワークを介してダウンロードしたり、上記音情報のファイルが添付されたメールを受信したりすることによって取得してもよい。また、上記音情報のファイルが保存されているメモリーカードを装着し、そのメモリーカードから音情報のファイルを読み出して取得するようにしてもよい。
また、上記実施形態では、JAVA(登録商標)等のプログラム言語を用いたプラットフォームに依存しないオブジェクト指向のプログラミングで開発されたアプリケーションプログラムを実行できる携帯電話機について説明したが、本発明は、携帯電話機で実行するアプリケーションプログラムの種類に限定されることなく適用でき、同様な効果が得られるものである。
また、本発明は、アプリケーションプログラムを実行可能で、かつ、通信ネットワーク上で配信されている閲覧画面を閲覧可能なものであれば、PHS、自動車電話機等の電話機のほか、携帯型のPDAの場合についても適用でき、同様な効果が得られるものである。
本発明の実施形態に係る携帯電話機におけるアプリケーションプログラムの実行中に利用者が発した音声を認識するときの処理を示すシーケンス図。 同携帯電話機を用いる移動体通信システムの主要部を示す説明図。 同携帯電話機の外観図。 同携帯電話機のハードウェア構成を示す概略構成図。 同携帯電話機の主要部を抽出して示した機能ブロック図。 同携帯電話機におけるソフトウェア構造の説明図。 主制御部における音認識機能(認識エンジン)の切り換え制御のフローチャート。 アプリケーションプログラムの実行中に利用者が発した音声を認識するときの変形例に係る処理を示すシーケンス図。
符号の説明
10 携帯電話通信網
20 携帯電話機
210 主制御部
211 アプリケーションプログラム実行管理手段
212 認識処理手段
213 音情報取得手段
214 情報出力手段
215 通信手段

Claims (8)

  1. 音情報を取得する音情報取得手段と、該音情報取得手段で取得した音情報について認識処理を実行する認識処理手段と、移動体通信ネットワークを介して通信を行うための通信手段とを備えた移動体通信端末であって、
    該認識処理手段は、互いに異なる複数種類の音認識機能を有し、
    該複数種類の音認識機能を切り換えて認識処理を実行するように該認識処理手段を制御する制御手段を備えたことを特徴とする移動体通信端末。
  2. 請求項1の移動体通信端末において、
    上記制御手段との間で制御指令情報の送受信が可能に構成された、アプリケーションプログラムの実行環境を管理するアプリケーションプログラム実行環境管理手段を備え、
    上記制御手段は、該アプリケーションプログラム実行環境管理手段から受けた音認識機能指定用の制御指令情報に基づいて上記複数種類の音認識機能のいずれかを選択して認識処理を実行するように上記認識処理手段を制御することを特徴とする移動体通信端末。
  3. 請求項1の移動体通信端末において、
    上記複数種類の音認識機能のいずれかを利用者が指定するための指定操作手段を備え、
    上記制御手段は、該指定操作手段の操作によって生成された音認識機能指定用の制御指令情報に基づいて上記複数種類の音認識機能のいずれかを選択して認識処理を実行するように上記認識処理手段を制御することを特徴とする移動体通信端末。
  4. 請求項1乃至3のいずれかの移動体通信端末において、
    上記認識処理手段は、上記複数の音認識機能のそれぞれについて所定の認識処理用の辞書データと所定の認識処理アルゴリズムとを用いて認識処理を実行し、該辞書データを切り換えることによって上記音認識機能の切り換えを行うことを特徴とする移動体通信端末。
  5. 請求項4の移動体通信端末において、
    上記認識処理手段は、上記辞書データとともに上記認識処理アルゴリズムを切り換えることによって上記音認識機能の切り換えを行うことを特徴とする移動体通信端末。
  6. 請求項4又は5の移動体通信端末において、
    上記辞書データ及び上記認識処理アルゴリズムのプログラムの少なくとも一方を記憶したメモリーカードを装着するためのカード装着手段と、
    上記制御手段は、上記辞書データ及び上記認識処理アルゴリズムのプログラムの少なくとも一方を記憶したメモリーカードが該カード装着手段に装着されたとき、該メモリカードに記憶されている該辞書データ及び該認識処理アルゴリズムのプログラムの少なくとも一方を用いて上記認識処理を実行するように、上記認識処理手段を制御することを特徴とする移動体通信端末。
  7. 請求項1乃至6のいずれかの移動体通信端末において、
    上記認識処理手段の認識処理結果の情報又は該認識処理結果に関連する情報を、文字情報、音声情報及び画像情報の少なくとも一つとして出力する情報出力手段を備えたことを特徴とする移動体通信端末。
  8. 請求項1乃至7のいずれかの移動体通信端末において、
    上記制御手段は、上記認識処理手段の認識処理結果の情報又は該認識処理結果に関連する情報を所定の送信先に上記通信ネットワークを介して送信するように上記通信手段を制御することを特徴とする移動体通信端末。
JP2003373342A 2003-10-31 2003-10-31 移動体通信端末 Expired - Fee Related JP4149898B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003373342A JP4149898B2 (ja) 2003-10-31 2003-10-31 移動体通信端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003373342A JP4149898B2 (ja) 2003-10-31 2003-10-31 移動体通信端末

Publications (2)

Publication Number Publication Date
JP2005134819A true JP2005134819A (ja) 2005-05-26
JP4149898B2 JP4149898B2 (ja) 2008-09-17

Family

ID=34649452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003373342A Expired - Fee Related JP4149898B2 (ja) 2003-10-31 2003-10-31 移動体通信端末

Country Status (1)

Country Link
JP (1) JP4149898B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264472A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
US10257401B2 (en) 2005-10-17 2019-04-09 Cutting Edge Vision Llc Pictures using voice commands
JP2019062404A (ja) * 2017-09-27 2019-04-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10257401B2 (en) 2005-10-17 2019-04-09 Cutting Edge Vision Llc Pictures using voice commands
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad
JP2007264472A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
JP4675811B2 (ja) * 2006-03-29 2011-04-27 株式会社東芝 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product
JP2019062404A (ja) * 2017-09-27 2019-04-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法

Also Published As

Publication number Publication date
JP4149898B2 (ja) 2008-09-17

Similar Documents

Publication Publication Date Title
JP4624407B2 (ja) 待機モード用コンテンツを移動端末機へ提供する方法、および、サービス管理サーバー
CN109274405A (zh) 数据传输方法、装置、电子设备及计算机可读介质
JP2006524962A (ja) 動的カスタマイズ可能なスマート電話帳のための方法および装置
JP4332525B2 (ja) 移動体通信端末
WO2007008050A1 (en) System, apparatus and method for providing a flashcon in a instant messenger of a mobile device
US7742585B2 (en) Mobile communication terminal
KR100695212B1 (ko) 푸쉬 메시지를 자동 저장하는 방법 및 이동통신 단말기
JP2007251332A (ja) 移動体通信端末、着信管理装置、および、プログラム
KR20060104324A (ko) 캐릭터 합성 메시지 전송 방법 및 시스템
JP4149898B2 (ja) 移動体通信端末
KR20050105842A (ko) 이동 단말기의 대기 모드 상태에서 메시지를 출력하는방법 및 장치
KR100594444B1 (ko) 일정관리기능이 구비된 이동통신단말기와 그 제어방법
KR100607494B1 (ko) 이동 단말 주소록 동기화 서비스 제공 방법 및 장치
CN101164359A (zh) 作为用户接口要素的背景音的系统和方法
JP2005300863A (ja) 移動体通信端末及びカラオケシステム
JP3981653B2 (ja) 移動体通信端末
KR100819681B1 (ko) 문자열 입력을 통한 기능 제어가 가능한 휴대 단말기 및 그제어 방법
KR20030040948A (ko) 이동통신 단말기의 북마크 제공 장치 및 그 방법
JP4657647B2 (ja) 移動体通信端末
KR102075750B1 (ko) 문자 데이터를 이용한 음성 통화를 제공하기 위한 전자 장치 및 방법
KR20060094252A (ko) 대기모드용 어플리케이션 구동 방법 및 장치
JP2003157236A (ja) メディア情報検索サービス提供システムにおける音声通知を用いた利用者特定装置及び方法、並びに利用者特定プログラム
KR20130106553A (ko) 통화중 배경음 및 배경화면을 선택 전송하는 스마트폰 애플리케이션 구동 방법
KR20030028588A (ko) 휴대용 정보통신 단말기에서의 음악편지 서비스 제공시스템 및그 방법
KR100995622B1 (ko) 지능 개발 기능을 가진 휴대 단말 및 그 서비스 제공 방법

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061016

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061207

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20061222

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080513

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080626

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees