JP2013174644A

JP2013174644A - 通信端末、制御方法及びプログラム

Info

Publication number: JP2013174644A
Application number: JP2012037572A
Authority: JP
Inventors: Hayato Kinoshita; 逸人木下; Hirotaka Furukawa; 博崇古川; Toshiharu Kurisu; 俊治栗栖; Kyoko Masuda; 恭子増田; Satoshi Suda; 悟史須田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-02-23
Filing date: 2012-02-23
Publication date: 2013-09-05
Anticipated expiration: 2032-02-23
Also published as: JP5887162B2

Abstract

【課題】音声入力によりユーザに指示された機能の呼び出しに必要な場合に、音声認識サーバへの問合せを行う。
【解決手段】通信端末は、複数機能の各機能（例えばアプリケーションプログラム）に対応した登録文字列（例えばアプリケーションプログラムの名称）の一覧を記憶している。通信端末は、入力音声を認識して入力文字列に変換する（Ｓ１〜Ｓ４）。通信端末は、入力文字列と登録文字列の一覧とを照合し、入力文字列に合致した登録文字列に対応した機能の候補を特定する（Ｓ５，Ｓ６）。通信端末は、機能の候補を特定した場合は、候補をユーザに提示し、自端末で利用可能であればその機能を利用し、自端末で利用可能でなければ必要なアプリケーションプログラムを通信により検索する（Ｓ７〜Ｓ１１）。通信端末は、機能の候補を特定できなかった場合には（Ｓ６；ＮＯ）、音声認識サーバに入力音声を認識させて音声認識結果を取得する（Ｓ１２〜Ｓ１５）。
【選択図】図７

Description

本発明は、ユーザからの音声入力により機能を呼び出す技術に関する。

スマートフォンや携帯電話端末等のユーザ端末には、ユーザからの音声入力を受け付けて、入力音声により指示された動作を実行する機能を備えたものがある。例えば特許文献１は、ユーザの携帯端末が、音声認識機能を備えた認証・認識サーバに入力音声を認識させ、認識したアプリケーションに関する要求内容が認証・認識サーバからアプリケーションサーバへ送信され、アプリケーションサーバによって提供されたアプリケーションサービスを携帯端末が利用することを開示している。

この種のユーザ端末において、ユーザ端末が音声認識辞書を内蔵しその音声認識辞書を用いて入力音声を認識すれば、ネットワーク上の音声認識サーバを利用する場合に比べて、全体の処理時間を短縮することができるし、ネットワーク負荷を増大させることもない。しかしながら、処理能力やメモリ容量等の装置が持つ能力の差を原因として、ユーザ端末の音声認識の精度は、一般に、音声認識サーバの音声認識の精度に比べて劣る。これに対し、特許文献２は、音声入力があると、小語彙の辞書を有する組込型音声認識機能で音声認識を行い、認識結果が良好であればその認識結果を採用し、その認識結果が良好でない場合には、大語彙の辞書を有するネットワーク型音声認識機能による音声認識を行わせる携帯端末を開示している。特許文献２に記載された技術では、必要な場合にだけ音声認識サーバに認識処理を行わせるから、認識精度が良いときには処理時間を短縮でき、認識精度が悪いときには外部から精度の良い認識結果を得ることができる。

特開２００６-２０３９００号公報特開２００９-２３７４３９号公報

ところで、特許文献２に記載された技術では、音声認識結果の精度に基づいてネットワーク型音声認識機能の使用の有無が判断される。しかしながら、特許文献１に記載された技術のようにアプリケーションプログラムを呼び出す場合、ユーザが呼び出しを指示したアプリケーションプログラムの候補を或る程度まで絞り込める程度の精度が確保できれば足り、極めて高い精度の音声認識結果を必ずしも要するわけではない。すなわち、音声認識結果の精度の高低に基づいて外部の音声認識サーバに音声認識を行わせるか否かを判断する手法では、ユーザ端末で或る程度まで機能を絞り込むことができていた場合には、結果的に、ユーザ端末が音声認識サーバに不要な問合せを行ったことになる。
そこで、本発明の目的は、音声入力によりユーザに指示された機能の呼び出しに必要な場合に、音声認識サーバへの問合せを行うことである。

上述した課題を解決するため、本発明の通信端末は、外部装置と通信する通信部と、複数機能の各機能に対応した登録文字列を記憶する記憶部と、入力音声を認識し、当該入力音声を入力文字列に変換する音声認識部と、前記音声認識部により変換された入力文字列と前記記憶部に記憶された登録文字列とを照合し、当該入力文字列に合致した登録文字列に対応した前記機能を特定する照合部と、前記照合部により前記機能が特定されなかった場合には、前記通信部により音声認識サーバと通信して、当該音声認識サーバに前記入力音声を認識させて音声認識結果を取得する認識結果取得部と、前記照合部により特定された前記機能、又は前記認識結果取得部により取得された音声認識結果に基づいて所定の処理を実行する処理実行部とを備えることを特徴とする。

本発明において、前記記憶部は、前記機能を利用するために実行すべきアプリケーションプログラムを記憶し、前記照合部は、前記入力音声から変換された入力文字列を含む前記音声認識結果を取得した場合には、当該入力文字列に合致した登録文字列に対応した前記機能を前記記憶部から特定し、前記処理実行部は、前記照合部により特定された前記機能が自通信端末で利用可能である場合には、当該機能を利用するための前記記憶部に記憶されたアプリケーションプログラムを用いて処理を実行し、前記照合部により特定された前記機能が自通信端末で利用可能でない場合には、前記通信部により通信して、当該機能を利用するためのアプリケーションプログラムを検索するようにしてもよい。

本発明において、予め決められた条件を満たす場合には、前記照合部は、入力文字列と登録文字列との照合を行わず、前記認識結果取得部は、前記音声認識サーバに前記入力音声を認識させて前記音声認識結果を取得するようにしてもよい。
また、本発明において、前記条件を満たす場合には、前記音声認識部は、前記入力音声を認識せず、前記認識結果取得部は、前記音声認識サーバに前記入力音声を認識させて前記音声認識結果を取得するようにしてもよい。

本発明において、前記認識結果取得部は、前記入力音声から変換された入力文字列を含む前記音声認識結果を取得し、前記処理実行部は、前記音声認識結果から前記機能が特定された場合には、当該機能に対応して前記記憶部に記憶された登録文字列を、前記認識結果取得部が取得した入力文字列を用いて更新するようにしてもよい。

また、本発明の制御方法は、外部装置と通信する通信端末の制御方法であって、入力音声を認識し、当該入力音声を入力文字列に変換する音声認識ステップと、前記音声認識ステップで変換された入力文字列と、複数機能の各機能に対応した登録文字列を記憶する記憶部に記憶された登録文字列とを照合し、当該入力文字列に合致した登録文字列に対応した前記機能を特定する照合ステップと、前記照合ステップで前記機能が特定されなかった場合には、音声認識サーバと通信して、当該音声認識サーバに前記入力音声を認識させて音声認識結果を取得する認識結果取得ステップと、前記照合ステップで特定された前記機能、又は前記認識結果取得ステップで取得された音声認識結果に基づいて所定の処理を実行する処理実行ステップとを有することを特徴とする。

また、本発明のプログラムは、外部装置と通信する通信端末のコンピュータに、入力音声を認識し、当該入力音声を入力文字列に変換する音声認識ステップと、前記音声認識ステップで変換された入力文字列と、複数機能の各機能に対応した登録文字列を記憶する記憶部に記憶された登録文字列とを照合し、当該入力文字列に合致した登録文字列に対応した前記機能を特定する照合ステップと、前記照合ステップで前記機能が特定されなかった場合には、音声認識サーバと通信して、当該音声認識サーバに前記入力音声を認識させて音声認識結果を取得する認識結果取得ステップと、前記照合ステップで特定された前記機能、又は前記認識結果取得ステップで取得された音声認識結果に基づいて所定の処理を実行する処理実行ステップとを実行させるためのプログラムである。

本発明によれば、音声入力によりユーザに指示された機能の呼び出しに必要な場合に、音声認識サーバへの問合せを行うことができる。

通信システムの全体構成を示す図。通信端末のハードウェア構成を示すブロック図。アプリケーション管理リストの構成を示す図。通信端末の制御部の機能的構成を示す機能ブロック図。機能を呼び出す場合に実行する処理の流れを示すフローチャート。機能を提示するときの画面例。機能を呼び出す場合に実行する処理の流れを示すフローチャート（変形例１）。機能を呼び出す場合に実行する処理の流れを示すフローチャート（変形例１）。機能を呼び出す場合に実行する処理の流れを示すフローチャート（変形例２）。

以下、図面を参照しつつ本発明の実施形態を説明する。
図１は、通信システム１の全体構成を示す図である。
通信システム１は、通信端末１０と、音声認識サーバ２０と、アプリケーション配信サーバ３０とを備えている。通信端末１０と、音声認識サーバ２０と、アプリケーション配信サーバ３０とは、ネットワークＮＷ経由で互いに通信可能に接続されている。ネットワークＮＷは、ここでは、移動体通信網、ゲートウェイ及びインターネットを含む通信網である。

通信端末１０は、入力音声（主に、通信端末１０のユーザが発する声。）を認識して、音声入力によってユーザに指示されたアプリケーションプログラムを呼び出すことのできるユーザ端末である。音声認識サーバ２０は、通信端末１０への入力音声を認識し、音声認識結果を通信端末１０に提供するサーバ装置である。アプリケーション配信サーバ３０は、アプリケーションプログラムをデータベースに蓄積し、蓄積しておいたアプリケーションプログラムを配信するサーバ装置である。通信端末１０はアプリケーション配信サーバ３０にアクセスして、アプリケーションプログラムを紹介するｗｅｂサイトを表示したり、有料又は無料でアプリケーションプログラムをダウンロードしたりすることができる。
なお、通信端末１０は、例えばスマートフォンであるが、携帯電話端末やタブレット端末、パーソナルコンピュータ、ＰＤＡ（Personal Digital Assistant）等の、入力音声を認識する機能とネットワークＮＷに接続する通信機能とを有する他の通信端末であってもよい。また、図１には、通信端末１０、音声認識サーバ２０及びアプリケーション配信サーバ３０をそれぞれ１つだけ図示しているが、それぞれより多数存在していてもよい。

図２は、通信端末１０のハードウェア構成を示すブロック図である。図１に示すように、通信端末１０は、制御部１１と、音声入出力部１２と、通信部１３と、操作部１４と、表示部１５と、記憶部１６とを備える。
制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を有するマイクロプロセッサを備える。ＣＰＵは、ＲＯＭや記憶部１６に記憶されたデータをＲＡＭに読み出して実行することにより、通信端末１０の各部を制御する。音声入出力部１２は、マイクロホン及びスピーカを有し、音声の入出力に関わる機能を実現する。通信部１３は、無線通信回路やアンテナを備え、移動体通信網、ゲートウェイ及びインターネットを含むネットワークに接続して外部装置と通信するインタフェースである。

操作部１４は、表示部１５の表示面に重ねて設けられたタッチスクリーンと物理キーとを有し、通信端末１０のユーザにより行われた操作を示す操作信号を制御部１１に出力する。表示部１５は、表示面に画像を表示する。記憶部１６は、例えばＥＥＰＲＯＭ（Electronically Erasable and Programmable ROM）やフラッシュメモリなどの記憶装置を備え、制御部１１により実行されるアプリケーションプログラムを含む各種プログラムのほか、通信端末１０での音声認識に用いられる音声認識辞書１６１及びアプリケーション管理リスト１６２を記憶する。
なお、記憶部１６は、リムーバブルメディア等の着脱可能な記憶手段を含んでもよいし、ＵＩＭ（User Identity Module）カードやＳＩＭ（Subscriber Identity Module）カードのような、ユーザ（又は通信端末１０）を識別するためのデータが記録された記憶手段を含んでもよい。
次に、アプリケーション管理リスト１６２の構成を説明する。

図３は、アプリケーション管理リスト１６２の構成を示す図である。図３に示すように、アプリケーション管理リスト１６２は、「機能ＩＤ」と、「登録文字列」とで表される情報を対応付けたデータテーブルである。
「機能ＩＤ」のフィールドは、複数機能の各機能を識別する識別子として機能ＩＤが格納されるフィールドである。アプリケーション管理リスト１６２に機能ＩＤが登録されている機能は、通信端末１０で利用可能な機能のみならず、利用可能でない機能が含まれていることもある。例えば、通信端末１０は所定のサーバにアクセスして、アプリケーション管理リスト１６２を更新する。通信端末１０で利用可能な機能は、例えば、制御部１１が記憶部１６に記憶されたアプリケーションプログラムを実行することによって実現される。よって、機能ＩＤは、通信端末１０にインストールされて記憶部１６に記憶されたアプリケーションプログラムを識別する識別子ということもできる。「登録文字列」のフィールドは、通信端末１０で利用可能な機能に対応した文字列がテキストコード（例えば、ASCII、Unicode、Shift_JIS等）により格納されるフィールドである。登録文字列は、例えば単語であるが、複合語等の任意の文字列でよい。登録文字列は、機能ＩＤが示す機能の名称や、機能を実現するために実行されるアプリケーションプログラムの名称であるが、ユーザは任意の文字列を登録文字列として設定可能である。

例えば、機能ＩＤ「ＩＤ００１」は、記憶部１６に記憶されたメーラを実行することにより実現される機能であって、電子メールの作成や送受信を行うための機能（以下、「メール機能Ａ」と称することがある。）に対応し、登録文字列は「めーる」である。機能ＩＤ「ＩＤ００２」は、或るｗｅｂページからダウンロードしたメーラを実行することにより実現される機能（以下、「メール機能Ｂ」と称することがある。）に対応し、登録文字列は「ふりーめーる」である。機能ＩＤ「ＩＤ００３」は、電話を掛ける（つまり音声通信を行う）ための機能（電話機能）に対応し、登録文字列は「でんわ」である。機能ＩＤ「ＩＤ００４」は、記憶部１６に記憶されたアプリケーションプログラムに対応する。そのアプリケーションプログラムが「ＡＢＣ」という名称あるとし、機能ＩＤ「ＩＤ００４」には登録文字列「えーびーしー」が対応付けられている。
なお、アプリケーション管理リスト１６２には、各機能ＩＤに対応付けて登録文字列が対応付けられ、登録文字列同士は互いに異なっている。図３に示すように、ここでは「めーる」と「ふりーめーる」とのように部分一致することが許容されているが、両方の登録文字列を「めーる」とする等、複数機能で登録文字列が重複していても構わない。
次に、通信端末１０の機能的構成を説明する。

図４は、通信端末１０の制御部１１のユーザインタフェースに関する機能的構成を示す機能ブロック図である。制御部１１は、音声情報取得部１１１と、音声認識部１１２と、照合部１１３と、認識結果取得部１１４と、処理実行部１１５とに相当する機能を実現する。
音声情報取得部１１１は、ユーザにより入力された音声を示す音声情報（例えば、音声波形を示す波形データ）を、音声入出力部１２から取得する。
音声認識部１１２は、音声情報取得部１１１から取得した音声情報に基づいて音声認識処理を行って入力音声を認識し、入力音声を入力文字列に変換する。音声認識部１１２は、ここでは記憶部１６に記憶された音声認識辞書１６１を参照して音声認識処理を行い、入力音声をテキストコードたる入力文字列に変換する。

照合部１１３は、音声認識部１１２により変換された入力文字列と記憶部１６に記憶されたアプリケーション管理リスト１６２の登録文字列とを照合し、入力文字列に合致した登録文字列によって識別される機能を特定する。ここにおいて、照合部１１３は、入力文字列が少なくとも一部に含まれている登録文字列に対応した機能ＩＤを、アプリケーション管理リスト１６２から抽出する。

認識結果取得部１１４は、照合部１１３により機能が特定されなかった場合には、音声認識サーバ２０に入力音声を認識させ、音声認識サーバ２０の音声認識結果を取得する。認識結果取得部１１４は、音声認識サーバ２０に音声認識を行わせる場合には、例えば、音声情報取得部１１１が取得した音声情報から抽出した特徴情報を、通信部１３により音声認識サーバ２０に送信して、音声認識処理の実行を要求する。認識結果取得部１１４は、音声認識サーバ２０により実行要求に応じて音声認識処理が行われると、音声認識サーバ２０により送信された音声認識結果を通信部１３により取得する。認識結果取得部１１４は、音声認識結果として、例えば入力音声から変換した入力文字列を取得する。

処理実行部１１５は、照合部１１３により特定された機能、又は認識結果取得部１１４により取得された音声認識結果に基づいて所定の処理を実行する。処理実行部１１５は、例えば、入力文字列から特定された機能を通信端末１０で利用可能であれば、その機能を利用するために実行すべきアプリケーションプログラムをユーザに提示したり、そのアプリケーションプログラムを記憶部１６から読み出して実行したりする。また、処理実行部１１５は、例えば、入力文字列から特定された機能を通信端末１０で利用可能でなければ、通信部１３によりアプリケーション配信サーバ３０にアクセスして、アプリケーションプログラムをダウンロードする。
次に、通信端末１０の動作を説明する。

図５は、通信端末１０がユーザからの音声入力により機能を呼び出す場合に実行する処理の流れを示すフローチャートである。
まず、通信端末１０の制御部１１は、ユーザにより行われた操作部１４の操作に応じて、所定の音声入力受付画面を表示部１５に表示させる。制御部１１は、表示部１５に音声入力受付画面を表示させると、音声入出力部１２から入力される音声の検出を開始する。そして、制御部１１は、音声入出力部１２からの音声入力を受け付けたか否かを判断する（ステップＳ１）。制御部１１は、音声入力受付画面を表示部１５に表示させている期間においては、音声入力を受け付けるまで待機する（ステップＳ１；ＮＯ）。

制御部１１は、音声入力を受け付けたと判断すると（ステップＳ１；ＹＥＳ）、音声入出力部１２から入力音声を示す音声情報を取得する（ステップＳ２）。そして、制御部１１は、記憶部１６に記憶された音声認識辞書１６１を参照して、音声入出力部１２から取得した音声情報に基づいて音声認識処理を行い、入力音声を入力文字列に変換する（ステップＳ３）。ここにおいて、制御部１１は、例えば隠れマルコフモデルに基づく手法等の周知の音声認識技術を用いて、音声認識処理を行えばよい。

次に、制御部１１は、音声認識処理の結果により入力文字列を取得したか否かを判断する（ステップＳ４）。ここにおいて、制御部１１は、ステップＳ３の処理の音声認識処理で入力音声を何らかの文字列（テキストコード）に変換することができれば、入力文字列を取得したと判断する。制御部１１は、入力文字列を取得できなかったと判断した場合には（ステップＳ４；ＮＯ）、ステップＳ１に処理に戻って、入力音声の受け付けを行う。
一方、制御部１１は、音声認識処理により入力文字列を取得したと判断すると（ステップＳ４；ＹＥＳ）、ステップＳ５の処理に進む。ここでは、制御部１１は、「めーる」という入力文字列を取得したものとする。

次に、制御部１１は、記憶部１６に記憶されたアプリケーション管理リスト１６２を参照し、入力文字列を用いて登録文字列との照合を行う（ステップＳ５）。ここにおいて、制御部１１は、入力文字列が少なくとも一部に含まれている（つまり、部分一致する）登録文字列に対応した機能ＩＤを、アプリケーション管理リスト１６２から抽出する。ここでは入力文字列が「めーる」であるから、制御部１１は登録文字列「めーる」である機能ＩＤ「ＩＤ００１」と、登録文字列「ふりーめーる」である機能ＩＤ「ＩＤ００２」とをアプリケーション管理リスト１６２から抽出する。
なお、ここでは、制御部１１は、いわゆる表記ゆれを考慮して、入力文字列と登録文字列とが合致するか否かを判断するものとする。例えば、制御部１１は「えーびーしー」と「えいびーしー」とが合致すると判断する。また、制御部１１は、略語の利用を考慮して、入力文字列と登録文字列とが合致するか否かを判断してもよい。例えば、制御部１１は「パソコン」と「パーソナルコンピュータ」とが合致すると判断してもよい。

次に、制御部１１は、入力文字列と登録文字列とが合致する機能を特定したか否かを判断する（ステップＳ６）。ここでは制御部１１は、ステップＳ５の処理で機能ＩＤ「ＩＤ００１」及び「ＩＤ００２」を抽出し、２種類の機能を特定したから、ステップＳ６の処理で「ＹＥＳ」と判断する（ステップＳ６；ＹＥＳ）。次に、制御部１１は、特定した機能の候補をユーザに提示し、適切な機能があったか否かをユーザに問い合わせる（ステップＳ７）。制御部１１は、例えば、図６に示す機能提示画面を表示部１５に表示させる。具体的には、図６に示すように、制御部１１は「あなたがお探しの機能は以下のどれかですか？」というメッセージと、特定した各機能の名称を付したソフトボタンＳＢ１，ＳＢ２と、「どの機能でもない」というメッセージを付したソフトボタンＳＢ３とを配置した機能提示画面を表示部１５に表示させる。ここにおいて、制御部１１は、提示した機能のいずれかに対応するソフトボタンがユーザの操作部１４の操作により選択された場合に、適切な機能があると判断する。よって、制御部１１は、図６に示すソフトボタンＳＢ１又はＳＢ２が選択された場合には、ステップＳ７の処理で「ＹＥＳ」と判断する。

次に、制御部１１は、ステップＳ７の処理でユーザに選択された機能が利用可能であるか否かを判断する（ステップＳ８）。制御部１１は、ユーザに選択された機能が利用可能であると判断すると（ステップＳ８；ＹＥＳ）、その機能を利用する（ステップＳ９）。例えば、制御部１１は、ソフトボタンＳＢ１が選択された場合には、記憶部１６からメーラを読み出して実行して、メール機能を利用するための画面を表示部１５に表示させる。

一方、制御部１１は、ステップＳ８の処理で機能を利用可能でないと判断した場合（ステップＳ８；ＮＯ）、アプリケーション配信サーバ３０から機能を検索するか否かを判断する（ステップＳ１０）。ここでは、制御部１１は、入力文字列を検索語として、アプリケーション配信サーバ３０により提供されるアプリケーションプログラムから、ユーザが所望する機能の利用に必要なアプリケーションプログラムを検索するか否かをユーザに問い合わせる。制御部１１は、ユーザによりアプリケーション配信サーバ３０からアプリケーションプログラムを検索することが操作部１４の操作により指示されると、ステップＳ１０の処理で「ＹＥＳ」と判断して、ステップＳ１１の処理に進む。そして、制御部１１は、入力文字列を検索語とした検索クエリをアプリケーション配信サーバ３０に送信して、アプリケーション配信サーバ３０からアプリケーションプログラムを検索する（ステップＳ１１）。アプリケーション配信サーバ３０は、検索クエリを受信すると、入力文字列を検索語として、データベースからアプリケーションプログラムを検索し、検索結果を通信端末１０に提示する。ここにおいて、アプリケーション配信サーバ３０は、例えば、アプリケーションプログラムの名称に「めーる」という呼称を含むアプリケーションプログラムの一覧を提示する。通信端末１０の制御部１１は、アプリケーション配信サーバ３０により提示されたアプリケーションプログラムの一覧から、ユーザの指示に応じてアプリケーションプログラムを選択し、その紹介をするｗｅｂサイトをｗｅｂブラウザに表示したり、アプリケーションプログラムをダウンロードしたりする。
一方、ステップＳ１０の処理で「ＮＯ」と判断した場合、制御部１１は、ステップＳ１１の処理を実行しない。

ところで、ステップＳ６の処理で、制御部１１が入力文字列に登録文字列が合致する機能を特定しなかった場合（ステップＳ６；ＮＯ）、又は、ステップＳ７の処理で適切な機能がないと判定した場合（具体的には、図６に示すソフトボタンＳＢ３が選択された場合）には（ステップＳ７；ＮＯ）、音声認識サーバ２０に音声認識を行わせる。制御部１１がステップＳ６の処理で「ＮＯ」と判断する場合とは、入力文字列を取得したものの、通信端末１０で利用可能な機能の登録文字列のいずれにも合致しなかった場合である。この原因として、例えば、音声認識の結果の精度が不良であることや、ユーザが利用したい機能の登録文字列がアプリケーション管理リスト１６２未登録であることが考えられる。また、制御部１１がステップＳ７の処理で「ＮＯ」と判断する場合には、機能を提示したものの、ユーザが所望する機能が含まれていない場合がある。このような場合、制御部１１は、音声認識サーバ２０により精度の高い音声認識を行わせて、適切な機能を提示できるように試みる。

制御部１１は、ステップＳ６又はＳ７の処理で「ＮＯ」と判断すると、ステップＳ２で取得した音声情報から抽出した特徴情報を、通信部１３により音声認識サーバ２０宛てに送信し、音声認識サーバ２０に音声認識処理を要求する（ステップＳ１２）。音声認識サーバ２０は、通信端末１０からの要求に応じて音声認識処理を行い、この音声認識処理で入力音声を入力文字列に変換すると、この入力文字列を含む音声認識結果を通信端末１０宛てに送信する。そして、制御部１１は、音声認識サーバ２０から音声認識結果を取得する（ステップＳ１３）。そして、制御部１１は、取得した音声認識結果に含まれる入力文字列を用いて、ステップＳ５の処理と同様の照合処理を行って、特定した機能の一覧を表示部１５への表示にユーザに提示する（ステップＳ１４）。ステップＳ１４の処理では、通信端末１０の制御部１１は、ステップＳ７の処理と同じようにして機能提示画面を表示部１５に表示させればよい。

次に、制御部１１は、音声の再入力指示を受け付けたか、又はステップＳ１４の処理で提示機能がなかったかのいずれかに該当するか否かを判断する（ステップＳ１５）。制御部１１は、ユーザの操作部１４の操作に応じて音声の再入力指示を受け付けたか、又は提示機能がなかったと判断した場合には（ステップＳ１５；ＹＥＳ）、ステップＳ１の処理に戻って音声入力画面を表示部１５に表示させ、音声入力を受け付けることとなる。

一方、制御部１１は、音声の再入力指示を受け付けず、かつ、ステップＳ１３の処理で少なくとも１つ機能を提示した場合には（ステップＳ１５；ＮＯ）、ステップＳ８の処理に進み、機能の一覧からユーザに選択された機能が利用可能であるか否かを判断することとなる。この場合のステップＳ８の処理以降の処理は既に説明したとおりである。
以上が通信端末１０が機能を呼び出すときの動作の説明である。

以上説明した実施形態によれば、通信端末１０は内蔵する音声認識辞書１６１を用いて入力音声を認識し入力文字列に変換する。そして、通信端末１０は、入力文字列とアプリケーション管理リスト１６２に格納された登録文字列とを照合し、入力文字列に合致する登録文字列の機能を特定しユーザに提示する。その際に、通信端末１０は、入力文字列に合致する登録文字列の機能を特定できなかった場合に、音声認識サーバ２０に音声認識を行わせて、音声認識サーバ２０により入力文字列から特定された機能を提示する。仮に通信端末１０が音声認識結果の精度の良し悪しで音声認識サーバ２０への処理の要求を判断していれば、どちらでも同じ入力文字列が得られて同じ機能が特定されてしまい、音声認識サーバ２０にアクセスしたことによるメリットを享受できないことがある。これに対し、通信端末１０は、機能を適切に呼び出せなかった場合に、音声認識精度が自端末よりも高い音声認識サーバ２０に音声認識処理を要求するので、音声認識サーバ２０によって入力文字列が得られた場合に、自端末では特定できなかった機能を特定できることがある。

また、通信端末１０は、ユーザに利用が指示された機能が自端末で利用できない場合には、アプリケーション配信サーバ３０に問合せを行う。これにより、通信端末１０は、一度の音声認識処理で得た入力文字列を用いて、アプリケーション配信サーバ３０から速やかにアプリケーションプログラムをダウンロードし、ユーザが所望する機能を利用可能にすることができる。

［変形例］
本発明は、上述した実施形態と異なる形態で実施することが可能である。本発明は、例えば、以下のような形態で実施することも可能である。また、以下に示す変形例は、各々を適宜に組み合わせてもよい。
（変形例１）
上述した実施形態において、通信端末１０は音声入力を受け付けると、入力音声を示す音声情報に基づいて音声認識処理を行って、ステップＳ５の処理の照合処理を行っていたが、特定の条件を満たす場合には、この照合処理を行わず、音声認識サーバ２０にそれを要求してもよい。照合処理を必要に応じて省略するためには、（１）音声認識を省略する構成と、（２）音声認識を行ってから照合処理を省略する構成との２通りが考えられる。以下、それぞれ分けて説明する。

（１）音声認識を省略する。
制御部１１は、予め決められた音声認識の不実施条件（第１条件）を満たす場合には、音声認識処理を行うことなく、音声認識サーバ２０に音声認識処理を行わせてもよい。例えば、通信端末１０の音声認識精度が音声認識サーバ２０よりも劣るのであれば、入力音声が長期間に及ぶ場合には、全期間に渡って精度良く認識するのが難しい場合がある。よって、入力音声が長期間に及ぶと、通信端末１０が入力文字列に変換できたとしても、認識ミスによって、適切な機能を特定できない可能性が高まる。そこで、制御部１１は、入力音声を示す音声情報を監視し、入力音声が所定時間長以上継続する場合に、入力音声を認識しない。

図７は、この変形例の通信端末１０がユーザからの音声入力により機能を呼び出す場合に実行する処理の流れを示すフローチャートである。図５と同じ符号を付した処理ステップでは、上述した実施形態と同じ処理が行われるので、ここではその説明を省略する。
通信端末１０の制御部１１は、音声入力を受け付けて（ステップＳ１；ＹＥＳ）、音声情報を取得すると（ステップＳ２）、音声認識処理の不実施条件を満たすか否かを判断する（ステップＳ１６）。例えば、制御部１１は、入力音声の音量レベルが閾値以上である期間が所定の時間長以上継続した場合に、不実施条件を満たすと判断するとよい。これ以外にも、制御部１１は、入力音声の周波数成分を解析し、人間の声を検知した時間が所定の時間長以上継続した場合に、不実施条件を満たすと判断してもよい。

制御部１１は、入力音声が所定時間長以上継続し、不実施条件を満たすと判断した場合には（ステップＳ１６；ＹＥＳ）、ステップＳ１２の処理に進み、音声認識サーバ２０に音声認識を行わせる。制御部１１が実行するステップＳ１２以降の処理は上述した実施形態と同じである。
一方、制御部１１は、入力音声が所定時間長以上継続せず、不実施条件を満たさないと判断した場合には（ステップＳ１６；ＮＯ）、ステップＳ３の処理進み、音声認識辞書１６１を参照して音声認識を行う。制御部１１が実行するステップＳ３以降の処理は上述した実施形態と同じである。

このように、通信端末１０は入力音声が所定時間長以上継続して、認識結果の精度が低くなる可能性のある場合には、自端末で音声認識を行わずに音声認識サーバ２０に音声認識処理を要求する。これにより、通信端末１０が自端末で音声認識を行って精度が悪い結果を得てから、音声認識サーバ２０に音声認識処理を要求する場合に比べて、処理時間を短縮することができる。このような不実施条件を満たす場合、音声認識サーバ２０に音声認識処理を要求したことによるメリットを享受できる可能性が高いわけであるが、音声認識を自端末で行わない不実施条件はこれ以外の条件であってもよい。例えば、不実施条件は、入力音声に含まれるノイズ成分が閾値レベル以上であるという条件であってもよいし、認識結果の精度が低下する要素に基づいて予め決められていればよい。

（２）音声認識を行ってから照合処理を省略する。
制御部１１は、音声認識を行った後、予め決められた照合処理の不実施条件（第２条件）を満たす場合には、この照合処理を行うことなく、音声認識サーバ２０に音声認識処理を行わせてもよい。例えば、通信端末１０の音声認識精度が音声認識サーバ２０よりも劣るのであれば、入力文字列に含まれる単語数が多い場合には、全期間に渡って精度良く認識するのが難しい場合がある。よって、単語数が多いと、通信端末１０が入力文字列に変換できたとしても、認識ミスによって合致する登録文字列を発見できない可能性が高まる。そこで、制御部１１は、入力音声を示す音声情報を監視し、単語数が閾値以上である場合に、照合処理をしない。

図８は、この変形例の通信端末１０がユーザからの音声入力により機能を呼び出す場合に実行する処理の流れを示すフローチャートである。図５と同じ符号を付した処理ステップでは、上述した実施形態と同じ処理が行われるので、ここではその説明を省略する。
通信端末１０の制御部１１は、音声入力を受け付けて（ステップＳ１；ＹＥＳ）、音声情報を取得し（ステップＳ２）、音声認識処理を行う（ステップＳ３）。そして、制御部１１は、入力音声から入力文字列を得ると、その入力文字列に基づいて照合処理の不実施条件を満たすか否かを判断する（ステップＳ１７）。例えば、制御部１１は、入力音声から閾値以上の数の単語を含む入力文字列を得た場合に、不実施条件を満たすと判断する。

制御部１１は、単語数が閾値以上であり、不実施条件を満たすと判断した場合には（ステップＳ１７；ＹＥＳ）、ステップＳ１２の処理に進み、音声認識サーバ２０に音声認識処理を行わせる。制御部１１が実行するステップＳ１２以降の処理は上述した実施形態と同じである。
一方、制御部１１は、単語数が閾値未満であり、不実施条件を満たさないと判断した場合には（ステップＳ１７；ＮＯ）、ステップＳ３の処理進み、音声認識辞書１６１を参照して音声認識処理を行う。制御部１１が実行するステップＳ３以降の処理は上述した実施形態と同じである。

このように、通信端末１０は入力文字列の単語数が多く、認識結果の精度が低くなる可能性のある場合には、照合処理を行わず音声認識サーバ２０に音声認識処理を要求する。これにより通信端末１０は、自端末で照合処理を行ってその結果を得てから音声認識サーバ２０に音声認識処理を要求する場合に比べて、処理時間を短縮することができる。このような不実施条件を満たす場合、音声認識サーバ２０に音声認識処理を要求したことによるメリットを享受できる可能性が高いわけであるが、照合処理を自端末で行わない不実施条件はこれ以外の条件であってもよい。例えば、不実施条件は、特定の外来語であることを条件としてもよいし、呼称が類似する言葉が複数ある語句であることを条件としてもよく、照合処理の結果の精度が低下する要素に基づいて予め決められていればよい。

（変形例２）
上述した実施形態において、通信端末１０は音声認識サーバ２０の音声認識結果を用いて、アプリケーション管理リスト１６２の登録文字列を更新してもよい。例えば、機能ＩＤ「ＩＤ００４」の機能の登録文字列は「えーびーしー」であるが、ユーザの「ＡＢＣ」の発話の仕方（例えば癖や滑舌）によっては、必ずしも「えーびーしー」という入力文字列に変換されるとは限らず、「えいびーしー」と認識されたり、「えいびーすぃー」と認識されたりすることが考えられる。このように、ユーザが指定する登録文字列と、そのユーザが発話して認識される入力文字列とが乖離する場合がある。
そこで、本変形例の通信端末１０は以下に説明する手順で機能の呼び出しを行う。

図９は、この変形例の通信端末１０がユーザからの音声入力により機能を呼び出す場合に実行する処理の流れを示すフローチャートである。図５と同じ符号を付した処理ステップでは、上述した実施形態と同じ処理が行われるので、ここではその説明を省略する。
制御部１１は、ステップＳ１からステップＳ６（ステップＳ６；ＮＯ）の処理を実行し、ステップＳ１２の処理に進むと、音声認識サーバ２０に音声認識処理を行わせる。そして、制御部１１は、音声認識サーバ２０により入力音声が「えいびーしー」という入力文字列に変換されたとする。そして、制御部１１は、ステップＳ１５；ＮＯに進むと、次に、登録文字列を更新するか否かを判断する（ステップＳ１８）。
ここで、制御部１１が、音声認識サーバ２０により「えいびーしー」という認識結果を取得し、ユーザにより機能ＩＤ「ＩＤ００４」の機能が選択されたとする。この場合、制御部１１は、アプリケーション管理リスト１６２に機能ＩＤ「ＩＤ００４」が登録されていたにも関わらず、ステップＳ３の音声認識処理の精度が悪く、ステップＳ５の処理でこの機能を特定できなかったことになる。そこで、制御部１１は、この機能ＩＤについて、音声認識サーバ２０により変換された入力文字列を用いて登録文字列を更新するかをユーザに問い合わせる。

制御部１１は、ユーザの指示に応じて、音声認識サーバ２０により変換された入力文字列を用いて登録文字列を更新すると判断すると（ステップＳ１８；ＹＥＳ）、アプリケーション管理リスト１６２の登録文字列を更新する（ステップＳ１９）。ここでは、制御部１１は、アプリケーション管理リスト１６２において機能ＩＤ「ＩＤ００４」に対応する登録文字列を「えーびーしー」から「えいびーしー」に変更するよう更新する。ここにおいて、制御部１１は、更新する登録文字列を追加する更新処理を行ってもよく、この場合、更新後のアプリケーション管理リスト１６２においては、機能ＩＤ「ＩＤ００４」に登録文字列「えーびーしー」及び「えいびーしー」が対応付けられることになる。
これにより、ユーザが以降において同じ発話をした場合には、音声認識サーバ２０で「えーびーしー」と認識される発話であっても、「えいびーしー」と認識される発話であっても、通信端末１０は機能ＩＤ「ＩＤ００４」の機能を特定できるから、ステップＳ３の処理の音声認識処理で機能ＩＤ「ＩＤ００４」の機能を特定できる可能性が高くなる。
なお、制御部１１は、登録文字列を更新しないと判断した場合は（ステップＳ１８；ＮＯ）、ステップＳ１９の処理を実行することなく、ステップＳ８の処理に進む。

以上説明した変形例２によれば、通信端末１０は、音声認識サーバ２０の音声認識結果を用いて登録文字列を更新するから、ユーザの癖や滑舌等のユーザ固有の発話をした場合であっても、そのユーザに適した登録文字列となるように、アプリケーション管理リスト１６２を更新することが可能となる。

（変形例３）
上述した実施形態においては、通信端末１０はステップＳ８の処理で「ＮＯ」と判断した場合、アプリケーション配信サーバ３０に対して検索を要求したが、この検索を行わないようにしてもよい。
また、音声認識サーバ２０は入力文字列を通信端末１０に通知し、通信端末１０はこの入力文字列を用いて照合処理を行っていたが、音声認識サーバ２０は入力音声を入力文字列に変換し、その入力文字列を用いて機能を特定して機能を通知してもよい。

（変形例４）
上述した実施形態において、アプリケーション管理リスト１６２において機能ＩＤ毎にその機能ＩＤの機能が通信端末１０で利用可能か否かを識別する識別子が記憶されていてもよい。この場合、制御部１１は、ステップＳ８の処理においてアプリケーション管理リスト１６２を参照するだけで、機能が利用可能か否かを判断することができる。

（変形例５）
また、通信端末１０の制御部１１が実現する各機能は、複数のプログラムの組み合わせによって実現され、又は、複数のハードウェア資源の協働によって実現されうる。
また、本発明は、通信端末１０のほか、通信端末の制御方法やプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることも可能である。

１…通信システム、１０…通信端末、１１…制御部、１１１…音声情報取得部、１１２…音声認識部、１１３…照合部、１１４…認識結果取得部、１１５…処理実行部、１２…音声入出力部、１３…通信部、１４…操作部、１５…表示部、１６…記憶部、１６１…音声認識辞書、１６２…アプリケーション管理リスト、２０…音声認識サーバ、３０…アプリケーション配信サーバ

Claims

外部装置と通信する通信部と、
複数機能の各機能に対応した登録文字列を記憶する記憶部と、
入力音声を認識し、当該入力音声を入力文字列に変換する音声認識部と、
前記音声認識部により変換された入力文字列と前記記憶部に記憶された登録文字列とを照合し、当該入力文字列に合致した登録文字列に対応した前記機能を特定する照合部と、
前記照合部により前記機能が特定されなかった場合には、前記通信部により音声認識サーバと通信して、当該音声認識サーバに前記入力音声を認識させて音声認識結果を取得する認識結果取得部と、
前記照合部により特定された前記機能、又は前記認識結果取得部により取得された音声認識結果に基づいて所定の処理を実行する処理実行部と
を備えることを特徴とする通信端末。
前記記憶部は、
前記機能を利用するために実行すべきアプリケーションプログラムを記憶し、
前記照合部は、
前記入力音声から変換された入力文字列を含む前記音声認識結果を取得した場合には、当該入力文字列に合致した登録文字列に対応した前記機能を前記記憶部から特定し、
前記処理実行部は、
前記照合部により特定された前記機能が自通信端末で利用可能である場合には、当該機能を利用するための前記記憶部に記憶されたアプリケーションプログラムを用いて処理を実行し、
前記照合部により特定された前記機能が自通信端末で利用可能でない場合には、前記通信部により通信して、当該機能を利用するためのアプリケーションプログラムを検索する
ことを特徴とする請求項１に記載の通信端末。
予め決められた条件を満たす場合には、
前記照合部は、入力文字列と登録文字列との照合を行わず、
前記認識結果取得部は、
前記音声認識サーバに前記入力音声を認識させて前記音声認識結果を取得する
ことを特徴とする請求項１又は２に記載の通信端末。
前記条件を満たす場合には、
前記音声認識部は、
前記入力音声を認識せず、
前記認識結果取得部は、
前記音声認識サーバに前記入力音声を認識させて前記音声認識結果を取得する
ことを特徴とする請求項３に記載の通信端末。
前記認識結果取得部は、
前記入力音声から変換された入力文字列を含む前記音声認識結果を取得し、
前記処理実行部は、
前記音声認識結果から前記機能が特定された場合には、当該機能に対応して前記記憶部に記憶された登録文字列を、前記認識結果取得部が取得した入力文字列を用いて更新する
ことを特徴とする請求項１から４のいずれか１項に記載の通信端末。
外部装置と通信する通信端末の制御方法であって、
入力音声を認識し、当該入力音声を入力文字列に変換する音声認識ステップと、
前記音声認識ステップで変換された入力文字列と、複数機能の各機能に対応した登録文字列を記憶する記憶部に記憶された登録文字列とを照合し、当該入力文字列に合致した登録文字列に対応した前記機能を特定する照合ステップと、
前記照合ステップで前記機能が特定されなかった場合には、音声認識サーバと通信して、当該音声認識サーバに前記入力音声を認識させて音声認識結果を取得する認識結果取得ステップと、
前記照合ステップで特定された前記機能、又は前記認識結果取得ステップで取得された音声認識結果に基づいて所定の処理を実行する処理実行ステップと
を有することを特徴とする制御方法。
外部装置と通信する通信端末のコンピュータに、
入力音声を認識し、当該入力音声を入力文字列に変換する音声認識ステップと、
前記音声認識ステップで変換された入力文字列と、複数機能の各機能に対応した登録文字列を記憶する記憶部に記憶された登録文字列とを照合し、当該入力文字列に合致した登録文字列に対応した前記機能を特定する照合ステップと、
前記照合ステップで前記機能が特定されなかった場合には、音声認識サーバと通信して、当該音声認識サーバに前記入力音声を認識させて音声認識結果を取得する認識結果取得ステップと、
前記照合ステップで特定された前記機能、又は前記認識結果取得ステップで取得された音声認識結果に基づいて所定の処理を実行する処理実行ステップと
を実行させるためのプログラム。