JP7347043B2

JP7347043B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7347043B2
Application number: JP2019164539A
Authority: JP
Inventors: 東坪田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2023-09-20
Anticipated expiration: 2039-09-10
Also published as: JP2021044665A

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

近年、複数の個人によって共用される音声入出力端末（例えば、固定電話など）が知られている。このような複数の個人によって共用される音声入出力端末には、複数の個人それぞれが利用する情報が１台の音声入出力端末に登録されているのが一般的である。そのため、実際に複数の個人のうちの誰かが利用者として音声入出力端末を利用しようとした場合、複数の個人それぞれが利用する情報から自分が利用する情報を探し出す手間が掛かってしまう。

このような手間を低減するため、音声入出力端末と利用者の個人端末（例えば、携帯電話など）とを接続する技術が開示されている（例えば、特許文献１参照）。かかる技術によれば、利用者は音声入出力端末から通話を行うときに音声入出力端末と接続されている利用者の個人端末に登録されているアドレス帳（例えば、電話帳など）を使うことが可能である。

特開２０１２－２１３０９７号公報

しかし、音声入出力端末と利用者の個人端末とを接続する技術では、個人ごとに個人端末を異なる音声入出力端末に接続させる必要がある。すなわち、個人ごとに異なる音声入出力端末を利用する必要がある。そのため、複数の個人が１台の音声入出力端末を共用するのが困難である。

そこで、複数の個人が１台の音声入出力端末を共用することを可能しつつ、複数の個人のうちの誰かが利用者として音声入出力端末を利用する場合に自分が利用する情報を探し出す手間を低減することが可能な技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、少なくとも利用者の通話に利用される情報処理装置であって、前記利用者からの第１の入力に基づく第１の入力データを取得し、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、前記宛先識別情報に基づいて宛先への接続を要求する通話部と、を備える、情報処理装置が提供される。

前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データに関連付けられた前記宛先識別情報を前記サーバから取得してもよい。

前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記個人端末に登録されたアカウント情報と前記第１の入力データとに関連付けられた前記宛先識別情報を前記サーバから取得してもよい。

前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記アカウント情報に対応して発行されたアクセスキーを取得し、前記アクセスキーと前記第１の入力データとに対応する前記宛先識別情報を前記サーバから取得してもよい。

前記アクセスキーは、有効期限を有しており、前記取得部は、前記アクセスキーが前記有効期限を経過した後には、前記アクセスキーと前記第１の入力データとに対応する前記宛先識別情報が前記サーバから取得されなくてもよい。

前記個人認証用データは、前記利用者によってあらかじめ登録された音声データを含み、
前記第２の入力データは、前記利用者からの第２の音声入力に基づく音声データを含んでもよい。

前記第１の入力データは、前記利用者からの第１の音声入力に基づく第１の音声データを含んでもよい。

また、本発明の別の観点によれば、利用者からの第１の入力に基づく第１の入力データを取得し、情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得することと、前記宛先識別情報に基づいて宛先への接続を要求することと、を備える、情報処理方法が提供される。

また、本発明の別の観点によれば、コンピュータを、少なくとも利用者の通話に利用される情報処理装置であって、前記利用者からの第１の入力に基づく第１の入力データを取得し、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、前記宛先識別情報に基づいて宛先への接続を要求する通話部と、を備える情報処理装置として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、複数の個人が１台の音声入出力端末を共用することを可能しつつ、複数の個人のうちの誰かが利用者として音声入出力端末を利用する場合に自分が利用する情報を探し出す手間を低減することが可能な技術が提供される。

本発明の実施形態に係る通信システムの構成例を示す図である。アドレス帳の例を示す図である。本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。本発明の実施形態に係る音声入出力端末の例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（０．概要）
まず、本発明の実施形態の概要を説明する。近年、複数の個人によって共用される音声入出力端末（例えば、固定電話など）が知られている。このような複数の個人によって共用される音声入出力端末には、複数の個人それぞれが利用する情報が１台の音声入出力端末に登録されているのが一般的である。そのため、実際に複数の個人のうちの誰かが利用者として音声入出力端末を利用しようとした場合、複数の個人それぞれが利用する情報から自分が利用する情報を探し出す手間が掛かってしまう。

このような手間を低減するため、音声入出力端末と利用者の個人端末（例えば、携帯電話など）とを接続する技術が開示されている。かかる技術によれば、利用者は音声入出力端末から通話を行うときに音声入出力端末と接続されている利用者の個人端末に登録されているアドレス帳（例えば、電話帳など）を使うことが可能である。

さらに、音声入出力端末に対する入力データに基づいて利用者の認証に成功した個人端末が存在した場合に、当該個人端末に記憶された宛先識別情報に基づいて、宛先機器への接続を行う技術も想定される。しかし、宛先識別情報がサーバに保存される形態も多く見られるようになり、個人端末によって記憶されている宛先識別情報に基づいて宛先機器に接続を行う技術は、かかる形態に適用され得ない。

そこで、本明細書においては、複数の個人が１台の音声入出力端末を共用することを可能し、複数の個人のうちの誰かが利用者として音声入出力端末を利用する場合に自分が利用する情報を探し出す手間を低減し、かつ、宛先識別情報がサーバに保存される形態にも適用され得る技術について主に説明する。

以上、本発明の実施形態の概要について説明した。

（１．実施形態の詳細）
続いて、本発明の実施形態の詳細について説明する。

（１－１．通信システムの構成例）
図１は、本発明の実施形態に係る通信システムの構成例を示す図である。図１に示されるように、本発明の実施形態に係る通信システム１０は、音声入出力端末１００、モバイル端末２００、音声認識サーバ３００、宛先保存サーバ４００、シグナリングサーバ５００、通信機器６００およびアクセスポイント７００を有する。ネットワーク８００は、インターネットなどの広帯域のネットワークであり、ネットワーク８００には、音声認識サーバ３００、宛先保存サーバ４００、シグナリングサーバ５００、通信機器６００およびアクセスポイント７００が接続されている。

アクセスポイント７００は、音声入出力端末１００およびモバイル端末２００それぞれと無線接続されており、音声入出力端末１００およびモバイル端末２００それぞれによるネットワーク８００を介した通信を中継する。しかし、通信システム１０は必ずしもアクセスポイント７００を備えていなくてもよい。かかる場合、音声入出力端末１００およびモバイル端末２００は、ネットワーク８００から仕切られた内部ネットワークに接続されており、当該内部ネットワークを介してネットワーク８００に接続されていればよい。

音声入出力端末１００は、複数の個人によって共用される端末である。音声入出力端末１００は、少なくとも複数の個人によって通話に利用される。複数の個人は、典型的には家族であってよいが、どのような集合であっても構わない。また、音声入出力端末１００は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）スピーカなどであってよいが、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であってもよいし、テレビジョン装置であってもよいし、ロボットであってもよいし、他の機器であってもよい。

具体的に、音声入出力端末１００は、マイクロフォン（以下、単に「マイク」とも言う。）１０１、スピーカ１０２、音声データ変換部１０３、利用者探索部１０４、通話部１０５およびメモリなどを有している。マイク１０１は、周囲の音声を収集する。スピーカ１０２は、音声を出力する。メモリは、演算装置を動作させるためのプログラムやデータを記憶することができる。また、メモリは、演算装置の動作の過程で必要となる各種データを一時的に記憶することもできる。

音声データ変換部１０３および利用者探索部１０４は、演算装置によって実現される。演算装置は、音声入出力端末１００の動作全体を制御する機能を有する。演算装置は、音声入出力端末１００に内蔵された演算装置がＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に記憶されたプログラムをＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開して実行することにより実現される。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。

利用者探索部１０４は、（アクセスポイント７００を介して）無線接続されたモバイル端末２００に対して、音声入出力端末１００の現在の利用者の識別情報（利用者識別情報）を問い合わせる。また、利用者探索部１０４は、宛先保存サーバ４００に対して、利用者が通話を行おうとしている相手の通信機器６００の識別情報（宛先識別情報）を問い合わせる。

音声データ変換部１０３は、マイク１０１から音声を取得すると、取得した音声を音声データに変換し、変換後の音声データを通話部１０５に出力する。また、音声データ変換部１０３は、通話部１０５から音声データを取得すると、取得した音声データを音声に変換し、変換後の音声をスピーカ１０２に出力する。

通話部１０５は、アンテナを含んで構成されており、アクセスポイント７００に対して無線接続を行う。また、通話部１０５は、アクセスポイント７００を介してモバイル端末２００と通信を行う。また、通話部１０５は、アクセスポイント７００およびネットワーク８００を介して、音声認識サーバ３００、シグナリングサーバ５００および通信機器６００それぞれと通信を行ったりする。また、通話部１０５は、通信機器６００との接続が完了すると、通信機器６００との間で音声データ（通話）を送受信する。

モバイル端末２００は、個人ごとに利用される個人端末の一例として機能する。すなわち、モバイル端末２００の代わりに他の個人端末（例えば、タブレット端末、ＰＣ、携帯電話など）が用いられてもよい。本実施形態では、４人の個人それぞれが別々のモバイル端末２００を持っている場合を主に想定する。すなわち、通信システム１０が、４台のモバイル端末２００（モバイル端末２００－１～２００－４）を有する場合を主に想定する。しかし、モバイル端末２００の数（および個人の数）は複数であれば特に限定されない。

具体的に、モバイル端末２００は、タッチパネル、ディスプレイ、演算装置、通信インタフェース、メモリなどを有している。タッチパネルは、入力インタフェースの一例として機能する。すなわち、タッチパネルの代わりに他の入力インタフェース（例えば、ボタン、マウス、キーボードなど）が用いられてもよい。ディスプレイには、音声入出力端末１００の操作パネルが表示され得る。

モバイル端末２００の演算装置は、モバイル端末２００の動作全体を制御する機能を有する。演算装置は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に記憶されたプログラムをＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開して実行することにより実現される。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。演算装置は、話者認証部２０１としても機能し得る。話者認証部２０１は、音声入出力端末１００に対して入力を行った利用者がモバイル端末２００の利用者であるかを認証する。

メモリは、演算装置を動作させるためのプログラムやデータを記憶することができる。また、メモリは、演算装置の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、メモリは、サーバアカウント保持部２０２を有している。サーバアカウント保持部２０２は、宛先保存サーバ４００の宛先データベース４０３に登録されている複数の利用者それぞれのアドレス帳のうち、モバイル端末２００の利用者のアドレス帳に対応するアカウント情報を保持する。アカウント情報は、ＩＤおよびパスワードであってもよいし、秘密鍵を用いたデータであってもよい（利用者を厳密に特定することが可能な情報であるのが望ましい）。

音声認識サーバ３００は、音声データに対して音声認識を行い、音声認識に基づいてテキストデータを生成する。また、音声認識サーバ３００は、生成したテキストデータから所定のキーワードを抽出する。なお、本実施形態では、音声入出力端末１００に掛かる負荷を軽減するために、音声認識の機能を音声認識サーバ３００が有する場合を主に想定する。しかし、後にも説明するように、音声認識サーバ３００の音声認識の機能は、音声入出力端末１００が代わりに有してもよい。

宛先保存サーバ４００は、演算装置、通信インタフェース、メモリなどを有している。宛先保存サーバ４００のメモリは、演算装置を動作させるためのプログラムやデータを記憶することができる。また、メモリは、演算装置の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、メモリは、宛先データベース４０３を有している。宛先データベース４０３は、複数の利用者それぞれのアドレス帳を保持する。アドレス帳は、モバイル端末２００の利用者のアカウント情報に対応付けられている。

図２は、宛先データベース４０３に登録されているアドレス帳の例を示す図である。図２には、あるモバイル端末２００の利用者のアカウント情報ＸＹＺに対応するアドレス帳の例が示されている。アカウント情報ＸＹＺに対応するアドレス帳には、宛先の通信機器６００（宛先機器）の宛先識別情報と宛先に関する情報とが関連付けられた情報とが含まれる。宛先に関する情報は、宛先の名前（宛先名）などを含んでよい。以下では、宛先に関する情報が宛先名である場合を主に想定するが、宛先に関する情報は宛先名に限定されない。また、宛先識別情報は、電話番号を含んでもよいし、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）電話のＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）を含んでもよい。

図１に戻って説明を続ける。宛先保存サーバ４００の演算装置は、宛先保存サーバ４００の動作全体を制御する機能を有する。演算装置は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に記憶されたプログラムをＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開して実行することにより実現される。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。演算装置は、宛先検索部４０１および認証キー発行部４０２としても機能し得る。

宛先検索部４０１は、宛先データベース４０３に登録されている複数の利用者それぞれのアドレス帳のうち、モバイル端末２００の利用者のアドレス帳から宛先（宛先識別情報）を検索する。認証キー発行部４０２は、モバイル端末２００の利用者のアドレス帳にアクセスするためのキー（認証キー）を発行する。

シグナリングサーバ５００は、音声入出力端末１００から呼び出しを受け付けると、呼び出しに基づいて、呼び出し元である音声入出力端末１００と宛先である通信機器６００との接続を行う。

通信機器６００は、音声入出力端末１００の利用者と通話を行う相手によって利用される機器である。ここで、通信機器６００の種類は限定されない。例えば、通信機器６００は、音声入出力端末１００と同種の端末であってもよいし、スマートフォンであってもよい。すなわち、通信機器６００は、通話が可能な何らかの機器であればよい。

以上、本発明の実施形態に係る通信システム１０の構成例について説明した。

（１－２．通信システムの動作例）
続いて、本発明の実施形態に係る通信システム１０の動作例について説明する。図３～図６は、本発明の実施形態に係る通信システム１０によって実行される処理例を示すしシーケンス図である。なお、図３～図６に示されたシーケンス図は、本発明の実施形態に係る通信システム１０によって実行される処理の一例を示したに過ぎない。したがって、本発明の実施形態に係る通信システム１０によって実行される処理は、図３～図６に示されたフローチャートによって示される例に限定されない。

まず、利用者は、あらかじめ自分のモバイル端末２００に個人認証用データの例として音声データを登録しておく。さらに、利用者は、あらかじめ自分のモバイル端末２００を用いて宛先保存サーバ４００への利用登録を行うことによって、自分のアカウント情報を宛先データベース４０３に登録しておく。その後、利用者は自分のモバイル端末２００を持ち歩き、音声入出力端末１００の付近に移動すると、利用者のモバイル端末２００は、（アクセスポイント７００に接続されることによって）音声入出力端末１００が接続されている内部ネットワークと同一の内部ネットワークに無線接続される。

音声入出力端末１００のマイク１０１は、周囲の音声を絶えず収集している。マイク１０１は、音量が閾値を超える音声を収集すると、収集した音声を音声データ変換部１０３に出力する。例えば、利用者が宛先名と接続用の語句（通話開始音声）とを含んだ呼び出し音声を発すると、その呼び出し音声がマイク１０１によって収集され（Ｓ１１）、音声データ変換部１０３に出力される（Ｓ１２）。音声データ変換部１０３は、マイク１０１によって収集された音声を音声データに変換する。音声データ変換部１０３は、変換後の音声データを、通話部１０５を介して音声認識サーバ３００に送信する（Ｓ１３）。

音声認識サーバ３００は、音声データを受信すると、音声データに基づいて音声認識によってテキストデータを生成する。音声認識サーバ３００は、生成したテキストデータを音声入出力端末１００の音声データ変換部１０３に返信する（Ｓ１４）。音声データ変換部１０３は、通話部１０５を介してテキストデータを取得すると、テキストデータに宛先名と接続用の語句（通話開始音声）とが含まれるかを確認する（Ｓ１５）。例えば、テキストデータが「ＡＢＣさんと通話」である場合、接続用の語句は、「と通話」に該当し、宛先名は、「と通話」の前の「ＡＢＣさん」に該当する。

音声データ変換部１０３は、上記した変換後の音声データを、認証用データとして利用者探索部１０４に出力する（Ｓ１６）。さらに、音声データ変換部１０３は、宛先名を利用者探索部１０４に出力する。利用者探索部１０４は、宛先名に関連付けられた宛先識別情報を宛先保存サーバ４００から取得する。より詳細には、利用者探索部１０４は、接続用の語句に対応する音声データを、内部ネットワークに接続されたすべてのモバイル端末２００に対して通話部１０５を介して送信する（Ｓ１７）。

（音声入出力端末１００から音声データを受信した）モバイル端末２００の話者認証部２０１は、通信インタフェースを介して受信した音声データと、あらかじめ登録された音声データとの認証（照合）を行う（Ｓ１８）。そして、話者認証部２０１は、認証結果とあらかじめ登録された音声データに関連付けられた利用者名および利用者識別情報とを音声入出力端末１００に返信する（Ｓ２１）。例えば、認証処理は、双方の音声データから特徴データを抽出し、特徴データ同士の一致度が閾値を超えるか否かを判断することによって、認証成功か否かが判断されてよい。しかし、認証処理の具体的な手法は限定されない。

音声入出力端末１００の利用者探索部１０４は、通話部１０５によって認証成功を示す認証結果が受信された場合には、受信された利用者名に対応する音声データ（利用者名音声データ）を音声データ変換部１０３に出力する（Ｓ２２）。音声データ変換部１０３が、利用者名に対応する音声データ（利用者名音声データ）をアナログ変換して利用者名に対応する音声（利用者名音声）を生成すると（Ｓ２３）、スピーカ１０２は、生成された音声（利用者名音声）を出力する（Ｓ２４）。これによって、利用者は、自分が利用者として認識されたことを把握することができる。

一方、話者認証部２０１は、認証が成功した場合、自端末の利用者に対応するアドレス帳を利用するためのアカウント情報をサーバアカウント保持部２０２から取得する（Ｓ３１、Ｓ３２）。さらに、話者認証部２０１は、認証が成功した場合、アカウント情報を含んだアクセスキー発行要求を、通信インタフェースを介して宛先保存サーバ４００に送信する（Ｓ３３）。

宛先保存サーバ４００においては、宛先検索部４０１は、通信インタフェースを介してアクセスキー発行要求を受信すると、アクセスキー発行要求からアカウント情報を抽出する。そして、宛先検索部４０１は、抽出したアカウント情報に一致するアカウント情報を、宛先データベース４０３に登録されたアドレス帳から検索する。認証キー発行部４０２は、宛先検索部４０１による検索によってアカウント情報が見つかった場合には、当該アカウント情報に対応してアクセスキーを発行する。なお、後にも説明するように、認証キー発行部４０２によって発行されるアクセスキーは、有効期限を有しているのが望ましいが、有効期限を有していなくてもよい（無期限で使用できてもよい）。

認証キー発行部４０２は、発行したアクセスキーを、通信インタフェースを介してモバイル端末２００に返信する（Ｓ３４）。話者認証部２０１は、宛先保存サーバ４００から受信されたアクセスキーを取得すると、取得したアクセスキーを、通信インタフェースを介して音声入出力端末１００に送信する（Ｓ３５）。音声入出力端末１００において、利用者探索部１０４は、モバイル端末２００から送信されたアクセスキーを、通話部１０５を介して受信する。

利用者探索部１０４は、アクセスキーと宛先名とを含んだ宛先識別情報要求を、通信インタフェースを介して宛先保存サーバ４００に送信する（Ｓ３６）。宛先検索部４０１は、通信インタフェースを介して宛先識別情報要求を受信すると、宛先識別情報要求からアクセスキーと宛先名とを抽出し、抽出したアクセスキーと宛先名とに対応する宛先識別情報を、宛先データベース４０３に登録されたアドレス帳から検索する（Ｓ３７）。宛先検索部４０１は、宛先識別情報が見つかった場合には（Ｓ３８）、宛先識別情報を、通信インタフェースを介して音声入出力端末１００に返信する（Ｓ３９）。

なお、上記したように、認証キー発行部４０２によって発行されるアクセスキーは、有効期限を有しているのが望ましい。このとき、宛先検索部４０１は、アクセスキーが有効期限を経過する前には、アクセスキーに対応する宛先識別情報を、音声入出力端末１００に返信してよいが、アクセスキーが有効期限を経過した後には、アクセスキーに対応する宛先識別情報を、音声入出力端末１００に返信しなくてよい。これによって、アクセスキーの有効期限が経過した後には、音声入出力端末１００の利用者探索部１０４によって宛先識別情報が取得されないため、宛先識別情報が第三者によって不正に利用される可能性が低減される（セキュリティが向上する）。

利用者探索部１０４は、通話部１０５によって宛先識別情報が受信されると、通話部１０５から宛先識別情報を取得し、シグナリングサーバ５００に対して、宛先識別情報と利用者識別情報とを含む接続要求を、通話部１０５を介して送信する（Ｓ４１）。これによって、通信機器６００に対する宛先識別情報および利用者識別情報の送信が制御される。

一方、シグナリングサーバ５００は、接続要求を受信すると（Ｓ４２）、接続要求に含まれる宛先識別情報によって識別される宛先の通信機器６００と音声入出力端末１００の通話部１０５とを接続させる。すなわち、シグナリングサーバ５００は、宛先識別情報と利用者識別情報とを含む接続要求を通信機器６００に送信する（Ｓ４３）。通信機器６００は、接続要求を受信すると、接続要求に含まれる利用者識別情報を取得し、利用者識別情報または利用者識別情報に関連付けられている利用者に関する情報（例えば、利用者名など）を表示する。これによって、相手は誰からの呼び出しがあったかを把握することが可能となる。

通話部１０５は、通話部１０５と通信機器６００とが接続されたことを確認すると（Ｓ４４）、接続完了通知を音声データ変換部１０３に出力する（Ｓ４５）。音声データ変換部１０３は、通話部１０５から接続完了通知を受け取ると、接続完了を示す音声を生成してスピーカ１０２に出力する（Ｓ４６）。そして、スピーカ１０２は、接続完了を示す音声を出力する（Ｓ４７）。

このとき、利用者探索部１０４は、接続されたことを確認した場合に、利用者のモバイル端末２００に対して宛先名の表示指示を、通話部１０５を介して送信してもよい。これによって、利用者のモバイル端末２００による宛先名の表示が制御される。利用者は、モバイル端末２００によって表示された宛先名を見ることによって（例えば、音声入出力端末１００がディスプレイを有していない場合であっても）、誰との通話が可能になったかを確認することができる。宛先名は、利用者のモバイル端末２００のどこに表示されてもよい。

利用者は接続完了を示す音声を聞くと、相手との通話を開始する。具体的に、利用者によって音声が入力されると、音声入出力端末１００のマイク１０１を介して通話部１０５に利用者の音声が入力される。通話部１０５は、通信機器６００に利用者の音声を送信する。一方、通信機器６００は、利用者の音声が受信されると、利用者の音声を出力する。相手が利用者の音声を聞き、音声を入力すると、相手の音声が通信機器６００から、通話部１０５を経由して、スピーカ１０２によって出力される。これによって、利用者は相手の音声を聞くことができる。

利用者は相手との通話を終了したい場合には、モバイル端末２００の終了ボタンを押下、または、音声入出力端末１００に対しての音声による切断操作（例えば「さようなら」と話しかける等）すればよい。モバイル端末２００への操作による切断では、モバイル端末２００から切断要求が音声入出力端末１００に送信される。音声入出力端末１００に対する音声による切断では、音声入出力端末１００は会話中の音声を常に音声認識サーバ３００へ送信し、音声認識サーバ３００が切断処理用音声を認識すると切断処理が開始される。音声入出力端末１００の利用者探索部１０４は、モバイル端末２００から切断要求を受信、または、音声認識サーバ３００によって切断処理用音声が認識されると、宛先識別情報を含む切断要求を、通話部１０５を介してシグナリングサーバ５００に送信する。シグナリングサーバ５００は、宛先識別情報を含む切断要求を受信すると、音声入出力端末１００と宛先識別情報によって識別される通信機器６００との接続を切断する。

以上、本発明の実施形態に係る通信システム１０の動作例について説明した。

（２．ハードウェア構成例）
続いて、本発明の実施形態に係る音声入出力端末１００のハードウェア構成例について説明する。以下では、本発明の実施形態に係る音声入出力端末１００のハードウェア構成例として、情報処理装置のハードウェア構成例について説明する。なお、以下に説明する情報処理装置のハードウェア構成例は、音声入出力端末１００のハードウェア構成の一例に過ぎない。したがって、音声入出力端末１００のハードウェア構成は、以下に説明する情報処理装置のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

また、通信システム１０が有する各種装置のうち、音声入出力端末１００以外の装置（例えば、モバイル端末２００、音声認識サーバ３００、宛先保存サーバ４００、シグナリングサーバ５００、通信機器６００、アクセスポイント７００など）のハードウェア構成も、音声入出力端末１００のハードウェア構成と同様に実現され得る。

図７は、本発明の実施形態に係る音声入出力端末１００の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等利用者が情報を入力するための入力手段と、利用者による入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作する利用者は、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の実施形態に係る音声入出力端末１００のハードウェア構成例について説明した。

（３．まとめ）
以上に説明したように、本発明の実施形態によれば、少なくとも利用者の通話に利用される情報処理装置であって、前記利用者からの第１の入力に基づく第１の入力データを取得し、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、前記宛先識別情報に基づいて宛先への接続を要求する通話部と、を備える、情報処理装置が提供される。

かかる構成によれば、複数の個人が１台の情報処理装置を共用することを可能しつつ、複数の個人のうちの誰かが利用者として情報処理装置を利用する場合に自分が利用する情報を探し出す手間を低減し、かつ、宛先識別情報がサーバに保存される形態にも適用され得る技術が提供される。

また、前記取得部は、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの認証が成功した場合に、前記第１の入力データに関連付けられた前記宛先識別情報を前記サーバから取得してもよい。そして、かかる認証は、個人端末によって行われてもよい。

このように、個人端末によって認証が行わる場合には、宛先保存サーバによって認証が行わる場合と比較して、１台あたりの個人端末に登録される個人認証用データが少なくて済み、高速に認証が行われ得る。さらに、個人端末によって認証が行わる場合には、宛先保存サーバによって認証が行わる場合と比較して、認証に利用される閾値（すなわち、特徴データ同士の一致度と比較される閾値）の調整がしやすくなる。そのため、宛先保存サーバの利用者が（例えば、数千人規模まで）増加した場合であっても、認証が容易に行われ得る。

前記取得部は、前記個人認証用データと前記第２の入力データとの認証が成功した場合に、前記個人端末に登録されたアカウント情報に対応して発行されたアクセスキーを取得し、前記アクセスキーと前記第１の入力データとに対応する前記宛先識別情報を前記サーバから取得してもよい。このとき、前記アクセスキーは、有効期限を有していてもよい。これによって、アクセスキーの有効期限が経過した後には、音声入出力端末に宛先識別情報が提供されないため、宛先識別情報が第三者によって不正に利用される可能性が低減される（セキュリティが向上する）。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

上記では、本発明の実施形態では、利用者によって個人認証用データの例として音声データがあらかじめモバイル端末２００に登録される例について主に説明した。しかし、音声データの代わりに他の個人認証用データがあらかじめモバイル端末２００に登録されてもよい。例えば、利用者の顔画像が個人認証用データとしてモバイル端末２００にあらかじめ登録されてもよいし、利用者の指紋データが個人認証用データとしてモバイル端末２００にあらかじめ登録されてもよい。

このとき、利用者からの入力も音声入力に限定されない。例えば、利用者によって入力される認証に利用される音声は、モバイル端末２００に登録される個人認証用データの種類に応じて適宜に他の入力に変更されてよい。

例えば、個人認識用データが利用者の顔画像である場合には、認証に利用される音声データは、音声入出力端末１００に備えられたカメラによって撮像された顔画像に置き換えられてもよい。あるいは、個人認識用データが利用者の指紋データである場合には、認証に利用される音声データは、音声入出力端末１００に備えられた指紋センサによって検出された指紋データに置き換えられてもよい。すなわち、認証に利用される音声は、第１の入力に置き換えられてよい。このとき、認証に利用される音声に基づく音声データの代わりに、第１の入力に基づく第１の入力データが利用されればよい。

また、利用者によって入力される宛先認識に利用される音声も、適宜に他の入力に変更されてよい。例えば、宛先認識に利用される音声は、他の入力インタフェース（例えば、ボタン押下など）を介して利用者によって入力される宛先選択操作に置き換えられてもよい。すなわち、宛先認識に利用される音声は、第２の入力に置き換えられてよい。このとき、宛先認識に利用される音声に基づく音声データの代わりに、第２の入力に基づく第２の入力データが利用されればよい。

また、上記では、認証に利用される音声と宛先認識に利用される音声とが、結合された一つの音声として、音声入出力端末１００から音声認識サーバ３００に送信される例を説明した。しかし、認証に利用される音声と宛先認識に利用される音声とは、異なるタイミングで音声入出力端末１００から音声認識サーバ３００に送信されてもよい。ただし、利用者によって入力される認証に利用される音声は、少なくとも接続用の語句を含んでいるのが望ましい。これによって、通話開始のために利用者から発せられた音声が認証にも利用され得るため、利用者による入力の手間が低減され得る。

また、上記では、サーバにおける各種処理が、音声認識サーバ３００およびシグナリングサーバ５００に分散されて実行される例を主に説明した。しかし、サーバにおける各種処理は、必ずしも上記の通りに分散されて実行されなくてもよい。例えば、上記において音声認識サーバ３００によって実行されるとした処理の一部が、音声認識サーバ３００とは異なるサーバによって実行されてもよい。あるいは、上記において音声認識サーバ３００によって実行されるとした処理の一部が、端末側（例えば、音声入出力端末１００など）によって実行されてもよい。

１０通信システム
１００音声入出力端末
１０１マイク
１０２スピーカ
１０３音声データ変換部
１０４利用者探索部
１０５通話部
２００モバイル端末
２０１話者認証部
２０２サーバアカウント保持部
３００音声認識サーバ
４００宛先保存サーバ
４０１宛先検索部
４０２認証キー発行部
４０３宛先データベース
５００シグナリングサーバ
６００通信機器
７００アクセスポイント
８００ネットワーク

Claims

少なくとも利用者の通話に利用される情報処理装置であって、
前記利用者からの第１の入力に基づく第１の入力データを取得し、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、
前記宛先識別情報に基づいて宛先への接続を要求する通話部と、
を備える、情報処理装置。
前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データに関連付けられた前記宛先識別情報を前記サーバから取得する、
請求項１に記載の情報処理装置。
前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記個人端末に登録されたアカウント情報と前記第１の入力データとに関連付けられた前記宛先識別情報を前記サーバから取得する、
請求項２に記載の情報処理装置。
前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記アカウント情報に対応して発行されたアクセスキーを取得し、前記アクセスキーと前記第１の入力データとに対応する前記宛先識別情報を前記サーバから取得する、
請求項３に記載の情報処理装置。
前記アクセスキーは、有効期限を有しており、
前記取得部は、前記アクセスキーが前記有効期限を経過した後には、前記アクセスキーと前記第１の入力データとに対応する前記宛先識別情報が前記サーバから取得されない、
請求項４に記載の情報処理装置。
前記個人認証用データは、前記利用者によってあらかじめ登録された音声データを含み、
前記第２の入力データは、前記利用者からの第２の音声入力に基づく音声データを含む、
請求項２～５のいずれか一項に記載の情報処理装置。
前記第１の入力データは、前記利用者からの第１の音声入力に基づく第１の音声データを含む、
請求項１～６のいずれか一項に記載の情報処理装置。
利用者からの第１の入力に基づく第１の入力データを取得し、情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得することと、
前記宛先識別情報に基づいて宛先への接続を要求することと、
を備える、情報処理方法。
コンピュータを、
少なくとも利用者の通話に利用される情報処理装置であって、
前記利用者からの第１の入力に基づく第１の入力データを取得し、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第２の入力に基づく第２の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第１の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、
前記宛先識別情報に基づいて宛先への接続を要求する通話部と、
を備える情報処理装置として機能させるためのプログラム。