JP2020173363A

JP2020173363A - 音声端末、印刷装置、システム及びプログラム

Info

Publication number: JP2020173363A
Application number: JP2019075761A
Authority: JP
Inventors: 洋介須賀井; Yosuke Sugai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2020-10-22

Abstract

【課題】ユーザの発音の内容を正確に特定するための技術を提供する。【解決手段】音声制御システムは、音声端末１０１、情報端末１０２，音声端末管理サーバ１０３、を有し、それぞれはネットワーク１００に接続されている。音声端末は、自身の識別情報である音声端末識別ＩＤ１０６と、ユーザが発音する文字のうち識別しがたい文字として音声端末が認識した文字を示す発音特徴情報である発音特徴ＤＢ１０７と、を有する。情報端末は、自身の識別情報である情報端末識別ＩＤ１０４と、各種の処理を実行するためのアプリケーションソフトウェアであるアプリ１０５と、を有する。音声端末管理サーバは、音声端末から受信した発音特徴情報に基づいて作成したワンタイムトークン（識別子）と、音声端末から受信した音声端末識別ＩＤと、を関連づけて登録したワンタイムトークンＤＢ１０８を有する。【選択図】図１

Description

本発明は、音声端末、印刷装置、システム及びプログラムに関するものである。

独立した一つの音声端末が様々な機器を代表して音声入力を受け付ける情報管理装置が特許文献１に記載されている。

特開２０１６−１４９６７号公報

ところで、ワンタイムトークン等の所定の文字列をユーザに発音させ、発音の内容の特定結果に基づく処理を実行するシステムが知られている。しかしながら、人によって発音の方法が異なる可能性が高い文字や、他の文字と発音の方法が似ている文字が発音される場合、ユーザの発音の内容を正確に特定できないことがあるという課題があった。

本発明では、ユーザの発音の内容を正確に特定するための技術を提供する。

本発明の一様態は、音声端末であって、ユーザから第１の文字列の発音を受け付けることで第１音声データを取得する第１取得手段と、前記ユーザから第２の文字列の発音を受け付けることで第２音声データを取得する第２取得手段と、を有し、前記取得された前記第１音声データに基づき、前記第１の文字列に含まれる文字のうち特定の文字が特定され、前記特定された前記特定の文字を含まない文字列を、前記第２の文字列として前記ユーザに発音させるための所定の処理が実行され、前記所定の処理が実行されたことに基づいて前記ユーザから前記第２の文字列の発音を受け付けることで前記第２音声データが取得され、前記第２音声データに基づき、前記第２音声データに対応する文字列が特定され、前記特定された前記第２音声データに対応する文字列に基づく処理が実行されることを特徴とする。

本発明の構成によれば、ユーザの発音の内容を正確に特定することができる。

音声制御システムの構成例を示すブロック図。コンピュータ装置のハードウェア構成例を示すブロック図。コンピュータ装置のハードウェア構成例を示すブロック図。印刷端末１１０のハードウェア構成例を示すブロック図。ユーザが発音する文字のうち識別しがたい文字を示す発音特徴情報を音声端末１０１が生成する（取得する）ための方法の一例を示す図。発音特徴情報の登録例を示す図。ワンタイムトークンＤＢ１０８の構成例を示す図。連携管理ＤＢ１０９の構成例を示す図。ワンタイムトークンをユーザに通知してから、該ユーザが該ワンタイムトークンを用いて情報端末１０２との連携を音声端末管理サーバ１０３に登録するための方法の一例を示す図。「ワンタイムトークンの発行要求」を受信した音声端末管理サーバ１０３の動作のフローチャート。図９の方法を実現する、音声端末１０１、音声端末管理サーバ１０３、情報端末１０２のそれぞれにおける処理手順を示すシーケンス図。音声制御システムの構成例を示すブロック図。サービス受付情報１９０５の構成例を示す図。サービス提供情報１９０４の構成例を示す図。サービス管理ＤＢ１９０３の構成例を示す図。ワンタイムトークンＤＢ１９０１の構成例を示す図。画面２３０２を見たユーザが、該画面２３０２に表示されている印刷端末１１０の場所に行って、該印刷端末１１０にチケットを印刷させる場合における、印刷端末１１０およびサービス管理サーバ１１１の動作を示すシーケンス図。情報端末１０２における画面の表示例を示す図。情報端末１０２がワンタイムトークン２３０７を取得するために、情報端末１０２、音声端末管理サーバ１０３、音声端末１０１、サービス管理サーバ１１１、のそれぞれが行う処理のシーケンス図。画面２３０２を見たユーザが該画面２３０２に表示されている印刷端末１１０の場所に行って該印刷端末１１０にチケットを印刷させるケースを説明する図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
先ず、本実施形態に係る音声制御システムの構成例について、図１のブロック図を用いて説明する。図１に示す如く、本実施形態に係る音声制御システムは、音声端末１０１、情報端末１０２、音声端末管理サーバ１０３、を有し、それぞれはネットワーク１００に接続されている。音声端末１０１とは、例えばスマートスピーカである。また、情報端末１０２とは例えば、スマートフォンやパーソナルコンピュータ（PC）である。

先ず、音声端末１０１について説明する。音声端末１０１は、自身の識別情報である音声端末識別ＩＤ１０６と、ユーザが発音する文字のうち識別しがたい文字として該音声端末１０１が認識した文字を示す発音特徴情報である発音特徴ＤＢ１０７と、を有する。なお本実施形態において識別しがたい文字とは、人によって発音の方法が異なる可能性が高い文字である。また例えば、他の文字と発音の方法が似ている文字である。具体的には、１と４、７、Ｃ、D、T等の文字である。

次に、情報端末１０２について説明する。情報端末１０２は、自身の識別情報である情報端末識別ＩＤ１０４と、各種の処理を実行するためのアプリケーションソフトウェアであるアプリ１０５と、を有する。

次に、ネットワーク１００について説明する。ネットワーク１００は、ＬＡＮやインターネットなど、有線通信や無線通信もしくはそれらの組み合わせにより実現される通信を実現するためのネットワークである。ネットワーク１００は、例えば、ネットワーク１００上のデータ通信を中継するアクセスポイントも含み得る。

次に、音声端末管理サーバ１０３について説明する。音声端末管理サーバ１０３は、音声端末１０１から受信した発音特徴情報に基づいて作成したワンタイムトークン（識別子）と、該音声端末１０１から受信した音声端末識別ＩＤ１０６と、を関連づけて登録したワンタイムトークンＤＢ１０８を有する。音声端末管理サーバ１０３は、情報端末１０２から受信した情報端末識別ＩＤ１０４、該情報端末１０２から受信したワンタイムトークンと関連づけてワンタイムトークンＤＢ１０８に登録されている識別ＩＤ、を関連づけて登録した連携管理ＤＢ１０９を有する。

次に、音声端末１０１に適用可能なコンピュータ装置のハードウェア構成例について、図２（ａ）のブロック図を用いて説明する。

表示装置２０９は、液晶画面やタッチパネル画面等を有し、ＣＰＵ２０２による処理結果を画像や文字などでもって表示することができる。なお、表示装置２０９は、ＣＰＵ２０２による処理結果を投影するプロジェクタなどの投影装置であっても良い。

スピーカ２０１は、音声信号に基づく音を発する装置である。ＣＰＵ２０２は、外部記憶装置２０６に保存されているデータ（テキストデータや合成音声データなど）に基づく音声データをスピーカ２０１に対して出力し、スピーカ２０１は該音声データをＤ／Ａ変換した音声信号に基づく音を発する。

ＣＰＵ２０２は、ＲＯＭ２０３やＲＡＭ２０５に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ２０２は、コンピュータ装置を適用した音声端末１０１全体の動作制御を行うと共に、音声端末１０１が行うものとして後述する各処理を実行若しくは制御する。

ＲＯＭ２０３には、音声端末１０１の設定データや起動プログラムなどが格納されている。マイクロフォン２０４は、ユーザにより入力された音声を電気信号（音声信号）に変換し、該変換した音声信号をＡ／Ｄ変換することで音声データに変換し、該変換した音声データを出力する。この音声データはＲＡＭ２０５や後述する外部記憶装置２０６に格納される。

ＲＡＭ２０５は、ＲＯＭ２０３や外部記憶装置２０６からロードされたコンピュータプログラムやデータ、マイクロフォン２０４から入力された音声データ、を格納するためのエリアを有する。またＲＡＭ２０５は、通信部２０７や近距離無線通信部２０８によって外部から受信したデータを格納するためのエリアを有する。またＲＡＭ２０５は、ＣＰＵ２０２が各種の処理を実行する際に用いるワークエリアを有する。ＲＡＭ２０５は、例えば、バックアップ電源を必要とするＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）等で構成される。ＲＡＭ２０５は、不図示のデータバックアップ用の一次電池によってデータが保持されるため、プログラム制御変数等のデータを揮発させずに格納することができる。このようにＲＡＭ２０５は、各種のエリアを適宜提供することができる。

外部記憶装置２０６は、ハードディスクドライブ装置などの不揮発性メモリである。外部記憶装置２０６には、ＯＳ（オペレーティングシステム）、音声端末１０１が行うものとして後述する各処理をＣＰＵ２０２に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置２０６には、上記の音声端末識別ＩＤ１０６や発音特徴ＤＢ１０７が保存されている。

外部記憶装置２０６に保存されているコンピュータプログラムやデータは、ＣＰＵ２０２による制御に従って適宜ＲＡＭ２０５にロードされ、ＣＰＵ２０２による処理対象となる。

通信部２０７は、ネットワーク１００を介して他の装置との間のデータ通信を行うものであり、所定の無線通信方式に従って通信を行うための回路やアンテナを含んで構成される。例えば、通信部２０７はアクセスポイントに無線接続することができる。また、通信部２０７は、一時的に使用されるアクセスポイントとして動作することもある。本実施形態で使用される無線通信は、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮの無線通信方式に従ったものであっても良いし、他の無線通信方式に従ったものであっても良い。

近距離無線通信部２０８は、自身と一定の近距離範囲内に存在する他の装置との間で近距離無線通信を実行する。なお、近距離無線通信部２０８は、通信部２０７が用いる通信方式より低速且つ近距離の通信を行う無線通信方式を用いる。本実施形態では、近距離無線通信部２０８は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格に従って動作するものとする。

次に、情報端末１０２に適用可能なコンピュータ装置のハードウェア構成例について、図２（ｂ）のブロック図を用いて説明する。なお、本実施形態では音声端末１０１および情報端末１０２は同じ構成を有するものとして説明するが、これに限らず、音声端末１０１と情報端末１０２とは互いに異なる構成を有していても良い。また、音声端末１０１および情報端末１０２に適用可能なコンピュータ装置のハードウェア構成はそれぞれ図２（ａ）および（ｂ）に示した構成に限らず、例えば、図２（ａ）および（ｂ）に示した機能部のうち２つ以上を１つの機能部に纏めても良い。

表示装置２１９は、液晶画面やタッチパネル画面等を有し、ＣＰＵ２１２による処理結果を画像や文字などでもって表示することができる。なお、表示装置２１９は、ＣＰＵ２１２による処理結果を投影するプロジェクタなどの投影装置であっても良い。

スピーカ２１１は、音声信号に基づく音を発する装置である。ＣＰＵ２１２は、外部記憶装置２１６に保存されているデータ（テキストデータや合成音声データなど）に基づく音声データをスピーカ２１１に対して出力し、スピーカ２１１は該音声データをＤ／Ａ変換した音声信号に基づく音を発する。

ＣＰＵ２１２は、ＲＯＭ２１３やＲＡＭ２１５に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ２１２は、コンピュータ装置を適用した情報端末１０２全体の動作制御を行うと共に、情報端末１０２が行うものとして後述する各処理を実行若しくは制御する。

ＲＯＭ２１３には、情報端末１０２の設定データや起動プログラムなどが格納されている。マイクロフォン２１４は、ユーザにより入力された音声を電気信号（音声信号）に変換し、該変換した音声信号をＡ／Ｄ変換することで音声データに変換し、該変換した音声データを出力する。この音声データはＲＡＭ２１５や後述する外部記憶装置２１６に格納される。

ＲＡＭ２１５は、ＲＯＭ２１３や外部記憶装置２１６からロードされたコンピュータプログラムやデータ、マイクロフォン２１４から入力された音声データ、を格納するためのエリアを有する。またＲＡＭ２１５は、通信部２１７や近距離無線通信部２１８によって外部から受信したデータを格納するためのエリアを有する。またＲＡＭ２１５は、ＣＰＵ２１２が各種の処理を実行する際に用いるワークエリアを有する。ＲＡＭ２１５は、例えば、バックアップ電源を必要とするＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）等で構成される。ＲＡＭ２１５は、不図示のデータバックアップ用の一次電池によってデータが保持されるため、プログラム制御変数等のデータを揮発させずに格納することができる。このようにＲＡＭ２１５は、各種のエリアを適宜提供することができる。

外部記憶装置２１６は、ハードディスクドライブ装置などの不揮発性メモリである。外部記憶装置２１６には、ＯＳ（オペレーティングシステム）、情報端末１０２が行うものとして後述する各処理をＣＰＵ２１２に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置２１６には、上記の情報端末識別ＩＤ１０４やアプリ１０５が保存されている。

外部記憶装置２１６に保存されているコンピュータプログラムやデータは、ＣＰＵ２１２による制御に従って適宜ＲＡＭ２１５にロードされ、ＣＰＵ２１２による処理対象となる。

通信部２１７は、ネットワーク１００を介して他の装置との間のデータ通信を行うものであり、所定の無線通信方式に従って通信を行うための回路やアンテナを含んで構成される。例えば、通信部２１７はアクセスポイントに無線接続することができる。また、通信部２１７は、一時的に使用されるアクセスポイントとして動作することもある。本実施形態で使用される無線通信は、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮの無線通信方式に従ったものであっても良いし、他の無線通信方式に従ったものであっても良い。

近距離無線通信部２１８は、自身と一定の近距離範囲内に存在する他の装置との間で近距離無線通信を実行する。なお、近距離無線通信部２１８は、通信部２１７が用いる通信方式より低速且つ近距離の通信を行う無線通信方式を用いる。本実施形態では、近距離無線通信部２１８は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格に従って動作するものとする。

次に、音声端末管理サーバ１０３に適用可能なコンピュータ装置のハードウェア構成例について、図３のブロック図を用いて説明する。なお、音声端末管理サーバ１０３に適用可能なコンピュータ装置のハードウェア構成は図３に示した構成に限らず、例えば、図３に示した機能部のうち２つ以上を１つの機能部に纏めても良い。

表示部３０５は、液晶画面やタッチパネル画面等を有し、ＣＰＵ３０１による処理結果を画像や文字などでもって表示することができる。なお、表示部３０５は、ＣＰＵ３０１による処理結果を投影するプロジェクタなどの投影装置であっても良い。

ＣＰＵ３０１は、メモリ３０４に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ３０１は、音声端末管理サーバ１０３全体の動作制御を行うと共に、音声端末管理サーバ１０３が行うものとして後述する各処理を実行若しくは制御する。

ネットワーク通信部３０７は、ネットワーク接続部３０８を介してネットワーク１００と接続され、各種の通信を行う。例えば、ネットワーク通信部３０７は有線ＬＡＮや無線ＬＡＮに対応し、有線ＬＡＮ対応の場合のネットワーク接続部３０８は有線ＬＡＮのケーブルを接続するためのコネクタであり、無線ＬＡＮ対応の場合のネットワーク接続部３０８はアンテナとなる。なお、ネットワーク接続部３０８が、有線ＬＡＮおよび無線ＬＡＮの両者に対応していても良い。ＵＳＢ通信部３１０は、各種周辺装置とＵＳＢ接続部３１１を介して接続され、各種通信を行う。

操作部３０６は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ３０１に対して入力することができる。

記憶装置３０２には、各種のアプリケーションソフトウェアであるアプリケーション３１２や、上記のワンタイムトークンＤＢ１０８や連携管理ＤＢ１０９を含むデータベース３１３が保存されている。このほか、記憶装置３０２には、ＯＳも保存されている。記憶装置３０２に保存されているコンピュータプログラムやデータは、ＣＰＵ３０１による制御に従って適宜メモリ３０４にロードされ、ＣＰＵ３０１による処理対象となる。

メディア読取装置３０３は、ＳＤカードなどの外部記憶媒体に格納されているコンピュータプログラムやデータのファイルなどの情報をメモリ３０４や記憶装置３０２に読み出すための装置である。

メモリ３０４は、記憶装置３０２やメディア読取装置３０３からロードされたコンピュータプログラムやデータ、ネットワーク通信部３０７やＵＳＢ通信部３１０から出力されたコンピュータプログラムやデータを格納するためのエリアを有する。またメモリ３０４は、ＣＰＵ３０１が各種の処理を実行する際に用いるワークエリアを有する。このようにメモリ３０４は、各種のエリアを適宜提供することができる。

上記の表示部３０５、ＣＰＵ３０１、ネットワーク通信部３０７、ＵＳＢ通信部３１０、操作部３０６、記憶装置３０２、メディア読取装置３０３、メモリ３０４は何れもバス３０９に接続されている。

次に、ユーザが発音する文字のうち識別しがたい文字を示す発音特徴情報を音声端末１０１が生成する（取得する）ための方法の一例について、図５を用いて説明する。なお、図５に示した方法はあくまでも一例であり、発音特徴情報を音声端末１０１に生成させる（取得させる）方法には様々な例が考えられる。

先ず、ユーザ８０１は音声端末１０１に対して、音声特徴情報の取得開始を指示する。音声特徴情報の取得開始を指示する方法には様々な方法がある。例えば、音声特徴情報の取得開始指示を音声で入力する方法がある。ユーザがマイクロフォン２０４に対して音声特徴情報の取得開始指示を音声で入力すると、マイクロフォン２０４からは該音声に対応する音声データが出力される。音声端末１０１は、該音声データを、音声端末管理サーバ１０３に送信する。音声端末管理サーバ１０３は、該音声データを認識し、ユーザの発話内容が音声特徴情報の取得開始指示であることを認識すれば、音声特徴情報の取得開始指示が入力されたと判断する。

音声端末管理サーバ１０３は、音声特徴情報の取得開始指示が入力されたと判断すると、複数の文字（学習用文字列）を発音するように、ユーザを促すための処理を実行する。例えば音声端末管理サーバ１０３は、メッセージ１４０２を含む情報を音声端末１０１に送信する。これにより、音声端末１０１は、スピーカ２０１を介してメッセージ１４０２を音声として出力する。メッセージ１４０２は例えば、図５に示す如く、「貴方の発音を学習します。アルファベットをＡからＺまで、数字を０から９まで読み上げて下さい」とのメッセージである。また音声端末管理サーバ１０３は例えば、このメッセージ１４０２を表示装置２０９に表示させることでユーザに発音を促しても良い。また音声端末管理サーバ１０３は例えば、ユーザ８０１が所持する印刷装置に学習用文字列を印刷させるための処理を実行しても良い。そして、印刷装置による学習用文字列の印刷によって、学習用文字列をユーザへ通知しても良い。

このメッセージ１４０２を確認したユーザ８０１は、該メッセージ１４０２に従い、アルファベットをＡからＺまで、数字を０から９まで読み上げる。この読み上げた発話内容１４０３はマイクロフォン２０４に入力され、音声データとして音声端末１０１に入力される。音声端末１０１は、該音声データを、音声端末管理サーバ１０３に送信する。音声端末管理サーバ１０３は、該発話内容１４０３（音声データ）を認識して、Ａ〜Ｚの各アルファベット、０〜９の各数字、のうち識別しがたい文字（以下、特定文字）を特定する（特定処理）。本実施形態では、音声データに基づく特定文字の特定方法として、２つ方法を実行する。第１の特定方法は、人によって発音の方法（イントネーションや文字の読み方）が異なる可能性が高い文字の特定方法である。第１の特定方法は、他の文字と発音の方法が似ている文字の特定方法である。

まず、第１の特定方法について説明する。本実施形態では、音声端末管理サーバ１０３は、各文字を標準的な発音により読む（発する）ことにより得られる出力（以下、標準出力）を、予めメモリ３０４等に保持しているものとする。そして、音声端末管理サーバ１０３は、ユーザがメッセージ１４０２を読み上げることにより得られる各文字に対応する出力と、メモリ３０４が予め保持している標準出力とを比較する。なお各文字に対応する出力とは例えば、各文字に対応する音声の波形である。すなわちここでは、標準的な発音により発せられた音声の波形と、ユーザ８０１により発せられた音声の波形と、が比較される。この比較結果により、各文字の尤度が特定される。具体的には、音声端末１０１が予め保持している標準出力と近い出力の文字であるほど、当該文字の尤度としてより大きい尤度が特定される。また、メモリ３０４が予め保持している標準出力と異なる出力の文字であるほど、当該文字の尤度としてより小さい尤度が特定される。そして特定された尤度が閾値以下である文字が、特定文字として特定される。これにより例えば、Ｄの標準的な発音が「でぃー」であるにも関わらず、Ｄが「でー」と発音された場合に、Ｄが、特定文字として特定される。

次に、第２の特定方法について説明する。音声端末管理サーバ１０３は、ユーザがメッセージ１４０２を読み上げることにより得られる各文字に対応する出力をそれぞれ比較する。なお各文字に対応する出力とは例えば、各文字に対応する音声の周波数である。すなわちここでは、ユーザ８０１により発せられた各文字に対応する音声の波形がそれぞれ比較される。この比較結果により、各文字の、他の文字との類似度が特定される。例えば、第１の文字の出力と第2の文字の出力が近いほど、第１の文字の第２の文字との類似度が高く特定される。また、第１の文字の出力と第2の文字の出力が異なるほど、第１の文字の第２の文字との類似度が低く特定される。そして特定された類似度が閾値以下である文字が、特定文字として特定される。これにより例えば、４とＣのどちらもが「しー」と発音された場合に、４とＣが、特定文字として特定される。

そして音声端末管理サーバ１０３は、特定文字として特定した文字を発音特徴情報としてメモリ３０４に登録する。発音特徴情報の登録例を図６に示す。図６では、発音特徴情報（特定文字を示す情報）として４（しー）とＣ（しー）、９（きゅう）とＱ（きゅー）が登録されている例を示している。なお上述では、特定文字が、人によって発音の方法が異なる可能性が高い文字と、他の文字と発音の方法が似ている文字の両方を含むものとし、２つの特定方法を実行するものしたが、この形態に限定されない。上述の２つの特定方法のうち、一方のみを実行する形態であっても良い。

そして音声端末管理サーバ１０３は、発音特徴情報の登録が完了した旨を示すメッセージ１４０４をユーザに通知するための処理を実行する。例えば音声端末管理サーバ１０３は、メッセージ１４０４を含む情報を音声端末１０１に送信する。これにより、音声端末１０１は、スピーカ２０１を介してメッセージ１４０４を音声として出力する。メッセージ１４０４は例えば、図５に示す如く、「登録完了しました」とのメッセージである。また音声端末管理サーバ１０３は例えば、このメッセージ１４０４を表示装置２０９に表示させても良い。

次に、音声端末１０１が音声端末管理サーバ１０３に対し、情報端末１０２との連携のためのワンタイムトークンの発行を要求するための方法の一例について説明する。なお、以下に説明する方法はあくまでも一例であり、音声端末１０１が音声端末管理サーバ１０３に対し、情報端末１０２との連携のためのワンタイムトークンの発行を要求するための方法には様々な例が考えられる。

先ず、ユーザは音声端末１０１に対して、情報端末１０２との連携のためのワンタイムトークンの発行要求を入力する。ワンタイムトークンの発行要求を入力する方法には様々な方法がある。例えば、ワンタイムトークンの発行要求を音声で入力する方法がある。ユーザがマイクロフォン２０４に対してワンタイムトークンの発行要求を音声で入力すると、マイクロフォン２０４からは該音声に対応する音声データが出力される。

ＣＰＵ２０２は、該音声データを音声端末管理サーバ１０３に送信する。

該音声データを受信した音声端末管理サーバ１０３の動作について、図１０のフローチャートに従って説明する。図１０に示すフローチャートは、例えば、記憶装置３０２に格納されたプログラムをＣＰＵ３０１がメモリ３０４等に読み出して実行することにより実現される。

ステップＳ１００２では、ＣＰＵ３０１は、メモリ３０４に保持されている音声端末識別ＩＤ１０６および発音特徴情報（発音特徴ＤＢ１０７）を取得する。そしてＣＰＵ３０１は、Ａ〜Ｚのアルファベットおよび０〜９の数字の合計３６文字から発音特徴ＤＢ１０７が示す文字（特定文字）を除いた文字を使用可能文字として特定する。

ステップＳ１００３では、ＣＰＵ３０１は、ステップＳ１００２で特定した使用可能文字の数（文字数）を計数し、該計数した文字数をＸとする。

そしてステップＳ１００４では、ＣＰＵ３０１は、予め設定されている閾値をＰとすると、Ｙ＞ｌｏｇＰ／ｌｏｇＸを満たす最小の整数Ｙを求め、該求めた整数Ｙをワンタイムトークンの文字数とする。

例えば、ワンタイムトークンに使える文字が上記の３６文字であって、この３６文字からランダムに選択した６文字を並べた文字列をワンタイムトークンとして生成する場合を考える。このとき、この３６文字からワンタイムトークンは３６の６乗（２，１７６，７８２，３３６）通り作成することができ、十分複雑なワンタイムトークンとなる。しかし、この３６文字の中に「特定文字」があり、その数が増えると、その複雑性は失われる。

例えば、Ｃ（しー）と４（しー）、９（きゅー）とＱ（キュー）の４文字が「特定文字」である場合、使用可能文字は３２文字となる。この場合、３２文字から作成可能な６文字のワンタイムトークンは３２の６乗（１，０７３，７４１，８２４）通りとなり、半分程度の複雑性となる。

例えば１（いツ）、４（しー）、７（しツ）、８（はツ）、９（きゅー）、Ｂ（びぃー）、Ｃ（しー）、Ｄ（でぃー）、Ｌ（える）、Ｍ（えぬ）、Ｎ（えむ）、Ｐ（ぺー）、Ｑ（きゅー）、Ｔ（てー）、Ｖ（ヴぃー）の１５文字が「特定文字」とする。この場合、使用可能文字は２１文字となり、２１文字から作成可能な６文字のワンタイムトークンは２１の６乗（８５，７７６，１２１）通りとなり、元の８％程度の複雑性になってしまう。

そこで、もともとの複雑性を担保するために、閾値Ｐを「３６の６乗」とし、Ｙ＞ｌｏｇＰ／ｌｏｇＸを満たす最小の整数Ｙを、ワンタイムトークンの文字数とする。例えば、使用可能文字の文字数が３２である場合、３２の７乗（＝３４，３５９，７３８，３６８）は閾値Ｐを超え、十分複雑なため、Ｙは７に定まる。また、使用可能文字の文字数が２１である場合、２１の８乗（３７，８２２，８５９，３６１）は閾値Ｐを超え、十分複雑となり、Ｙは８に定まる。すなわち本実施形態では、特定文字として特定された文字の数に応じて、ワンタイムトークンに含まれる文字の数が特定される。より具体的には、特定文字として特定された文字の数が多い場合に、ワンタイムトークンに含まれる文字の数が多くなるように、ワンタイムトークンに含まれる文字の数が特定される。

そしてステップＳ１００５では、ＣＰＵ３０１は、使用可能文字からランダムに選択したＹ個の文字を並べた文字列をワンタイムトークンとして生成する。使用可能文字からＹ個の文字を選択する方法はランダムに限らない。そしてＣＰＵ３０１は、該生成したワンタイムトークンを、ステップＳ１００２で受信した音声端末識別ＩＤ１０６と関連づけてワンタイムトークンＤＢ１０８に登録する。ワンタイムトークンＤＢ１０８の構成例を図７に示す。

そしてステップＳ１００６では、ＣＰＵ３０１はネットワーク通信部３０７を制御し、ステップＳ１００５にて生成したワンタイムトークンを、ネットワーク接続部３０８およびネットワーク１００を介して音声端末１０１に対して送信する。音声端末管理サーバ１０３からワンタイムトークンを受信した音声端末１０１のＣＰＵ２０２は、該受信したワンタイムトークンをユーザに通知する。音声端末管理サーバ１０３から受信したワンタイムトークンをユーザに通知する方法には様々な方法がある。例えば、ワンタイムトークンを表示装置２０９に表示することで該ワンタイムトークンをユーザに通知しても良いし、該ワンタイムトークンを音声としてスピーカ２０１から出力することで該ワンタイムトークンをユーザに通知しても良い。

次に、ワンタイムトークンをユーザに通知してから、該ユーザが該ワンタイムトークンを用いて情報端末１０２との連携を音声端末管理サーバ１０３に登録するための方法の一例について、図９を用いて説明する。なお、図９に示した方法はあくまでも一例であり、様々な例が考えられる。

ユーザ８０１が、情報端末１０２との連携のためのワンタイムトークンの発行要求８０２を例えば音声で音声端末１０１に入力すると、音声端末１０１は、音声端末管理サーバ１０３が図１０のフローチャートに従った処理を行うことで生成したワンタイムトークンを該音声端末管理サーバ１０３から受信する。そして音声端末１０１は、該受信したワンタイムトークン８０３をユーザに、例えば音声にて通知する。

次にユーザは、情報端末１０２のマイクロフォン２１４に対して、連携登録作業の開始指示８０４を音声で入力する。ユーザが情報端末１０２のマイクロフォン２１４に対して連携登録作業の開始指示を音声で入力すると、マイクロフォン２１４からは該音声に対応する音声データが出力される。ＣＰＵ２１２は該音声データを認識し、ユーザの発話内容が連携登録作業の開始指示であれば、ＣＰＵ２１２は、連携登録作業の開始指示が入力されたと判断する。

ＣＰＵ２１２は、連携登録作業の開始指示が入力されたと判断すると、次に、ユーザにワンタイムトークンの入力を指示する。ワンタイムトークンの入力を指示する方法は特定の方法に限らない。例えば、図９に示す如く、「連携用ワンタイムトークンをお知らせ下さい」とのメッセージ８０５をスピーカ２１１を介して音声としてユーザに提示することで、ユーザにワンタイムトークンの入力を促しても良い。また例えば、このメッセージ８０５を表示装置２１９に表示することでユーザにワンタイムトークンの入力を促しても良い。

ユーザ８０１は、音声端末１０１から通知されたワンタイムトークン８０６を発話する。ユーザ８０１が発話した音声はマイクロフォン２１４に入力され、該マイクロフォン２１４からは該音声に対応する音声データが出力される。ＣＰＵ２１２は該音声データを認識して、該認識したユーザの発話内容（発話したワンタイムトークン８０６）を特定する。そしてＣＰＵ２１２は、該特定したワンタイムトークン８０６に対応する音声端末識別ＩＤ１０６の検索依頼を音声端末管理サーバ１０３に対して送信する。この検索依頼には、情報端末識別ＩＤ１０４が含まれている。

検索依頼を受信した音声端末管理サーバ１０３のＣＰＵ３０１は、ワンタイムトークンＤＢ１０８から、ワンタイムトークン８０６と関連づけて登録されている音声端末識別ＩＤ１０６を検索する。そしてＣＰＵ３０１は、検索した音声端末識別ＩＤ１０６と、検索依頼に含まれている情報端末識別ＩＤ１０４と、を関連づけて連携管理ＤＢ１０９に登録する。連携管理ＤＢ１０９の構成例を図８に示す。

そしてＣＰＵ３０１は、この登録処理が完了すると、その旨を情報端末１０２に対して送信するので、情報端末１０２のＣＰＵ２１２は、この登録処理が完了した旨を示すメッセージ８０７をユーザに通知する。メッセージ８０７の通知形態は上記の通り、表示にて行っても良いし、音声にて行っても良い。

以上説明した図９の方法を実現する、音声端末１０１、音声端末管理サーバ１０３、情報端末１０２のそれぞれにおける処理手順について、図１１のシーケンス図を用いて説明する。なお、図１１中の左右方向の矢印は装置間の通信を示し、上下方向の直線は時間の経過を示す。また図１１のシーケンス図において各装置が実行する処理は、例えば、各装置が備える記憶装置に格納されたプログラムを各装置が備えるＣＰUが各装置が備えるメモリ等に読み出して実行することにより実現される。

ユーザ８０１は音声端末１０１に対して、情報端末１０２との連携のためのワンタイムトークンの発行要求（ワンタイムトークン発番依頼）を発話する（Ｓ１１０１）。この発話を受けて音声端末１０１は、音声端末識別ＩＤ１０６と、発音特徴情報（発音特徴ＤＢ１０７）と、を含むワンタイムトークン発番依頼を音声端末管理サーバ１０３に送信する（Ｓ１１０２）。

音声端末管理サーバ１０３は、図１０のフローチャートに従った処理によりワンタイムトークンを生成（発番）する（Ｓ１１０３）。そして音声端末管理サーバ１０３は、該発番したワンタイムトークンを音声端末１０１に対して送信する（Ｓ１１０４）。そして音声端末１０１は、音声端末管理サーバ１０３から受信したワンタイムトークンをユーザ８０１に音声にて通知する（Ｓ１１０５）。なお、音声端末管理サーバ１０３が生成したワンタイムトークンのユーザへの通知方法は、この方法に限定されない。例えば、音声端末管理サーバ１０３は、ユーザ８０１が所持する印刷装置にワンタイムトークンを印刷させるための処理を実行しても良い。そして、印刷装置によるワンタイムトークンの印刷によって、音声端末管理サーバ１０３が生成したワンタイムトークンをユーザへ通知しても良い。

次に、ユーザ８０１が情報端末１０２に対して連携登録作業の開始指示（連携登録開始依頼）を発話する（Ｓ１１０６）と、情報端末１０２はユーザ８０１にワンタイムトークンの入力を指示する（Ｓ１１０７）。

ユーザ８０１は、情報端末１０２に対して、音声端末１０１から通知されたワンタイムトークンを発話する（Ｓ１１０８）。情報端末１０２は、ユーザ８０１が発話した音声に対応する音声データを認識（文字化）する（Ｓ１１０９）。すなわち情報端末１０２は、ユーザ８０１が発話したワンタイムトークンに対応する音声データに対応する文字列を特定・取得する。なお、情報端末１０２は、ユーザ８０１が発話した音声に対応する音声データを音声端末管理サーバ１０３に送信してもよい。そして、ユーザ８０１が発話したワンタイムトークンに対応する音声データに対応する文字列を特定する処理は、情報端末１０２ではなく、音声端末管理サーバ１０３が実行しても良い。その後情報端末１０２は、特定した文字列に対応する音声端末識別ＩＤ１０６の検索依頼（情報端末識別ＩＤ１０４を含む）を音声端末管理サーバ１０３に対して送信する（ワンタイムトークン確認）（Ｓ１１１０）。

音声端末管理サーバ１０３は、ワンタイムトークンに対応する音声データに対応する文字列（情報端末１０２から受信した文字列）が、有効か否かを判定する認証処理を実行する。そして音声端末管理サーバ１０３は、当該文字列が、ワンタイムトークンＤＢ１０８に登録したワンタイムトークンと同じ（一致）であれば有効と判断する。有効と判断され、認証が成功した場合、音声端末管理サーバ１０３は、登録処理を実行する。具体的には音声端末管理サーバ１０３は、ワンタイムトークンＤＢ１０８から検索した音声端末識別ＩＤ１０６と、検索依頼に含まれている情報端末識別ＩＤ１０４と、を関連づけて連携管理ＤＢ１０９に登録する。さらに音声端末管理サーバ１０３は、登録完了を情報端末１０２に通知する（Ｓ１１１１）。この時、音声端末管理サーバ１０３は、認証が成功したことをユーザに通知するための情報を情報端末１０２や音声端末１０１に送信しても良い。これにより、認証が成功したことが、情報端末１０２や音声端末１０１により、音声や画面が用いられて通知される。なお、無効と判断され、認証が失敗した場合、音声端末管理サーバ１０３は、ユーザが発音した内容が間違っており認証が失敗したことを通知するための情報を情報端末１０２や音声端末１０１に送信しても良い。これにより、認証が失敗したことが、情報端末１０２や音声端末１０１により音声や画面が用いられて通知される。その後情報端末１０２は、この登録完了を示すメッセージをユーザに通知する（Ｓ１１１２）。

Ｓ１１１２以降は、ユーザが音声端末１０１に、情報端末１０２の操作指示を入力すると、該音声端末１０１は、音声端末識別ＩＤ１０６および該操作指示を音声端末管理サーバ１０３に送信する。音声端末管理サーバ１０３は、連携管理ＤＢ１０９において音声端末識別ＩＤ１０６と関連づけて登録されている情報端末識別ＩＤ１０４を特定し、該特定した情報端末識別ＩＤ１０４に対応する情報端末１０２に対して、該操作指示を送信（転送）する。これにより情報端末１０２は、該操作指示に応じた処理を実行する。

このように、本実施形態によれば、ユーザは音声端末に対してワンタイムトークンを要求するだけで、発音特徴情報を持たない情報端末が識別しやすいワンタイムトークンの発番を行うことができる。そして、本来であれば必要な発音特徴の学習の手間などかけることなく、所望の処理（上記の例では連携登録）を簡便に行うことができる。

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。本実施形態に係る音声制御システムの構成例について、図１２のブロック図を用いて説明する。本実施形態では、ネットワーク１００には更に、サービス管理サーバ１１１と印刷端末１１０とが接続されている。

先ず、印刷端末１１０について説明する。印刷端末１１０は、画像（文字を含む）を紙などの印刷媒体に印刷する。印刷端末１１０のハードウェア構成例について、図４のブロック図を用いて説明する。本実施形態では、印刷端末１１０は複合機であるものとして説明するが、印刷機能を有する装置であれば他の装置であっても良く、例えば、画像処理装置、複写機、ファクシミリ、単機能の印刷装置等であっても良い。

印刷端末１１０において、印刷機能はプリンタ部１５０１で実現され、スキャナ機能はスキャナ部１５０２で実現され、ストレージ機能はメモリカード装着部１５０３及びメモリカード１５０４で実現される。プリンタ部１５０１、スキャナ部１５０２、メモリカード装着部１５０３はバス１５１４に接続されている。

プリンタ部１５０１は、外部から受信した画像、メモリカード１５０４、ワークメモリ１５０７、フラッシュメモリ１５１２等のメモリに記憶されている画像、をインクジェット記録方式や電子写真方式などの記録方式によって印刷媒体に印刷する。また、プリンタ部１５０１は、消耗部材に関する情報、例えば、インク残量を含むインク情報や積載用紙の枚数等の用紙情報を管理している。

スキャナ部１５０２は、原稿台（不図示）にセットされた原稿を光学的に読み取って画像に変換し、更に該画像を指定されたファイル形式に変換した変換画像をメモリカード１５０４、ワークメモリ１５０７、フラッシュメモリ１５１２等のメモリに格納する。コピーサービスは、スキャナ部１５０２が原稿台に置かれた原稿を読み取って生成した画像をプリンタ部１５０１へ転送し、プリンタ部１５０１が該画像を印刷媒体に印刷することで実現される。

メモリカード装着部１５０３に装着されたメモリカード１５０４には、各種ファイルが格納されている。メモリカード１５０４に格納されているファイルは、ネットワーク１００を介して外部装置から読み出されて編集される場合もある。また、外部装置からメモリカード１５０４にファイルが格納される場合もある。

ＨＤＤ（ハードディスクドライブ）１５１６には、ＯＳ（オペレーティングシステム）や、印刷端末１１０が行うものとして後述する各処理をＣＰＵ１５０５に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。ＨＤＤ１５１６に保存されているコンピュータプログラムやデータは、ＣＰＵ１５０５による制御に従って適宜ワークメモリ１５０７にロードされ、ＣＰＵ１５０５による処理対象となる。

中央演算装置（ＣＰＵ）１５０５は、プログラムメモリ１５０６に格納されているアプリケーション１５１５や、ワークメモリ１５０７に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１５０５は、印刷端末１１０全体の動作制御を行うと共に、印刷端末１１０が行うものとして後述する各処理を実行若しくは制御する。

プログラムメモリ１５０６は、ＲＯＭなどで構成され、各種のコンピュータプログラムやデータ、外部装置と通信するためなどのアプリケーション１５１５が格納されている。アプリケーション１５１５は、プリンタ部１５０１にアクセスしてインクや用紙などの消耗品情報を取得することも可能である。

ワークメモリ１５０７は、ＲＡＭなどで構成され、ＣＰＵ１５０５が各種の処理を実行する際に用いるメモリであり、例えば、各サービス実行時に画像などを一時格納したり、バッファリングしたりする。

ネットワーク通信部１５１０が有線ＬＡＮ対応の場合のネットワーク接続部１５１１は有線ＬＡＮのケーブルを接続するためのコネクタであり、ネットワーク通信部１５１０が無線ＬＡＮ対応の場合のネットワーク接続部１５１１はアンテナとなる。なお、ネットワーク接続部１５１１が、有線ＬＡＮおよび無線ＬＡＮの両者に対応していても良い。本実施形態では、ネットワーク通信部１５１０、ネットワーク接続部１５１１は、無線ＬＡＮに対応しており、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮの無線通信方式に従ってアクセスポイントと接続することができる。なお、ネットワーク接続部１５１１は、一時的に自身がアクセスポイント（ネットワークを構築する親局）として動作することも可能である。つまりネットワーク接続部１５１１がアクセスポイントに対応する機能を備えてもよい。また、印刷端末１１０は、音声端末１０１や情報端末１０２と同様に近距離無線通信部（不図示）を備えていてもよい。

フラッシュメモリ１５１２は、ネットワーク通信部１５１０が外部から受信した画像などを格納するための不揮発性のメモリである。表示部１５０８は、例えばタッチパネル画面を有するＬＣＤ（液晶ディスプレイ）を有し、ユーザインタフェース画面等、各種の情報を表示すると共に、ユーザからの各種の操作を受け付ける。操作部１５０９は、キーボード、マウス、スイッチ、ボタン等を含み、ユーザからの指示や操作を受付可能である。

マイクロフォン１５９９は、ユーザにより入力された音声を電気信号（音声信号）に変換し、該変換した音声信号をＡ／Ｄ変換することで音声データに変換し、該変換した音声データを出力する。この音声データはワークメモリ１５０７等のメモリに格納される。

マイクロフォン１５９９、ネットワーク通信部１５１０、表示部１５０８、操作部１５０９、フラッシュメモリ１５１２、ＨＤＤ１５１６、ＣＰＵ１５０５は何れもバス１５１３に接続されている。なお、バス１５１４とバス１５１３との間でデータ変換を行うブロックがあっても良い。本実施形態における印刷端末１１０の動作は、例えば、ＣＰＵ１５０５が処理に必要なコンピュータプログラムやデータをプログラムメモリ１５０６やＨＤＤ１５１６からワークメモリ１５０７に読み出して実行することで実現される。

次に、サービス管理サーバ１１１について説明する。サービス管理サーバ１１１は、印刷端末１１０による印刷サービスを管理する。本実施形態では、サービス管理サーバ１１１は、音声端末管理サーバ１０３と同様、図３に示すハードウェア構成例を有するものとして説明するが、他の構成であっても良い。

以下では、音声端末１０１が発音特徴情報を特定して発音特徴ＤＢ１０７として登録済みの状態であるものとして説明する。先ず、情報端末１０２のＣＰＵ２１２がアプリ１０５を実行することで表示装置２１９には、図１８の左側に例示する画面（サービスの一覧選択画面）２３０１が表示されているものとする。画面２３０１は、印刷端末１１０に様々な印刷物を生成させるための印刷サービスを提供するための画面である。この画面２３０１には、無料コンサートチケットの印刷サービスを受けるためのボタン２３０４と、おにぎり割引券の印刷サービスを受けるためのボタン２３０５と、が配置されている。

情報端末１０２の外部記憶装置２１６には、図１３に例示するテーブルがサービス受付情報１９０５として登録されている。図１３のテーブルには、印刷サービス名（サービス名）、該印刷サービス名に対応する識別情報であるサービスＩＤ、該印刷サービス名に対応するボタンに表示する文字列（紹介文）、が登録されている。ボタン２３０４はサービス名「チケット印刷」に対応するボタンであるため、ボタン２３０４には対応する紹介文が表示されており、ボタン２３０５はサービス名「割引券印刷」に対応するボタンであるため、ボタン２３０５には対応する紹介文が表示されている。

ここで、ユーザがボタン２３０４をタッチする（この場合、表示装置２１９の画面はタッチパネル画面である）と、画面２３０１が図１８の右側に例示する画面２３０２に切り替わる。画面２３０２には、コンビニ等、印刷端末１１０の置いてある場所の説明、印刷端末１１０に伝えるべきサービス名２３０６、ワンタイムトークン２３０７が表示されている。

情報端末１０２がワンタイムトークン２３０７を取得するために、情報端末１０２、音声端末管理サーバ１０３、音声端末１０１、サービス管理サーバ１１１、のそれぞれが行う処理について、図１９のシーケンス図を用いて説明する。

ユーザ８０１が情報端末１０２に対して音声入力にてアプリ１０５の起動指示を入力する（Ｓ２４０１）と、情報端末１０２は音声入力によって入力された起動指示を認識する。そして情報端末１０２は、アプリ１０５を起動することで、図１８の左側に例示する画面２３０１を表示装置２１９に表示する（Ｓ２３０２）。

ユーザ８０１が画面２３０１に表示されているいずれかのボタンを指示（サービス選択）する（Ｓ２４０３）と、情報端末１０２は、情報端末識別ＩＤ１０４を含む発音特徴提供依頼を音声端末管理サーバ１０３に対して送信する（Ｓ２４０４）。

音声端末管理サーバ１０３は、情報端末１０２から受信した情報端末識別ＩＤ１０４に対応する音声端末識別ＩＤ１０６を連携管理ＤＢ１０９から特定する。そして音声端末管理サーバ１０３は、該特定した音声端末識別ＩＤ１０６に対応する音声端末１０１に発音特徴情報の送信を依頼する（Ｓ２４０５）。

音声端末１０１は、音声端末管理サーバ１０３からの依頼に応じて、発音特徴情報を音声端末管理サーバ１０３に送信し（Ｓ２４０６）、音声端末管理サーバ１０３は、音声端末１０１から送信された発音特徴情報を情報端末１０２に転送する（Ｓ２４０７）。

情報端末１０２は、画面２３０１においてユーザ８０１が指示したボタンに対応するサービスＩＤと、音声端末管理サーバ１０３から転送された発音特徴情報と、を含むワンタイムトークン発行依頼をサービス管理サーバ１１１に対して送信する（Ｓ２４０８）。

サービス管理サーバ１１１は、情報端末１０２から受けた発音特徴情報を用いて第１の実施形態と同様にして、ワンタイムトークンを生成（発番）する（Ｓ２４０９）。そしてサービス管理サーバ１１１は、該生成したワンタイムトークンを、情報端末１０２から受けたサービスＩＤと関連づけてワンタイムトークンＤＢ１９０１に登録する（Ｓ２４０９）。ワンタイムトークンＤＢ１９０１の構成例を図１６に示す。

そしてサービス管理サーバ１１１は、生成したワンタイムトークンを情報端末１０２に対して送信する（Ｓ２４１０）。情報端末１０２は、サービス管理サーバ１１１から受信したワンタイムトークンを、画面２３０２のワンタイムトークン２３０７として表示する（Ｓ２４１１）。

次に、画面２３０２を見たユーザが、該画面２３０２に表示されている印刷端末１１０の場所に行って、該印刷端末１１０にチケットを印刷させるケースについて、図２０を用いて説明する。

印刷端末１１０はユーザ８０１に対して対象サービス名を質問する（２５０２）。例えば、「いらっしゃいませ。対象サービス名を教えて下さい。」等のメッセージを表示部１５０８に表示する。

そしてユーザ８０１が操作部１５０９や表示部１５０８に対するタッチ操作などでもってチケット印刷を指示する（２５０３）と、印刷端末１１０はワンタイムトークンを質問する（２５０４）。例えば、「ワンタイムトークンを教えて下さい」等のメッセージを表示部１５０８に表示する。

ユーザ８０１が印刷端末１１０のマイクロフォン１５９９に対してワンタイムトークン２３０７を発話する（２５０５）と、印刷端末１１０は、ワンタイムトークン２３０７に対応するチケットをプリンタ部１５０１にて印刷する（２５０６）。

画面２３０２を見たユーザが、該画面２３０２に表示されている印刷端末１１０の場所に行って、該印刷端末１１０にチケットを印刷させる場合における、印刷端末１１０およびサービス管理サーバ１１１の動作について図１７のシーケンス図を用いて説明する。

ＣＰＵ１５０５は、「いらっしゃいませ。対象サービス名を教えて下さい。」等のメッセージを表示部１５０８に表示することで、ユーザ８０１に対して対象サービス名を質問する（Ｓ２６０２）。

そしてユーザ８０１が操作部１５０９や表示部１５０８に対するタッチ操作などでもってサービス名である「チケット印刷」を指示する（Ｓ２６０３）。これに応じてＣＰＵ１５０５は、「ワンタイムトークンを教えて下さい」等のメッセージを表示部１５０８に表示することで、ワンタイムトークンを質問する（Ｓ２６０４）。

ユーザ８０１は、ワンタイムトークンを発話する（Ｓ２６０５）。ユーザ８０１が発話した音声はマイクロフォン１５９９に入力され、該マイクロフォン１５９９からは該音声に対応する音声データが出力される。ＣＰＵ１５０５は該音声データを認識して、該認識したユーザの発話内容（発話したワンタイムトークン）を特定する。そしてＣＰＵ１５０５は、指示されたサービス名に対応するサービスＩＤをサービス提供情報１９０４から取得する。サービス提供情報１９０４の構成例を図１４に示す。そしてＣＰＵ１５０５は、サービス提供情報１９０４から取得したサービスＩＤと、認識により特定したワンタイムトークンと、を含むサービスＩＤ確認依頼をサービス管理サーバ１１１に対して送信する（Ｓ２６０６）。

サービス管理サーバ１１１のＣＰＵ３０１は、印刷端末１１０から送信されたサービスＩＤとワンタイムトークンのセットが、ワンタイムトークンＤＢ１９０１に登録されているか否かを確認する。サービス管理サーバ１１１のＣＰＵ３０１は、登録されていれば、印刷端末１１０から受信したワンタイムトークンは、サービス名「チケット印刷」に対応するワンタイムトークンであると判断する。そしてサービス管理サーバ１１１のＣＰＵ３０１は、図１５に例示する構成を有するサービス管理ＤＢ１９０３において、印刷端末１１０から受信したサービスＩＤに対応する拡張データ（ＵＲＬ）を取得する。サービス管理ＤＢ１９０３には、サービスＩＤごとに、サービスのタイプと、印刷する画像のＵＲＬと、が登録されている。本実施形態では、ＵＲＬは、サービス管理サーバ１１１の記憶装置３０２（画像ＤＢ１９０２）において、チケットや割引券などの印刷対象となる画像を保存している保存場所を示す情報であるものとして説明する。しかし、ＵＲＬは、サービス管理サーバ１１１以外の装置の記憶装置におけるチケットや割引券などの印刷対象となる画像を保存している保存場所を示す情報であっても良い。

そしてサービス管理サーバ１１１のＣＰＵ３０１は、サービス管理ＤＢ１９０３から取得した「印刷端末１１０から受信したサービスＩＤに対応するＵＲＬ（画像ＵＲＬ）」を印刷端末１１０に対して送信する（Ｓ２６０８）。

印刷端末１１０のＣＰＵ１５０５は、サービス管理サーバ１１１から受信したＵＲＬにアクセスし（Ｓ２６０８）、サービス管理サーバ１１１のＣＰＵ３０１は、アクセス先の画像（チケットの画像）を印刷端末１１０に対して送信する。印刷端末１１０のＣＰＵ１５０５はプリンタ部１５０１を制御し、サービス管理サーバ１１１から受信した画像を印刷媒体に印刷することで、チケットを印刷する。

なお、印刷端末１１０が音声端末１０１や情報端末１０２と同様に音声入力機能を有し、且つ入力された音声を認識する音声認識機能を有しているのであれば、印刷端末１１０への入力は音声にて行っても良い。

このように、コンビニエンスストアなど公共の場に置いてある印刷端末のような、自分専用ではない端末については個人個人の発音特徴を学習することは困難である。本実施形態では、特定文字を含まないワンタイムトークンでサービス提供の依頼ができるので、スムーズなサービス提供を可能にする。

［第３の実施形態］
第１の実施形態では、音声端末１０１に特定文字を登録させるために、ユーザにアルファベットをＡ〜Ｚの順、数字を０〜９の順に発話させていたが、発話順はこの順に限らず、例えば、並びをバラバラにしても良い。なぜならば、数字を順番に読み上げる場合とバラバラに読み上げる場合とで読み方が違う可能性があるためである。例えば、順番によみあげる場合は「ひとーつふたーつみっつよっつ・・」と１、２、３、４を数える人でも、パスワードの場合は４を「しー」と発音する可能性があるためである。

また、ユーザに読み上げさせる文字を提示する際、すべてのアルファベットや数字を提示するのではなく、４やＣ、９とＱのような間違いやすいと推測される文字だけをピックアップして提示しても良い。なぜならば、３６文字すべてを読ませるのは時間がかかり、ユーザに負担がかかるためである。さらに、ピックアップして提示する文字は、ユーザの言語に応じて変えても良い。例えば、日本語の場合は９（きゅう）とＱ（きゅー）は最も誤認し易いが、中国語の場合は、１（いー）とＥ（いー）が誤認しやすいなど、誤認しやすい文字に差があるためである。

また、第１の実施形態では、音声端末１０１は一人分のユーザの発音特徴情報を保持するものとしたが、複数人のユーザの発音特徴情報を保持するようにしても良い。例えば、父親は発音が紛らわしい文字は無く、子供は４種類発音が紛らわしい文字があり、母親は１５種類発音が紛らわしい文字があるといった場合に、ワンタイムトークンに使える文字の種類数も違ってくる。複数人のユーザの発音特徴情報を保持する場合、それぞれの発音特徴情報には、対応するユーザを特定するための情報を関連づけて保持しておく必要がある。そして、ワンタイムトークンの発番を依頼する際には、どのユーザの発音特徴情報を送信するのかを選択する必要がある。

また、第１の実施形態では、発音特徴情報は音声端末１０１が保持し、ワンタイムトークンの発番を依頼する度に毎回、該発音特徴情報を音声端末管理サーバ１０３に送信していた。しかし、発音特徴情報は音声端末管理サーバ１０３が保持するようにしてもよい。第１の実施形態では、音声端末１０１から通信が始まっているので、音声端末１０１の電源は入っており、発音特徴情報を音声端末管理サーバ１０３に送信することは可能である。しかし、第２の実施形態の場合は情報端末１０２からの提供依頼時に、音声端末１０１の電源が入っているとは限らず、音声端末１０１が発音特徴情報を提供できないかもしれない。然るに、発音特徴情報を音声端末管理サーバ１０３に保存しておけば、音声端末１０１の電源はオフの状態であっても、発音特徴情報の提供ができるようになる。

また、第２の実施形態では、音声端末管理サーバ１０３とサービス管理サーバ１１１とは別個の装置であるものとして説明した。しかし、これらのサーバを１つのサーバに纏めても良い。また、上述において音声端末管理サーバ１０３が実行していた処理が、複数のサーバが共働することによって実行されても良い。サービス管理サーバ１１１についても同様である。すなわち、本発明においてサーバが実行する処理は、１又は複数のサーバを含むサーバシステムによって実行されれば良い。

また、以上説明した各実施形態は、ワンタイムトークンを生成することに限らず、ユーザが発音した各文字が正確に音声認識されるような（正確に識別されるような）文字列を生成することにも適用可能である。

また、以上説明した各実施形態は、音声端末１０１に対する音声指示により、印刷端末１１０の制御を可能とするための登録処理に適用されても良い。例えば音声端末管理サーバ１０３は、上記のようにして音声端末管理サーバ１０３によって特定されたワンタイムトークンを印刷端末１１０に印刷させるための処理を実行する。ユーザは、これにより印刷されたワンタイムトークンを認識し、音声端末１０１に、印刷されたワンタイムトークンを発音する。音声端末１０１は、ワンタイムトークンの発音により得られた音声データを、音声端末管理サーバ１０３に送信する。そして、音声端末管理サーバ１０３は、得られた音声データに基づいて、認証処理を行う。認証処理が成功して登録処理が完了すると、ユーザは、音声端末１０１に対する音声指示により、印刷端末１１０を制御することが可能となる。具体的には、ユーザが音声端末１０１に対して印刷の実行を音声指示することで、当該音声指示に基づく印刷の命令が、サービス管理サーバ１１１等を介して印刷端末１１０に送信される。これにより、印刷端末１１０によって、ユーザの音声指示に基づく印刷が実行される（印刷が実行可能）。また例えば、ユーザが音声端末１０１に対して印刷端末１１０の状態確認を音声指示することで、当該音声指示に基づく状態確認の命令が、サービス管理サーバ１１１等を介して印刷端末１１０に送信される。これにより、印刷端末１１０は、自身の状態を示す状態情報を送信し、当該状態情報に基づく音声データが、サービス管理サーバ１１１等を介して音声端末１０１に送信される。これにより、音声端末１０１は、印刷端末１１０の状態を音声で通知する。なお当然、認証処理が失敗した場合は、音声端末１０１に対する音声指示により、印刷端末１１０を制御することができない状態となる。

また、上記の各実施形態において各装置が行うものとして説明した各処理の主体は上記の各実施形態にて説明した主体に限らず、ある装置が行うものとして説明した処理の一部若しくは全部を他の装置が行うようにしてもよい。

なお、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：ネットワーク１０１：音声端末１０２：情報端末１０３：音声端末管理サーバ１０４：情報端末識別ＩＤ１０５：アプリ１０６：音声端末識別ＩＤ１０７：発音特徴ＤＢ１０８：ワンタイムトークンＤＢ１０９：連携管理ＤＢ

Claims

音声端末であって、
ユーザから第１の文字列の発音を受け付けることで第１音声データを取得する第１取得手段と、
前記ユーザから第２の文字列の発音を受け付けることで第２音声データを取得する第２取得手段と、
を有し、
前記取得された前記第１音声データに基づき、前記第１の文字列に含まれる文字のうち特定の文字が特定され、
前記特定された前記特定の文字を含まない文字列を、前記第２の文字列として前記ユーザに発音させるための所定の処理が実行され、
前記所定の処理が実行されたことに基づいて前記ユーザから前記第２の文字列の発音を受け付けることで前記第２音声データが取得され、
前記第２音声データに基づき、前記第２音声データに対応する文字列が特定され、
前記特定された前記第２音声データに対応する文字列に基づく処理が実行されることを特徴とする音声端末。
前記特定の文字は、前記第１の文字列に含まれる文字のうち所定の発音と異なる発音で発された文字を含むことを特徴とする請求項１に記載の音声端末。
前記特定の文字は、前記第１の文字列に含まれる文字のうち、前記第１の文字列に含まれる他の文字の発音と類似する発音で発された文字を含むことを特徴とする請求項１又は２に記載の音声端末。
前記特定の文字は、前記第１の文字列に含まれる文字のうち所定の発音と異なる発音で発された文字と、前記第１の文字列に含まれる文字のうち、前記第１の文字列に含まれる他の文字の発音と類似する発音で発された文字とを含み、
前記第１の文字列に含まれる文字のうち所定の発音と異なる発音で発された文字を前記取得された前記第１音声データに基づき特定するための第１特定処理と、前記第１の文字列に含まれる文字のうち、前記第１の文字列に含まれる他の文字の発音と類似する発音で発された文字を前記取得された前記第１音声データに基づき特定するための、前記第１特定処理と異なる第２特定処理とが実行されることで、前記特定の文字が特定されることを特徴とする請求項１乃至３のいずれか１項に記載の音声端末。
前記取得された前記第１音声データに基づく波形に基づいて、前記特定の文字が特定されることを特徴とする請求項１乃至４のいずれか１項に記載の音声端末。
前記特定された前記第２音声データに対応する文字列に基づく処理は、前記特定された前記第２音声データに対応する文字列を示す情報を送信する処理であることを特徴とする請求項１乃至５のいずれか１項に記載の音声端末。
前記特定された前記第２音声データに対応する文字列に基づく処理は、前記特定された前記第２音声データに対応する文字列が、前記第２の文字列と一致するか否かを判定する処理であることを特徴とする請求項１乃至５のいずれか１項に記載の音声端末。
前記特定された前記第２音声データに対応する文字列が、前記第２の文字列と一致すると判定された場合、前記第２の文字列の認証が成功したことを前記ユーザに通知するための処理を実行し、
前記特定された前記第２音声データに対応する文字列が、前記第２の文字列と一致しないと判定された場合、前記特定の文字列の認証が失敗したことを前記ユーザに通知するための処理を実行する通知ステップをさらに有することを特徴とする請求項７に記載の音声端末。
前記第１の文字列を前記ユーザに発音させるための処理が実行されたことに基づいて前記ユーザから前記第１の文字列の発音を受け付けることで前記第１音声データが取得され、
前記第１の文字列を前記ユーザに発音させるための処理は、前記第１の文字列を印刷するための処理であることを特徴とする請求項１乃至８のいずれか１項に記載の音声端末。
前記所定の処理は、前記第２の文字列を印刷するための処理であることを特徴とする請求項１乃至９のいずれか１項に記載の音声端末。
前記特定された前記特定の文字の数に基づいて、前記第２の文字列に含まれる文字の数が特定されることを特徴とする請求項１乃至１０のいずれか１項に記載の音声端末。
前記特定された前記特定の文字の数が第１の数の場合、前記第２の文字列に第２の数の文字が含まれ、前記特定された前記特定の文字の数が前記第１の数より多い第３の数の場合、前記第２の文字列に前記第２の数より多い第４の数の文字が含まれるように、前記第２の文字列に含まれる文字の数が特定されることを特徴とする請求項１乃至１１のいずれか１項に記載の音声端末。
印刷装置であって、
文字列を印刷する第１印刷手段と、
音声端末に対するユーザの音声指示に基づいて印刷を実行する第２印刷手段と、を有し、
ユーザから第１の文字列の発音を受け付けることで第１音声データが取得され、
前記取得された前記第１音声データに基づき、前記第１の文字列に含まれる文字のうち特定の文字が特定され、
前記特定された前記特定の文字を含まない第２の文字列が、前記印刷装置によって印刷され、
前記第２の文字列が印刷されたことに基づいて前記ユーザから前記第２の文字列の発音を受け付けることで第２音声データが取得され、
前記第２音声データに基づき、前記第２音声データに対応する文字列が特定され、
前記特定された前記第２音声データに対応する文字列が、前記特定の文字列と一致するか否かが判定され、
前記特定された前記第２音声データに対応する文字列が、前記特定の文字列と一致すると判定された場合、前記音声端末に対する前記音声指示に基づく前記印刷装置による印刷が実行可能となり、前記特定された前記第２音声データに対応する文字列が、前記特定の文字列と一致しないと判定された場合、前記音声端末に対する前記音声指示に基づく前記印刷装置による印刷が実行可能とならないように制御されることを特徴とする印刷装置。
音声端末を含むシステムであって、
ユーザから第１の文字列の発音を受け付けることで第１音声データを取得する第１取得手段と、
前記取得された前記第１音声データに基づき、前記第１の文字列に含まれる文字のうち特定の文字を特定する第１特定手段と、
前記特定された前記特定の文字を含まない文字列を、第２の文字列として前記ユーザに発音させるための所定の処理を実行する第１実行手段と、
前記所定の処理が実行されたことに基づいて前記ユーザから第２の文字列の発音を受け付けることで第２音声データを取得する第２取得手段
前記第２音声データに基づき、前記第２音声データに対応する文字列を特定する第２特定手段と、
前記特定された前記第２音声データに対応する文字列に基づく処理を実行する第２実行手段と、
を有することを特徴とするシステム。
前記システムには、前記音声端末と通信するサーバシステムが含まれることを特徴とする請求項１４に記載のシステム。
前記サーバシステムは、１又は複数のサーバで構成されることを特徴とする請求項１５に記載のシステム。
前記システムには、印刷を実行する印刷装置が含まれることを特徴とする請求項１４乃至１６のいずれか１項に記載のシステム。
請求項１乃至１２のいずれか１項に記載の音声端末を、コンピュータに実行させることを特徴とするプログラム。