JP2020173363A - 音声端末、印刷装置、システム及びプログラム - Google Patents
音声端末、印刷装置、システム及びプログラム Download PDFInfo
- Publication number
- JP2020173363A JP2020173363A JP2019075761A JP2019075761A JP2020173363A JP 2020173363 A JP2020173363 A JP 2020173363A JP 2019075761 A JP2019075761 A JP 2019075761A JP 2019075761 A JP2019075761 A JP 2019075761A JP 2020173363 A JP2020173363 A JP 2020173363A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- voice
- character
- voice data
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】ユーザの発音の内容を正確に特定するための技術を提供する。【解決手段】音声制御システムは、音声端末101、情報端末102,音声端末管理サーバ103、を有し、それぞれはネットワーク100に接続されている。音声端末は、自身の識別情報である音声端末識別ID106と、ユーザが発音する文字のうち識別しがたい文字として音声端末が認識した文字を示す発音特徴情報である発音特徴DB107と、を有する。情報端末は、自身の識別情報である情報端末識別ID104と、各種の処理を実行するためのアプリケーションソフトウェアであるアプリ105と、を有する。音声端末管理サーバは、音声端末から受信した発音特徴情報に基づいて作成したワンタイムトークン(識別子)と、音声端末から受信した音声端末識別IDと、を関連づけて登録したワンタイムトークンDB108を有する。【選択図】図1
Description
本発明は、音声端末、印刷装置、システム及びプログラムに関するものである。
独立した一つの音声端末が様々な機器を代表して音声入力を受け付ける情報管理装置が特許文献1に記載されている。
ところで、ワンタイムトークン等の所定の文字列をユーザに発音させ、発音の内容の特定結果に基づく処理を実行するシステムが知られている。しかしながら、人によって発音の方法が異なる可能性が高い文字や、他の文字と発音の方法が似ている文字が発音される場合、ユーザの発音の内容を正確に特定できないことがあるという課題があった。
本発明では、ユーザの発音の内容を正確に特定するための技術を提供する。
本発明の一様態は、音声端末であって、ユーザから第1の文字列の発音を受け付けることで第1音声データを取得する第1取得手段と、前記ユーザから第2の文字列の発音を受け付けることで第2音声データを取得する第2取得手段と、を有し、前記取得された前記第1音声データに基づき、前記第1の文字列に含まれる文字のうち特定の文字が特定され、前記特定された前記特定の文字を含まない文字列を、前記第2の文字列として前記ユーザに発音させるための所定の処理が実行され、前記所定の処理が実行されたことに基づいて前記ユーザから前記第2の文字列の発音を受け付けることで前記第2音声データが取得され、前記第2音声データに基づき、前記第2音声データに対応する文字列が特定され、前記特定された前記第2音声データに対応する文字列に基づく処理が実行されることを特徴とする。
本発明の構成によれば、ユーザの発音の内容を正確に特定することができる。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
先ず、本実施形態に係る音声制御システムの構成例について、図1のブロック図を用いて説明する。図1に示す如く、本実施形態に係る音声制御システムは、音声端末101、情報端末102、音声端末管理サーバ103、を有し、それぞれはネットワーク100に接続されている。音声端末101とは、例えばスマートスピーカである。また、情報端末102とは例えば、スマートフォンやパーソナルコンピュータ(PC)である。
先ず、本実施形態に係る音声制御システムの構成例について、図1のブロック図を用いて説明する。図1に示す如く、本実施形態に係る音声制御システムは、音声端末101、情報端末102、音声端末管理サーバ103、を有し、それぞれはネットワーク100に接続されている。音声端末101とは、例えばスマートスピーカである。また、情報端末102とは例えば、スマートフォンやパーソナルコンピュータ(PC)である。
先ず、音声端末101について説明する。音声端末101は、自身の識別情報である音声端末識別ID106と、ユーザが発音する文字のうち識別しがたい文字として該音声端末101が認識した文字を示す発音特徴情報である発音特徴DB107と、を有する。なお本実施形態において識別しがたい文字とは、人によって発音の方法が異なる可能性が高い文字である。また例えば、他の文字と発音の方法が似ている文字である。具体的には、1と4、7、C、D、T等の文字である。
次に、情報端末102について説明する。情報端末102は、自身の識別情報である情報端末識別ID104と、各種の処理を実行するためのアプリケーションソフトウェアであるアプリ105と、を有する。
次に、ネットワーク100について説明する。ネットワーク100は、LANやインターネットなど、有線通信や無線通信もしくはそれらの組み合わせにより実現される通信を実現するためのネットワークである。ネットワーク100は、例えば、ネットワーク100上のデータ通信を中継するアクセスポイントも含み得る。
次に、音声端末管理サーバ103について説明する。音声端末管理サーバ103は、音声端末101から受信した発音特徴情報に基づいて作成したワンタイムトークン(識別子)と、該音声端末101から受信した音声端末識別ID106と、を関連づけて登録したワンタイムトークンDB108を有する。音声端末管理サーバ103は、情報端末102から受信した情報端末識別ID104、該情報端末102から受信したワンタイムトークンと関連づけてワンタイムトークンDB108に登録されている識別ID、を関連づけて登録した連携管理DB109を有する。
次に、音声端末101に適用可能なコンピュータ装置のハードウェア構成例について、図2(a)のブロック図を用いて説明する。
表示装置209は、液晶画面やタッチパネル画面等を有し、CPU202による処理結果を画像や文字などでもって表示することができる。なお、表示装置209は、CPU202による処理結果を投影するプロジェクタなどの投影装置であっても良い。
スピーカ201は、音声信号に基づく音を発する装置である。CPU202は、外部記憶装置206に保存されているデータ(テキストデータや合成音声データなど)に基づく音声データをスピーカ201に対して出力し、スピーカ201は該音声データをD/A変換した音声信号に基づく音を発する。
CPU202は、ROM203やRAM205に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU202は、コンピュータ装置を適用した音声端末101全体の動作制御を行うと共に、音声端末101が行うものとして後述する各処理を実行若しくは制御する。
ROM203には、音声端末101の設定データや起動プログラムなどが格納されている。マイクロフォン204は、ユーザにより入力された音声を電気信号(音声信号)に変換し、該変換した音声信号をA/D変換することで音声データに変換し、該変換した音声データを出力する。この音声データはRAM205や後述する外部記憶装置206に格納される。
RAM205は、ROM203や外部記憶装置206からロードされたコンピュータプログラムやデータ、マイクロフォン204から入力された音声データ、を格納するためのエリアを有する。またRAM205は、通信部207や近距離無線通信部208によって外部から受信したデータを格納するためのエリアを有する。またRAM205は、CPU202が各種の処理を実行する際に用いるワークエリアを有する。RAM205は、例えば、バックアップ電源を必要とするSRAM(Static RAM)等で構成される。RAM205は、不図示のデータバックアップ用の一次電池によってデータが保持されるため、プログラム制御変数等のデータを揮発させずに格納することができる。このようにRAM205は、各種のエリアを適宜提供することができる。
外部記憶装置206は、ハードディスクドライブ装置などの不揮発性メモリである。外部記憶装置206には、OS(オペレーティングシステム)、音声端末101が行うものとして後述する各処理をCPU202に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置206には、上記の音声端末識別ID106や発音特徴DB107が保存されている。
外部記憶装置206に保存されているコンピュータプログラムやデータは、CPU202による制御に従って適宜RAM205にロードされ、CPU202による処理対象となる。
通信部207は、ネットワーク100を介して他の装置との間のデータ通信を行うものであり、所定の無線通信方式に従って通信を行うための回路やアンテナを含んで構成される。例えば、通信部207はアクセスポイントに無線接続することができる。また、通信部207は、一時的に使用されるアクセスポイントとして動作することもある。本実施形態で使用される無線通信は、IEEE802.11規格シリーズに準拠した無線LANの無線通信方式に従ったものであっても良いし、他の無線通信方式に従ったものであっても良い。
近距離無線通信部208は、自身と一定の近距離範囲内に存在する他の装置との間で近距離無線通信を実行する。なお、近距離無線通信部208は、通信部207が用いる通信方式より低速且つ近距離の通信を行う無線通信方式を用いる。本実施形態では、近距離無線通信部208は、Bluetooth(登録商標)規格に従って動作するものとする。
次に、情報端末102に適用可能なコンピュータ装置のハードウェア構成例について、図2(b)のブロック図を用いて説明する。なお、本実施形態では音声端末101および情報端末102は同じ構成を有するものとして説明するが、これに限らず、音声端末101と情報端末102とは互いに異なる構成を有していても良い。また、音声端末101および情報端末102に適用可能なコンピュータ装置のハードウェア構成はそれぞれ図2(a)および(b)に示した構成に限らず、例えば、図2(a)および(b)に示した機能部のうち2つ以上を1つの機能部に纏めても良い。
表示装置219は、液晶画面やタッチパネル画面等を有し、CPU212による処理結果を画像や文字などでもって表示することができる。なお、表示装置219は、CPU212による処理結果を投影するプロジェクタなどの投影装置であっても良い。
スピーカ211は、音声信号に基づく音を発する装置である。CPU212は、外部記憶装置216に保存されているデータ(テキストデータや合成音声データなど)に基づく音声データをスピーカ211に対して出力し、スピーカ211は該音声データをD/A変換した音声信号に基づく音を発する。
CPU212は、ROM213やRAM215に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU212は、コンピュータ装置を適用した情報端末102全体の動作制御を行うと共に、情報端末102が行うものとして後述する各処理を実行若しくは制御する。
ROM213には、情報端末102の設定データや起動プログラムなどが格納されている。マイクロフォン214は、ユーザにより入力された音声を電気信号(音声信号)に変換し、該変換した音声信号をA/D変換することで音声データに変換し、該変換した音声データを出力する。この音声データはRAM215や後述する外部記憶装置216に格納される。
RAM215は、ROM213や外部記憶装置216からロードされたコンピュータプログラムやデータ、マイクロフォン214から入力された音声データ、を格納するためのエリアを有する。またRAM215は、通信部217や近距離無線通信部218によって外部から受信したデータを格納するためのエリアを有する。またRAM215は、CPU212が各種の処理を実行する際に用いるワークエリアを有する。RAM215は、例えば、バックアップ電源を必要とするSRAM(Static RAM)等で構成される。RAM215は、不図示のデータバックアップ用の一次電池によってデータが保持されるため、プログラム制御変数等のデータを揮発させずに格納することができる。このようにRAM215は、各種のエリアを適宜提供することができる。
外部記憶装置216は、ハードディスクドライブ装置などの不揮発性メモリである。外部記憶装置216には、OS(オペレーティングシステム)、情報端末102が行うものとして後述する各処理をCPU212に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置216には、上記の情報端末識別ID104やアプリ105が保存されている。
外部記憶装置216に保存されているコンピュータプログラムやデータは、CPU212による制御に従って適宜RAM215にロードされ、CPU212による処理対象となる。
通信部217は、ネットワーク100を介して他の装置との間のデータ通信を行うものであり、所定の無線通信方式に従って通信を行うための回路やアンテナを含んで構成される。例えば、通信部217はアクセスポイントに無線接続することができる。また、通信部217は、一時的に使用されるアクセスポイントとして動作することもある。本実施形態で使用される無線通信は、IEEE802.11規格シリーズに準拠した無線LANの無線通信方式に従ったものであっても良いし、他の無線通信方式に従ったものであっても良い。
近距離無線通信部218は、自身と一定の近距離範囲内に存在する他の装置との間で近距離無線通信を実行する。なお、近距離無線通信部218は、通信部217が用いる通信方式より低速且つ近距離の通信を行う無線通信方式を用いる。本実施形態では、近距離無線通信部218は、Bluetooth(登録商標)規格に従って動作するものとする。
次に、音声端末管理サーバ103に適用可能なコンピュータ装置のハードウェア構成例について、図3のブロック図を用いて説明する。なお、音声端末管理サーバ103に適用可能なコンピュータ装置のハードウェア構成は図3に示した構成に限らず、例えば、図3に示した機能部のうち2つ以上を1つの機能部に纏めても良い。
表示部305は、液晶画面やタッチパネル画面等を有し、CPU301による処理結果を画像や文字などでもって表示することができる。なお、表示部305は、CPU301による処理結果を投影するプロジェクタなどの投影装置であっても良い。
CPU301は、メモリ304に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU301は、音声端末管理サーバ103全体の動作制御を行うと共に、音声端末管理サーバ103が行うものとして後述する各処理を実行若しくは制御する。
ネットワーク通信部307は、ネットワーク接続部308を介してネットワーク100と接続され、各種の通信を行う。例えば、ネットワーク通信部307は有線LANや無線LANに対応し、有線LAN対応の場合のネットワーク接続部308は有線LANのケーブルを接続するためのコネクタであり、無線LAN対応の場合のネットワーク接続部308はアンテナとなる。なお、ネットワーク接続部308が、有線LANおよび無線LANの両者に対応していても良い。USB通信部310は、各種周辺装置とUSB接続部311を介して接続され、各種通信を行う。
操作部306は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をCPU301に対して入力することができる。
記憶装置302には、各種のアプリケーションソフトウェアであるアプリケーション312や、上記のワンタイムトークンDB108や連携管理DB109を含むデータベース313が保存されている。このほか、記憶装置302には、OSも保存されている。記憶装置302に保存されているコンピュータプログラムやデータは、CPU301による制御に従って適宜メモリ304にロードされ、CPU301による処理対象となる。
メディア読取装置303は、SDカードなどの外部記憶媒体に格納されているコンピュータプログラムやデータのファイルなどの情報をメモリ304や記憶装置302に読み出すための装置である。
メモリ304は、記憶装置302やメディア読取装置303からロードされたコンピュータプログラムやデータ、ネットワーク通信部307やUSB通信部310から出力されたコンピュータプログラムやデータを格納するためのエリアを有する。またメモリ304は、CPU301が各種の処理を実行する際に用いるワークエリアを有する。このようにメモリ304は、各種のエリアを適宜提供することができる。
上記の表示部305、CPU301、ネットワーク通信部307、USB通信部310、操作部306、記憶装置302、メディア読取装置303、メモリ304は何れもバス309に接続されている。
次に、ユーザが発音する文字のうち識別しがたい文字を示す発音特徴情報を音声端末101が生成する(取得する)ための方法の一例について、図5を用いて説明する。なお、図5に示した方法はあくまでも一例であり、発音特徴情報を音声端末101に生成させる(取得させる)方法には様々な例が考えられる。
先ず、ユーザ801は音声端末101に対して、音声特徴情報の取得開始を指示する。音声特徴情報の取得開始を指示する方法には様々な方法がある。例えば、音声特徴情報の取得開始指示を音声で入力する方法がある。ユーザがマイクロフォン204に対して音声特徴情報の取得開始指示を音声で入力すると、マイクロフォン204からは該音声に対応する音声データが出力される。音声端末101は、該音声データを、音声端末管理サーバ103に送信する。音声端末管理サーバ103は、該音声データを認識し、ユーザの発話内容が音声特徴情報の取得開始指示であることを認識すれば、音声特徴情報の取得開始指示が入力されたと判断する。
音声端末管理サーバ103は、音声特徴情報の取得開始指示が入力されたと判断すると、複数の文字(学習用文字列)を発音するように、ユーザを促すための処理を実行する。例えば音声端末管理サーバ103は、メッセージ1402を含む情報を音声端末101に送信する。これにより、音声端末101は、スピーカ201を介してメッセージ1402を音声として出力する。メッセージ1402は例えば、図5に示す如く、「貴方の発音を学習します。アルファベットをAからZまで、数字を0から9まで読み上げて下さい」とのメッセージである。また音声端末管理サーバ103は例えば、このメッセージ1402を表示装置209に表示させることでユーザに発音を促しても良い。また音声端末管理サーバ103は例えば、ユーザ801が所持する印刷装置に学習用文字列を印刷させるための処理を実行しても良い。そして、印刷装置による学習用文字列の印刷によって、学習用文字列をユーザへ通知しても良い。
このメッセージ1402を確認したユーザ801は、該メッセージ1402に従い、アルファベットをAからZまで、数字を0から9まで読み上げる。この読み上げた発話内容1403はマイクロフォン204に入力され、音声データとして音声端末101に入力される。音声端末101は、該音声データを、音声端末管理サーバ103に送信する。音声端末管理サーバ103は、該発話内容1403(音声データ)を認識して、A〜Zの各アルファベット、0〜9の各数字、のうち識別しがたい文字(以下、特定文字)を特定する(特定処理)。本実施形態では、音声データに基づく特定文字の特定方法として、2つ方法を実行する。第1の特定方法は、人によって発音の方法(イントネーションや文字の読み方)が異なる可能性が高い文字の特定方法である。第1の特定方法は、他の文字と発音の方法が似ている文字の特定方法である。
まず、第1の特定方法について説明する。本実施形態では、音声端末管理サーバ103は、各文字を標準的な発音により読む(発する)ことにより得られる出力(以下、標準出力)を、予めメモリ304等に保持しているものとする。そして、音声端末管理サーバ103は、ユーザがメッセージ1402を読み上げることにより得られる各文字に対応する出力と、メモリ304が予め保持している標準出力とを比較する。なお各文字に対応する出力とは例えば、各文字に対応する音声の波形である。すなわちここでは、標準的な発音により発せられた音声の波形と、ユーザ801により発せられた音声の波形と、が比較される。この比較結果により、各文字の尤度が特定される。具体的には、音声端末101が予め保持している標準出力と近い出力の文字であるほど、当該文字の尤度としてより大きい尤度が特定される。また、メモリ304が予め保持している標準出力と異なる出力の文字であるほど、当該文字の尤度としてより小さい尤度が特定される。そして特定された尤度が閾値以下である文字が、特定文字として特定される。これにより例えば、Dの標準的な発音が「でぃー」であるにも関わらず、Dが「でー」と発音された場合に、Dが、特定文字として特定される。
次に、第2の特定方法について説明する。音声端末管理サーバ103は、ユーザがメッセージ1402を読み上げることにより得られる各文字に対応する出力をそれぞれ比較する。なお各文字に対応する出力とは例えば、各文字に対応する音声の周波数である。すなわちここでは、ユーザ801により発せられた各文字に対応する音声の波形がそれぞれ比較される。この比較結果により、各文字の、他の文字との類似度が特定される。例えば、第1の文字の出力と第2の文字の出力が近いほど、第1の文字の第2の文字との類似度が高く特定される。また、第1の文字の出力と第2の文字の出力が異なるほど、第1の文字の第2の文字との類似度が低く特定される。そして特定された類似度が閾値以下である文字が、特定文字として特定される。これにより例えば、4とCのどちらもが「しー」と発音された場合に、4とCが、特定文字として特定される。
そして音声端末管理サーバ103は、特定文字として特定した文字を発音特徴情報としてメモリ304に登録する。発音特徴情報の登録例を図6に示す。図6では、発音特徴情報(特定文字を示す情報)として4(しー)とC(しー)、9(きゅう)とQ(きゅー)が登録されている例を示している。なお上述では、特定文字が、人によって発音の方法が異なる可能性が高い文字と、他の文字と発音の方法が似ている文字の両方を含むものとし、2つの特定方法を実行するものしたが、この形態に限定されない。上述の2つの特定方法のうち、一方のみを実行する形態であっても良い。
そして音声端末管理サーバ103は、発音特徴情報の登録が完了した旨を示すメッセージ1404をユーザに通知するための処理を実行する。例えば音声端末管理サーバ103は、メッセージ1404を含む情報を音声端末101に送信する。これにより、音声端末101は、スピーカ201を介してメッセージ1404を音声として出力する。メッセージ1404は例えば、図5に示す如く、「登録完了しました」とのメッセージである。また音声端末管理サーバ103は例えば、このメッセージ1404を表示装置209に表示させても良い。
次に、音声端末101が音声端末管理サーバ103に対し、情報端末102との連携のためのワンタイムトークンの発行を要求するための方法の一例について説明する。なお、以下に説明する方法はあくまでも一例であり、音声端末101が音声端末管理サーバ103に対し、情報端末102との連携のためのワンタイムトークンの発行を要求するための方法には様々な例が考えられる。
先ず、ユーザは音声端末101に対して、情報端末102との連携のためのワンタイムトークンの発行要求を入力する。ワンタイムトークンの発行要求を入力する方法には様々な方法がある。例えば、ワンタイムトークンの発行要求を音声で入力する方法がある。ユーザがマイクロフォン204に対してワンタイムトークンの発行要求を音声で入力すると、マイクロフォン204からは該音声に対応する音声データが出力される。
CPU202は、該音声データを音声端末管理サーバ103に送信する。
該音声データを受信した音声端末管理サーバ103の動作について、図10のフローチャートに従って説明する。図10に示すフローチャートは、例えば、記憶装置302に格納されたプログラムをCPU301がメモリ304等に読み出して実行することにより実現される。
ステップS1002では、CPU301は、メモリ304に保持されている音声端末識別ID106および発音特徴情報(発音特徴DB107)を取得する。そしてCPU301は、A〜Zのアルファベットおよび0〜9の数字の合計36文字から発音特徴DB107が示す文字(特定文字)を除いた文字を使用可能文字として特定する。
ステップS1003では、CPU301は、ステップS1002で特定した使用可能文字の数(文字数)を計数し、該計数した文字数をXとする。
そしてステップS1004では、CPU301は、予め設定されている閾値をPとすると、Y>logP/logXを満たす最小の整数Yを求め、該求めた整数Yをワンタイムトークンの文字数とする。
例えば、ワンタイムトークンに使える文字が上記の36文字であって、この36文字からランダムに選択した6文字を並べた文字列をワンタイムトークンとして生成する場合を考える。このとき、この36文字からワンタイムトークンは36の6乗(2,176,782,336)通り作成することができ、十分複雑なワンタイムトークンとなる。しかし、この36文字の中に「特定文字」があり、その数が増えると、その複雑性は失われる。
例えば、C(しー)と4(しー)、9(きゅー)とQ(キュー)の4文字が「特定文字」である場合、使用可能文字は32文字となる。この場合、32文字から作成可能な6文字のワンタイムトークンは32の6乗(1,073,741,824)通りとなり、半分程度の複雑性となる。
例えば1(いツ)、4(しー)、7(しツ)、8(はツ)、9(きゅー)、B(びぃー)、C(しー)、D(でぃー)、L(える)、M(えぬ)、N(えむ)、P(ぺー)、Q(きゅー)、T(てー)、V(ヴぃー)の15文字が「特定文字」とする。この場合、使用可能文字は21文字となり、21文字から作成可能な6文字のワンタイムトークンは21の6乗(85,776,121)通りとなり、元の8%程度の複雑性になってしまう。
そこで、もともとの複雑性を担保するために、閾値Pを「36の6乗」とし、Y>logP/logXを満たす最小の整数Yを、ワンタイムトークンの文字数とする。例えば、使用可能文字の文字数が32である場合、32の7乗(=34,359,738,368)は閾値Pを超え、十分複雑なため、Yは7に定まる。また、使用可能文字の文字数が21である場合、21の8乗(37,822,859,361)は閾値Pを超え、十分複雑となり、Yは8に定まる。すなわち本実施形態では、特定文字として特定された文字の数に応じて、ワンタイムトークンに含まれる文字の数が特定される。より具体的には、特定文字として特定された文字の数が多い場合に、ワンタイムトークンに含まれる文字の数が多くなるように、ワンタイムトークンに含まれる文字の数が特定される。
そしてステップS1005では、CPU301は、使用可能文字からランダムに選択したY個の文字を並べた文字列をワンタイムトークンとして生成する。使用可能文字からY個の文字を選択する方法はランダムに限らない。そしてCPU301は、該生成したワンタイムトークンを、ステップS1002で受信した音声端末識別ID106と関連づけてワンタイムトークンDB108に登録する。ワンタイムトークンDB108の構成例を図7に示す。
そしてステップS1006では、CPU301はネットワーク通信部307を制御し、ステップS1005にて生成したワンタイムトークンを、ネットワーク接続部308およびネットワーク100を介して音声端末101に対して送信する。音声端末管理サーバ103からワンタイムトークンを受信した音声端末101のCPU202は、該受信したワンタイムトークンをユーザに通知する。音声端末管理サーバ103から受信したワンタイムトークンをユーザに通知する方法には様々な方法がある。例えば、ワンタイムトークンを表示装置209に表示することで該ワンタイムトークンをユーザに通知しても良いし、該ワンタイムトークンを音声としてスピーカ201から出力することで該ワンタイムトークンをユーザに通知しても良い。
次に、ワンタイムトークンをユーザに通知してから、該ユーザが該ワンタイムトークンを用いて情報端末102との連携を音声端末管理サーバ103に登録するための方法の一例について、図9を用いて説明する。なお、図9に示した方法はあくまでも一例であり、様々な例が考えられる。
ユーザ801が、情報端末102との連携のためのワンタイムトークンの発行要求802を例えば音声で音声端末101に入力すると、音声端末101は、音声端末管理サーバ103が図10のフローチャートに従った処理を行うことで生成したワンタイムトークンを該音声端末管理サーバ103から受信する。そして音声端末101は、該受信したワンタイムトークン803をユーザに、例えば音声にて通知する。
次にユーザは、情報端末102のマイクロフォン214に対して、連携登録作業の開始指示804を音声で入力する。ユーザが情報端末102のマイクロフォン214に対して連携登録作業の開始指示を音声で入力すると、マイクロフォン214からは該音声に対応する音声データが出力される。CPU212は該音声データを認識し、ユーザの発話内容が連携登録作業の開始指示であれば、CPU212は、連携登録作業の開始指示が入力されたと判断する。
CPU212は、連携登録作業の開始指示が入力されたと判断すると、次に、ユーザにワンタイムトークンの入力を指示する。ワンタイムトークンの入力を指示する方法は特定の方法に限らない。例えば、図9に示す如く、「連携用ワンタイムトークンをお知らせ下さい」とのメッセージ805をスピーカ211を介して音声としてユーザに提示することで、ユーザにワンタイムトークンの入力を促しても良い。また例えば、このメッセージ805を表示装置219に表示することでユーザにワンタイムトークンの入力を促しても良い。
ユーザ801は、音声端末101から通知されたワンタイムトークン806を発話する。ユーザ801が発話した音声はマイクロフォン214に入力され、該マイクロフォン214からは該音声に対応する音声データが出力される。CPU212は該音声データを認識して、該認識したユーザの発話内容(発話したワンタイムトークン806)を特定する。そしてCPU212は、該特定したワンタイムトークン806に対応する音声端末識別ID106の検索依頼を音声端末管理サーバ103に対して送信する。この検索依頼には、情報端末識別ID104が含まれている。
検索依頼を受信した音声端末管理サーバ103のCPU301は、ワンタイムトークンDB108から、ワンタイムトークン806と関連づけて登録されている音声端末識別ID106を検索する。そしてCPU301は、検索した音声端末識別ID106と、検索依頼に含まれている情報端末識別ID104と、を関連づけて連携管理DB109に登録する。連携管理DB109の構成例を図8に示す。
そしてCPU301は、この登録処理が完了すると、その旨を情報端末102に対して送信するので、情報端末102のCPU212は、この登録処理が完了した旨を示すメッセージ807をユーザに通知する。メッセージ807の通知形態は上記の通り、表示にて行っても良いし、音声にて行っても良い。
以上説明した図9の方法を実現する、音声端末101、音声端末管理サーバ103、情報端末102のそれぞれにおける処理手順について、図11のシーケンス図を用いて説明する。なお、図11中の左右方向の矢印は装置間の通信を示し、上下方向の直線は時間の経過を示す。また図11のシーケンス図において各装置が実行する処理は、例えば、各装置が備える記憶装置に格納されたプログラムを各装置が備えるCPUが各装置が備えるメモリ等に読み出して実行することにより実現される。
ユーザ801は音声端末101に対して、情報端末102との連携のためのワンタイムトークンの発行要求(ワンタイムトークン発番依頼)を発話する(S1101)。この発話を受けて音声端末101は、音声端末識別ID106と、発音特徴情報(発音特徴DB107)と、を含むワンタイムトークン発番依頼を音声端末管理サーバ103に送信する(S1102)。
音声端末管理サーバ103は、図10のフローチャートに従った処理によりワンタイムトークンを生成(発番)する(S1103)。そして音声端末管理サーバ103は、該発番したワンタイムトークンを音声端末101に対して送信する(S1104)。そして音声端末101は、音声端末管理サーバ103から受信したワンタイムトークンをユーザ801に音声にて通知する(S1105)。なお、音声端末管理サーバ103が生成したワンタイムトークンのユーザへの通知方法は、この方法に限定されない。例えば、音声端末管理サーバ103は、ユーザ801が所持する印刷装置にワンタイムトークンを印刷させるための処理を実行しても良い。そして、印刷装置によるワンタイムトークンの印刷によって、音声端末管理サーバ103が生成したワンタイムトークンをユーザへ通知しても良い。
次に、ユーザ801が情報端末102に対して連携登録作業の開始指示(連携登録開始依頼)を発話する(S1106)と、情報端末102はユーザ801にワンタイムトークンの入力を指示する(S1107)。
ユーザ801は、情報端末102に対して、音声端末101から通知されたワンタイムトークンを発話する(S1108)。情報端末102は、ユーザ801が発話した音声に対応する音声データを認識(文字化)する(S1109)。すなわち情報端末102は、ユーザ801が発話したワンタイムトークンに対応する音声データに対応する文字列を特定・取得する。なお、情報端末102は、ユーザ801が発話した音声に対応する音声データを音声端末管理サーバ103に送信してもよい。そして、ユーザ801が発話したワンタイムトークンに対応する音声データに対応する文字列を特定する処理は、情報端末102ではなく、音声端末管理サーバ103が実行しても良い。その後情報端末102は、特定した文字列に対応する音声端末識別ID106の検索依頼(情報端末識別ID104を含む)を音声端末管理サーバ103に対して送信する(ワンタイムトークン確認)(S1110)。
音声端末管理サーバ103は、ワンタイムトークンに対応する音声データに対応する文字列(情報端末102から受信した文字列)が、有効か否かを判定する認証処理を実行する。そして音声端末管理サーバ103は、当該文字列が、ワンタイムトークンDB108に登録したワンタイムトークンと同じ(一致)であれば有効と判断する。有効と判断され、認証が成功した場合、音声端末管理サーバ103は、登録処理を実行する。具体的には音声端末管理サーバ103は、ワンタイムトークンDB108から検索した音声端末識別ID106と、検索依頼に含まれている情報端末識別ID104と、を関連づけて連携管理DB109に登録する。さらに音声端末管理サーバ103は、登録完了を情報端末102に通知する(S1111)。この時、音声端末管理サーバ103は、認証が成功したことをユーザに通知するための情報を情報端末102や音声端末101に送信しても良い。これにより、認証が成功したことが、情報端末102や音声端末101により、音声や画面が用いられて通知される。なお、無効と判断され、認証が失敗した場合、音声端末管理サーバ103は、ユーザが発音した内容が間違っており認証が失敗したことを通知するための情報を情報端末102や音声端末101に送信しても良い。これにより、認証が失敗したことが、情報端末102や音声端末101により音声や画面が用いられて通知される。その後情報端末102は、この登録完了を示すメッセージをユーザに通知する(S1112)。
S1112以降は、ユーザが音声端末101に、情報端末102の操作指示を入力すると、該音声端末101は、音声端末識別ID106および該操作指示を音声端末管理サーバ103に送信する。音声端末管理サーバ103は、連携管理DB109において音声端末識別ID106と関連づけて登録されている情報端末識別ID104を特定し、該特定した情報端末識別ID104に対応する情報端末102に対して、該操作指示を送信(転送)する。これにより情報端末102は、該操作指示に応じた処理を実行する。
このように、本実施形態によれば、ユーザは音声端末に対してワンタイムトークンを要求するだけで、発音特徴情報を持たない情報端末が識別しやすいワンタイムトークンの発番を行うことができる。そして、本来であれば必要な発音特徴の学習の手間などかけることなく、所望の処理(上記の例では連携登録)を簡便に行うことができる。
[第2の実施形態]
本実施形態を含む以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。本実施形態に係る音声制御システムの構成例について、図12のブロック図を用いて説明する。本実施形態では、ネットワーク100には更に、サービス管理サーバ111と印刷端末110とが接続されている。
本実施形態を含む以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。本実施形態に係る音声制御システムの構成例について、図12のブロック図を用いて説明する。本実施形態では、ネットワーク100には更に、サービス管理サーバ111と印刷端末110とが接続されている。
先ず、印刷端末110について説明する。印刷端末110は、画像(文字を含む)を紙などの印刷媒体に印刷する。印刷端末110のハードウェア構成例について、図4のブロック図を用いて説明する。本実施形態では、印刷端末110は複合機であるものとして説明するが、印刷機能を有する装置であれば他の装置であっても良く、例えば、画像処理装置、複写機、ファクシミリ、単機能の印刷装置等であっても良い。
印刷端末110において、印刷機能はプリンタ部1501で実現され、スキャナ機能はスキャナ部1502で実現され、ストレージ機能はメモリカード装着部1503及びメモリカード1504で実現される。プリンタ部1501、スキャナ部1502、メモリカード装着部1503はバス1514に接続されている。
プリンタ部1501は、外部から受信した画像、メモリカード1504、ワークメモリ1507、フラッシュメモリ1512等のメモリに記憶されている画像、をインクジェット記録方式や電子写真方式などの記録方式によって印刷媒体に印刷する。また、プリンタ部1501は、消耗部材に関する情報、例えば、インク残量を含むインク情報や積載用紙の枚数等の用紙情報を管理している。
スキャナ部1502は、原稿台(不図示)にセットされた原稿を光学的に読み取って画像に変換し、更に該画像を指定されたファイル形式に変換した変換画像をメモリカード1504、ワークメモリ1507、フラッシュメモリ1512等のメモリに格納する。コピーサービスは、スキャナ部1502が原稿台に置かれた原稿を読み取って生成した画像をプリンタ部1501へ転送し、プリンタ部1501が該画像を印刷媒体に印刷することで実現される。
メモリカード装着部1503に装着されたメモリカード1504には、各種ファイルが格納されている。メモリカード1504に格納されているファイルは、ネットワーク100を介して外部装置から読み出されて編集される場合もある。また、外部装置からメモリカード1504にファイルが格納される場合もある。
HDD(ハードディスクドライブ)1516には、OS(オペレーティングシステム)や、印刷端末110が行うものとして後述する各処理をCPU1505に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。HDD1516に保存されているコンピュータプログラムやデータは、CPU1505による制御に従って適宜ワークメモリ1507にロードされ、CPU1505による処理対象となる。
中央演算装置(CPU)1505は、プログラムメモリ1506に格納されているアプリケーション1515や、ワークメモリ1507に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU1505は、印刷端末110全体の動作制御を行うと共に、印刷端末110が行うものとして後述する各処理を実行若しくは制御する。
プログラムメモリ1506は、ROMなどで構成され、各種のコンピュータプログラムやデータ、外部装置と通信するためなどのアプリケーション1515が格納されている。アプリケーション1515は、プリンタ部1501にアクセスしてインクや用紙などの消耗品情報を取得することも可能である。
ワークメモリ1507は、RAMなどで構成され、CPU1505が各種の処理を実行する際に用いるメモリであり、例えば、各サービス実行時に画像などを一時格納したり、バッファリングしたりする。
ネットワーク通信部1510が有線LAN対応の場合のネットワーク接続部1511は有線LANのケーブルを接続するためのコネクタであり、ネットワーク通信部1510が無線LAN対応の場合のネットワーク接続部1511はアンテナとなる。なお、ネットワーク接続部1511が、有線LANおよび無線LANの両者に対応していても良い。本実施形態では、ネットワーク通信部1510、ネットワーク接続部1511は、無線LANに対応しており、IEEE802.11規格シリーズに準拠した無線LANの無線通信方式に従ってアクセスポイントと接続することができる。なお、ネットワーク接続部1511は、一時的に自身がアクセスポイント(ネットワークを構築する親局)として動作することも可能である。つまりネットワーク接続部1511がアクセスポイントに対応する機能を備えてもよい。また、印刷端末110は、音声端末101や情報端末102と同様に近距離無線通信部(不図示)を備えていてもよい。
フラッシュメモリ1512は、ネットワーク通信部1510が外部から受信した画像などを格納するための不揮発性のメモリである。表示部1508は、例えばタッチパネル画面を有するLCD(液晶ディスプレイ)を有し、ユーザインタフェース画面等、各種の情報を表示すると共に、ユーザからの各種の操作を受け付ける。操作部1509は、キーボード、マウス、スイッチ、ボタン等を含み、ユーザからの指示や操作を受付可能である。
マイクロフォン1599は、ユーザにより入力された音声を電気信号(音声信号)に変換し、該変換した音声信号をA/D変換することで音声データに変換し、該変換した音声データを出力する。この音声データはワークメモリ1507等のメモリに格納される。
マイクロフォン1599、ネットワーク通信部1510、表示部1508、操作部1509、フラッシュメモリ1512、HDD1516、CPU1505は何れもバス1513に接続されている。なお、バス1514とバス1513との間でデータ変換を行うブロックがあっても良い。本実施形態における印刷端末110の動作は、例えば、CPU1505が処理に必要なコンピュータプログラムやデータをプログラムメモリ1506やHDD1516からワークメモリ1507に読み出して実行することで実現される。
次に、サービス管理サーバ111について説明する。サービス管理サーバ111は、印刷端末110による印刷サービスを管理する。本実施形態では、サービス管理サーバ111は、音声端末管理サーバ103と同様、図3に示すハードウェア構成例を有するものとして説明するが、他の構成であっても良い。
以下では、音声端末101が発音特徴情報を特定して発音特徴DB107として登録済みの状態であるものとして説明する。先ず、情報端末102のCPU212がアプリ105を実行することで表示装置219には、図18の左側に例示する画面(サービスの一覧選択画面)2301が表示されているものとする。画面2301は、印刷端末110に様々な印刷物を生成させるための印刷サービスを提供するための画面である。この画面2301には、無料コンサートチケットの印刷サービスを受けるためのボタン2304と、おにぎり割引券の印刷サービスを受けるためのボタン2305と、が配置されている。
情報端末102の外部記憶装置216には、図13に例示するテーブルがサービス受付情報1905として登録されている。図13のテーブルには、印刷サービス名(サービス名)、該印刷サービス名に対応する識別情報であるサービスID、該印刷サービス名に対応するボタンに表示する文字列(紹介文)、が登録されている。ボタン2304はサービス名「チケット印刷」に対応するボタンであるため、ボタン2304には対応する紹介文が表示されており、ボタン2305はサービス名「割引券印刷」に対応するボタンであるため、ボタン2305には対応する紹介文が表示されている。
ここで、ユーザがボタン2304をタッチする(この場合、表示装置219の画面はタッチパネル画面である)と、画面2301が図18の右側に例示する画面2302に切り替わる。画面2302には、コンビニ等、印刷端末110の置いてある場所の説明、印刷端末110に伝えるべきサービス名2306、ワンタイムトークン2307が表示されている。
情報端末102がワンタイムトークン2307を取得するために、情報端末102、音声端末管理サーバ103、音声端末101、サービス管理サーバ111、のそれぞれが行う処理について、図19のシーケンス図を用いて説明する。
ユーザ801が情報端末102に対して音声入力にてアプリ105の起動指示を入力する(S2401)と、情報端末102は音声入力によって入力された起動指示を認識する。そして情報端末102は、アプリ105を起動することで、図18の左側に例示する画面2301を表示装置219に表示する(S2302)。
ユーザ801が画面2301に表示されているいずれかのボタンを指示(サービス選択)する(S2403)と、情報端末102は、情報端末識別ID104を含む発音特徴提供依頼を音声端末管理サーバ103に対して送信する(S2404)。
音声端末管理サーバ103は、情報端末102から受信した情報端末識別ID104に対応する音声端末識別ID106を連携管理DB109から特定する。そして音声端末管理サーバ103は、該特定した音声端末識別ID106に対応する音声端末101に発音特徴情報の送信を依頼する(S2405)。
音声端末101は、音声端末管理サーバ103からの依頼に応じて、発音特徴情報を音声端末管理サーバ103に送信し(S2406)、音声端末管理サーバ103は、音声端末101から送信された発音特徴情報を情報端末102に転送する(S2407)。
情報端末102は、画面2301においてユーザ801が指示したボタンに対応するサービスIDと、音声端末管理サーバ103から転送された発音特徴情報と、を含むワンタイムトークン発行依頼をサービス管理サーバ111に対して送信する(S2408)。
サービス管理サーバ111は、情報端末102から受けた発音特徴情報を用いて第1の実施形態と同様にして、ワンタイムトークンを生成(発番)する(S2409)。そしてサービス管理サーバ111は、該生成したワンタイムトークンを、情報端末102から受けたサービスIDと関連づけてワンタイムトークンDB1901に登録する(S2409)。ワンタイムトークンDB1901の構成例を図16に示す。
そしてサービス管理サーバ111は、生成したワンタイムトークンを情報端末102に対して送信する(S2410)。情報端末102は、サービス管理サーバ111から受信したワンタイムトークンを、画面2302のワンタイムトークン2307として表示する(S2411)。
次に、画面2302を見たユーザが、該画面2302に表示されている印刷端末110の場所に行って、該印刷端末110にチケットを印刷させるケースについて、図20を用いて説明する。
印刷端末110はユーザ801に対して対象サービス名を質問する(2502)。例えば、「いらっしゃいませ。対象サービス名を教えて下さい。」等のメッセージを表示部1508に表示する。
そしてユーザ801が操作部1509や表示部1508に対するタッチ操作などでもってチケット印刷を指示する(2503)と、印刷端末110はワンタイムトークンを質問する(2504)。例えば、「ワンタイムトークンを教えて下さい」等のメッセージを表示部1508に表示する。
ユーザ801が印刷端末110のマイクロフォン1599に対してワンタイムトークン2307を発話する(2505)と、印刷端末110は、ワンタイムトークン2307に対応するチケットをプリンタ部1501にて印刷する(2506)。
画面2302を見たユーザが、該画面2302に表示されている印刷端末110の場所に行って、該印刷端末110にチケットを印刷させる場合における、印刷端末110およびサービス管理サーバ111の動作について図17のシーケンス図を用いて説明する。
CPU1505は、「いらっしゃいませ。対象サービス名を教えて下さい。」等のメッセージを表示部1508に表示することで、ユーザ801に対して対象サービス名を質問する(S2602)。
そしてユーザ801が操作部1509や表示部1508に対するタッチ操作などでもってサービス名である「チケット印刷」を指示する(S2603)。これに応じてCPU1505は、「ワンタイムトークンを教えて下さい」等のメッセージを表示部1508に表示することで、ワンタイムトークンを質問する(S2604)。
ユーザ801は、ワンタイムトークンを発話する(S2605)。ユーザ801が発話した音声はマイクロフォン1599に入力され、該マイクロフォン1599からは該音声に対応する音声データが出力される。CPU1505は該音声データを認識して、該認識したユーザの発話内容(発話したワンタイムトークン)を特定する。そしてCPU1505は、指示されたサービス名に対応するサービスIDをサービス提供情報1904から取得する。サービス提供情報1904の構成例を図14に示す。そしてCPU1505は、サービス提供情報1904から取得したサービスIDと、認識により特定したワンタイムトークンと、を含むサービスID確認依頼をサービス管理サーバ111に対して送信する(S2606)。
サービス管理サーバ111のCPU301は、印刷端末110から送信されたサービスIDとワンタイムトークンのセットが、ワンタイムトークンDB1901に登録されているか否かを確認する。サービス管理サーバ111のCPU301は、登録されていれば、印刷端末110から受信したワンタイムトークンは、サービス名「チケット印刷」に対応するワンタイムトークンであると判断する。そしてサービス管理サーバ111のCPU301は、図15に例示する構成を有するサービス管理DB1903において、印刷端末110から受信したサービスIDに対応する拡張データ(URL)を取得する。サービス管理DB1903には、サービスIDごとに、サービスのタイプと、印刷する画像のURLと、が登録されている。本実施形態では、URLは、サービス管理サーバ111の記憶装置302(画像DB1902)において、チケットや割引券などの印刷対象となる画像を保存している保存場所を示す情報であるものとして説明する。しかし、URLは、サービス管理サーバ111以外の装置の記憶装置におけるチケットや割引券などの印刷対象となる画像を保存している保存場所を示す情報であっても良い。
そしてサービス管理サーバ111のCPU301は、サービス管理DB1903から取得した「印刷端末110から受信したサービスIDに対応するURL(画像URL)」を印刷端末110に対して送信する(S2608)。
印刷端末110のCPU1505は、サービス管理サーバ111から受信したURLにアクセスし(S2608)、サービス管理サーバ111のCPU301は、アクセス先の画像(チケットの画像)を印刷端末110に対して送信する。印刷端末110のCPU1505はプリンタ部1501を制御し、サービス管理サーバ111から受信した画像を印刷媒体に印刷することで、チケットを印刷する。
なお、印刷端末110が音声端末101や情報端末102と同様に音声入力機能を有し、且つ入力された音声を認識する音声認識機能を有しているのであれば、印刷端末110への入力は音声にて行っても良い。
このように、コンビニエンスストアなど公共の場に置いてある印刷端末のような、自分専用ではない端末については個人個人の発音特徴を学習することは困難である。本実施形態では、特定文字を含まないワンタイムトークンでサービス提供の依頼ができるので、スムーズなサービス提供を可能にする。
[第3の実施形態]
第1の実施形態では、音声端末101に特定文字を登録させるために、ユーザにアルファベットをA〜Zの順、数字を0〜9の順に発話させていたが、発話順はこの順に限らず、例えば、並びをバラバラにしても良い。なぜならば、数字を順番に読み上げる場合とバラバラに読み上げる場合とで読み方が違う可能性があるためである。例えば、順番によみあげる場合は「ひとーつふたーつみっつよっつ・・」と1、2、3、4を数える人でも、パスワードの場合は4を「しー」と発音する可能性があるためである。
第1の実施形態では、音声端末101に特定文字を登録させるために、ユーザにアルファベットをA〜Zの順、数字を0〜9の順に発話させていたが、発話順はこの順に限らず、例えば、並びをバラバラにしても良い。なぜならば、数字を順番に読み上げる場合とバラバラに読み上げる場合とで読み方が違う可能性があるためである。例えば、順番によみあげる場合は「ひとーつふたーつみっつよっつ・・」と1、2、3、4を数える人でも、パスワードの場合は4を「しー」と発音する可能性があるためである。
また、ユーザに読み上げさせる文字を提示する際、すべてのアルファベットや数字を提示するのではなく、4やC、9とQのような間違いやすいと推測される文字だけをピックアップして提示しても良い。なぜならば、36文字すべてを読ませるのは時間がかかり、ユーザに負担がかかるためである。さらに、ピックアップして提示する文字は、ユーザの言語に応じて変えても良い。例えば、日本語の場合は9(きゅう)とQ(きゅー)は最も誤認し易いが、中国語の場合は、1(いー)とE(いー)が誤認しやすいなど、誤認しやすい文字に差があるためである。
また、第1の実施形態では、音声端末101は一人分のユーザの発音特徴情報を保持するものとしたが、複数人のユーザの発音特徴情報を保持するようにしても良い。例えば、父親は発音が紛らわしい文字は無く、子供は4種類発音が紛らわしい文字があり、母親は15種類発音が紛らわしい文字があるといった場合に、ワンタイムトークンに使える文字の種類数も違ってくる。複数人のユーザの発音特徴情報を保持する場合、それぞれの発音特徴情報には、対応するユーザを特定するための情報を関連づけて保持しておく必要がある。そして、ワンタイムトークンの発番を依頼する際には、どのユーザの発音特徴情報を送信するのかを選択する必要がある。
また、第1の実施形態では、発音特徴情報は音声端末101が保持し、ワンタイムトークンの発番を依頼する度に毎回、該発音特徴情報を音声端末管理サーバ103に送信していた。しかし、発音特徴情報は音声端末管理サーバ103が保持するようにしてもよい。第1の実施形態では、音声端末101から通信が始まっているので、音声端末101の電源は入っており、発音特徴情報を音声端末管理サーバ103に送信することは可能である。しかし、第2の実施形態の場合は情報端末102からの提供依頼時に、音声端末101の電源が入っているとは限らず、音声端末101が発音特徴情報を提供できないかもしれない。然るに、発音特徴情報を音声端末管理サーバ103に保存しておけば、音声端末101の電源はオフの状態であっても、発音特徴情報の提供ができるようになる。
また、第2の実施形態では、音声端末管理サーバ103とサービス管理サーバ111とは別個の装置であるものとして説明した。しかし、これらのサーバを1つのサーバに纏めても良い。また、上述において音声端末管理サーバ103が実行していた処理が、複数のサーバが共働することによって実行されても良い。サービス管理サーバ111についても同様である。すなわち、本発明においてサーバが実行する処理は、1又は複数のサーバを含むサーバシステムによって実行されれば良い。
また、以上説明した各実施形態は、ワンタイムトークンを生成することに限らず、ユーザが発音した各文字が正確に音声認識されるような(正確に識別されるような)文字列を生成することにも適用可能である。
また、以上説明した各実施形態は、音声端末101に対する音声指示により、印刷端末110の制御を可能とするための登録処理に適用されても良い。例えば音声端末管理サーバ103は、上記のようにして音声端末管理サーバ103によって特定されたワンタイムトークンを印刷端末110に印刷させるための処理を実行する。ユーザは、これにより印刷されたワンタイムトークンを認識し、音声端末101に、印刷されたワンタイムトークンを発音する。音声端末101は、ワンタイムトークンの発音により得られた音声データを、音声端末管理サーバ103に送信する。そして、音声端末管理サーバ103は、得られた音声データに基づいて、認証処理を行う。認証処理が成功して登録処理が完了すると、ユーザは、音声端末101に対する音声指示により、印刷端末110を制御することが可能となる。具体的には、ユーザが音声端末101に対して印刷の実行を音声指示することで、当該音声指示に基づく印刷の命令が、サービス管理サーバ111等を介して印刷端末110に送信される。これにより、印刷端末110によって、ユーザの音声指示に基づく印刷が実行される(印刷が実行可能)。また例えば、ユーザが音声端末101に対して印刷端末110の状態確認を音声指示することで、当該音声指示に基づく状態確認の命令が、サービス管理サーバ111等を介して印刷端末110に送信される。これにより、印刷端末110は、自身の状態を示す状態情報を送信し、当該状態情報に基づく音声データが、サービス管理サーバ111等を介して音声端末101に送信される。これにより、音声端末101は、印刷端末110の状態を音声で通知する。なお当然、認証処理が失敗した場合は、音声端末101に対する音声指示により、印刷端末110を制御することができない状態となる。
また、上記の各実施形態において各装置が行うものとして説明した各処理の主体は上記の各実施形態にて説明した主体に限らず、ある装置が行うものとして説明した処理の一部若しくは全部を他の装置が行うようにしてもよい。
なお、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100:ネットワーク 101:音声端末 102:情報端末 103:音声端末管理サーバ 104:情報端末識別ID 105:アプリ 106:音声端末識別ID 107:発音特徴DB 108:ワンタイムトークンDB 109:連携管理DB
Claims (18)
- 音声端末であって、
ユーザから第1の文字列の発音を受け付けることで第1音声データを取得する第1取得手段と、
前記ユーザから第2の文字列の発音を受け付けることで第2音声データを取得する第2取得手段と、
を有し、
前記取得された前記第1音声データに基づき、前記第1の文字列に含まれる文字のうち特定の文字が特定され、
前記特定された前記特定の文字を含まない文字列を、前記第2の文字列として前記ユーザに発音させるための所定の処理が実行され、
前記所定の処理が実行されたことに基づいて前記ユーザから前記第2の文字列の発音を受け付けることで前記第2音声データが取得され、
前記第2音声データに基づき、前記第2音声データに対応する文字列が特定され、
前記特定された前記第2音声データに対応する文字列に基づく処理が実行されることを特徴とする音声端末。 - 前記特定の文字は、前記第1の文字列に含まれる文字のうち所定の発音と異なる発音で発された文字を含むことを特徴とする請求項1に記載の音声端末。
- 前記特定の文字は、前記第1の文字列に含まれる文字のうち、前記第1の文字列に含まれる他の文字の発音と類似する発音で発された文字を含むことを特徴とする請求項1又は2に記載の音声端末。
- 前記特定の文字は、前記第1の文字列に含まれる文字のうち所定の発音と異なる発音で発された文字と、前記第1の文字列に含まれる文字のうち、前記第1の文字列に含まれる他の文字の発音と類似する発音で発された文字とを含み、
前記第1の文字列に含まれる文字のうち所定の発音と異なる発音で発された文字を前記取得された前記第1音声データに基づき特定するための第1特定処理と、前記第1の文字列に含まれる文字のうち、前記第1の文字列に含まれる他の文字の発音と類似する発音で発された文字を前記取得された前記第1音声データに基づき特定するための、前記第1特定処理と異なる第2特定処理とが実行されることで、前記特定の文字が特定されることを特徴とする請求項1乃至3のいずれか1項に記載の音声端末。 - 前記取得された前記第1音声データに基づく波形に基づいて、前記特定の文字が特定されることを特徴とする請求項1乃至4のいずれか1項に記載の音声端末。
- 前記特定された前記第2音声データに対応する文字列に基づく処理は、前記特定された前記第2音声データに対応する文字列を示す情報を送信する処理であることを特徴とする請求項1乃至5のいずれか1項に記載の音声端末。
- 前記特定された前記第2音声データに対応する文字列に基づく処理は、前記特定された前記第2音声データに対応する文字列が、前記第2の文字列と一致するか否かを判定する処理であることを特徴とする請求項1乃至5のいずれか1項に記載の音声端末。
- 前記特定された前記第2音声データに対応する文字列が、前記第2の文字列と一致すると判定された場合、前記第2の文字列の認証が成功したことを前記ユーザに通知するための処理を実行し、
前記特定された前記第2音声データに対応する文字列が、前記第2の文字列と一致しないと判定された場合、前記特定の文字列の認証が失敗したことを前記ユーザに通知するための処理を実行する通知ステップをさらに有することを特徴とする請求項7に記載の音声端末。 - 前記第1の文字列を前記ユーザに発音させるための処理が実行されたことに基づいて前記ユーザから前記第1の文字列の発音を受け付けることで前記第1音声データが取得され、
前記第1の文字列を前記ユーザに発音させるための処理は、前記第1の文字列を印刷するための処理であることを特徴とする請求項1乃至8のいずれか1項に記載の音声端末。 - 前記所定の処理は、前記第2の文字列を印刷するための処理であることを特徴とする請求項1乃至9のいずれか1項に記載の音声端末。
- 前記特定された前記特定の文字の数に基づいて、前記第2の文字列に含まれる文字の数が特定されることを特徴とする請求項1乃至10のいずれか1項に記載の音声端末。
- 前記特定された前記特定の文字の数が第1の数の場合、前記第2の文字列に第2の数の文字が含まれ、前記特定された前記特定の文字の数が前記第1の数より多い第3の数の場合、前記第2の文字列に前記第2の数より多い第4の数の文字が含まれるように、前記第2の文字列に含まれる文字の数が特定されることを特徴とする請求項1乃至11のいずれか1項に記載の音声端末。
- 印刷装置であって、
文字列を印刷する第1印刷手段と、
音声端末に対するユーザの音声指示に基づいて印刷を実行する第2印刷手段と、を有し、
ユーザから第1の文字列の発音を受け付けることで第1音声データが取得され、
前記取得された前記第1音声データに基づき、前記第1の文字列に含まれる文字のうち特定の文字が特定され、
前記特定された前記特定の文字を含まない第2の文字列が、前記印刷装置によって印刷され、
前記第2の文字列が印刷されたことに基づいて前記ユーザから前記第2の文字列の発音を受け付けることで第2音声データが取得され、
前記第2音声データに基づき、前記第2音声データに対応する文字列が特定され、
前記特定された前記第2音声データに対応する文字列が、前記特定の文字列と一致するか否かが判定され、
前記特定された前記第2音声データに対応する文字列が、前記特定の文字列と一致すると判定された場合、前記音声端末に対する前記音声指示に基づく前記印刷装置による印刷が実行可能となり、前記特定された前記第2音声データに対応する文字列が、前記特定の文字列と一致しないと判定された場合、前記音声端末に対する前記音声指示に基づく前記印刷装置による印刷が実行可能とならないように制御されることを特徴とする印刷装置。 - 音声端末を含むシステムであって、
ユーザから第1の文字列の発音を受け付けることで第1音声データを取得する第1取得手段と、
前記取得された前記第1音声データに基づき、前記第1の文字列に含まれる文字のうち特定の文字を特定する第1特定手段と、
前記特定された前記特定の文字を含まない文字列を、第2の文字列として前記ユーザに発音させるための所定の処理を実行する第1実行手段と、
前記所定の処理が実行されたことに基づいて前記ユーザから第2の文字列の発音を受け付けることで第2音声データを取得する第2取得手段
前記第2音声データに基づき、前記第2音声データに対応する文字列を特定する第2特定手段と、
前記特定された前記第2音声データに対応する文字列に基づく処理を実行する第2実行手段と、
を有することを特徴とするシステム。 - 前記システムには、前記音声端末と通信するサーバシステムが含まれることを特徴とする請求項14に記載のシステム。
- 前記サーバシステムは、1又は複数のサーバで構成されることを特徴とする請求項15に記載のシステム。
- 前記システムには、印刷を実行する印刷装置が含まれることを特徴とする請求項14乃至16のいずれか1項に記載のシステム。
- 請求項1乃至12のいずれか1項に記載の音声端末を、コンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019075761A JP2020173363A (ja) | 2019-04-11 | 2019-04-11 | 音声端末、印刷装置、システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019075761A JP2020173363A (ja) | 2019-04-11 | 2019-04-11 | 音声端末、印刷装置、システム及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020173363A true JP2020173363A (ja) | 2020-10-22 |
Family
ID=72831045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019075761A Pending JP2020173363A (ja) | 2019-04-11 | 2019-04-11 | 音声端末、印刷装置、システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020173363A (ja) |
-
2019
- 2019-04-11 JP JP2019075761A patent/JP2020173363A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3582100B1 (en) | Voice controlled printing system and server | |
KR102533074B1 (ko) | 인쇄 시스템, 제어 방법, 및 서버 | |
US11023790B2 (en) | System, method for controlling the same, and method for controlling server | |
JP7195851B2 (ja) | システム及び処理装置 | |
CN110875993A (zh) | 带交互代理功能的图像形成系统及其控制方法和存储介质 | |
CN110609664B (zh) | 服务器系统、通信装置、控制方法及通信系统 | |
US20210398530A1 (en) | Information processing apparatus that cooperates with smart speaker, information processing system, control methods, and storage media | |
EP3716040A1 (en) | Image forming apparatus and job execution method | |
JP2020173363A (ja) | 音声端末、印刷装置、システム及びプログラム | |
JP2020140299A (ja) | プログラムセット、システム、特定のプリンタを制御する方法、コンピュータプログラム、および、端末装置 | |
KR20190136832A (ko) | 음성 명령을 프린팅 서비스를 지원하는 텍스트 코드 블록들로 변환 | |
CN112181320A (zh) | 外围设备管理系统、方法以及打印装置控制系统 | |
JP7314499B2 (ja) | 情報処理システム、情報処理装置、ジョブ制御方法およびジョブ制御プログラム | |
JP2021113899A (ja) | 情報処理システム、情報処理方法及びプログラム | |
CN115811576A (zh) | 带交互代理功能的图像形成系统及其控制方法和存储介质 | |
US11700338B2 (en) | Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor | |
JP2020135186A (ja) | 印刷システム、印刷方法、情報処理装置、及び、情報処理プログラム | |
US11837226B2 (en) | Information processing apparatus, information processing method, electronic device and information processing system | |
JP2020173666A (ja) | 音声端末、印刷装置、システム及びプログラム | |
JP7388272B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11201975B2 (en) | Server system having voice-controlled printing apparatus | |
JP2022045258A (ja) | 音声設定システム、音声設定支援装置および音声設定支援プログラム | |
JP6936174B2 (ja) | 情報処理システム、サーバ、及び関連情報生成方法 | |
JP7318241B2 (ja) | 音声情報処理装置及びプログラム | |
JP2021105849A (ja) | 印刷制御システムおよびその制御方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |