JP7259446B2

JP7259446B2 - 音声処理装置、エージェントシステム、プログラム、および、音声処理方法

Info

Publication number: JP7259446B2
Application number: JP2019052608A
Authority: JP
Inventors: 東坪田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2023-04-18
Anticipated expiration: 2039-03-20
Also published as: JP2020154140A

Description

本発明は、音声処理装置、エージェントシステム、音声処理プログラム、および、音声処理方法に関し、例えば、音声によってサーバ上のエージェントに対して何らかの指示を行い、結果を音声で返すシステムに関して記載したものである。

近年、利用者が行う仕事（例えば、検索）を、利用者に代わって行うエージェントサービスに関する技術が盛んに行われている。エージェントサービスを実現するエージェントシステムについては、従来では、利用者からエージェント装置へリクエストを行うと、予めエージェント装置内に登録されているサーバへのアクセスアカウントを用いてサーバへアクセスし、同じエージェント装置では利用者の区別を行わない第１の方式や、エージェントシステムのエージェント装置ごとに予め複数の利用者を登録し、エージェント装置に設定されたアカウントでサーバにアクセスした後に、サーバでさらに生体情報等を利用して登録利用者を検出するという第２の方式があった。

特開２０１８－８５０５３号公報

第１の方式では、エージェント装置ごとにサーバへのアクセスアカウントがつけられる。しかしながら、第１の方式では、利用者からの指示に対するサーバからの回答の内容は、所定の箇所（例：エージェント装置の周辺）に設置された機器に括りつけられることになる。換言すれば、サーバからの回答の内容は、利用者が利用する機器に、および、当該利用者に固有の回答となる。このため、利用者が使用可能なエージェント装置に対して、利用者本人のアカウントとは別のアカウントが登録されている場合、利用者が普段使用している同等のエージェント装置から指示した場合とは異なる回答が返ってくる等の動作が発生してしまい不便である。

また、第２の方式では、エージェント装置ごとの登録処理自体が大きな手間である。このため、第２の方式は、自宅等での使用であればともかく、不特定多数が使用可能な共用のエージェント装置に適用するには現実的ではない。

上記事情に鑑みて、本発明は、エージェントサービスを利用する不特定多数の利用者の各々に、当該利用者に紐づいた回答を返すことを課題とする。

前記課題を解決するため、本発明の音声処理装置は、不特定多数の利用者が使用可能な音声処理装置であって、入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換部と、エージェントサーバにアクセスするための認証データを無線通信装置から受信する無線通信装置認証部と、前記音声データ変換部で変換された音声データ、および、前記無線通信装置認証部が受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセス部と、を備え、前記無線通信装置認証部は、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、ことを特徴とする。

また、本発明は、不特定多数の利用者が使用可能な音声処理装置とエージェントサーバとを備えるエージェントシステムであって、前記音声処理装置は、入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換部と、前記エージェントサーバにアクセスするための認証データを、前記指示をした利用者の無線通信装置から受信する無線通信装置認証部と、前記音声データ変換部で変換された音声データ、および、前記無線通信装置認証部が受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセス部と、を備え、前記無線通信装置認証部は、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、ことを特徴とする。

また、本発明は、不特定多数の利用者が使用可能な音声処理装置のコンピュータを、入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換部、エージェントサーバにアクセスするための認証データを、前記指示をした利用者の無線通信装置から受信する無線通信装置認証部、前記音声データ変換部で変換された音声データ、および、前記無線通信装置認証部が受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセス部、として機能させ、前記無線通信装置認証部は、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、プログラムである。

また、本発明は、不特定多数の利用者が使用可能な音声処理装置における音声処理方法であって、前記音声処理装置は、入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換ステップと、エージェントサーバにアクセスするための認証データを無線通信装置から受信する無線通信装置認証ステップと、前記音声データ変換ステップで変換された音声データ、および、前記無線通信装置認証ステップで受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセスステップと、を実行し、前記無線通信装置認証ステップにおいて、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、ことを特徴とする。

本発明によれば、エージェントサービスを利用する不特定多数の利用者の各々に、当該利用者に紐づいた回答を返すことができる。

エージェントシステムの機能構成図である。エージェントシステムで実行される処理のシーケンス図である。

以下、本発明の実施形態を、適宜図面を参照しながら詳細に説明する。
各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。また、本実施形態では、本発明と直接的に関連しない構成や周知な構成については、説明を省略する場合がある。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。

≪構成≫
図１に示すように、本実施形態のエージェントシステムは、エージェント装置１００と、エージェントサーバ３００と、アクセスポイント４００とを備える。図１に示すモバイル端末２００，２００－１～２００－３の各々は、エージェントシステムが提供するエージェントサービスを利用する利用者が所持する端末である。アクセスポイント４００は、例えば、無線ＬＡＮ（Local Area Network）のルータとすることができるが、これに限定されない。アクセスポイント４００は、モバイル端末２００，２００－１～２００－３が、エージェント装置１００と通信可能に接続するための、および通信ネットワークを介してエージェントサーバ３００と通信可能に接続するための接続点であるが、本発明に必須の構成ではない。図１に示す通信ネットワークは、例えば、インターネットであるが、これに限定されない。

（エージェント装置）
エージェント装置１００は、利用者から入力された音声を処理する音声処理装置である。また、エージェント装置１００は、利用者からの音声の指示に対する回答を音声で出力する音声入出力端末である。エージェント装置１００は、例えば、スマートスピーカや感情認識ヒューマノイドロボットとすることができるが、これらに限定されない。エージェント装置１００は、通信ネットワークを介してエージェントサーバ３００と通信可能に接続されている。エージェント装置１００は、マイク１０１と、スピーカ１０２と、音声データ変換部１０３と、モバイル端末認証部１０４（無線通信装置認証部）と、エージェントサービスアクセス部１０５とを備える。

マイク１０１は、エージェント装置１００の周囲の音声を収集する。
スピーカ１０２は、音声を出力する。

音声データ変換部１０３は、マイク１０１から取得した音声を音声データに変換する。また、音声データ変換部１０３は、音声データを音声に変換し、スピーカ１０２から出力させる。なお、音声から音声データへの変換、および、音声データから音声への変換の技術は、周知技術とすることができ、説明を省略する。

モバイル端末認証部１０４は、エージェント装置１００の周辺に存在するモバイル端末２００，２００－１～２００－３や、通信の相手先となる通信機器（図示せず）とデータの送受信をする。

エージェントサービスアクセス部１０５は、エージェント装置１００がエージェントサーバ３００にアクセスするためのインタフェースである。エージェントサービスアクセス部１０５は、音声入力された利用者の指示をエージェントサーバ３００に送ったり、指示に対する回答をエージェントサーバ３００から取得したりすることができる。

（モバイル端末）
モバイル端末２００は、無線通信装置の例である。モバイル端末２００は、例えば、スマートフォンやタブレット端末とすることができるが、これらに限定されない。モバイル端末２００は、音声認証部２０１と、認証データ管理部２０２とを備える。モバイル端末２００－１～２００－３は、本発明の特徴部分に関しては、モバイル端末２００と同等の機能を備えるため、モバイル端末２００についてのみ説明する。

音声認証部２０１は、音声データ変換部１０３が変換した音声データからモバイル端末２００の所有者（利用者）か否かを認識する。
認証データ管理部２０２は、モバイル端末２００の利用者個人がエージェントサービスを利用するための認証データを記憶して管理する。

（エージェントサーバ）
エージェントサーバ３００は、エージェントサービスを提供するサーバであり、例えば、クラウドサーバとすることができる。エージェントサーバ３００は、エージェントサービスとして、音声データによる指示と利用者の認証データとから、利用者に合った適切な回答を返すことができる。

≪処理≫
図２を参照して、エージェントシステムで実行される処理について説明する。事前に、利用者は、自身のモバイル端末２００の音声認証部２０１に自身の声を音声データとして登録している。登録する声の内容は特に限定されない。また、利用者は、モバイル端末２００を持ち歩き、エージェント装置１００の付近に移動する。これにより、モバイル端末２００は、エージェントシステム使用時には、エージェント装置１００と同一のネットワークが占めるエリア（図１に示す通信ネットワークとは異なる）に入る。以降、この同一のネットワークが占めるエリアは、例えば、エージェント装置１００から所定距離内となるエージェント装置１００の周辺とすることができる。この同一のネットワークを、「特定通信エリア」と呼ぶ場合がある。モバイル端末２００が特定通信エリア内に入ると、音声認証部２０１は、エージェント装置１００から取得予定の音声データを受信可能な状態に切り替わる。

エージェント装置１００のマイク１０１は、エージェント装置１００の周囲の音声を絶えず受信している。エージェント装置１００のマイク１０１は、一定以上の音量の音声を受信すると、受信した音声を音声データ変換部１０３に出力する（ステップＳ１）。受信した音声は、モバイル端末２００の利用者が喋った指示の音声である。

次に、音声データ変換部１０３は、マイク１０１から出力された音声を音声データに変換し、変換した音声データをモバイル端末認証部１０４に出力する（ステップＳ２）。次に、モバイル端末認証部１０４は、音声データ変換部１０３から入力された音声データを、特定通信エリア内にあるモバイル端末２００の音声認証部２０１に送信する（ステップＳ３）。同時に、モバイル端末認証部１０４は、音声データ変換部１０３から入力された音声データを、特定通信エリア内にある他のモバイル端末２００，２００－１～２００－３の音声認証部２０１に送信する（図２では図示略）。

モバイル端末２００の音声認証部２０１は、モバイル端末認証部１０４から受信した音声データと、事前に登録している、モバイル端末２００の利用者自身の声の音声データとを比較する（ステップＳ４）。音声認証部２０１は、比較の結果、双方の音声データが同一人物のものか否か判定する。つまり、ここでは、ステップＳ１での音声の声紋などがどの利用者のものであるか（どのモバイル端末の利用者であるか）を判別する。本処理では、モバイル端末２００については、同一人物の認証データと判定する。なお、モバイル端末２００－１～２００－３については、同一人物という判定にならず、図２の処理を終了する。

次に、モバイル端末２００の音声認証部２０１は、エージェントサービスを利用するための認証データを認証データ管理部２０２に要求する（ステップＳ５）。認証データは、例えば、所有者（モバイル端末２００の利用者）のID等、所有者の権限でエージェントサーバ３００へアクセスするためのデータである。また、認証データは、例えば、銀行のモバイルバンキングアプリケーション等で使用される１タイムパスワード発生アルゴリズムによるもの（一時的に有効なデータの例）とすることができる。また、認証データは、例えば、認証データ管理部２０２が要求（ステップＳ５の要求）とともにエージェントサーバ３００へアクセスし、１タイムでトークンの発行を行い、発行されたトークンを渡す等のものとし、１回または短期間の時間のみ有効な方法のもの（一時的に有効なデータの例）とすることができる。

次に、モバイル端末２００の認証データ管理部２０２は、音声認証部２０１に認証データを返す（ステップＳ６）。また、モバイル端末２００の音声認証部２０１は、エージェント装置１００のモバイル端末認証部１０４に認証データを送信する（ステップＳ６）。

次に、モバイル端末認証部１０４は、ステップＳ６で音声認証部２０１から受信した認証データ、および、ステップＳ２で音声データ変換部１０３から入力された音声データを、エージェントサービスアクセス部１０５に出力する（ステップＳ７）。次に、エージェントサービスアクセス部１０５は、モバイル端末認証部１０４から入力された認証データおよび音声データを、通信ネットワークを介してエージェントサーバ３００に送信する（ステップＳ８）。

次に、エージェントサーバ３００は、エージェント装置１００のエージェントサービスアクセス部１０５から受信した認証データによって、利用者を判別する（ステップＳ９）。なお、認証データによる利用者の判別の技術は、さまざまな技術を用いることができ、認証データの種類に応じた技術を用いることができる。

次に、エージェントサーバ３００は、利用者が正当な利用者であると判別した場合には、エージェント装置１００のエージェントサービスアクセス部１０５から受信した音声データを解析する（ステップＳ１０）。なお、音声データの解析の技術は、さまざまな技術を用いることができ、例えば、ケプストラム分析やＬＰＣ（linear predictive coding）分析の技術を用いることができる。

次に、エージェントサーバ３００は、認証データで認識された利用者ごとに、音声データによる指示内容（問い合わせ）の回答を回答データとして作成する（ステップＳ１１）。回答データは、例えば、さまざまなルールやＡＩで処理を行うことで作成される。エージェントサーバ３００は、例えば、認証データに対応づけて利用者に関する情報（例：性別、年齢）や過去の応答を保有しており、利用者ごとに適した回答を行うことができる。

次に、エージェントサーバ３００は、作成された回答データを、エージェント装置１００のエージェントサービスアクセス部１０５を介して音声データ変換部１０３に送信する（ステップＳ１２）。よって、エージェントサービスアクセス部１０５は、回答データが示す回答をエージェントサーバ３００から取得する。

次に、音声データ変換部１０３は、エージェントサーバ３００からの回答データを音声の信号に変換して、スピーカ１０２に出力する（ステップＳ１３）。次に、スピーカ１０２は、音声の信号に変換した、エージェントサーバ３００の回答を音声として出力して利用者に伝える（ステップＳ１４）。
以上で、図２の処理が終了する。

≪まとめ≫
本実施形態によれば、エージェント装置１００に音声を入力した利用者を認証して、エージェントサービスを実行するように制御することができる。これにより、従来で問題視していた、不特定多数の利用者本人のアカウントをエージェント装置１００に登録する処理そのものを省くことができる。
したがって、エージェントサービスを利用する不特定多数の利用者の各々に、当該利用者に紐づいた回答を返すことができる。

≪その他≫
（ａ）：ＡＩ等による自己学習機能がエージェントサーバ３００に搭載されている場合、他人にエージェント装置１００から指示を出されることで、本人とは異なる志向の学習がされてしまいノイズになる。しかし、本発明によれば、エージェント装置１００が複数あって、各地に点在していた場合に、どのエージェント装置１００からエージェントサーバ３００へのアクセスがあったとしても、話しかけた本人のアカウントでエージェントサーバ３００にアクセスすることができる。このため、自己学習機能にノイズが載らず、本人の指示のみのデータで学習させることができる。
（ｂ）：本実施形態のエージェント装置１００は、ＣＰＵ（Central Processing unit）と、メモリと、ハードディスクなどの記憶手段（記億部）と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、ＣＰＵが、メモリ上に読み込んだプログラムを実行することにより、各種機能が実現される。
（ｃ）：例えば、不特定多数のお客様が訪れるショッピングモールの無人のサービスカウンタなどに、本実施形態のエージェント装置１００を配置し、お客様からの音声の問合せを受け付け、相応の回答を音声で出力するというエージェントサービスを実現することができる。

１００エージェント装置
１０１マイク
１０２スピーカ
１０３音声データ変換部
１０４モバイル端末認証部（無線通信装置認証部）
１０５エージェントサービスアクセス部
２００モバイル端末
２０１音声認証部
２０２認証データ管理部
３００エージェントサーバ

Claims

不特定多数の利用者が使用可能な音声処理装置であって、
入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換部と、
エージェントサーバにアクセスするための認証データを、前記指示をした利用者の無線通信装置から受信する無線通信装置認証部と、
前記音声データ変換部で変換された音声データ、および、前記無線通信装置認証部が受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセス部と、を備え、
前記無線通信装置認証部は、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、
ことを特徴とする音声処理装置。
前記認証データは、一時的に有効なデータである、
ことを特徴とする請求項１に記載の音声処理装置。
不特定多数の利用者が使用可能な音声処理装置とエージェントサーバとを備えるエージェントシステムであって、
前記音声処理装置は、
入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換部と、
前記エージェントサーバにアクセスするための認証データを、前記指示をした利用者の無線通信装置から受信する無線通信装置認証部と、
前記音声データ変換部で変換された音声データ、および、前記無線通信装置認証部が受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセス部と、を備え、
前記無線通信装置認証部は、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、
ことを特徴とするエージェントシステム。
不特定多数の利用者が使用可能な音声処理装置のコンピュータを、
入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換部、
エージェントサーバにアクセスするための認証データを、前記指示をした利用者の無線通信装置から受信する無線通信装置認証部、
前記音声データ変換部で変換された音声データ、および、前記無線通信装置認証部が受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセス部、として機能させ、
前記無線通信装置認証部は、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、プログラム。
不特定多数の利用者が使用可能な音声処理装置における音声処理方法であって、
前記音声処理装置は、
入力された前記利用者の指示の音声と音声データを相互に変換する音声データ変換ステップと、
エージェントサーバにアクセスするための認証データを、前記指示をした利用者の無線通信装置から受信する無線通信装置認証ステップと、
前記音声データ変換ステップで変換された音声データ、および、前記無線通信装置認証ステップで受信した認証データを前記エージェントサーバに送信し、前記音声データの指示内容に対する回答を前記エージェントサーバから取得するエージェントサービスアクセスステップと、を実行し、
前記無線通信装置認証ステップにおいて、前記音声データを前記音声処理装置の周辺の無線通信装置に送信して前記利用者の認証をさせ、認証が成功した特定の無線通信装置から認証データを受信する、
ことを特徴とする音声処理方法。