JP2021196435A

JP2021196435A - 情報処理装置、プログラム、および情報処理方法

Info

Publication number: JP2021196435A
Application number: JP2020101355A
Authority: JP
Inventors: 尚史福江; Naofumi Fukue; 啓介小西; Keisuke Konishi; 明雄織田村; Akio Odamura
Original assignee: TIS Inc
Current assignee: TIS Inc
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-12-27

Abstract

【課題】音声を認識する装置との通信に際して、機密性を向上できる情報処理装置、プログラム及び情報処理方法を提供する。【解決手段】対話装置１００は、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置であって、音声データから複数の発話データを生成する生成部、複数の発話データの夫々を、順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信する送信部と、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第１認識情報とインデックス情報とを受信する受信部と、インデックス情報に基づき、複数の１認識情報を、順序で結合する結合部と、結合された第１認識情報に基づき、音声に対して応答するための第１応答情報を生成する応答生成部と、第１応答情報に基づき、音声に対する応答を出力する出力部と、を備える。【選択図】図４

Description

本発明は、情報処理装置、プログラム、および情報処理方法に関する。

従来、発話者の音声を取得し、取得した音声に応答して様々な操作をする装置、いわゆるスマートスピーカーの技術が知られている。

下記特許文献１に開示されているスマートスピーカーでは、発話者の音声を示す音声情報を入力して、ネットワークを介して接続される音声出力装置にこの音声情報を送信する。音声出力装置は受信した音声情報に基づいて音声を認識し、認識結果に基づいて発話者の音声に対して発話するための発話データを生成する。音声出力装置がこの発話データをスマートスピーカーに送信して、スマートスピーカーは発話データに基づいて音声を出力する。

特開２０２０−２１０４０号公報

ところで近年、スマートスピーカーに対する情報セキュリティのニーズが高まりつつある。しかしながら、特許文献１のスマートスピーカーでは、音声を認識させるためにネットワークを介して発話者の音声情報を音声出力装置に送信する際にこの通信が傍受されてしまうと、発話者が発話した内容が第三者に一通り把握されてしまう可能性がある。

そこで、本発明は、音声を認識する装置との通信に関して、機密性を向上できる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。

本発明の一態様に係る情報処理装置は、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置であって、発話者の音声の音声データを取得する音声取得部と、音声データから、音声データの複数の区間に対応する複数の発話データを生成する生成部と、複数の発話データのそれぞれを、複数の区間における順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信する送信部と、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第１認識情報とインデックス情報とを受信する受信部と、インデックス情報に基づき、複数の音声認識システムから受信した複数の第１認識情報を、順序で結合する結合部と、結合された第１認識情報に基づき、音声に対して応答するための第１応答情報を生成する応答生成部と、第１応答情報に基づき、音声に対する応答を出力する出力部と、を備える。

本発明の一態様に係るプログラムは、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置に、発話者の音声の音声データを取得する音声機能と、音声データから、音声データの複数の区間に対応する複数の発話データを生成する生成機能と、複数の発話データのそれぞれを、複数の区間における順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信する送信機能と、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第１認識情報とインデックス情報とを受信する受信機能と、インデックス情報に基づき、複数の音声認識システムから受信した複数の第１認識情報を、順序で結合する結合機能と、結合された第１認識情報に基づき、音声に対して応答するための第１応答情報を生成する応答生成機能と、第１応答情報に基づき、音声に対する応答を出力する出力機能と、を実現させる。

本発明の一態様に係る情報処理方法は、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置が、発話者の音声の音声データを取得し、音声データから、音声データの複数の区間に対応する複数の発話データを生成し、複数の発話データのそれぞれを、複数の区間における順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信し、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第１認識情報とインデックス情報とを受信し、インデックス情報に基づき、複数の音声認識システムから受信した複数の第１認識情報を、順序で結合し、結合された第１認識情報に基づき、音声に対して応答するための第１応答情報を生成し、第１応答情報に基づき、音声に対する応答を出力する。

上記の態様によれば、情報処理装置は、発話者の音声データから複数の発話データを生成し、生成した発話データを複数の音声認識システムに分散させることができる。このため情報処理装置は、仮にいずれかの音声認識システムとの通信が傍受されても音声データの一部の発話データしか盗聴されないため、発話者が発話した内容の一定の機密性を確保することができる。

本発明によれば、声を認識する装置との通信に関して、機密性を向上できる情報処理装置、プログラム、および情報処理方法を提供することができる。

本実施形態に係る対話システムのシステム構成例を説明するための図である。本実施形態に係る対話システムの概要を説明するための図である。本実施形態に係る対話システムの概要を説明するための図である。本実施形態に係る対話装置の機能構成の一例を示す図である。本実施形態に係る音声認識システムに対する振り分け処理の一例を説明する図である。本実施形態に係る音声認識処理の振り分け先を特定するためのマトリクス表の一例を説明する図である。本実施形態に係る音声認識システムに対する振り分け処理の一例を説明する図である。本実施形態に係るサーバ装置の機能構成の一例を示す図である。本実施形態に係る対話装置の動作例を示す図である。本実施形態に係る対話装置の動作例を示す図である。本実施形態に係る対話装置およびサーバ装置のハードウェア構成の一例を示す図である。

添付図面を参照して、本発明の好適な実施形態（以下、「本実施形態」という）について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。

本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されてもよい。

本実施形態に係る対話システム１は、例えば、（１）発話者と対話する、（２）発話者の音声（以下、単に「音声」ともいう）を議事録に記録する、（３）発話者の音声指示により家電などの装置の動作を制御する、などの機能を備える。

＜１．システム構成＞
図１を参照して、対話システム１のシステム構成例を説明する。対話システム１は、発話者の音声に応じて動作するシステムである。対話システム１は、上記（１）〜（３）の機能をユーザに提供する。なお、このユーザは、対話装置１００または対話装置１００の周辺にいる別のユーザに対して発話する発話者（以下、単に「発話者」ともいう）を含む。

図１に示すように、対話システム１は、対話装置１００と、サーバ装置２００と、を含む。対話装置１００とサーバ装置２００は、ネットワークＮ１を介して接続されている。また対話システム１は、ネットワークＮ１を介して音声認識システム３００と接続さている。

ネットワークＮ１は、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍ）網、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、４Ｇ（４ｔｈＧｅｎｅｒａｔｉｏｎ）、５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎ）、ＷｉＭａｘ（登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、有線ＬＡＮ、電話線、電灯線ネットワーク、ＩＥＥＥ１３９４等に準拠したネットワークがある。

対話装置１００は、サーバ装置２００や音声認識システム３００との通信が可能な情報処理装置である。対話装置１００は、発話者の音声を取得して、取得した音声に対話などで応答する、いわゆるスマートスピーカーである。対話装置１００は、例えば、汎用のタブレット端末やスマートフォンなどであってもよい。また、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末を対話装置１００として使用してもよい。

サーバ装置２００は、対話装置１００との通信や議事録の管理が可能な情報処理装置である。サーバ装置２００は、所定のプログラムを実行することにより、対話装置１００と連携して、ユーザの音声に対する応答や議事録の新規登録、変更並びに削除（以下、これらの処理をまとめて「更新」ともいう）し、またはこれらの履歴を管理するサーバ機能を実現する。

音声認識システムＡ３００ａ、音声認識システムＢ３００ｂ、および音声認識システムＣ３００ｃは、対話装置１００やサーバ装置２００と通信の通信が可能なシステムである。なお、音声認識システムＡ３００ａ、音声認識システムＢ３００ｂ、および音声認識システムＣ３００ｃは、特に区別の必要がない場合、総称して「音声認識システム３００」という。複数の音声認識システム３００は、対話装置１００またはサーバ装置２００から受信した発話者の音声を示す音声データ（以下、単に「音声データ」ともいう）に基づいて発話者の音声をそれぞれ認識する。

図１には図示していないが、対話装置１００および／またはサーバ装置２００は、例えば、ネットワークＮ１を介して、発話者の音声指示に応じて対話装置１００などにより動作を制御される装置と接続されていてもよい。

＜２．システム概要＞
図２〜３を参照して、対話システム１の概要を説明する。

まず図２を参照して、複数の音声認識システムに音声認識処理を分散させる場面について説明する。（１）図２に示すように、対話装置１００の音声取得部１２０は、発話者の音声「議事録を開始」を取得する。（２）生成部１１１は、音声取得部１２０により取得された音声の音声データから、この音声データの複数の区間に対応する複数の発話データを生成する。

通信部１３０は、複数の発話データのそれぞれを、複数の区間における順序（以下、単に「順序」ともいう）を示すインデックス情報と共に、複数の音声認識システム３００のいずれかに送信する。本例では、通信部１３０は、音声認識システムＡ３００ａ、音声認識システムＢ３００ｂ、および音声認識システムＣ３００ｃそれぞれに発話データとインデックス情報とを送信するものとする。インデックス情報の詳細は、後述する。

（４）通信部１３０は、音声認識システムＡ３００ａ、音声認識システムＢ３００ｂ、および音声認識システムＣ３００ｃそれぞれから第１認識情報とインデックス情報とを受信する。

「第１認識情報」とは、音声認識システム３００による音声データの認識結果を示す情報である。第１認識情報は、例えば、音声の内容（「議事録開始」）をテキストで表したものでもよい。なお第１認識情報と後述の第２認識情報とは、いずれも発話者の音声を認識した結果を示す情報であるため、特に区別の必要がなければ以下総称して「認識情報」という。

（５）結合部１１２は、通信部１３０が受信したインデックス情報に基づき、音声認識システムＡ３００ａ、音声認識システムＢ３００ｂ、および音声認識システムＣ３００ｃそれぞれから受信した複数の第１認識情報を、インデックス情報に示された順序で結合する。

（６）応答生成部１１３は、結合部１１２により結合された第１認識情報に基づき、発話者の音声に対して応答するための第１応答情報を生成する。

「第１応答情報」とは、応答生成部１１３による発話者の音声に対して応答するための情報である。第１応答情報は、例えば、対話装置１００から出力する音声の内容「議事録を開始します」をテキストで表してもよく、またこの内容を出力するための音声データのファイルであってもよい。なお第１応答情報と後述の第２応答情報とは、いずれも発話者の音声に対する応答の内容を示す情報であるため、特に区別の必要がなければ以下総称して「応答情報」という。

出力部１４０は、第１応答情報に基づき、発話者の音声に対する応答を出力する。

上記構成によれば、対話装置１００は、発話者の音声データから複数の発話データを生成し、生成した発話データを音声認識システムＡ３００ａ、音声認識システムＢ３００ｂ、および音声認識システムＣ３００ｃに分散させることができる。このため対話装置１００は、仮に音声システム３００ａとの通信が傍受されても音声データの一部の発話データしか盗聴されないため、発話者が発話した内容の一定の機密性を確保することができる。

次に図３を参照して、秘匿情報の有無に応じて、対話装置１００内部と外部のサーバ装置２００とに応答情報の生成処理を振り分ける場面について説明する。秘匿情報については、後述する。

（１）図３に示すように、対話装置１００の音声取得部１２０は、発話者の音声「議事録を開始」を取得する。（２）音声認識部１１４は、音声データに基づき、音声取得部１２０により取得された音声を認識し、第２認識情報を生成する。

「第２認識情報」とは、対話装置１００の音声認識部１１４による音声データの認識結果を示す情報である。第２認識情報は、例えば、音声の内容（「議事録を開始」）をテキストで表してもよい。

（３）対話装置１００の判定部１１５は、音声認識部１１４により生成された第２認識情報に秘匿情報が含まれるか否かを判定する。

「秘匿情報」とは、秘匿対象の情報である。秘匿情報は、例えば、発話者の個人情報を含んでもよい。また「個人情報」とは、例えば、氏名、生年月日、性別、住所、電話番号、個人番号またはメールアドレス等を含んでもよい。秘匿情報は、例えば、特定のキーワード（例えば、「氏名」「住所」「秘匿」または「秘密」等）であってもよい。

（４）判定部１１５により第２認識情報に秘匿情報が含まれると判定された場合、対話装置１００の応答生成部１１３は、第２認識情報に基づき、音声に対して応答するための第１応答情報を生成する。

（５）判定部１１５により第２認識情報に秘匿情報が含まれないと判定された場合、対話装置１００の通信部１３０は、第２認識情報をサーバ装置２００に送信する。サーバ装置２００の通信部２３０は、対話装置１００から第２認識情報を受信する。

（６）サーバ装置２００の応答生成部２１３は、第２認識情報に基づき第２応答情報を生成する。

「第２応答情報」とは、サーバ装置２００が生成する、発話者の音声に対して応答するための情報である。第２応答情報は、例えば、対話装置１００から出力する音声の内容「議事録を開始します」をテキストで表したものでもよく、またこの内容を出力するための音声のデータであってもよい。

（７）サーバ装置２００の通信部２３０は、第２応答情報を対話装置１００に送信する。対話装置１００の通信部１３０は、サーバ装置２００から、第２応答情報を受信する。

（８）出力部１４０は、第１応答情報、またはサーバ装置２００から受信した第２応答情報に基づき、発話者の音声に対する応答を出力する。

上記構成によれば、対話装置１００は、認識情報における秘匿対象の情報の有無に応じて、内部で応答情報の生成処理をするか、もしくは外部のサーバ装置２００で応答情報の生成処理をさせるかを振り分けることができる。このため上記構成によれば、対話装置１００は、音声の内容の秘匿性に応じて応答情報の生成処理を振り分けることができ、かつ発話した内容の一定の機密性を確保することができる。

＜３．機能構成＞
＜３−１．対話装置＞
図４を参照して、本実施形態に係る対話装置１００の機能構成を説明する。図４に示すように、対話装置１００は、通信部１３０と、制御部１１０と、音声取得部１２０と、出力部１４０と、入力部１５０と、記憶部１６０と、を備える。

制御部１１０は、生成部１１１と、結合部１１２と、応答生成部１１３と、を備える。また制御部１１０は、例えば、音声認識部１１４、判定部１１５または識別部１１６を備えてもよい。

生成部１１１は、音声データから、音声データの複数の区間に対応する複数の発話データを生成する。この音声データの単位は、例えば、所定期間ごと、入力部１５０により入力された音声データの入力開始／終了のユーザの操作ごと、または発話者ごととしてもよい。生成部１１１は、音声データの単位を発話者ごととする場合、後述の識別部１１６により識別された発話者ごととしてもよい。

ここで「区間」は、例えば、音声データ（デジタル信号）において音声レベルがゼロまたは所定の閾値以下となる無音区間と、音声レベルがゼロより大きいまたは所定の閾値を超える発話区間（有音区間）と、を含んでもよい。また区間は、他の例として、所定期間ごとに区切られた範囲であってもよい。

生成部１１１は、例えば、複数の発話データそれぞれにインデックス情報を付与してもよい。ここで「インデックス情報」とは、複数の区間における順序を示す情報である。

生成部１１１は、例えば、検出部１１１１と、分割部１１１２と、を備えてもよい。

検出部１１１１は、取得された音声の音声データから発話区間と無音区間とを検出する。

分割部１１１２は、音声データを、発話区間ごとの発話データに分割する。分割部１１１２は、例えば、識別部１１６により識別された発話者ごとに発話データを生成してもよい。

上記構成によれば、生成部１１１は、無音区間を境目にして、かつ無音区間を取り除いて、発話区間ごとの発話データに音声データを分割することができる。このため上記構成によれば、生成部１１１は、精度よく複数の発話データを生成することができる。

ここで図５を参照して、生成部１１１における音声データの分割の例について説明する。図５に示すように、生成部１１１は、複数の発話者Ａ〜Ｃにおいて、発話者ごとの音声データＡ〜Ｃを発話区間ごとの発話データ（例えば、音声データＡであれば、発話データ「今から始めます」と発話データ「今日の議題は〇〇です。」）に分割する。

生成部１１１は、分割した発話データにインデックス情報（Ｉｎｄｅｘ）を付与する。生成部１１１は、例えば、発話データ「今から始めます」であれば、「１−１」とするコードを付与してもよい。このコードにおいて、前の１桁の番号（「１」）は分割元の音声データを特定するための番号、後ろの１桁の番号（「１」）は分割元の音声データにおける順序を示す番号となっている。なお本例では、分割元の音声データにおける絶対的な順序を付与する例を説明したが、相対的な順序、すなわち各発話データにおいて先行する発話データおよび／または後続する発話データを特定するための番号を付与してもよい。

図４に戻って説明を続ける。結合部１１２は、複数の音声認識システムから受信した複数の第１認識情報を、インデックス情報に基づく順序で結合する。

応答生成部１１３は、第１認識情報に基づき、第１応答情報を生成する。応答生成部１１３は、例えば、自然言語処理を用いて認識情報を解析してもよい。応答生成部１１３は、この解析により、発話者の音声に対する応答の内容を特定する。

応答生成部１１３は、具体的には、図２〜３に示すように、発話者の音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次いで応答生成部１１３は、抽出したこれらの単語の組み合わせを検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、（ア）認識情報を議事録として記憶部１６０に記録する処理の実行、（イ）発話者に「議事録を開始します」とする音声を出力する処理の実行、である。

「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容とを関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記（ア）および（イ）の処理の実行とする応答の内容と、を関連付ける。

応答生成部１１３は、例えば、第２認識情報に秘匿情報が含まれる場合、第２認識情報に基づき、発話者の音声に対して応答するための第１応答情報を生成してもよい。

上記構成によれば、応答生成部１１３は、音声の内容の秘匿性に応じて応答情報の生成処理を行うことができる。

音声認識部１１４は、音声取得部１２０により取得された発話者の音声を認識する。音声認識部１１４は、この認識の結果を示す第２認識情報を生成する。音声認識部１１４は、例えば、音声取得部１２０が取得した音声データを音声認識技術によりテキスト情報に変換する。この変換したテキスト情報が、第２認識情報に相当する。

音声認識部１１４は、例えば、音声取得部１２０により取得された発話者の音声データに基づき、対話装置１００（後述の音声入力装置８１７のマイクロフォン）と発話者との距離を推定してもよい。

判定部１１５は、第２認識情報に秘匿対象の秘匿情報が含まれるか否かを判定する。

判定部１１５は、例えば、自然言語処理を用いて、第２認識情報を解析してもよい。判定部１１５は、この解析により、秘匿情報が含まれるか否かを特定してもよい。具体的には、判定部１１５は、第２認識情報に含まれる「住所は、東京都〇〇です。」を形態素解析して「住所」、「東京都」および「〇〇」という単語を抽出する。そして取得部１５３は、抽出した「住所」という単語に基づいて、秘匿情報（個人情報である「住所」）が含まれると判定する。

識別部１１６は、音声取得部１２０により取得された音声データから発話者を識別する。識別部１１６は、例えば、音声解析により、音声データから発話者を識別してもよい。また識別部１１６は、他の例として、入力部１５０により入力された発話者の切り替えに基づき、発話者を識別してもよい。

制御部１１０は、例えば、第１応答情報または第２応答情報に基づいて、自装置または他の装置の動作を制御してもよい。

制御部１１０は、例えば、第１応答情報または第２応答情報に基づいて、発話者の音声の指示に対する応答が議事録の開始の場合、第１認識情報または第２認識情報の音声の内容を議事録として記録部１６０に記録してもよい。また制御部１１０は、例えば、送信部１３１を介して、他の装置に特定の動作を指示するメッセージを送信してもよい。

音声取得部１２０は、発話者の音声を取得する。また音声取得部１２０は、例えば、複数の発話者による音声の音声データを取得してもよい。

通信部１３０は、ネットワークＮ１を介して、サーバ装置２００、音声認識システム３００などとの間で各種情報・データを送受信する。通信部１３０は、送信部１３１と、受信部１３２と、を備える。

送信部１３１は、複数の発話データのそれぞれを、インデックス情報と共に、複数の音声認識システムのいずれかに送信する。

上記構成によれば、対話装置１００は、発話者の音声データから複数の発話データを生成し、生成した発話データを複数の音声認識システムに分散させることができる。このため対話装置１００は、仮に複数の音声認識システムのうちいずれかの音声システムとの通信が傍受されても音声データの一部の発話データしか盗聴されないため、発話者が発話した内容の一定の機密性を確保することができる。

送信部１３１は、例えば、発話データの長さ、発話データの音量、対話装置１００と発話者との距離、音声認識システム３００ごとの利用時間、または音声認識システム３００ごとの利用料の少なくとも一つに基づき、送信先の音声認識システムを特定してもよい。

ここで、図６を参照して、複数の音声認識システムまたは音声認識部１１４に対する音声認識処理の振り分け方法の一例を説明する。送信部１３１は、この方法で決定した振り分け先を、送信先の音声認識システム３００として特定してもよい。

図６に示すように、送信部１３１は、例えば、Ｎｏ．１：特定のキーワード（例えば、秘匿情報）の有無、Ｎｏ．２〜４：発話データの長さ、Ｎｏ．５〜６：発話データの音量、Ｎｏ．７〜８：対話装置１００と発話者との距離のうち、一致する項目のポイントを合計し、合計したポイント数の高い順にどの音声認識システム３００または内蔵の音声認識部１１４のいずれに振り分けるかの優先順位を決定してもよい。ポイントは、例えば、◎：１０ポイント、〇：５ポイント、△：１ポイント、×：０ポイントと設定してもよい。

送信部１３１は、例えば、上記の合計したポイント数に加えて、音声認識システム３００ごとの利用時間と単位時間当たりの利用料とに基づき算出した合計利用料に応じてポイントを加算してもよい。加算するポイントは、例えば、利用する音声認識システム３００のうち最も高い合計利用料においては＋５ポイント、また利用する音声認識システム３００のうち最も低い合計利用料においては−５ポイント加算してもよい。

送信部１３１は、例えば、音声認識システム３００のうち利用上限（例えば、ひと月当たりの音声認識のリクエスト数、または一日当たりの利用時間等）が設けられているものについて、利用上限に既に達している場合は、振り分け先から除外してもよい。

上記構成によれば、送信部１３１は、発話データや音声認識システム３００の特性などに応じて、音声認識処理の振り分け先を特定することができる。このため上記構成によれば、送信部１３１は、音声認識処理の振り分け先、すなわち送信先の音声認識システム３００を精度よく特定することができる。

図４に戻って説明を続ける。送信部１３１は、例えば、第２認識情報に秘匿情報が含まれない場合、送信部１３１は、第２認識情報をサーバ装置２００に送信してもよい。

上記構成によれば、送信部１３１は、音声の内容の秘匿性に応じて応答情報の生成処理をサーバ装置２００に振り分けることができる。

送信部１３１は、発話データおよびインデックス情報を複数の音声認識システム３００のいずれかに送信する際に、複数の音声認識システム３００のいずれかにおける複数のアカウントを用いて、発話データおよびインデックス情報を送信してもよい。

送信部１３１は、例えば、発話データおよびインデックス情報を複数の音声認識システム３００のいずれかに送信する際に、複数の音声認識システム３００のいずれかとの複数のセッションを用いて、発話データおよびインデックス情報を送信してもよい。

送信部１３１は、例えば、発話データおよびインデックス情報を複数の音声認識システム３００のいずれかに送信する際に、複数の音声認識システム３００のいずれかにおける複数のアカウントと複数のセッションとを用いて、発話データおよびインデックス情報を送信してもよい。送信部１３１は、例えば、複数の発話者における発話データを混在させて、インデックス情報と共に複数の音声認識システム３００、複数のアカウントのいずれかおよび複数のセッションのいずれかの組み合わせに送信してもよい。

送信部１３１は、例えば、発話データおよびインデックス情報を複数の音声認識システム３００のいずれかに送信する際に、複数の音声認識システム３００のいずれかにおけるさらに複数のチャンネルを用いて、発話データおよびインデックス情報を送信してもよい。

送信部１３１は、例えば、複数のセッションのうち採用するセッションを乱数などによりランダムに選択してもよい。また送信部１３１は、例えば、複数のチャンネルのうち採用するチャンネルを乱数などによりランダムに選択してもよい。

送信部１３１は、例えば、複数の発話者における発話データを混在させて、インデックス情報と共に複数の音声認識システム３００のいずれかに送信してもよい。

ここで図５および図７を参照して、複数の音声認識システム３００、複数のアカウント、複数のセッション、および複数のチャンネルを用いて、発話データおよびインデックス情報を複数の音声認識システム３００送信する処理の例を説明する。

図５に示すように、送信部１３１は、生成部１１１により分割された発話データとそのインデックス情報とを混在（スクランブル・ミックス）させて、音声認識システム３００に送信するメッセージを生成する。送信部１３１は、例えば、発話データ１−１、２−１、３−１を混在させて送信メッセージＡを生成する。また送信部１３１は、例えば、発話データ１−２より送信メッセージＢを生成する。

図７に示すように、送信部１３１は、例えば、音声認識システムＡにおける（ア）複数アカウントのうちアカウントａａａを選択し、（イ）アカウントａａａに対する複数セッションのうちセッション１を選択し、（ウ）セッション１の複数チャネルのうちチャンネルＡを選択し、選択したアカウント、セッションおよびチャンネルを用いて送信メッセージＡを送信する。

送信部１３１は、例えば、音声認識システムＡにおける（ア）複数アカウントのうちアカウントｂｂｂを選択し、（イ）アカウントｂｂｂに対する複数セッションのうちセッションｎを選択し、（ウ）セッション１の複数チャネルのうちチャンネルＣを選択し、選択したアカウント、セッションおよびチャンネルを用いて送信メッセージＢを送信する。

上記構成によれば、送信部１３１は、複数の音声認識システム３００、複数のアカウント、複数のセッション、複数のチャンネルに発話データを分散させて送信することができる。このため上記構成によれば、発話データの音声認識処理における機密性を向上させることができる。

上記構成によれば、送信部１３１は、上記のように発話データを分散させて送信する際に、発話データを混在させることができる。このため上記構成によれば、発話データの音声認識処理における機密性をさらに向上させることができる。

受信部１３２は、複数の音声認識システムから、送信部１３１が送信した複数の発話データのそれぞれについて、第１認識情報とインデックス情報とを受信する。

受信部１３２は、例えば、サーバ装置２００から、第２認識情報に基づき生成された第２応答情報を受信する。

出力部１４０は、第１応答情報または第２応答情報に基づき、音声に対する応答を出力する。出力部１４０の出力態様は、どのような態様でもよい。出力部１４０の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。

入力部１５０は、例えば、発話者の切り替えを入力してもよい。入力部１５０の入力態様はどのような態様でもよい。入力部１５０の入力態様は、例えば、画面出力、（対話装置１００に設けられたスイッチ装置（不図示）などに対する）操作入力などが考えられる。入力部１５０は、例えば、音声データの入力開始／終了のユーザの操作を入力してもよい。

記憶部１６０は、音声データ、発話データ、第１認識情報、第２認識情報、第１応答情報、または第２応答情報などを記憶する。記憶部１６０は、データベースマネジメントシステム（ＤＢＭＳ）を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。ＤＢＭＳを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。

＜３−２．サーバ装置＞
図８を参照して、本実施形態に係るサーバ装置２００の機能構成を説明する。図８に示すように、サーバ装置２００は、制御部２１０と、通信部２３０と、記憶部２５０と、を備える。通信部２３０と記憶部２５０の機能は、それぞれ対話装置１００の通信部１３０と記憶部１６０と同様のため説明を割愛する。

制御部２１０は、生成部２１１、結合部２１２、応答生成部２１３、判定部２１４、識別部２１５を備えてもよい。応答生成部２１３以外の各部の機能は、それぞれ対話装置１００の生成部１１１と、結合部１１２と、判定部１１５と、識別部１１６と同様のため説明を割愛する。

応答生成部２１３は、対話装置１００から受信した第２認識情報に基づき第２応答情報を生成する。

＜４．動作例＞
図９および図１０を参照して、対話装置１００の動作例を説明する。なお、以下に示す図７の動作例の処理の順番は一例であって、適宜、変更されてもよい。図９は、複数の音声認識システム３００に音声認識処理を分散させる場面の対話装置１００の動作例を示すフロー図である。図１０は、秘匿情報の有無に応じて、対話装置１００内部と外部のサーバ装置２００とに応答情報の生成処理を振り分ける場面の動作例を示すフロー図である。

図９に示すように、対話装置１００の音声取得部１２０は、発話者の音声を取得する（Ｓ１０）。

検出部１１１１は、音声取得部１２０により取得された音声の音声データから発話区間と無音区間とを検出する（Ｓ１１）。次いで分割部１１１２は、音声データを、発話区間ごとの発話データに分割する（Ｓ１２）。

送信部１３１は、複数の発話データそれぞれの送信先の音声認識システム３００を特定する（Ｓ１３）。送信部１３１は、分割部１１１２により分割された複数の発話データのそれぞれを、インデックス情報と共に、送信先に特定した音声認識システム３００のそれぞれに送信する（Ｓ１４）。

受信部１３２は、複数の音声認識システム３００から、送信部１３１が送信した複数の発話データのそれぞれについて、第１認識情報とインデックス情報とを受信する（Ｓ１５）。

結合部１１２は、インデックス情報に基づき、複数の音声認識システム３００から受信部１３２が受信した複数の第１認識情報を、インデックス情報に基づく順序で結合する（Ｓ１６）。

応答生成部１１３は、結合部１１２により結合された第１認識情報に基づき、第１応答情報を生成する（Ｓ１７）。

出力部１４０は、応答生成部１１３第１応答情報に基づき、発話者の音声に対する応答を出力する（Ｓ１８）。

図１０に示すように、対話装置１００の音声取得部１２０は、発話者の音声の音声データを取得する（Ｓ２０）。音声認識部１１４は、音声データに基づき、音声取得部１２０により取得された音声を認識し、認識結果を示す第２認識情報を生成する（Ｓ２１）。

判定部１１５は、第２認識情報に秘匿情報が含まれるか否かを判定する（Ｓ２２）。

第２認識情報に秘匿情報が含まれる場合（Ｓ２３のＹｅｓ）、応答生成部１１３は、第２認識情報に基づき、第１応答情報を生成する（Ｓ２４）。

第２認識情報に秘匿情報が含まれない場合、送信部１３１は、第２認識情報をサーバ装置２００に送信する（Ｓ２５）。受信部１３２は、サーバ装置２００から、第２認識情報に基づき生成された第２応答情報を受信する（Ｓ２６）。

出力部１４０は、第１応答情報またはサーバ装置２００から受信した第２応答情報に基づき、発話者の音声に対する応答を出力する（Ｓ２７）。

＜５．ハードウェア構成＞
図１１を参照して、上述してきた対話装置１００およびサーバ装置２００をコンピュータ８００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。

図１１に示すように、コンピュータ８００は、プロセッサ８０１と、メモリ８０３と、記憶装置８０５と、入力Ｉ／Ｆ部８０７と、データＩ／Ｆ部８０９と、通信Ｉ／Ｆ部８１１、表示装置８１３、音声入力装置８１７および音声出力装置８１９を含む。

プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することによりコンピュータ８００における様々な処理を制御する。例えば、対話装置１００の制御部１１０やサーバ装置２００の制御部２１０が備える各機能部などは、メモリ８０３に一時記憶されたプログラムをプロセッサ８０１が実行することにより実現可能である。

メモリ８０３は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

記憶装置８０５は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置８０５は、音声データ、発話データ、第１認識情報、第２認識情報、第１応答情報、または第２応答情報などを登録するテーブルと、このテーブルを管理するＤＢを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

入力Ｉ／Ｆ部８０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部８０７は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ８００に接続されても良い。

データＩ／Ｆ部８０９は、コンピュータ８００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部８０９は、コンピュータ８００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部８０９は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００へと接続される。

通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部の装置と有線または無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部８１１は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００に接続される。

表示装置８１３は、各種情報を表示するためのデバイスである。表示装置８１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置８１３は、コンピュータ８００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブル等を介してコンピュータ８００に接続される。また、入力Ｉ／Ｆ部８０７としてタッチパネルが採用される場合には、表示装置８１３は、入力Ｉ／Ｆ部８０７と一体化して構成することが可能である。

音声入力装置８１７は、マイクなどの音声を取得するための入力装置である。音声入力装置は、例えば、音声信号を含めたアナログ振動信号を取得するマイクロフォン部、アナログ振動信号を増幅するアンプ部、アナログ振動信号をデジタル信号に変換するＡ／Ｄ変換部などを備える。音声入力装置８１７は、例えば、発話者が発する音声を検出して取得する。

音声出力装置８１９は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置８１９は、ヘッドフォンまたはイヤフォンに音を出力するための装置であってもよい。

なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。

１、１ａ…対話システム、１００…対話装置、１１０…制御部、１１１…生成部、１１１１…検出部、１１１２…分割部、１１２…結合部、１１３…応答生成部、１１４…音声認識部、１１５…判定部、１１６…識別部、１３０…通信部、１３１…送信部、１３２…受信部、１４０…出力部、１５０…入力部、１６０…記憶部、２００…サーバ装置、２１０…制御部、２１１…生成部、２１１１…検出部、２１１２…分割部、２１２…結合部、２１３…応答生成部、２１４…判定部、２１５…識別部、２３０…通信部、２５０…記憶部、３００…音声認識システム、８００…コンピュータ、８０１…プロセッサ、８０３…メモリ、８０５…記憶装置、８０７…入力Ｉ／Ｆ部、８０９…データＩ／Ｆ部、８１１…通信Ｉ／Ｆ部、８１３…表示装置、８１７…音声入力装置、８１９…音声出力装置。

Claims

音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置であって、
発話者の音声の音声データを取得する音声取得部と、
前記音声データから、前記音声データの複数の区間に対応する複数の発話データを生成する生成部と、
前記複数の発話データのそれぞれを、前記複数の区間における順序を示すインデックス情報と共に、前記複数の音声認識システムのいずれかに送信する送信部と、
前記複数の音声認識システムから、前記複数の発話データのそれぞれについて、前記発話データの認識結果を示す第１認識情報と前記インデックス情報とを受信する受信部と、
前記インデックス情報に基づき、前記複数の音声認識システムから受信した複数の前記第１認識情報を、前記順序で結合する結合部と、
前記結合された第１認識情報に基づき、前記音声に対して応答するための第１応答情報を生成する応答生成部と、
前記第１応答情報に基づき、前記音声に対する応答を出力する出力部と、を備える、
情報処理装置。
前記生成部は、
前記取得された音声の音声データから発話区間と無音区間とを検出する検出部と、
前記音声データを、前記発話区間ごとの前記発話データに分割する分割部と、を備える、
請求項１に記載の情報処理装置。
前記送信部は、前記発話データの長さ、前記発話データの音量、前記情報処理装置と前記発話者との距離、前記音声認識システムごとの利用時間、または前記音声認識システムごとの利用料の少なくとも一つに基づき、送信先の音声認識システムを特定する、
請求項１または２に記載の情報処理装置。
情報処理装置は、前記音声の認識結果に基づき前記音声に対して応答するための第２応答情報を生成するサーバ装置と前記ネットワークを介して接続し、
前記情報処理装置は、
前記音声データに基づき、前記取得された音声を認識し、認識結果を示す第２認識情報を生成する音声認識部と、
前記第２認識情報に秘匿対象の秘匿情報が含まれるか否かを判定する判定部と、をさらに備え、
前記第２認識情報に秘匿情報が含まれる場合、前記応答生成部は、前記第２認識情報に基づき、前記音声に対して応答するための第１応答情報を生成し、
前記第２認識情報に秘匿情報が含まれない場合、前記送信部は、前記第２認識情報を前記サーバ装置に送信し、
前記受信部は、前記サーバ装置から、前記第２認識情報に基づき生成された前記第２応答情報を受信する、
前記出力部は、前記受信した第２応答情報に基づき、前記音声に対する応答を出力する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記送信部は、前記発話データおよび前記インデックス情報を前記複数の音声認識システムのいずれかに送信する際に、前記複数の音声認識システムのいずれかにおける複数のアカウントを用いて、前記発話データおよび前記インデックス情報を送信する、
請求項１から４のいずれか一項に記載の情報処理装置。
前記送信部は、前記発話データおよび前記インデックス情報を前記複数の音声認識システムのいずれかに送信する際に、前記複数の音声認識システムのいずれかとの複数のセッションを用いて、前記発話データおよび前記インデックス情報を送信する、
請求項１から５のいずれか一項に記載の情報処理装置。
前記送信部は、前記発話データおよび前記インデックス情報を前記複数の音声認識システムのいずれかに送信する際に、前記複数の音声認識システムのいずれかにおける複数のアカウントと複数のセッションとを用いて、前記発話データおよび前記インデックス情報を送信する、
請求項１から６のいずれか一項に記載の情報処理装置。
前記音声取得部は、複数の発話者による音声の音声データを取得し、
前記情報処理装置は、前記取得された音声データから前記発話者を識別する識別部をさらに備え、
前記生成部は、前記識別された発話者ごとに前記発話データを生成し、
前記送信部は、前記複数の発話者における前記発話データを混在させて、前記インデックス情報と共に前記複数の音声認識システムのいずれかに送信する、
請求項１から７のいずれか一項に記載の情報処理装置。
音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置に、
発話者の音声の音声データを取得する音声機能と、
前記音声データから、前記音声データの複数の区間に対応する複数の発話データを生成する生成機能と、
前記複数の発話データのそれぞれを、前記複数の区間における順序を示すインデックス情報と共に、前記複数の音声認識システムのいずれかに送信する送信機能と、
前記複数の音声認識システムから、前記複数の発話データのそれぞれについて、前記発話データの認識結果を示す第１認識情報と前記インデックス情報とを受信する受信機能と、
前記インデックス情報に基づき、前記複数の音声認識システムから受信した複数の前記第１認識情報を、前記順序で結合する結合機能と、
前記結合された第１認識情報に基づき、前記音声に対して応答するための第１応答情報を生成する応答生成機能と、
前記第１応答情報に基づき、前記音声に対する応答を出力する出力機能と、を実現させる、
プログラム。
音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置が、
発話者の音声の音声データを取得し、
前記音声データから、前記音声データの複数の区間に対応する複数の発話データを生成し、
前記複数の発話データのそれぞれを、前記複数の区間における順序を示すインデックス情報と共に、前記複数の音声認識システムのいずれかに送信し、
前記複数の音声認識システムから、前記複数の発話データのそれぞれについて、前記発話データの認識結果を示す第１認識情報と前記インデックス情報とを受信し、
前記インデックス情報に基づき、前記複数の音声認識システムから受信した複数の前記第１認識情報を、前記順序で結合し、
前記結合された第１認識情報に基づき、前記音声に対して応答するための第１応答情報を生成し、
前記第１応答情報に基づき、前記音声に対する応答を出力する、
情報処理方法。