JP5621993B2

JP5621993B2 - 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム

Info

Publication number: JP5621993B2
Application number: JP2011538353A
Authority: JP
Inventors: 長友　健太郎; 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-10-28
Filing date: 2010-10-12
Publication date: 2014-11-12
Anticipated expiration: 2030-10-12
Also published as: WO2011052412A1; US20120215528A1; US20140058729A1; US20160358608A1; JPWO2011052412A1; US9905227B2; US9520129B2

Description

本発明は、音声認識システム、音声認識方法および音声認識用プログラムに関する。詳しくは、音声認識の対象となる音声の内容や音声認識辞書の詳細などについて、第三者が認識結果の詳細を復元不能とする音声認識システム、音声認識方法および音声認識用プログラムに関する。

情報処理システムを用いる音声認識技術は、入力された音声データに含まれる言語情報を取り出す技術である。音声認識技術を用いたシステムは、音声データすべてをテキストに変換すれば音声ワープロとして利用でき、音声データに含まれるキーワードを抽出すれば音声コマンド入力装置として利用できる。

関連する音声認識システムの一例を図７に示す。図７に示した音声認識システムは、発話区間抽出部、特徴ベクトル抽出部、音響尤度算出部、仮説探索部、音声認識用データベースを含み構成されている。

このような構成を有する音声認識システムは、次のように動作する。
音声認識システムに入力された音響（音声）には、実際に発話している区間（音声区間）とそうでない区間（無音区間）とが混在しているので、発話区間抽出部を用いてこのうち音声区間のみを取り出す。

次に、抽出された区間の音声データを特徴ベクトル抽出部に入力し、一定の時間間隔（フレーム）ごとに音声に含まれる様々な特徴量を取り出して特徴ベクトルを抽出する。特徴量としてよく利用されるものはケプストラム、パワー、Δパワーなどである。複数の特徴量を組み合わせた配列（ベクトル）として扱うことから、これを特徴ベクトルと呼ぶ。

抽出された音声の特徴ベクトルは、音響尤度算出部に送られ、予め与えられた複数の音素それぞれに対する尤度（音響尤度）が求められる。音響尤度としてはデータベースの音響モデルに記録されている各音素のモデルとの類似度が用いられることが多い。この類似度は一般に、モデルからの「距離」（ズレの大きさ）として表現されるので、「音響尤度算出」は「距離計算」と呼ばれることもある。音素は、直感的には音韻を子音と母音に分割したものであるが、同一の音素であっても先行する音素や後続する音素が異なるとその音響的な特徴が異なるため、別々にモデル化した方が精度良く認識できることが知られている。このように前後の音素の違いを考慮した音素は、トライフォン（Triphone：音素三つ組み）と呼ばれる。今日広く使われている音響モデルでは、音素内の状態遷移をＨＭＭ（Hidden Markov Model：隠れマルコフモデル）で表現する。従って、音響モデルとはトライフォンごとのＨＭＭの集合となる。多くの実装では、各トライフォンにはＩＤ（以降、音素ＩＤと表記する）が付与されており、後段の処理では専らこの音素ＩＤで取り扱われる。

仮説探索部は、音響尤度算出部によって求めた音響尤度に対して、言語モデルを参照して、最も尤度の高い単語列を探索する。言語モデルは、辞書と狭義の言語モデルに分けて考えることもある。この場合、辞書にはその（広義の）言語モデルが扱うことのできる語彙の一覧が与えられている。辞書内の一つ一つの単語エントリには、一般にその単語の音素列（または音素ＩＤ列）と表記文字列が付与される。一方、狭義の言語モデルは、語彙内のある単語群がある順序で連続して現れる尤度（言語尤度）をモデル化した情報が含まれる。狭義の言語モデルとして今日最もよく用いられているのは文法とN-gramである。文法とは、単語、単語の属性または単語の属すカテゴリなどを用いて、ある単語連鎖の妥当性を直接的に記述したものである。一方、N-gramとは、N個の単語からなる単語連鎖の出現尤度を、大量のコーパス（学習用テキストデータ）における実際の出現頻度を元に統計的に算出したものである。一般に、辞書の各エントリにはＩＤ（以降、単語ＩＤと表記する）が付与されており、（狭義の）言語モデルは単語ＩＤ列を入力として言語尤度を返す関数のように働く。まとめると、仮説探索部における探索処理は、特徴ベクトル列から音素の尤度（音響尤度）を、音素ＩＤ列から単語ＩＤへの変換可否を、単語ＩＤ列から単語列の出現尤度（言語尤度）をそれぞれ求め、最終的にもっとも尤度の高い単語列を見つけ出す処理となる。

以上のような典型的な音声認識システムの例としては、非特許文献１が挙げられる。

なお、一つの言語モデルがモデル化可能な語彙や表現には限界がある。限界を超えて大量の語彙や多彩な表現をモデル化しようとすると、仮説探索の際に曖昧性が増加し、結果として認識速度の低下や認識精度の劣化を招く。また、膨大な語彙をすべて収集することはそもそも不可能である。従って、通常は、音声認識技術を活用しようとするタスクやドメインに応じて言語モデルのカスタマイズを行なうことが一般的である。例えば、音声認識技術を音声コマンドとして利用するのであれば、受理可能なコマンドのみからなる言語モデルを作成する。あるいは、音声認識技術を議事録音声の書き起こしの補助に利用するのであれば、過去の会議記録や会議音声に現れた単語や表現、関連する単語や表現のみをモデル化した言語モデルを構築する。このようにすることで、特定のタスクやドメインに特有の語彙を収集し、それらの出現パターンをモデル化することが可能になる。

また、音響モデルは、一般に大量のラベルつき音声データ（音声データのどの区間がどの音素に相当するかという情報が与えられた音声データの集合）を用いて機械学習技術を駆使して求められる。このような音声データの収集はコストが高いので、一般にユーザごとのカスタマイズは行われず、想定される利用シーンの一般的な性質に合わせて個別に用意される。例えば電話音声認識であれば電話音声のラベルつきデータから学習された音響モデルが用いられる。個々のユーザの音声に合わせた最適化処理機能（一般に「話者学習」機能ないし「エンロール」機能と呼ばれる）が提供されることもあるが、これはユーザ共有の音響モデルからユーザの音声への差分情報を学習するものであって、ベースとなる音響モデルそのものがユーザごとに構築されることは少ない。

音声認識はさまざまな用途に広く利用可能であるが、特に上記の仮説探索処理において、相応の計算量が必要であるという問題がある。音声認識技術は、認識精度の向上と計算量の削減という、相反する課題を克服しつつ発展してきたが、今日でも、例えば、携帯電話端末などでは扱える語彙数に制限がある等の問題がある。より精度良く自由度の高い音声認識を実現するためには、豊富な計算量を捌くことが可能なリモートサーバ上で音声認識処理を実行したほうが効果的である。このような理由から、近年では音声認識処理をリモートサーバで実行し、ローカル端末では認識結果（またはその結果に基づく何らかのアクション）のみを受け取るという実装形態（クライアント・サーバ型音声認識）が活発に開発されつつある。

このような実装形態の音声認識システムの一例が、特許文献１に記載されている。図８に示すように、特許文献１に記載された音声認識システムは、ネットワークを介して通信するクライアント端末とサーバから構成される。クライアント端末は、入力された音声から音声区間を検出する音声検出部（発話抽出部）と、検出された区間の音声データを圧縮する波形圧縮部と、圧縮された波形データをサーバに送信する波形送信部を備える。またサーバは、クライアント端末から送信された圧縮波形データを受信する波形受信部と、受信した圧縮音声を伸張する波形伸張部と、伸張された波形を分析して音声認識処理を施す分析部と認識部とを備える。

このような構成を有する特許文献１の音声認識システムは、次のように動作する。すなわち、クライアント端末に取り込まれた音響（音声）は、音声検出部によって音声区間と非音声区間に分けられる。このうち音声区間は波形圧縮部で圧縮された後、波形送信部によってサーバに送信される。これを受信したサーバの波形受信部は、受け取ったデータを波形伸張部に送る。サーバは、波形伸張部で伸張された波形データを分析部で特徴量を抽出し、最終的に認識部にて音声認識処理を実行する。

クライアント・サーバ型音声認識技術においても、音声認識部の動作自体は単一ホスト上で動作するものと本質的には同じものである。特許文献１に開示されている発明においては、図７で言う発話抽出部の行う処理までをクライアント端末で実行し、それ以降をサーバで実行している。これとは別に、クライアント端末上で特徴ベクトル抽出部に相当する処理までを行うような形態のクライアント・サーバ型音声認識技術も存在する。

クライアント・サーバ型音声認識技術は主として携帯端末（携帯電話、ＰＤＡ、ＰＨＳ、ネットブック等）の利用を想定して開発されてきた。当初の目的は、前述の通り、音声認識処理に掛かる計算量がシビアなために、処理能力の劣る携帯端末上での音声認識が困難であるという問題を克服することにあった。近年では携帯端末の処理能力も向上し、また音声認識技術も洗練してきたことにより、必ずしもクライアント・サーバ型音声認識システムが必要とは限らなくなってきている。他方、クライアント・サーバ型音声認識システムに対する注目は一層高まりつつある。これは、ネットワーク帯域の拡大や管理コスト等の面から、ローカル端末上で提供されていた様々な機能がネットワーク越しに提供されるという流れ（所謂SaaS（Software as a Service））に則ったものである。音声認識技術をネットワークサービスとして提供する場合、そのシステムはクライアント・サーバ型音声認識技術を基盤に構築することになる。

特開２００３−５９４９号公報

T. Kawahara, A. Lee, T. Kobayashi, K. Takeda, N. Minematsu, S. Sagayama, K. Itou, A. Ito, M. Yamamoto, A. Yamada, T. Utsuro and K. Shikano. "Free software toolkit for Japanese large vocabulary continuous speech recognition." In Proc. Int'l Conf. on Spoken Language Processing (ICSLP), Vol. 4, pp. 476-479, 2000.

次に、音声認識システムにおける今後の課題を述べる。
第１の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容（音声信号）が第三者に漏洩する危険が高まることである。これは、例え通信路上で音声データを暗号化して通信の秘密を守ったとしても、少なくとも音声認識サービスを提供する音声認識サーバ上では音声データは復号化されるためである。

第２の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインに関する特別な情報が第三者に漏洩する危険が高まることである。これは、音声認識を実用的な精度で行うためには大なり小なり言語モデルのカスタマイズが必要であり、当該作業は実質的にタスクやドメインに関する特別な情報を表現する語彙を言語モデルに追加することを意味するためである。そして言語モデルは音声認識処理のうち仮説探索段階で必須となるため、仮説探索処理を認識サーバ上で行うシステムでは、少なくとも認識サーバ上では言語モデルを読み取り可能な状態にするためである。

なお、ここで言う第三者とは、音声認識サービスを提供するもの（自然人や法人、他のシステム）を含む。仮に、音声認識サービス提供者のみへの漏洩が問題でないのであれば、通信路や言語モデルファイルを単純に暗号化するだけでよい。しかし、音声認識サービス提供者からも情報を秘匿したいと考えた場合、上記した技術では対処できない。また、他の第三者の例では、サーバに不正侵入したハッカーやクラッカー、当該行為を行なうシステム（プログラム）が挙げられる。これは、音声認識サービスを提供するサーバに侵入されている場合に、複合化された音声データや解析結果、タスクやドメインに関する特別な情報などを容易に取得されてしまい、サービス利用者は、何ら対抗手段が無い。

本発明は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容が第三者に漏洩する危険性を極力低下させた、秘匿音声認識が可能な音声認識システムを提供する。

また、本発明は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインなどに関する特別な情報が第三者に漏洩する危険性を極力低下させた、秘匿音声認識が可能な音声認識システムを提供する。

本発明に係る音声認識システムは、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第１の情報処理装置と、前記第１の情報処理装置とネットワークを介して接続し、前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で且つ前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換して送信し、前記第１の情報処理装置から送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する第２の情報処理装置とを有することを特徴とする。

本発明に係る音声認識要求装置は、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムにネットワークを介して接続する通信手段と、前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で且つ前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段とを有することを特徴とする。

本発明に係る音声認識方法は、音声認識処理手段を有する音声認識システムと前記音声認識システムに対して音声認識を要求する音声認識要求装置とをネットワークで相互に接続し、前記音声認識要求装置は、前記音声認識システムに対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、前記音声認識システムは、前記音声認識要求装置に対して、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、前記音声認識要求装置は、前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築することを特徴とする。

本発明に係る音声認識用プログラムは、情報処理装置の制御部を、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムと、ネットワークを介して接続する通信手段と、前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で且つ前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段として機能させることを特徴とする。

本発明によれば、音声認識機能をネットワークを介するサービスとして実現した場合、ユーザの発話内容が第三者に漏洩する危険性を極力低下させた、秘匿音声認識を行なえる音声認識システムを提供できる。

また、本発明によれば、音声認識機能をネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインなどに関する特別な情報が第三者に漏洩する危険性を極力低下させた、秘匿音声認識を行なえる音声認識システムを提供できる。

第１の実施の形態の構成を示すブロック図である。第１の実施の形態における音声認識処理を示すフローチャートである。第２の実施の形態の構成を示すブロック図である。第３の実施の形態の構成を示すブロック図である。第４の実施の形態の構成を示すブロック図である。第５の実施の形態の構成を示すブロック図である。音声認識システムの構成の一例を示すブロック図である。クライアント−サーバ構造を有する音声認識システムの構成の一例を示すブロック図である。

次に、発明を実施するための形態について図面を参照して詳細に説明する。尚、説明を明瞭とするため、本発明と関係の少ない入力や制御処理、表示、通信等に関する説明は、簡略化又は省力する。

ここで、発明の理解を容易にするために、第１の実施の形態にかかる前提となる事項を整理する。
・秘匿したい内容（情報）は、発話した内容（データ化した情報）そのものと、発話する可能性のある内容（発話に関連する情報：音声認識に用いる情報）である
・前者は音声を復元することで漏洩し、後者は言語モデルに含まれる語彙情報を解読することなどで漏洩する
・音声は音響特徴量から不完全ながら復元可能である
・音声そのものが復元できないとしても、音響特徴量の詳細を知っていれば、相応の音声認識処理を行うことで不完全ながら発話内容を復元可能である
・通常、音声認識サーバ提供者は、自らが提供する認識サーバの認識処理部がどのような特徴量を用いて動作しているか知っている
→ゆえに、少なくとも音声認識サーバ提供者は、音響特徴量から発話内容を復元可能である
・言語モデルに含まれる語彙情報は、通常、少なくとも読み情報を含み、多くの場合さらに表記文字列をも含む
・通常、読み情報は、使用される音響モデルに応じた音素ＩＤ列に所与の手続きで変換可能なデータであるか、または音素ＩＤ列そのものである
・前者の場合、その変換手続きは、認識サーバの認識処理部が知っているはずである
→ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
・後者の場合、音素ＩＤは、一見すると人間には解読不能であるものの、音響モデルの詳細を知る者であれば、各音素ＩＤが指し示す音素を把握できる
・通常、音響モデルの構築は、ユーザでは困難であり、一般に、音声認識サーバ提供者あるいは別の提供者によって構築され、提供される
→すなわち、音声認識サーバ提供者または別の音響モデル提供者は、音素ＩＤの詳細を知っている
→換言すると、音声認識サーバ提供者は、ユーザの関知しない範囲で音素ＩＤの詳細を知ることが可能である。
→ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
以上のことから、ネットワークを介して秘匿音声認識を実施するには、一般的な通信路での音声データの漏洩防止に加えて
・音声認識サーバ提供者が詳細を容易に知りえない音響特徴量を用いる
・音声認識サーバ提供者が詳細を容易に知りえない音素ＩＤを用いる
のいずれか、または両方の対処が必要であると考える。

図１に本発明の第１の実施の形態の構成を示す。図１を参照すると、本発明の第１の実施の形態は、クライアント１１０とサーバ１２０からなる。

それぞれはさらに以下の動作を行なう構成を有する：
クライアント１１０は、発話抽出部１１１、特徴ベクトル抽出部１１２、特徴ベクトル変換部１１３、音素ＩＤ変換部１１４、データ送信部１１５、探索結果受信部１１６、認識結果構築部１１７を有する。また、データベース１１８を有し、音響モデル、言語モデル、変換・再構築用データを格納する。変換・再構築用データは、特徴ベクトル変換部１１３、音素ＩＤ変換部１１４、認識結果構築部１１７で使用される。尚、変換・再構築用データは、特徴ベクトル変換部１１３、音素ＩＤ変換部１１４、認識結果構築部１１７に予め設定しておいても良い。

発話抽出部１１１は、音響から音声を抽出して音声データとして出力する。抽出する一例としては、音響データから実際に発話されている区間（発話区間）とそうでない区間（無音区間）を判別する。また、音声とノイズを分離して除去する。
特徴ベクトル抽出部１１２は、音声データからケプストラム、パワー、Δパワー等の音響特徴量の集合（特徴ベクトル）を抽出する。
特徴ベクトル変換部１１３は、特徴ベクトルを、その内容を第３者が知得不能な形式のデータに変換する。このとき、特徴ベクトル変換部１１３は、サーバ１２０の音響尤度算出部１２２ａが適切に変換された音響モデルを用いて変換後のデータに対して音響尤度計算を行った場合、その出力結果は、変換前の音響モデルと特徴ベクトルの組み合わせによって得られる出力結果と同一であるか、または近似した値になることが保証されるように、変換処理を行う。変換の例としては、特徴ベクトルの並び順のシャッフルや、冗長かつ計算上は無視できるような次元の付与などが挙げられる。

音素ＩＤ変換部１１４は、音響モデルと言語モデルの音素ＩＤを、その内容を第３者が知得不能な形式のデータに変換する。また、サーバ１２０での音声認識処理に不必要な情報を音響モデルと言語モデルから削除する。さらに、変換処理の内容に応じて、その復元に必要な情報を変換・再構築用データとしてデータベース１１８に記録する。変換及び削除の例としては、音素ＩＤや単語ＩＤをシャッフルし、言語モデルから表記文字列等を削除することが挙げられる。どのような変換処理を行うかは、事前に与えても良いし、動的に決定しても良い。

尚、特徴ベクトル変換部１１３と音素ＩＤ変換部１１４の処理動作については、後に詳説する。

データ送信部１１５は、特徴ベクトル、音響モデル、言語モデル等の変換されたデータを適宜サーバ１２０に送信する。
探索結果受信部１１６は、最尤な単語ＩＤ列等の、音声認識部１２２の出力をサーバ１２０の探索結果送信部１２３を介して受信する。
認識結果構築部１１７は、探索結果受信部１１６から受信した最尤な単語ＩＤ列に対して、データベース１１８に記録された変換・再構築用データを参照して音素ＩＤ変換部１１４によって施した変換を復元する。例えば単語ＩＤがシャッフルされていた場合は、その逆変換を行って変換前の言語モデルにおける単語ＩＤを再構築する。このように復元された単語ＩＤを用いて変換前の言語モデルを参照することで、認識結果構築部１１７は、既存システムの認識結果と同様となる認識結果を構築する。即ち、音声認識結果に影響をほぼ与えずに、音声認識を行うサーバ１２０に対して、音声認識に用いるデータの内容を知得不能とできる。

サーバ１２０は、データ受信部１２１、音声認識部１２２、探索結果送信部１２３を有する。

データ受信部１２１は、音声認識に用いるデータをクライアント１１０から受信する。尚、本実施の形態での受信する音声認識に用いるデータは、特徴ベクトル、音響モデル、言語モデル等の変換されたデータとなる。

音声認識部１２２は、音響モデルと言語モデルを参照しながら、特徴ベクトル系列に対して最尤な単語列を探索する。尚、音声認識部１２２を詳説すると、音響尤度算出部１２２ａと仮説探索部１２２ｂに分けられる。
音響尤度算出部１２２ａは、音響モデルの各音素に対する特徴ベクトルの音響尤度を求める。仮説探索部１２２ｂは、音響尤度、言語尤度を用いて、最尤な単語ＩＤ列（＝音素ＩＤ列）を求める。尚、これらの処理を一度に評価する実装としても良い。
探索結果送信部１２３は、最尤な単語ＩＤ列等の、音声認識部１２２の出力をクライアント１１０に送信する。
次に、本実施の形態の全体の動作例について図２を用いて詳細に説明する。以下で、（Ｃ）は、クライアント装置を指し、（Ｓ）は、サーバ装置を指す。クライアント装置とサーバ装置は、音響の入力や、音声認識の開始指示を受けると、音声認識を開始して、以下のように動作する。

１．（Ｃ）音素ＩＤ変換部１１４は、音響モデルと言語モデルの音素ＩＤを、その内容を第３者が知得不能な形式のデータに変換する。音素ＩＤ変換部１１４は、変換処理の内容に応じた、復元に必要となる情報を変換・再構築用データとしてデータベース１１８に記録する。例示すれば、音素ＩＤおよび特徴ベクトルが変換された音響モデルと、同様に音素ＩＤが変換された上で音素ＩＤ列以外の語彙情報を削った言語モデルとを生成すると共に、認識結果構築部１１７での復元に用いる情報を変換・再構築用データをデータベース１１８に記録する。尚、変換処理については、後に詳説する。

２．（Ｃ）データ送信部１１５は、生成された変換後の音響モデル（変換後音響モデル）と言語モデル（変換後言語モデル）を、音声認識用情報としてサーバ１２０に送信する。

３．（Ｃ）発話抽出部１１１は、上記１、２の処理と並列的に、入力された音響（音声）から音声区間を切り出す。

４．（Ｃ）特徴ベクトル抽出部１１２は、切り出された音声区間の微小区間（フレーム）ごとの音響特徴量の組（特徴ベクトル）を算出する。

５．（Ｃ）特徴ベクトル変換部１１３は、算出された特徴量ベクトルを、その内容を第３者が知得不能であり、加えて、音声認識部１２２の認識処理結果から正当な処理結果を構築できる形式であるデータ構造に変換する。尚、変換については、後に詳説する。

６．（Ｃ）データ送信部１１５は、変換された特徴ベクトル（変換後特徴ベクトル）を、音声認識用情報としてサーバ１２０に送信する。
尚、上記１から２の処理と上記３から６の処理は、並列的に行えばよい。

７．（Ｓ）データ受信部１２１は、クライアント１１０から、変換後の音声認識用情報である変換後音響モデル、変換後言語モデル、変換後特徴ベクトル等を受信する。

８．（Ｓ）音声認識部１２２は、受け取った音響モデルおよび言語モデルを参照しつつ、特徴ベクトル系列に対して最尤な単語ＩＤ列を探索する。尚、探索処理の一例は、後に詳述する。

９．（Ｓ）探索結果送信部１２３は、探索結果として得られた音声認識結果データとして単語ＩＤ列などをクライアント１１０に送信する。必要に応じて、探索結果送信部１２３は、尤度ないしスコア上位Ｎ個の単語ＩＤ列（Ｎベスト）や、単語ＩＤ列の尤度情報、または探索空間そのもの（ラティスないしワードグラフ）等もあわせて送信する。

１０．（Ｃ）探索結果受信部１１６は、サーバ１２０から探索結果の単語ＩＤ列など（音声認識結果データ）を受信する。

１１．（Ｃ）認識結果構築部１１７は、単語ＩＤ列の各単語ＩＤに対応する単語情報を変換前の言語モデルから取得し、最終的な認識結果の単語列を生成する。必要に応じてＮベストやワードグラフ等も同様に処理する。

ここで、探索処理の詳細を以下に示す。
８−１．（Ｓ）音響尤度算出部１２２ａでは、各特徴ベクトルについて、音響モデル（変換後音響モデル）に含まれる各音素に対する音響尤度を求める処理が行なわれる。
８−２．（Ｓ）また、音響尤度算出部１２２ａでは、言語モデル（変換後言語モデル）に含まれているいずれかの単語の読みにあたる音素ＩＤ列に対しての単語（単語ＩＤ）が参照され、同じく言語モデルに含まれる単語ＩＤ列の妥当性の情報から得られる尤度（言語尤度）の算定処理が成される。
８−３．（Ｓ）仮説探索部１２２ｂでは、上記の音響尤度および言語尤度を参照しつつ、特徴ベクトル列に対して最も大きな尤度を与える単語ＩＤ列の探索処理が行なわれる。
８−４．（Ｓ）なお、仮説探索部１２２ｂでは、必要に応じて任意のリスコアリング処理を行い、その結果として最大スコアとなった単語ＩＤ列を探索結果としてもよい。

次に、特徴ベクトルと音響モデルの一つの変換処理（写像関数を用いる変換処理）の動作について、詳細に説明する。尚、以下で説明する写像関数等の情報は、変換・再構築用データ内に記載されている。また、各部に予め写像関数による処理方法を記憶させても良い。
特徴ベクトル変換部１１３および音素ＩＤ変換部１１４における特徴ベクトルと音響モデルの写像関数を用いる変換は、音声認識部１２２、なかでも特に音響尤度算出部１２２ａの動作に関係する。以下では、例示として写像関数を用いた場合の正当な処理結果に修復する過程を説明する。

音響尤度算出部１２２ａの行う処理は、各音素に対して与えられた特徴ベクトルの尤度を求める処理である。これは特徴ベクトルを V 、音響モデルを A としてそこに含まれる音素が M 種類だとすると
l_A(V) = D(V, A) = ( D(V, A_1), D(V, A_2), ..., D(V, A_M) ) = ( l_{A_1}, ..., l_{A_M} )
なる音響尤度関数 D を適用する処理として表現できる。

特徴ベクトル変換部１１３および音素ＩＤ変換部１１４で行われる特徴ベクトルと音響モデルの変換を、ある写像関数 F = (f_v, f_a) で表すとき、f_v と f_a に求められる性質は、任意の特徴ベクトル V に対して、D(f_v(V), f_a(A)) = D(V, A)が常に成り立つことである。

上記ことがらが成り立つならば、
l_A(V) = D(V, A) = D(f_v(V), f_a(A)) = l_{f_a(A)}(f_v(V))
であるので、写像関数 F で変換された特徴ベクトルと音響モデルを用いても、変換前とまったく同じ認識結果を得ることができる。

このような性質を満たす写像関数の例を複数挙げる。
特徴ベクトルが N 個の特徴量のベクトルであるとすると次式で表せる。
V = (v_1, ..., v_N)
いま、ある音素に対する特徴ベクトルの音響尤度は、特徴ベクトルの各要素に対する尤度の総和で与えられるとすると次式が成り立つ。
l_{A_j}(V) = D(V, A_j) = D(v_1, A_{1,j}) + ... + D(v_N, A_{N,j}) = \sum_{i,j}{D(v_i, A_{i,j})}
ここで f_v が特徴ベクトルの各要素の添え字をひとつずつずらし、N番目の要素については0番目に移すとする。即ち、次式のようにシフトさせる。
f_v((v_1, ..., v_N)) = (v_N, v_1, ..., v_{N-1})
一方、f_a は、音響モデルの中の i 番目の特徴量に対するモデルを i+1 番目にずらす関数であるなら、
f_a((A_{1,j}, ..., A_{N,j})) = ((A_{N,j}, A_{1,j}, ..., A_{N-1,j}))
となり、このとき、
D(f_v(V), f_a(A_j)) = D(v_N, A_{N,j}) + D(v_1, A_{1,j}) + ... + D(v_{N-1}, A_{N-1,j})
= \sum_{i,j}{D(v_i, A_{i,j})} = D(V, A_j)
となる。

一般に、音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であるなら、特徴ベクトルの要素を k 個ずらす写像（k-シフト関数）は要求される性質を満たす。さらに、並び順そのものに意味がないので、特徴ベクトルの要素の並びを任意の順に変換する写像（シャッフル関数）も要求される性質を満たす。

次に、別の関数の例を挙げる。音響尤度が上記のように定義され、また、
D(v_i, \alpha A_{i,j}) = \alpha D(v_i, A_{i,j})
かつ
\sum_k{ D(c_k, c_k^{-1}) } = 0
であるとする。ここで c_k および c_k^{-1} は上記の式を満たす既知の値の組である。

写像 (f_v, f_a) がそれぞれ、
f_v((v_1, ..., v_N)) = (v_1, ..., v_N, c_1, ..., c_L, v_1)
f_a((A_{1,j}, ..., A_{N,j})) = (A_{1,j}/2, ..., A_{N,j}, c_1^{-1}, ..., c_L^{-1}, A_{1,j}/2)
と与えられれば、
D(f_v(V), f_a(A_j)) = D(v_1, A_{1,j}/2) + ... + D(v_N, A_{N,j}) + D(c_1, c_1^{-1}) + ... D(c_L, c_L^{-1}) + D(v_1, A_{1,j}/2)
= D(v_1, A_{1,j})/2 + ... + D(v_N, A_{N,j}) + 0 + D(v_1, A_{1,j})/2
= \sum_{i,j}{D(v_i, A_{i,j})} = D(V, A_j)
となる。

一般に、音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、音響尤度の総和がゼロになる特徴量の値とその特徴量に対するモデルの組が既知であるなら、その組を使って特徴ベクトルの見た目の次元数を増やすことができる。
また、一般に音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、各特徴量に対する音響尤度関数 D(v_i, A_{i,j}) も線形であるなら、ある特徴量を複数の要素に分割することで、特徴ベクトルの見た目の次元数を増やすことができる。
音響尤度算出部１２２ａがこのような性質を持つ音響尤度関数のもとに成り立っているのであれば、以上示したような「特徴ベクトルのシャッフル」や「見た目の次元数の拡張」の組み合わせによって、本発明の実施の形態が要求するような任意の写像関数をいくつでも与えることができる。

もちろん、音響尤度関数がここで挙げたものと異なる性質を持つ場合であっても、D(f_v(V), f_a(A)) = D(V, A)を満たす写像 F = (f_v, f_a) が定義できさえすれば、本発明の実施の形態で示すシステムとして利用することができる。

また、D(V, A)とD(f’_v(V), f’_a(A))が完全に一致しなくとも、両者の誤差がある十分に小さい場合、そのような写像F’=(f’_v, f’_a)を用いて本発明の実施の形態を実現できる。

上記説明したように、特徴ベクトル変換部１１３および音素ＩＤ変換部１１４で、写像関数を用いて、特徴ベクトルと音響モデルを変換しても、サーバ１２０の音声認識部１２２で、これらの変換を施さなかった場合と同様の、または近似の認識結果を得ることが可能となる。

次に、音響モデルと言語モデルの変換処理について、詳細に説明する。
音素ＩＤ変換部１１４における音響モデルと言語モデルの変換は、音声認識部１２２中に関係し、特に仮説探索部１２２ｂの動作に関係する。

仮説探索部１２２ｂの処理においては、ある音素列 a_1, ..., a_N がある単語 w を形成するかどうかを判定する必要がある。
換言すれば、 M 個の単語を持つ言語モデル L について、L に含まれるすべての単語 w に関して 0, 1 のいずれかを返すルックアップ関数は、次式のように表現できる。
S_L(a_1, ..., a_N) = T(L, a_1, ..., a_N) = { e_1, ..., e_M }
where e_j \in {0, 1}
ここで、添え字 j に対する e_j は、単語 w_j がその音素列によって形成される(=1)か否か(=0)を示す。
一見するとこの関数は非常に計算負荷が高いように見えるが、TRIE構造などを用いて高速に求めることができる。
実際には音素そのものの列の変わりに音素ＩＤ列を、単語そのものの変わりに単語ＩＤをそれぞれ用いることが多いが、どちらも音素や単語と一対一に対応するものであるから、以下では音素と単語についてのみ記述する。

音素ＩＤ変換部１１４で行われる音響モデルと言語モデルの変換を、ある写像関数 G = (g_l, g_a) で表すとき、g_l と g_a に求められる性質は、任意の音素列 a_1, ..., a_N に対して、次式が常に成り立つことである。
T(L, A, a_1, ..., a_N) = T(g_l(L), g_a(A), g_a(a_1), ..., g_a(a_N))
上記式が成り立つならば、下記式が成立するので、写像関数 G で変換された音響モデルと言語モデルを用いても、変換前の音響モデルと言語モデルを用いた場合とまったく同じ認識結果を得ることがわかる。
S_{L,A}(a_1, ..., a_N) = T(L, A, a_1, ..., a_N)
= T(g_l(L), g_a(A), g_a(a_1), ..., g_a(a_N))
= S_{g_l(L), g_a(A)}(g_a(a_1), ..., g_a(a_N))
上述の特徴ベクトルに対する写像と同様に、音素ＩＤや単語ＩＤをシャッフルするような写像はこの性質を満たす。

また、ある音素 a_i に対応する音素ＩＤが p_i があるとき、その音素 a_i に対応する新たな音素ＩＤを p_i' として追加するような写像も、この性質を満たす。

以上の二つの変換処理は、結局、次のような要件を満たす変換処理であるといえる。
要件：
変換に用いられる写像関数Φ＝｛φ｝は、
データ構造Ｘをφ_x{Ｘ}に、
データ構造Ｙをφ_y{Ｙ}に、
それぞれ写像するとき、
認識処理部が用いる関数Ｆ（Ｘ，Ｙ）について
Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）
の値が常に等しい。
Ｆの具体的な例は、
特徴ベクトル＋音響モデル → 音響尤度
このとき、Ｘは特徴ベクトル，Ｙは音響モデル
および、
音素ＩＤ列＋音響モデル＋言語モデル → 単語成立ベクタ
このとき、Ｘは音響モデル，Ｙは言語モデル
ということである。

なお、音声認識部１２２、特に仮説探索部１２２ｂの実装が、尤度をスコアと看做してスコアが最大のパスを求める探索問題と表されるなら、尤度間の大小関係のみが保存されればよいので、特徴ベクトルと音響モデルに施される変換において実際に問題になるのは
Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の等価性ではなく、
Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の比が常に一定である、
という性質になる。したがって、そのような音声認識部１２２を用いる場合、上記の要件は緩和される。また、どのような音声認識部を用いる場合であっても、Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の誤差が十分に小さければ、それも認識精度にはほとんど影響しないので、許容できる。

一方で、音素ＩＤと音響モデルと言語モデルに施される変換においては、等比性や誤差は要件を満たすには十分ではなく、等価性が厳密に要求される。さもなければ認識精度に悪影響を及ぼす。

次に、言語モデルの変換処理について、詳細を説明する。
音素ＩＤ変換部１１４における言語モデルの変換では、言語モデルに含まれる各単語に関する情報のうち、音素ＩＤ列の情報（この音素ＩＤも上述のように写像関数によって変換されている）以外は基本的にすべて削除する。これは秘匿性をもたらすだけでなく、通信量の削減にも効果がある。
ただし、認識処理部１２２が参照する他のデータ（音声認識処理結果に影響する情報）があれば、それは削除しないことが望ましい。例えば単語の品詞情報やその単語が属すクラス情報などのデータが挙げられる。尚、単語情報の漏洩にかかわるようなデータを要求する音声認識処理部１２２は、音声認識処理に用いることを避けるべきである。例えば、単語の表示文字列を要求するような認識処理部１２２は、本実施の形態では用いないこととする。どうしてもそのようなデータを要求する音声認識処理部を利用したい場合は、音素ＩＤや単語ＩＤと同様に写像するなどの方法で回避するようにしてみてもよい。

次に、特徴ベクトル変換および音素ＩＤ変換のタイミングと変換動作の切り替えタイミングについて説明する。
特徴ベクトル変換は新たな特徴ベクトルが得られるたびに毎回実行される。
音響モデルと言語モデルの音素ＩＤ変換に関しては、上述のように、音声認識に先立って１回行えばよい。

しかし、同じ写像関数で変換したモデルを長時間使い続けると、統計的な方法等を用いて写像関数を推測される危険性が高まる。
そこで、写像関数を別のものに変更する等、変換動作の振る舞いを定期的に切り替えることで第３者に対する秘匿性が高まる。

具体的には数発話に１回、または数分に１回のタイミングで切り替えるのが良い。他方、変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量を考えると、あまり頻繁に切り替えることは適切ではない。
切替えるタイミングや頻度は、頻繁に切り替えることによって発生するオーバヘッド（変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量）を考慮した値とすれば良い。また、無音区間のように、処理量や通信量が低下したタイミングで適時改変するようにしても良い。

次に、上記写像関数を用いた変換を行なう実施の形態の効果について説明する。
写像関数を用いた変換を行なう実施の形態は、特徴ベクトルを写像関数によって変換した後にサーバへ送信するよう構成されているため、通信路あるいはサーバ上で第三者が特徴ベクトルを入手したとしても、直ちにこれを音声に復元することを困難にできる。
その一方で、音響モデルも、変換前の特徴ベクトルと同じ音響尤度を返すように選ばれた写像関数によって変換されているため、特徴ベクトルを変換しなかった場合と同じ音響尤度が算出されること、引いては同じ認識結果が得られることが保証される。

また、上記の形態は、言語モデルに含まれる各単語エントリの情報のうち表記文字列の情報はサーバに送信せず、加えて単語エントリの読みを表す音素ＩＤ列も、写像関数によって変換した後にサーバへ送信するよう構成されているため、言語モデルの構造を知る第三者がこれを入手したとしても、直ちにそこに含まれる単語の読みや表記等の情報を知ることを困難にできる。

その一方で、音響モデルも、変換前の言語モデルと同じ音素列に対しては同じ単語の成否を返すように選ばれた写像関数によって変換されているため、同じ音素列に対しては言語モデルを変換しなかった場合と同じ単語の成否が得られること、引いては同じ認識結果が得られることが保証される。

次に、第２の実施の形態について図３を参照して説明する。尚、説明を明瞭とするため、第１の実施の形態と同様の部分については、簡略化又は省力する。

図３は、第２の実施の形態の構成を示すブロック図である。第２の実施の形態の音声認識システムは、複数の音声認識サーバを有して成る。また、音声認識を要求する情報処理装置もサーバである。
複数の音声認識サーバは、それぞれ異なる変換された音響認識情報データに対応している（図中タイプＡ，Ｂ，Ｃ）。音声認識を要求するサーバは、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
このような構成であっても、音声認識を要求するサーバで取得された音声を第３者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。

音声認識を要求するサーバは、各部を用いて、発話抽出処理、特徴ベクトル抽出処理を実施後、使用する音響認識サーバを選択して、音声認識用情報を当該音響認識サーバに対応した正当な処理結果に修復可能な形式のデータ形式に変換し、選択した音響認識サーバに送信する。
音声認識を要求するサーバは、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。

次に、第３の実施の形態について図４を参照して説明する。尚、説明を明瞭とするため、第１及び第２の実施の形態と同様の部分については、簡略化又は省力する。

図４は、第３の実施の形態の構成を示すブロック図である。第３の実施の形態の音声認識システムの複数の音声認識サーバは、仮説探索処理のみサービスを提供する。又は、音声認識サーバは、音響尤度検出処理と仮説探索処理を行え、仮説探索処理のみでもサービスを提供する。
音声認識を要求する情報処理装置は、音響尤度検出部を有し、距離計算を行える構成である。
複数の音声認識サーバは、それぞれ要求された音声認識処理（音響尤度検出処理、仮説探索処理）を実施し、その結果を送り返す。音声認識を要求する要求端末は、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
このような構成であっても、音声認識を要求する要求端末で取得された音声を第３者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。

音声認識を要求する要求端末は、各部を用いて、発話抽出処理、特徴ベクトル抽出処理、音響尤度検出処理を実施後、使用する音響認識サーバを選択すると共に、音響尤度を検出した情報と音声認識に用いる情報を当該音響認識サーバに対応した正当な処理結果に修復可能な形式のデータ形式に変換し、選択した音響認識サーバに送信する。
その後、要求端末は、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。

このように構成すれば、音響モデルのシャッフル処理や、音響モデルの送信を省略できる。即ち、端末に音響尤度算出処理を行う計算能力があれば、通信量を圧縮できる。

次に、第４の実施の形態について図５を参照して説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。

図５は、第４の実施の形態の構成を示すブロック図である。第４の実施の形態の音声認識システムの複数の音声認識サーバは、それぞれ音声認識サービスを提供する。
音声認識を要求する情報処理装置は、入力を受けた音響（音声）を時分割して特徴ベクトルを抽出する発話分割部を有する。尚、特徴ベクトルの時分割に変えて、音声の文節やワード単位で分割することとしても良い。
音声認識を要求する情報処理装置（要求サーバ）は、分割した音声データの順序関係をシャッフル等した後、そのデータに対して音声認識用情報としての変換を加えた後、複数の音声認識サーバに分けて送信し、それぞれの音声認識サーバから送り返されてきた結果をまとめて再構築する。
このような構成であっても、音声認識を要求する端末で取得された音声を第３者に秘匿性を持たせて音声認識が可能である。
このとき、必要に応じて時分割間隔やシャッフルの仕方、送信する音響認識サーバを切替える。

このように構成すれば、個々の音声認識サーバには部分的な音声のみ送信されるので、並行する音声認識サーバの数が多ければ復元はより困難になる。

次に、第５の実施の形態について図６を参照して説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。

図６は、第５の実施の形態の構成を示すブロック図である。第５の実施の形態の音声認識システムでは、音響尤度検出部を有する音声認識サーバを用いて、音響尤度の結果データを生成し、その結果データを他の仮説探索部を有する音声認識サーバに転送する形態である。また、音声認識システムは、転送自体を音響尤度検出部を有する音声認識サーバに、秘匿音声識別装置から指示する構成としても良い。また、音声認識システムは、転送する音響尤度の結果データを分割して仮説探索部を有する複数の音声認識サーバに転送する構成としても良い。

上記構成であっても、音声認識を要求する装置で取得された音声を第３者に秘匿性を持たせて音声認識が可能である。

次に、第６の実施の形態について説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
第６の実施の形態は、クライアントとなる秘匿音声識別装置上で抽出した音声データまたは特徴量を分割し、その順序関係をシャッフルした上で、各サーバ側に音声認識を要求する。秘匿音声識別装置は、各サーバからの音声認識結果に対して、送信前に加えたシャッフルに対する逆処理を加え、正当な認識結果である内容を再構築する。即ち、秘匿音声識別装置が特徴ベクトル抽出までの処理と再構築処理を実施し、それ以外をサーバ側で実施する。
このように動作させることによって、通信負荷と秘匿音声識別装置の負荷を低減できる。

次に、写像関数を用いない実施形態を説明する。本実施の形態では、情報の漏洩が懸念される単語または単語の連鎖情報を辞書から削除することを特徴する。即ち、他の実施の形態と異なり、読み情報（＝音素ＩＤ列情報）も含めてエントリを完全に削除する。或いは、当初から言語モデルには入れないようにしてもよい。その結果、音声認識を行なうサーバでは、存在の痕跡も含めてその単語の存在を一切関知できない。

音声認識を行わせるクライアント端末は、サーバからの音声認識結果を受けて、当該結果に対して、辞書から削除した単語および単語の連鎖情報を挿入する第２の認識処理を実行する。即ち、サーバからの認識結果に含まれない漏洩が懸念された情報を、第２の音声認識処理（探索処理）を施すことによって復活させる。
第２の音声認識部は、認識結果構築部内に設けられ、サーバ上の音声認識部（第１の音声認識部）の出力した認識結果を入力として用いる。これは尤度最大の単語ＩＤ列（＝最尤単語ＩＤ列）でも良いし、尤度上位Ｎ位（Ｎベスト）の単語ＩＤ列でも良いし、ワードグラフでもよい。ワードグラフには、探索処理の途上で生成されるグラフ構造、各アークに単語とその尤度（言語尤度と音響尤度のどちらか、あるいは両方、または信頼度等その他の尺度のスコア）が割り当てられており、探索処理はこの尤度の総和が最大になるパスを見つける処理になる。
認識結果構築部では、これらを単語列に変換し、さらにそこから読み情報を用いて音素列に変換する。このように処理することによって、最尤単語ＩＤ列を入力とした場合はただひとつの音素列が得られ、それ以外の場合は複数の音素列が得られる。
一方で、漏洩が懸念されて削除した単語および単語連鎖も音素列に変換する。そして、第２の音声認識部では、サーバから返却された認識結果に対して、その音素列を取り出し、その列中から削除した単語および単語連鎖の音素列にマッチする区間を探索処理する。
この探索処理は、ある音素と別の音素の弁別困難度の表であるコンフュージョンマトリクスを別途与えておけば、厳密なマッチだけではなく曖昧なマッチも行える。例えばｆとｖの識別の困難度が高い場合、削除した区間のマッチング処理でｆとｖさえ一致すればマッチすると看做せる場合、それらを同一と看做してマッチ扱いにすれば良い。

上記の様に処理して認識結果構築部では、サーバ（第１の認識部）からの認識結果から漏洩が懸念される単語または単語連鎖にマッチする音素列が見つかった場合、その部分をその単語または単語連鎖に置き換える（挿入する）ことによって、正当な認識結果を構築する。

この方法のメリットは、単語ＩＤの写像が不要になることで、その結果、アップロードするものは音響モデルと辞書だけでよい。換言すれば、上記の様に処理することで、狭義の言語モデルをサーバが準備したものを利用しても、秘匿性を担保できる。尚、広義の言語モデルの容量の大半は狭義の言語モデルであるので、サーバ−クライアント間の通信帯域の削減に顕著な効果を奏する。

次に、更に別の実施形態を説明する。本実施の形態は、音響モデルのアップロードを伴わず、かつクライアント端末が音響尤度計算を実行しないように構成する。即ち、特徴量抽出と音響尤度計算をサーバで実施して送信し、クライアント端末において探索処理を実施する。このとき、クライアント端末からサーバに送信される音響データは、サーバが複合できる暗号化と、サーバがその内容を知得不能である写像によって秘匿される。
このように構成することによって、言語モデルを特に変換せずに秘匿性のあるクライアント−サーバ型音声認識を行う手段として有効に動作する。

以上説明したように、本発明によれば、以下の効果を得られる。
第１の効果は、話者の発話内容が第三者に漏洩する危険性を低下させることができる。その理由は、音声データから変換された中間データ（特徴ベクトル、音素ＩＤ列、単語列ＩＤ列）を第三者が取得したとしても、これを復元するには音素ＩＤ等がどのように変換されたのかその詳細を知る必要があるため、適宜変換を行うことで第三者による音声データの復元を困難にできるためである。

第２の効果は、言語モデルからタスクやドメインに関する特別な情報が第三者に漏洩する危険を低下させることができるということにある。その理由は、サーバ上に一時的に保持される言語モデルには変換後の音素ＩＤ等の必要最小限の単語情報しか含まれておらず、また音素ＩＤの変換の詳細はサーバからは不明なため、第三者が言語モデルの内容の詳細を知ることを困難にできるためである。

なお、既に述べたように、ここでいう第三者には音声認識サービス提供者も含まれる。従って本発明の間接的な効果としては、極めて秘匿の要求の強い音声、例えばプライバシーに係わるものや、企業秘密に係わる音声なども、ネットワークサービスの形態で音声認識することが可能になることが挙げられる。

尚、上記実施の形態で示した技術を用いて、音声認識システムを以下の様に構成しても良い。

ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第１の情報処理装置と、その第１の情報処理装置とネットワークを介して接続し、音声認識処理部の音声認識に用いるデータを、第１の情報処理装置の知らない写像関数を用いて写像して送信すると共に、第１の情報処理装置から送り返されてきた結果のデータを、像関数を用いずに音声認識した結果と同様の結果に、使用した写像関数に基づき修正して音声認識結果を構築する第２の情報処理装置で構成する。

ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理部を有する複数の情報処理装置で音声認識システムを構成する。要求元の情報処理装置は、音声認識処理部を有する情報処理装置に対して、音声認識処理部で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信する。音声認識処理部を有する情報処理装置は、変換されたデータ構造に基づいて音声認識処理を実施してその結果を要求元に送信する。要求元の情報処理装置は、写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の写像関数の影響を受けていない実施結果に構築する。

写像関数をΦ＝｛φ｝とし、データ構造Ｘをφ_x{Ｘ}に、データ構造Ｙをφ_y{Ｙ}に、それぞれ写像するとき、音声認識処理部が用いる関数Ｆ（Ｘ，Ｙ）について、Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の値が常に等しいか、またはその誤差が常に所与の閾値未満である写像関数Φを用いて構成された音声認識システム。

写像関数をΦ＝｛φ｝とし、データ構造Ｘをφ_x{Ｘ}に、データ構造Ｙをφ_y{Ｙ}に、それぞれ写像するとき、音声認識処理部が用いる関数Ｆ（Ｘ，Ｙ）について、Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の比が常に一定である写像関数Φを用いて構成された音声認識システム。

あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、且つ、写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照されることを保証する写像関数を用いて構成された音声認識システム。

あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルを示す写像関数を用いて構成された音声認識システム。

あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する写像関数を用いて構成された音声認識システム。

写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている音声認識システム。

音声認識処理部で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている音声認識システム。

特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、且つ、音響モデルの各特徴量に結び付けられたモデルへのインデックスを、音声認識する音響を入力する装置が与える写像関数を用いて写像する音声認識システム。

音響モデルに含まれる音素へのインデックスである音素ＩＤを、音響を入力する装置が与える写像関数を用いて写像し、且つ、言語モデルに含まれる各単語の読みを示す音素ＩＤ列を、音響を入力する装置が与える写像関数を用いて写像し、且つ、言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する音声認識システム。

言語モデルに含まれる各単語へのインデックスである単語ＩＤを、音響を入力する装置が与える写像関数を用いて写像する音声認識システム。

音声データを入力する情報処理装置は、少なくとも音響尤度算出部を備え、言語モデルに含まれる各単語の読みを示す音素ＩＤ列を音声データを入力する情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、且つ、音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、音声データを入力する情報処理装置が与える写像関数を用いて写像した音素ＩＤと音響尤度の組の配列を生成し、写像した音素ＩＤと音響尤度の組の配列と、写像後の言語モデルを、仮説探索部を有する情報処理装置に送信する音声認識システム。

音声データを入力する情報処理装置は、音声データをブロックに分割し、分割したブロック間の時系列を、音声データを入力する情報処理装置が与える写像関数を用いて写像し、写像後の時系列に従ってそれら音声ブロックを音声認識を行う情報処理装置に送信し、音声認識を行う情報処理装置から、特徴ベクトルまたは音素ＩＤと音響尤度の組の配列のいずれかを受け取り、音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する音声認識システム。

また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。例えば、上記実施の形態のそれぞれの特徴を、融合させるように構成されたものも本発明に含まれる。

また、音声認識要求装置の各種部は、ハードウェア又は、ハードウェアとソフトウェアの組み合わせを用いて実現しても良い。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭに音声認識用プログラムが展開され、プログラムに基づいてＣＰＵ等のハードウェアを動作させることによって、各部及び各種手段を実現する。また、前記プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

本発明は、クライアント・サーバ型の音声認識を行うあらゆる用途に、秘匿性を向上させる用途に適用することが可能である。

例えば、企業秘密などを含む音声を認識するための音声認識SaaSシステムの構築に適用できる。また、日記などのプライバシーの高い音声のための音声認識SaaSシステムの構築に適用できる。

また例えば、ショッピングサイトで、メニュー選択などを音声で行えるような音声ショッピングサイトを構築する際、本発明を用いた音声認識SaaSシステムを利用してサイトを構築すれば、ユーザは購入履歴などを少なくとも音声認識SaaSシステムプロバイダに知られずにすむ。これは、音声ショッピングサイトの運営者にとっては顧客情報の流出機会が低下するという点でメリットとなる。

また、音声認識SaaSシステム提供者側から見ると、本発明を用いることで、利用者の音声や、利用者の個人情報に当たる語彙を含む言語モデルを、自らの管理する音声認識サーバに一時的にせよ保持する必要がなくなるため、クラッカー等による意図しない個人情報流出の危険性を回避することができる。

この出願は、２００９年１０月２８日に出願された日本出願特願２００９−２４７８７４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１１０クライアント（音声認識要求装置）
１１１発話抽出部（発話抽出手段）
１１２特徴ベクトル抽出部（特徴ベクトル抽出手段）
１１３特徴ベクトル変換部（特徴ベクトル変換手段）
１１４音素ＩＤ変換部（音素ＩＤ変換手段）
１１５データ送信部（データ送信手段）
１１６探索結果受信部（探索結果受信手段）
１１７認識結果構築部（認識結果構築手段）
１１８データベース（データ記録手段）
１２０サーバ（音声認識装置）
１２１データ受信部（データ受信手段）
１２２音声認識部（音声認識手段）
１２２ａ音響尤度算出部（音響尤度算出手段）
１２２ｂ仮説探索部（仮説探索手段）
１２３探索結果送信部（探索結果送信手段）

Claims

ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第１の情報処理装置と、
前記第１の情報処理装置とネットワークを介して接続し、
前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で且つ前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換して送信し、
前記第１の情報処理装置から送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する第２の情報処理装置と
を有することを特徴とする音声認識システム。
ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第１の情報処理装置と、
前記第１の情報処理装置とネットワークを介して接続し、前記音声認識処理手段の音声認識に用いるデータを、前記第１の情報処理装置の知らない写像関数を用いて写像して送信すると共に、前記第１の情報処理装置から送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記写像関数に基づき修正して音声認識結果を構築する第２の情報処理装置と
を有することを特徴とする音声認識システム。
ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理手段を有する複数の情報処理装置を備え、
前記音声認識処理手段を有する情報処理装置に対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
前記音声認識処理手段を有する情報処理装置は、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、
前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築する
ことを特徴とする音声認識システム。
請求項２又は３に記載の音声認識システムであって、
写像関数Φ＝｛φ｝が、
データ構造Ｘをφ_x{Ｘ}に、データ構造Ｙをφ_y{Ｙ}に、それぞれ写像するとき、
前記音声認識処理手段が用いる関数Ｆ（Ｘ，Ｙ）について、Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の値が常に等しいか、またはその誤差が常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
ことを特徴とする音声認識システム。
請求項２又は３に記載の音声認識システムであって、
前記音声認識処理手段が用いるデータ構造は、
そのデータ構造に含まれる特定のデータを参照するインデックスに関して、
あるインデックスと参照先との参照関係を指す
ことを特徴とする音声認識システム。
請求項２又は３に記載の音声認識システムであって、
前記写像関数は、
あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
かつ、
写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
ことを保証する関数である
ことを特徴とする音声認識システム。
請求項６に記載の音声認識システムであって、
前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルである
ことを特徴とする音声認識システム。
請求項６に記載の音声認識システムであって、
前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する
ことを特徴とする音声認識システム。
請求項２ないし８の何れか一項に記載の音声認識システムであって、
前記写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている
ことを特徴とする音声認識システム。
請求項２ないし８の何れか一項に記載の音声認識システムであって、
前記音声認識処理手段で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている
ことを特徴とする音声認識システム。
請求項１０に記載の音声認識システムであって、
特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、
かつ、
音響モデルの各特徴量に結び付けられたモデルへのインデックスを、音声認識対象である音響を入力する前記装置が与える写像関数を用いて写像する
ことを特徴とする音声認識システム。
請求項１１に記載の音声認識システムであって、
音響モデルに含まれる音素へのインデックスである音素ＩＤを、前記音響を入力する装置が与える写像関数を用いて写像し、
かつ、
言語モデルに含まれる各単語の読みを示す音素ＩＤ列を、前記音響を入力する装置が与える写像関数を用いて写像し、
かつ、
前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
ことを特徴とする音声認識システム。
請求項１２に記載の音声認識システムであって、
言語モデルに含まれる各単語へのインデックスである単語ＩＤを、前記音響を入力する装置が与える写像関数を用いて写像する
ことを特徴とする音声認識システム。
請求項２ないし８の何れか一項に記載の音声認識システムであって、
音声データを入力する情報処理装置は、少なくとも音響尤度算出手段を備え、
言語モデルに含まれる各単語の読みを示す音素ＩＤ列を前記情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
かつ、
音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記情報処理装置が与える写像関数を用いて写像した音素ＩＤと音響尤度の組の配列を生成し、
写像した音素ＩＤと音響尤度の組の配列と、写像後の言語モデルを、仮説探索手段を有する情報処理装置に送信する
ことを特徴とする音声認識システム。
請求項２ないし１４の何れか一項に記載の音声認識システムであって、
音声データを入力する情報処理装置は、音声データをブロックに分割し、
分割したブロック間の時系列を、前記音声データを入力する情報処理装置が与える写像関数を用いて写像し、
写像後の時系列に従って前記音声データのブロック群を音声認識を行う情報処理装置に送信し、
前記音声認識を行う情報処理装置から、特徴ベクトルまたは音素ＩＤと音響尤度の組の配列のいずれかを受け取り、
前記音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する
ことを特徴とする音声認識システム。
ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムにネットワークを介して接続する通信手段と、
前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で且つ前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、
変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段と
を有することを特徴とする音声認識要求装置。
ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムにネットワークを介して接続する通信手段と、
前記音声認識処理手段の音声認識に用いるデータを、前記音声認識システムの知らない写像関数を用いて写像する情報変換手段と、
写像されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記写像関数に基づき修正して構築する認識結果構築手段と
を有することを特徴とする音声認識要求装置。
請求項１７記載の音声認識要求装置であって、
前記情報変換手段は、前記音声認識処理手段に対して送信する音声認識に用いるデータのデータ構造を、そのデータ構造に含まれる特定のデータを参照するインデックスに関して、所定のインデックスと参照先との参照関係を指すように写像する
ことを特徴とする音声認識要求装置。
請求項１７記載の音声認識要求装置であって、
前記写像関数は、
あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
かつ、
写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
ことを保証する関数である
ことを特徴とする音声認識要求装置。
請求項１７記載の音声認識要求装置であって、
特徴ベクトルに含まれる各特徴量を指すインデックスを、前記写像関数を用いて写像し、
かつ、
音響モデルの各特徴量に結び付けられたモデルへのインデックスを、前記写像関数を用いて写像する
ことを特徴とする音声認識要求装置。
請求項１７記載の音声認識要求装置であって、
音響モデルに含まれる音素へのインデックスである音素ＩＤを、前記写像関数を用いて写像し、
かつ、
言語モデルに含まれる各単語の読みを示す音素ＩＤ列を、前記写像関数を用いて写像し、
かつ、
前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
ことを特徴とする音声認識要求装置。
請求項１７ないし請求項２１の何れか一項に記載の音声認識要求装置であって、
音響尤度算出手段を備え、
言語モデルに含まれる各単語の読みを示す音素ＩＤ列を前記写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
かつ、
音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記写像関数を用いて写像した音素ＩＤと音響尤度の組の配列を生成し、
写像した音素ＩＤと音響尤度の組の配列と、写像後の言語モデルを、仮説探索手段を有する音声認識システムに送信する
ことを特徴とする音声認識要求装置。
請求項１７ないし請求項２１の何れか一項に記載の音声認識要求装置であって、
音声認識対象である音響の音声データを複数のブロックに分割し、
分割したブロック間の時系列を、前記写像関数を用いて写像し、
写像後の時系列に従って前記音声データのブロック群を音声認識システムに送信し、
前記音声認識システムから送信されてきた音声認識の結果データを受け取り、前記写像関数の逆関数を用いてこれらの時系列を復元する
ことを特徴とする音声認識要求装置。
音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを格納する手段と、
前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、音声認識に用いる各モデルのデータ構造を秘匿性を有するデータ構造に変換する第１の変換手段と、
識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第２の変換手段と、
ネットワークを介して音声認識システムに変換したデータを送信する手段と、
ネットワークを介して音声認識システムから受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第１及び第２の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段と
を有することを特徴とする情報処理装置。
音声認識処理手段を有する音声認識システムと前記音声認識システムに対して音声認識を要求する音声認識要求装置とをネットワークで相互に接続し、
前記音声認識要求装置は、前記音声認識システムに対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
前記音声認識システムは、前記音声認識要求装置に対して、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、
前記音声認識要求装置は、前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築する
ことを特徴とする音声認識方法。
請求項２５に記載の音声認識方法であって、
前記音声認識要求装置から前記音声認識システムに対して変換して送信する前記音声認識処理手段で用いるデータの構造は、音響モデルの構造、言語モデルの構造、及び特徴ベクトルの構造の少なくともいずれかが写像された構造である
ことを特徴とする音声認識方法。
請求項２５又は２６に記載の音声認識方法であって、
前記写像関数は、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフル又は、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する関数である
ことを特徴とする音声認識方法。
請求項２５ないし２７の何れか一項に記載の音声認識方法であって、
写像関数Φ＝｛φ｝が、
データ構造Ｘをφ_x{Ｘ}に、データ構造Ｙをφ_y{Ｙ}に、それぞれ写像するとき、
前記音声認識処理手段が用いる関数Ｆ（Ｘ，Ｙ）について、Ｆ（Ｘ，Ｙ）とＦ（φ_x{Ｘ}，φ_y{Ｙ}）の値が常に等しいか、またはその誤差が常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
ことを特徴とする音声認識方法。
情報処理装置の制御部を、
ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムと、ネットワークを介して接続する通信手段と、
前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で且つ前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、
変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段
として機能させることを特徴とする音声認識用プログラム。
音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを管理格納する手段と、ネットワークを介して音声認識システムに変換したデータを送信する手段とを有する情報処理装置の制御部を、
前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、
音声認識に用いる各モデルのデータ構造を秘匿性を有するデータ構造に変換する第１の変換手段と、
識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第２の変換手段と、
ネットワークを介して前記音声認識システムから受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第１及び第２の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段
として機能させることを特徴とする音声認識用プログラム。