JP5621993B2 - 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム - Google Patents

音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム Download PDF

Info

Publication number
JP5621993B2
JP5621993B2 JP2011538353A JP2011538353A JP5621993B2 JP 5621993 B2 JP5621993 B2 JP 5621993B2 JP 2011538353 A JP2011538353 A JP 2011538353A JP 2011538353 A JP2011538353 A JP 2011538353A JP 5621993 B2 JP5621993 B2 JP 5621993B2
Authority
JP
Japan
Prior art keywords
speech recognition
data
result
mapping function
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011538353A
Other languages
English (en)
Other versions
JPWO2011052412A1 (ja
Inventor
長友 健太郎
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011538353A priority Critical patent/JP5621993B2/ja
Publication of JPWO2011052412A1 publication Critical patent/JPWO2011052412A1/ja
Application granted granted Critical
Publication of JP5621993B2 publication Critical patent/JP5621993B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声認識システム、音声認識方法および音声認識用プログラムに関する。詳しくは、音声認識の対象となる音声の内容や音声認識辞書の詳細などについて、第三者が認識結果の詳細を復元不能とする音声認識システム、音声認識方法および音声認識用プログラムに関する。
情報処理システムを用いる音声認識技術は、入力された音声データに含まれる言語情報を取り出す技術である。音声認識技術を用いたシステムは、音声データすべてをテキストに変換すれば音声ワープロとして利用でき、音声データに含まれるキーワードを抽出すれば音声コマンド入力装置として利用できる。
関連する音声認識システムの一例を図7に示す。図7に示した音声認識システムは、発話区間抽出部、特徴ベクトル抽出部、音響尤度算出部、仮説探索部、音声認識用データベースを含み構成されている。
このような構成を有する音声認識システムは、次のように動作する。
音声認識システムに入力された音響(音声)には、実際に発話している区間(音声区間)とそうでない区間(無音区間)とが混在しているので、発話区間抽出部を用いてこのうち音声区間のみを取り出す。
次に、抽出された区間の音声データを特徴ベクトル抽出部に入力し、一定の時間間隔(フレーム)ごとに音声に含まれる様々な特徴量を取り出して特徴ベクトルを抽出する。特徴量として よく利用されるものはケプストラム、パワー、Δパワーなどである。複数の特徴量を組み合わせた配列(ベクトル)として扱うことから、これを特徴ベクトルと呼ぶ。
抽出された音声の特徴ベクトルは、音響尤度算出部に送られ、予め与えられた複数の音素それぞれに対する尤度(音響尤度)が求められる。音響尤度としてはデータベースの音響モデルに記録されている各音素のモデルとの類似度が用いられることが多い。この類似度は一般に、モデルからの「距離」(ズレの大きさ)として表現されるので、「音響尤度算出」は「距離計算」と呼ばれることもある。音素は、直感的には音韻を子音と母音に分割したものであるが、同一の音素であっても先行する音素や後続する音素が異なるとその音響的な特徴が異なるため、別々にモデル化した方が精度良く認識できることが知られている。このように前後の音素の違いを考慮した音素は、トライフォン(Triphone:音素三つ組み)と呼ばれる。今日広く使われている音響モデルでは、音素内の状態遷移をHMM(Hidden Markov Model:隠れマルコフモデル)で表現する。従って、音響モデルとはトライフォンごとのHMMの集合となる。多くの実装では、各トライフォンにはID(以降、音素IDと表記する)が付与されており、後段の処理では専らこの音素IDで取り扱われる。
仮説探索部は、音響尤度算出部によって求めた音響尤度に対して、言語モデルを参照して、最も尤度の高い単語列を探索する。言語モデルは、辞書と狭義の言語モデルに分けて考えることもある。この場合、辞書にはその(広義の)言語モデルが扱うことのできる語彙の一覧が与えられている。辞書内の一つ一つの単語エントリには、一般にその単語の音素列(または音素ID列)と表記文字列が付与される。一方、狭義の言語モデルは、語彙内のある単語群がある順序で連続して現れる尤度(言語尤度)をモデル化した情報が含まれる。狭義の言語モデルとして今日最もよく用いられているのは文法とN-gramである。文法とは、単語、単語の属性または単語の属すカテゴリなどを用いて、ある単語連鎖の妥当性を直接的に記述したものである。一方、N-gramとは、N個の単語からなる単語連鎖の出現尤度を、大量のコーパス(学習用テキストデータ)における実際の出現頻度を元に統計的に算出したものである。一般に、辞書の各エントリにはID(以降、単語IDと表記する)が付与されており、(狭義の)言語モデルは単語ID列を入力として言語尤度を返す関数のように働く。まとめると、仮説探索部における探索処理は、特徴ベクトル列から音素の尤度(音響尤度)を、音素ID列から単語IDへの変換可否を、単語ID列から単語列の出現尤度(言語尤度)をそれぞれ求め、最終的にもっとも尤度の高い単語列を見つけ出す処理となる。
以上のような典型的な音声認識システムの例としては、非特許文献1が挙げられる。
なお、一つの言語モデルがモデル化可能な語彙や表現には限界がある。限界を超えて大量の語彙や多彩な表現をモデル化しようとすると、仮説探索の際に曖昧性が増加し、結果として認識速度の低下や認識精度の劣化を招く。また、膨大な語彙をすべて収集することはそもそも不可能である。従って、通常は、音声認識技術を活用しようとするタスクやドメインに応じて言語モデルのカスタマイズを行なうことが一般的である。例えば、音声認識技術を音声コマンドとして利用するのであれば、受理可能なコマンドのみからなる言語モデルを作成する。あるいは、音声認識技術を議事録音声の書き起こしの補助に利用するのであれば、過去の会議記録や会議音声に現れた単語や表現、関連する単語や表現のみをモデル化した言語モデルを構築する。このようにすることで、特定のタスクやドメインに特有の語彙を収集し、それらの出現パターンをモデル化することが可能になる。
また、音響モデルは、一般に大量のラベルつき音声データ(音声データのどの区間がどの音素に相当するかという情報が与えられた音声データの集合)を用いて機械学習技術を駆使して求められる。このような音声データの収集はコストが高いので、一般にユーザごとのカスタマイズは行われず、想定される利用シーンの一般的な性質に合わせて個別に用意される。例えば電話音声認識であれば電話音声のラベルつきデータから学習された音響モデルが用いられる。個々のユーザの音声に合わせた最適化処理機能(一般に「話者学習」機能ないし「エンロール」機能と呼ばれる)が提供されることもあるが、これはユーザ共有の音響モデルからユーザの音声への差分情報を学習するものであって、ベースとなる音響モデルそのものがユーザごとに構築されることは少ない。
音声認識はさまざまな用途に広く利用可能であるが、特に上記の仮説探索処理において、相応の計算量が必要であるという問題がある。音声認識技術は、認識精度の向上と計算量の削減という、相反する課題を克服しつつ発展してきたが、今日でも、例えば、携帯電話端末などでは扱える語彙数に制限がある等の問題がある。より精度良く自由度の高い音声認識を実現するためには、豊富な計算量を捌くことが可能なリモートサーバ上で音声認識処理を実行したほうが効果的である。このような理由から、近年では音声認識処理をリモートサーバで実行し、ローカル端末では認識結果(またはその結果に基づく何らかのアクション)のみを受け取るという実装形態(クライアント・サーバ型音声認識)が活発に開発されつつある。
このような実装形態の音声認識システムの一例が、特許文献1に記載されている。図8に示すように、特許文献1に記載された音声認識システムは、ネットワークを介して通信するクライアント端末とサーバから構成される。クライアント端末は、入力された音声から音声区間を検出する音声検出部(発話抽出部)と、検出された区間の音声データを圧縮する波形圧縮部と、圧縮された波形データをサーバに送信する波形送信部を備える。またサーバは、クライアント端末から送信された圧縮波形データを受信する波形受信部と、受信した圧縮音声を伸張する波形伸張部と、伸張された波形を分析して音声認識処理を施す分析部と認識部とを備える。
このような構成を有する特許文献1の音声認識システムは、次のように動作する。すなわち、クライアント端末に取り込まれた音響(音声)は、音声検出部によって音声区間と非音声区間に分けられる。このうち音声区間は波形圧縮部で圧縮された後、波形送信部によってサーバに送信される。これを受信したサーバの波形受信部は、受け取ったデータを波形伸張部に送る。サーバは、波形伸張部で伸張された波形データを分析部で特徴量を抽出し、最終的に認識部にて音声認識処理を実行する。
クライアント・サーバ型音声認識技術においても、音声認識部の動作自体は単一ホスト上で動作するものと本質的には同じものである。特許文献1に開示されている発明においては、図7で言う発話抽出部の行う処理までをクライアント端末で実行し、それ以降をサーバで実行している。これとは別に、クライアント端末上で特徴ベクトル抽出部に相当する処理までを行うような形態のクライアント・サーバ型音声認識技術も存在する。
クライアント・サーバ型音声認識技術は主として携帯端末(携帯電話、PDA、PHS、ネットブック等)の利用を想定して開発されてきた。当初の目的は、前述の通り、音声認識処理に掛かる計算量がシビアなために、処理能力の劣る携帯端末上での音声認識が困難であるという問題を克服することにあった。近年では携帯端末の処理能力も向上し、また音声認識技術も洗練してきたことにより、必ずしもクライアント・サーバ型音声認識システムが必要とは限らなくなってきている。他方、クライアント・サーバ型音声認識システムに対する注目は一層高まりつつある。これは、ネットワーク帯域の拡大や管理コスト等の面から、ローカル端末上で提供されていた様々な機能がネットワーク越しに提供されるという流れ(所謂SaaS(Software as a Service))に則ったものである。音声認識技術をネットワークサービスとして提供する場合、そのシステムはクライアント・サーバ型音声認識技術を基盤に構築することになる。
特開2003−5949号公報
T. Kawahara, A. Lee, T. Kobayashi, K. Takeda, N. Minematsu, S. Sagayama, K. Itou, A. Ito, M. Yamamoto, A. Yamada, T. Utsuro and K. Shikano. "Free software toolkit for Japanese large vocabulary continuous speech recognition." In Proc. Int'l Conf. on Spoken Language Processing (ICSLP), Vol. 4, pp. 476-479, 2000.
次に、音声認識システムにおける今後の課題を述べる。
第1の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容(音声信号)が第三者に漏洩する危険が高まることである。これは、例え通信路上で音声データを暗号化して通信の秘密を守ったとしても、少なくとも音声認識サービスを提供する音声認識サーバ上では音声データは復号化されるためである。
第2の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインに関する特別な情報が第三者に漏洩する危険が高まることである。これは、音声認識を実用的な精度で行うためには大なり小なり言語モデルのカスタマイズが必要であり、当該作業は実質的にタスクやドメインに関する特別な情報を表現する語彙を言語モデルに追加することを意味するためである。そして言語モデルは音声認識処理のうち仮説探索段階で必須となるため、仮説探索処理を認識サーバ上で行うシステムでは、少なくとも認識サーバ上では言語モデルを読み取り可能な状態にするためである。
なお、ここで言う第三者とは、音声認識サービスを提供するもの(自然人や法人、他のシステム)を含む。仮に、音声認識サービス提供者のみへの漏洩が問題でないのであれば、通信路や言語モデルファイルを単純に暗号化するだけでよい。しかし、音声認識サービス提供者からも情報を秘匿したいと考えた場合、上記した技術では対処できない。また、他の第三者の例では、サーバに不正侵入したハッカーやクラッカー、当該行為を行なうシステム(プログラム)が挙げられる。これは、音声認識サービスを提供するサーバに侵入されている場合に、複合化された音声データや解析結果、タスクやドメインに関する特別な情報などを容易に取得されてしまい、サービス利用者は、何ら対抗手段が無い。
本発明は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容が第三者に漏洩する危険性を極力低下させた、秘匿音声認識が可能な音声認識システムを提供する。
また、本発明は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインなどに関する特別な情報が第三者に漏洩する危険性を極力低下させた、秘匿音声認識が可能な音声認識システムを提供する。
本発明に係る音声認識システムは、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第1の情報処理装置と、前記第1の情報処理装置とネットワークを介して接続し、前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換して送信し、前記第1の情報処理装置から送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する第2の情報処理装置とを有することを特徴とする。
本発明に係る音声認識要求装置は、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムにネットワークを介して接続する通信手段と、前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段とを有することを特徴とする。
本発明に係る音声認識方法は、音声認識処理手段を有する音声認識システムと前記音声認識システムに対して音声認識を要求する音声認識要求装置とをネットワークで相互に接続し、前記音声認識要求装置は、前記音声認識システムに対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、前記音声認識システムは、前記音声認識要求装置に対して、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、前記音声認識要求装置は、前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築することを特徴とする。
本発明に係る音声認識用プログラムは、情報処理装置の制御部を、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムと、ネットワークを介して接続する通信手段と、前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段として機能させることを特徴とする。
本発明によれば、音声認識機能をネットワークを介するサービスとして実現した場合、ユーザの発話内容が第三者に漏洩する危険性を極力低下させた、秘匿音声認識を行なえる音声認識システムを提供できる。
また、本発明によれば、音声認識機能をネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインなどに関する特別な情報が第三者に漏洩する危険性を極力低下させた、秘匿音声認識を行なえる音声認識システムを提供できる。
第1の実施の形態の構成を示すブロック図である。 第1の実施の形態における音声認識処理を示すフローチャートである。 第2の実施の形態の構成を示すブロック図である。 第3の実施の形態の構成を示すブロック図である。 第4の実施の形態の構成を示すブロック図である。 第5の実施の形態の構成を示すブロック図である。 音声認識システムの構成の一例を示すブロック図である。 クライアント−サーバ構造を有する音声認識システムの構成の一例を示すブロック図である。
次に、発明を実施するための形態について図面を参照して詳細に説明する。尚、説明を明瞭とするため、本発明と関係の少ない入力や制御処理、表示、通信等に関する説明は、簡略化又は省力する。
ここで、発明の理解を容易にするために、第1の実施の形態にかかる前提となる事項を整理する。
・ 秘匿したい内容(情報)は、発話した内容(データ化した情報)そのものと、発話する可能性のある内容(発話に関連する情報:音声認識に用いる情報)である
・ 前者は音声を復元することで漏洩し、後者は言語モデルに含まれる語彙情報を解読することなどで漏洩する
・ 音声は音響特徴量から不完全ながら復元可能である
・ 音声そのものが復元できないとしても、音響特徴量の詳細を知っていれば、相応の音声認識処理を行うことで不完全ながら発話内容を復元可能である
・ 通常、音声認識サーバ提供者は、自らが提供する認識サーバの認識処理部がどのような特徴量を用いて動作しているか知っている
→ゆえに、少なくとも音声認識サーバ提供者は、音響特徴量から発話内容を復元可能である
・ 言語モデルに含まれる語彙情報は、通常、少なくとも読み情報を含み、多くの場合さらに表記文字列をも含む
・ 通常、読み情報は、使用される音響モデルに応じた音素ID列に所与の手続きで変換可能なデータであるか、または音素ID列そのものである
・ 前者の場合、その変換手続きは、認識サーバの認識処理部が知っているはずである
→ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
・ 後者の場合、音素IDは、一見すると人間には解読不能であるものの、音響モデルの詳細を知る者であれば、各音素IDが指し示す音素を把握できる
・ 通常、音響モデルの構築は、ユーザでは困難であり、一般に、音声認識サーバ提供者あるいは別の提供者によって構築され、提供される
→すなわち、音声認識サーバ提供者または別の音響モデル提供者は、音素IDの詳細を知っている
→換言すると、音声認識サーバ提供者は、ユーザの関知しない範囲で音素IDの詳細を知ることが可能である。
→ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
以上のことから、ネットワークを介して秘匿音声認識を実施するには、一般的な通信路での音声データの漏洩防止に加えて
・ 音声認識サーバ提供者が詳細を容易に知りえない音響特徴量を用いる
・ 音声認識サーバ提供者が詳細を容易に知りえない音素IDを用いる
のいずれか、または両方の対処が必要であると考える。
図1に本発明の第1の実施の形態の構成を示す。図1を参照すると、本発明の第1の実施の形態は、クライアント110とサーバ120からなる。
それぞれはさらに以下の動作を行なう構成を有する:
クライアント110は、発話抽出部111、特徴ベクトル抽出部112、特徴ベクトル変換部113、音素ID変換部114、データ送信部115、探索結果受信部116、認識結果構築部117を有する。また、データベース118を有し、音響モデル、言語モデル、変換・再構築用データを格納する。変換・再構築用データは、特徴ベクトル変換部113、音素ID変換部114、認識結果構築部117で使用される。尚、変換・再構築用データは、特徴ベクトル変換部113、音素ID変換部114、認識結果構築部117に予め設定しておいても良い。
発話抽出部111は、音響から音声を抽出して音声データとして出力する。抽出する一例としては、音響データから実際に発話されている区間(発話区間)とそうでない区間(無音区間)を判別する。また、音声とノイズを分離して除去する。
特徴ベクトル抽出部112は、音声データからケプストラム、パワー、Δパワー等の音響特徴量の集合(特徴ベクトル)を抽出する。
特徴ベクトル変換部113は、特徴ベクトルを、その内容を第3者が知得不能な形式のデータに変換する。このとき、特徴ベクトル変換部113は、サーバ120の音響尤度算出部122aが適切に変換された音響モデルを用いて変換後のデータに対して音響尤度計算を行った場合、その出力結果は、変換前の音響モデルと特徴ベクトルの組み合わせによって得られる出力結果と同一であるか、または近似した値になることが保証されるように、変換処理を行う。変換の例としては、特徴ベクトルの並び順のシャッフルや、冗長かつ計算上は無視できるような次元の付与などが挙げられる。
音素ID変換部114は、音響モデルと言語モデルの音素IDを、その内容を第3者が知得不能な形式のデータに変換する。また、サーバ120での音声認識処理に不必要な情報を音響モデルと言語モデルから削除する。さらに、変換処理の内容に応じて、その復元に必要な情報を変換・再構築用データとしてデータベース118に記録する。変換及び削除の例としては、音素IDや単語IDをシャッフルし、言語モデルから表記文字列等を削除することが挙げられる。どのような変換処理を行うかは、事前に与えても良いし、動的に決定しても良い。
尚、特徴ベクトル変換部113と音素ID変換部114の処理動作については、後に詳説する。
データ送信部115は、特徴ベクトル、音響モデル、言語モデル等の変換されたデータを適宜サーバ120に送信する。
探索結果受信部116は、最尤な単語ID列等の、音声認識部122の出力をサーバ120の探索結果送信部123を介して受信する。
認識結果構築部117は、探索結果受信部116から受信した最尤な単語ID列に対して、データベース118に記録された変換・再構築用データを参照して音素ID変換部114によって施した変換を復元する。例えば単語IDがシャッフルされていた場合は、その逆変換を行って変換前の言語モデルにおける単語IDを再構築する。このように復元された単語IDを用いて変換前の言語モデルを参照することで、認識結果構築部117は、既存システムの認識結果と同様となる認識結果を構築する。即ち、音声認識結果に影響をほぼ与えずに、音声認識を行うサーバ120に対して、音声認識に用いるデータの内容を知得不能とできる。
サーバ120は、データ受信部121、音声認識部122、探索結果送信部123を有する。
データ受信部121は、音声認識に用いるデータをクライアント110から受信する。尚、本実施の形態での受信する音声認識に用いるデータは、特徴ベクトル、音響モデル、言語モデル等の変換されたデータとなる。
音声認識部122は、音響モデルと言語モデルを参照しながら、特徴ベクトル系列に対して最尤な単語列を探索する。尚、音声認識部122を詳説すると、音響尤度算出部122aと仮説探索部122bに分けられる。
音響尤度算出部122aは、音響モデルの各音素に対する特徴ベクトルの音響尤度を求める。仮説探索部122bは、音響尤度、言語尤度を用いて、最尤な単語ID列(=音素ID列)を求める。尚、これらの処理を一度に評価する実装としても良い。
探索結果送信部123は、最尤な単語ID列等の、音声認識部122の出力をクライアント110に送信する。
次に、本実施の形態の全体の動作例について図2を用いて詳細に説明する。以下で、(C)は、クライアント装置を指し、(S)は、サーバ装置を指す。クライアント装置とサーバ装置は、音響の入力や、音声認識の開始指示を受けると、音声認識を開始して、以下のように動作する。
1.(C)音素ID変換部114は、音響モデルと言語モデルの音素IDを、その内容を第3者が知得不能な形式のデータに変換する。音素ID変換部114は、変換処理の内容に応じた、復元に必要となる情報を変換・再構築用データとしてデータベース118に記録する。例示すれば、音素IDおよび特徴ベクトルが変換された音響モデルと、同様に音素IDが変換された上で音素ID列以外の語彙情報を削った言語モデルとを生成すると共に、認識結果構築部117での復元に用いる情報を変換・再構築用データをデータベース118に記録する。尚、変換処理については、後に詳説する。
2.(C)データ送信部115は、生成された変換後の音響モデル(変換後音響モデル)と言語モデル(変換後言語モデル)を、音声認識用情報としてサーバ120に送信する。
3.(C)発話抽出部111は、上記1、2の処理と並列的に、入力された音響(音声)から音声区間を切り出す。
4.(C)特徴ベクトル抽出部112は、切り出された音声区間の微小区間(フレーム)ごとの音響特徴量の組(特徴ベクトル)を算出する。
5.(C)特徴ベクトル変換部113は、算出された特徴量ベクトルを、その内容を第3者が知得不能であり、加えて、音声認識部122の認識処理結果から正当な処理結果を構築できる形式であるデータ構造に変換する。尚、変換については、後に詳説する。
6.(C)データ送信部115は、変換された特徴ベクトル(変換後特徴ベクトル)を、音声認識用情報としてサーバ120に送信する。
尚、上記1から2の処理と上記3から6の処理は、並列的に行えばよい。
7.(S)データ受信部121は、クライアント110から、変換後の音声認識用情報である変換後音響モデル、変換後言語モデル、変換後特徴ベクトル等を受信する。
8.(S)音声認識部122は、受け取った音響モデルおよび言語モデルを参照しつつ、特徴ベクトル系列に対して最尤な単語ID列を探索する。尚、探索処理の一例は、後に詳述する。
9.(S)探索結果送信部123は、探索結果として得られた音声認識結果データとして単語ID列などをクライアント110に送信する。必要に応じて、探索結果送信部123は、尤度ないしスコア上位N個の単語ID列(Nベスト)や、単語ID列の尤度情報、または探索空間そのもの(ラティスないしワードグラフ)等もあわせて送信する。
10.(C)探索結果受信部116は、サーバ120から探索結果の単語ID列など(音声認識結果データ)を受信する。
11.(C)認識結果構築部117は、単語ID列の各単語IDに対応する単語情報を変換前の言語モデルから取得し、最終的な認識結果の単語列を生成する。必要に応じてNベストやワードグラフ等も同様に処理する。
ここで、探索処理の詳細を以下に示す。
8−1.(S)音響尤度算出部122aでは、各特徴ベクトルについて、音響モデル(変換後音響モデル)に含まれる各音素に対する音響尤度を求める処理が行なわれる。
8−2.(S)また、音響尤度算出部122aでは、言語モデル(変換後言語モデル)に含まれているいずれかの単語の読みにあたる音素ID列に対しての単語(単語ID)が参照され、同じく言語モデルに含まれる単語ID列の妥当性の情報から得られる尤度(言語尤度)の算定処理が成される。
8−3.(S)仮説探索部122bでは、上記の音響尤度および言語尤度を参照しつつ、特徴ベクトル列に対して最も大きな尤度を与える単語ID列の探索処理が行なわれる。
8−4.(S)なお、仮説探索部122bでは、必要に応じて任意のリスコアリング処理を行い、その結果として最大スコアとなった単語ID列を探索結果としてもよい。
次に、特徴ベクトルと音響モデルの一つの変換処理(写像関数を用いる変換処理)の動作について、詳細に説明する。尚、以下で説明する写像関数等の情報は、変換・再構築用データ内に記載されている。また、各部に予め写像関数による処理方法を記憶させても良い。
特徴ベクトル変換部113および音素ID変換部114における特徴ベクトルと音響モデルの写像関数を用いる変換は、音声認識部122、なかでも特に音響尤度算出部122aの動作に関係する。以下では、例示として写像関数を用いた場合の正当な処理結果に修復する過程を説明する。
音響尤度算出部122aの行う処理は、各音素に対して与えられた特徴ベクトルの尤度を求める処理である。これは特徴ベクトルを V 、音響モデルを A としてそこに含まれる音素が M 種類だとすると
l_A(V) = D(V, A) = ( D(V, A_1), D(V, A_2), ..., D(V, A_M) ) = ( l_{A_1}, ..., l_{A_M} )
なる音響尤度関数 D を適用する処理として表現できる。
特徴ベクトル変換部113および音素ID変換部114で行われる特徴ベクトルと音響モデルの変換を、ある写像関数 F = (f_v, f_a) で表すとき、f_v と f_a に求められる性質は、任意の特徴ベクトル V に対して、D(f_v(V), f_a(A)) = D(V, A)が常に成り立つことである。
上記ことがらが成り立つならば、
l_A(V) = D(V, A) = D(f_v(V), f_a(A)) = l_{f_a(A)}(f_v(V))
であるので、写像関数 F で変換された特徴ベクトルと音響モデルを用いても、変換前とまったく同じ認識結果を得ることができる。
このような性質を満たす写像関数の例を複数挙げる。
特徴ベクトルが N 個の特徴量のベクトルであるとすると次式で表せる。
V = (v_1, ..., v_N)
いま、ある音素に対する特徴ベクトルの音響尤度は、特徴ベクトルの各要素に対する尤度の総和で与えられるとすると次式が成り立つ。
l_{A_j}(V) = D(V, A_j) = D(v_1, A_{1,j}) + ... + D(v_N, A_{N,j}) = \sum_{i,j}{D(v_i, A_{i,j})}
ここで f_v が特徴ベクトルの各要素の添え字をひとつずつずらし、N番目の要素については0番目に移すとする。即ち、次式のようにシフトさせる。
f_v((v_1, ..., v_N)) = (v_N, v_1, ..., v_{N-1})
一方、f_a は、音響モデルの中の i 番目の特徴量に対するモデルを i+1 番目にずらす関数であるなら、
f_a((A_{1,j}, ..., A_{N,j})) = ((A_{N,j}, A_{1,j}, ..., A_{N-1,j}))
となり、このとき、
D(f_v(V), f_a(A_j)) = D(v_N, A_{N,j}) + D(v_1, A_{1,j}) + ... + D(v_{N-1}, A_{N-1,j})
= \sum_{i,j}{D(v_i, A_{i,j})} = D(V, A_j)
となる。
一般に、音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であるなら、特徴ベクトルの要素を k 個ずらす写像(k-シフト関数)は要求される性質を満たす。さらに、並び順そのものに意味がないので、特徴ベクトルの要素の並びを任意の順に変換する写像(シャッフル関数)も要求される性質を満たす。
次に、別の関数の例を挙げる。音響尤度が上記のように定義され、また、
D(v_i, \alpha A_{i,j}) = \alpha D(v_i, A_{i,j})
かつ
\sum_k{ D(c_k, c_k^{-1}) } = 0
であるとする。ここで c_k および c_k^{-1} は上記の式を満たす既知の値の組である。
写像 (f_v, f_a) がそれぞれ、
f_v((v_1, ..., v_N)) = (v_1, ..., v_N, c_1, ..., c_L, v_1)
f_a((A_{1,j}, ..., A_{N,j})) = (A_{1,j}/2, ..., A_{N,j}, c_1^{-1}, ..., c_L^{-1}, A_{1,j}/2)
と与えられれば、
D(f_v(V), f_a(A_j)) = D(v_1, A_{1,j}/2) + ... + D(v_N, A_{N,j}) + D(c_1, c_1^{-1}) + ... D(c_L, c_L^{-1}) + D(v_1, A_{1,j}/2)
= D(v_1, A_{1,j})/2 + ... + D(v_N, A_{N,j}) + 0 + D(v_1, A_{1,j})/2
= \sum_{i,j}{D(v_i, A_{i,j})} = D(V, A_j)
となる。
一般に、音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、音響尤度の総和がゼロになる特徴量の値とその特徴量に対するモデルの組が既知であるなら、その組を使って特徴ベクトルの見た目の次元数を増やすことができる。
また、一般に音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、各特徴量に対する音響尤度関数 D(v_i, A_{i,j}) も線形であるなら、ある特徴量を複数の要素に分割することで、特徴ベクトルの見た目の次元数を増やすことができる。
音響尤度算出部122aがこのような性質を持つ音響尤度関数のもとに成り立っているのであれば、以上示したような「特徴ベクトルのシャッフル」や「見た目の次元数の拡張」の組み合わせによって、本発明の実施の形態が要求するような任意の写像関数をいくつでも与えることができる。
もちろん、音響尤度関数がここで挙げたものと異なる性質を持つ場合であっても、D(f_v(V), f_a(A)) = D(V, A)を満たす写像 F = (f_v, f_a) が定義できさえすれば、本発明の実施の形態で示すシステムとして利用することができる。
また、D(V, A)とD(f’_v(V), f’_a(A))が完全に一致しなくとも、両者の誤差がある十分に小さい場合、そのような写像F’=(f’_v, f’_a)を用いて本発明の実施の形態を実現できる。
上記説明したように、特徴ベクトル変換部113および音素ID変換部114で、写像関数を用いて、特徴ベクトルと音響モデルを変換しても、サーバ120の音声認識部122で、これらの変換を施さなかった場合と同様の、または近似の認識結果を得ることが可能となる。
次に、音響モデルと言語モデルの変換処理について、詳細に説明する。
音素ID変換部114における音響モデルと言語モデルの変換は、音声認識部122中に関係し、特に仮説探索部122bの動作に関係する。
仮説探索部122bの処理においては、ある音素列 a_1, ..., a_N がある単語 w を形成するかどうかを判定する必要がある。
換言すれば、 M 個の単語を持つ言語モデル L について、L に含まれるすべての単語 w に関して 0, 1 のいずれかを返すルックアップ関数は、次式のように表現できる。
S_L(a_1, ..., a_N) = T(L, a_1, ..., a_N) = { e_1, ..., e_M }
where e_j \in {0, 1}
ここで、添え字 j に対する e_j は、単語 w_j がその音素列によって形成される(=1)か否か(=0)を示す。
一見するとこの関数は非常に計算負荷が高いように見えるが、TRIE構造などを用いて高速に求めることができる。
実際には音素そのものの列の変わりに音素ID列を、単語そのものの変わりに単語IDをそれぞれ用いることが多いが、どちらも音素や単語と一対一に対応するものであるから、以下では音素と単語についてのみ記述する。
音素ID変換部114で行われる音響モデルと言語モデルの変換を、ある写像関数 G = (g_l, g_a) で表すとき、g_l と g_a に求められる性質は、任意の音素列 a_1, ..., a_N に対して、次式が常に成り立つことである。
T(L, A, a_1, ..., a_N) = T(g_l(L), g_a(A), g_a(a_1), ..., g_a(a_N))
上記式が成り立つならば、下記式が成立するので、写像関数 G で変換された音響モデルと言語モデルを用いても、変換前の音響モデルと言語モデルを用いた場合とまったく同じ認識結果を得ることがわかる。
S_{L,A}(a_1, ..., a_N) = T(L, A, a_1, ..., a_N)
= T(g_l(L), g_a(A), g_a(a_1), ..., g_a(a_N))
= S_{g_l(L), g_a(A)}(g_a(a_1), ..., g_a(a_N))
上述の特徴ベクトルに対する写像と同様に、音素IDや単語IDをシャッフルするような写像はこの性質を満たす。
また、ある音素 a_i に対応する音素IDが p_i があるとき、その音素 a_i に対応する新たな音素IDを p_i' として追加するような写像も、この性質を満たす。
以上の二つの変換処理は、結局、次のような要件を満たす変換処理であるといえる。
要件:
変換に用いられる写像関数Φ={φ}は、
データ構造Xをφ_x{X}に、
データ構造Yをφ_y{Y}に、
それぞれ写像するとき、
認識処理部が用いる関数F(X,Y)について
F(X,Y)とF(φ_x{X},φ_y{Y})
の値が常に等しい。
Fの具体的な例は、
特徴ベクトル+音響モデル → 音響尤度
このとき、Xは特徴ベクトル,Yは音響モデル
および、
音素ID列+音響モデル+言語モデル → 単語成立ベクタ
このとき、Xは音響モデル,Yは言語モデル
ということである。
なお、音声認識部122、特に仮説探索部122bの実装が、尤度をスコアと看做してスコアが最大のパスを求める探索問題と表されるなら、尤度間の大小関係のみが保存されればよいので、特徴ベクトルと音響モデルに施される変換において実際に問題になるのは
F(X,Y)とF(φ_x{X},φ_y{Y})の等価性ではなく、
F(X,Y)とF(φ_x{X},φ_y{Y})の比が常に一定である、
という性質になる。したがって、そのような音声認識部122を用いる場合、上記の要件は緩和される。また、どのような音声認識部を用いる場合であっても、F(X,Y)とF(φ_x{X},φ_y{Y})の誤差が十分に小さければ、それも認識精度にはほとんど影響しないので、許容できる。
一方で、音素IDと音響モデルと言語モデルに施される変換においては、等比性や誤差は要件を満たすには十分ではなく、等価性が厳密に要求される。さもなければ認識精度に悪影響を及ぼす。
次に、言語モデルの変換処理について、詳細を説明する。
音素ID変換部114における言語モデルの変換では、言語モデルに含まれる各単語に関する情報のうち、音素ID列の情報(この音素IDも上述のように写像関数によって変換されている)以外は基本的にすべて削除する。これは秘匿性をもたらすだけでなく、通信量の削減にも効果がある。
ただし、認識処理部122が参照する他のデータ(音声認識処理結果に影響する情報)があれば、それは削除しないことが望ましい。例えば単語の品詞情報やその単語が属すクラス情報などのデータが挙げられる。尚、単語情報の漏洩にかかわるようなデータを要求する音声認識処理部122は、音声認識処理に用いることを避けるべきである。例えば、単語の表示文字列を要求するような認識処理部122は、本実施の形態では用いないこととする。どうしてもそのようなデータを要求する音声認識処理部を利用したい場合は、音素IDや単語IDと同様に写像するなどの方法で回避するようにしてみてもよい。
次に、特徴ベクトル変換および音素ID変換のタイミングと変換動作の切り替えタイミングについて説明する。
特徴ベクトル変換は新たな特徴ベクトルが得られるたびに毎回実行される。
音響モデルと言語モデルの音素ID変換に関しては、上述のように、音声認識に先立って1回行えばよい。
しかし、同じ写像関数で変換したモデルを長時間使い続けると、統計的な方法等を用いて写像関数を推測される危険性が高まる。
そこで、写像関数を別のものに変更する等、変換動作の振る舞いを定期的に切り替えることで第3者に対する秘匿性が高まる。
具体的には数発話に1回、または数分に1回のタイミングで切り替えるのが良い。他方、変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量を考えると、あまり頻繁に切り替えることは適切ではない。
切替えるタイミングや頻度は、頻繁に切り替えることによって発生するオーバヘッド(変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量)を考慮した値とすれば良い。また、無音区間のように、処理量や通信量が低下したタイミングで適時改変するようにしても良い。
次に、上記写像関数を用いた変換を行なう実施の形態の効果について説明する。
写像関数を用いた変換を行なう実施の形態は、特徴ベクトルを写像関数によって変換した後にサーバへ送信するよう構成されているため、通信路あるいはサーバ上で第三者が特徴ベクトルを入手したとしても、直ちにこれを音声に復元することを困難にできる。
その一方で、音響モデルも、変換前の特徴ベクトルと同じ音響尤度を返すように選ばれた写像関数によって変換されているため、特徴ベクトルを変換しなかった場合と同じ音響尤度が算出されること、引いては同じ認識結果が得られることが保証される。
また、上記の形態は、言語モデルに含まれる各単語エントリの情報のうち表記文字列の情報はサーバに送信せず、加えて単語エントリの読みを表す音素ID列も、写像関数によって変換した後にサーバへ送信するよう構成されているため、言語モデルの構造を知る第三者がこれを入手したとしても、直ちにそこに含まれる単語の読みや表記等の情報を知ることを困難にできる。
その一方で、音響モデルも、変換前の言語モデルと同じ音素列に対しては同じ単語の成否を返すように選ばれた写像関数によって変換されているため、同じ音素列に対しては言語モデルを変換しなかった場合と同じ単語の成否が得られること、引いては同じ認識結果が得られることが保証される。
次に、第2の実施の形態について図3を参照して説明する。尚、説明を明瞭とするため、第1の実施の形態と同様の部分については、簡略化又は省力する。
図3は、第2の実施の形態の構成を示すブロック図である。第2の実施の形態の音声認識システムは、複数の音声認識サーバを有して成る。また、音声認識を要求する情報処理装置もサーバである。
複数の音声認識サーバは、それぞれ異なる変換された音響認識情報データに対応している(図中タイプA,B,C)。音声認識を要求するサーバは、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
このような構成であっても、音声認識を要求するサーバで取得された音声を第3者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。
音声認識を要求するサーバは、各部を用いて、発話抽出処理、特徴ベクトル抽出処理を実施後、使用する音響認識サーバを選択して、音声認識用情報を当該音響認識サーバに対応した正当な処理結果に修復可能な形式のデータ形式に変換し、選択した音響認識サーバに送信する。
音声認識を要求するサーバは、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。
次に、第3の実施の形態について図4を参照して説明する。尚、説明を明瞭とするため、第1及び第2の実施の形態と同様の部分については、簡略化又は省力する。
図4は、第3の実施の形態の構成を示すブロック図である。第3の実施の形態の音声認識システムの複数の音声認識サーバは、仮説探索処理のみサービスを提供する。又は、音声認識サーバは、音響尤度検出処理と仮説探索処理を行え、仮説探索処理のみでもサービスを提供する。
音声認識を要求する情報処理装置は、音響尤度検出部を有し、距離計算を行える構成である。
複数の音声認識サーバは、それぞれ要求された音声認識処理(音響尤度検出処理、仮説探索処理)を実施し、その結果を送り返す。音声認識を要求する要求端末は、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
このような構成であっても、音声認識を要求する要求端末で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。
音声認識を要求する要求端末は、各部を用いて、発話抽出処理、特徴ベクトル抽出処理、音響尤度検出処理を実施後、使用する音響認識サーバを選択すると共に、音響尤度を検出した情報と音声認識に用いる情報を当該音響認識サーバに対応した正当な処理結果に修復可能な形式のデータ形式に変換し、選択した音響認識サーバに送信する。
その後、要求端末は、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。
このように構成すれば、音響モデルのシャッフル処理や、音響モデルの送信を省略できる。即ち、端末に音響尤度算出処理を行う計算能力があれば、通信量を圧縮できる。
次に、第4の実施の形態について図5を参照して説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
図5は、第4の実施の形態の構成を示すブロック図である。第4の実施の形態の音声認識システムの複数の音声認識サーバは、それぞれ音声認識サービスを提供する。
音声認識を要求する情報処理装置は、入力を受けた音響(音声)を時分割して特徴ベクトルを抽出する発話分割部を有する。尚、特徴ベクトルの時分割に変えて、音声の文節やワード単位で分割することとしても良い。
音声認識を要求する情報処理装置(要求サーバ)は、分割した音声データの順序関係をシャッフル等した後、そのデータに対して音声認識用情報としての変換を加えた後、複数の音声認識サーバに分けて送信し、それぞれの音声認識サーバから送り返されてきた結果をまとめて再構築する。
このような構成であっても、音声認識を要求する端末で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。
このとき、必要に応じて時分割間隔やシャッフルの仕方、送信する音響認識サーバを切替える。
このように構成すれば、個々の音声認識サーバには部分的な音声のみ送信されるので、並行する音声認識サーバの数が多ければ復元はより困難になる。
次に、第5の実施の形態について図6を参照して説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
図6は、第5の実施の形態の構成を示すブロック図である。第5の実施の形態の音声認識システムでは、音響尤度検出部を有する音声認識サーバを用いて、音響尤度の結果データを生成し、その結果データを他の仮説探索部を有する音声認識サーバに転送する形態である。また、音声認識システムは、転送自体を 音響尤度検出部を有する音声認識サーバに、秘匿音声識別装置から指示する構成としても良い。また、音声認識システムは、転送する音響尤度の結果データを分割して仮説探索部を有する複数の音声認識サーバに転送する構成としても良い。
上記構成であっても、音声認識を要求する装置で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。
次に、第6の実施の形態について説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
第6の実施の形態は、クライアントとなる秘匿音声識別装置上で抽出した音声データまたは特徴量を分割し、その順序関係をシャッフルした上で、各サーバ側に音声認識を要求する。秘匿音声識別装置は、各サーバからの音声認識結果に対して、送信前に加えたシャッフルに対する逆処理を加え、正当な認識結果である内容を再構築する。即ち、秘匿音声識別装置が特徴ベクトル抽出までの処理と再構築処理を実施し、それ以外をサーバ側で実施する。
このように動作させることによって、通信負荷と秘匿音声識別装置の負荷を低減できる。
次に、写像関数を用いない実施形態を説明する。本実施の形態では、情報の漏洩が懸念される単語または単語の連鎖情報を辞書から削除することを特徴する。即ち、他の実施の形態と異なり、読み情報(=音素ID列情報)も含めてエントリを完全に削除する。或いは、当初から言語モデルには入れないようにしてもよい。その結果、音声認識を行なうサーバでは、存在の痕跡も含めてその単語の存在を一切関知できない。
音声認識を行わせるクライアント端末は、サーバからの音声認識結果を受けて、当該結果に対して、辞書から削除した単語および単語の連鎖情報を挿入する第2の認識処理を実行する。即ち、サーバからの認識結果に含まれない漏洩が懸念された情報を、第2の音声認識処理(探索処理)を施すことによって復活させる。
第2の音声認識部は、認識結果構築部内に設けられ、サーバ上の音声認識部(第1の音声認識部)の出力した認識結果を入力として用いる。これは尤度最大の単語ID列(=最尤単語ID列)でも良いし、尤度上位N位(Nベスト)の単語ID列でも良いし、ワードグラフでもよい。ワードグラフには、探索処理の途上で生成されるグラフ構造、各アークに単語とその尤度(言語尤度と音響尤度のどちらか、あるいは両方、または信頼度等その他の尺度のスコア)が割り当てられており、探索処理はこの尤度の総和が最大になるパスを見つける処理になる。
認識結果構築部では、これらを単語列に変換し、さらにそこから読み情報を用いて音素列に変換する。このように処理することによって、最尤単語ID列を入力とした場合はただひとつの音素列が得られ、それ以外の場合は複数の音素列が得られる。
一方で、漏洩が懸念されて削除した単語および単語連鎖も音素列に変換する。そして、第2の音声認識部では、サーバから返却された認識結果に対して、その音素列を取り出し、その列中から削除した単語および単語連鎖の音素列にマッチする区間を探索処理する。
この探索処理は、ある音素と別の音素の弁別困難度の表であるコンフュージョンマトリクスを別途与えておけば、厳密なマッチだけではなく曖昧なマッチも行える。例えばfとvの識別の困難度が高い場合、削除した区間のマッチング処理でfとvさえ一致すればマッチすると看做せる場合、それらを同一と看做してマッチ扱いにすれば良い。
上記の様に処理して認識結果構築部では、サーバ(第1の認識部)からの認識結果から漏洩が懸念される単語または単語連鎖にマッチする音素列が見つかった場合、その部分をその単語または単語連鎖に置き換える(挿入する)ことによって、正当な認識結果を構築する。
この方法のメリットは、単語IDの写像が不要になることで、その結果、アップロードするものは音響モデルと辞書だけでよい。換言すれば、上記の様に処理することで、狭義の言語モデルをサーバが準備したものを利用しても、秘匿性を担保できる。尚、広義の言語モデルの容量の大半は狭義の言語モデルであるので、サーバ−クライアント間の通信帯域の削減に顕著な効果を奏する。
次に、更に別の実施形態を説明する。本実施の形態は、音響モデルのアップロードを伴わず、かつクライアント端末が音響尤度計算を実行しないように構成する。即ち、特徴量抽出と音響尤度計算をサーバで実施して送信し、クライアント端末において探索処理を実施する。このとき、クライアント端末からサーバに送信される音響データは、サーバが複合できる暗号化と、サーバがその内容を知得不能である写像によって秘匿される。
このように構成することによって、言語モデルを特に変換せずに秘匿性のあるクライアント−サーバ型音声認識を行う手段として有効に動作する。
以上説明したように、本発明によれば、以下の効果を得られる。
第1の効果は、話者の発話内容が第三者に漏洩する危険性を低下させることができる。その理由は、音声データから変換された中間データ(特徴ベクトル、音素ID列、単語列ID列)を第三者が取得したとしても、これを復元するには音素ID等がどのように変換されたのかその詳細を知る必要があるため、適宜変換を行うことで第三者による音声データの復元を困難にできるためである。
第2の効果は、言語モデルからタスクやドメインに関する特別な情報が第三者に漏洩する危険を低下させることができるということにある。その理由は、サーバ上に一時的に保持される言語モデルには変換後の音素ID等の必要最小限の単語情報しか含まれておらず、また音素IDの変換の詳細はサーバからは不明なため、第三者が言語モデルの内容の詳細を知ることを困難にできるためである。
なお、既に述べたように、ここでいう第三者には音声認識サービス提供者も含まれる。従って本発明の間接的な効果としては、極めて秘匿の要求の強い音声、例えばプライバシーに係わるものや、企業秘密に係わる音声なども、ネットワークサービスの形態で音声認識することが可能になることが挙げられる。
尚、上記実施の形態で示した技術を用いて、音声認識システムを以下の様に構成しても良い。
ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第1の情報処理装置と、その第1の情報処理装置とネットワークを介して接続し、音声認識処理部の音声認識に用いるデータを、第1の情報処理装置の知らない写像関数を用いて写像して送信すると共に、第1の情報処理装置から送り返されてきた結果のデータを、像関数を用いずに音声認識した結果と同様の結果に、使用した写像関数に基づき修正して音声認識結果を構築する第2の情報処理装置で構成する。
ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理部を有する複数の情報処理装置で音声認識システムを構成する。要求元の情報処理装置は、音声認識処理部を有する情報処理装置に対して、音声認識処理部で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信する。音声認識処理部を有する情報処理装置は、変換されたデータ構造に基づいて音声認識処理を実施してその結果を要求元に送信する。要求元の情報処理装置は、写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の写像関数の影響を受けていない実施結果に構築する。
写像関数をΦ={φ}とし、データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、音声認識処理部が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、またはその誤差が常に所与の閾値未満である写像関数Φを用いて構成された音声認識システム。
写像関数をΦ={φ}とし、データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、音声認識処理部が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の比が常に一定である写像関数Φを用いて構成された音声認識システム。
あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、且つ、写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照されることを保証する写像関数を用いて構成された音声認識システム。
あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルを示す写像関数を用いて構成された音声認識システム。
あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する写像関数を用いて構成された音声認識システム。
写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている音声認識システム。
音声認識処理部で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている音声認識システム。
特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、且つ、音響モデルの各特徴量に結び付けられたモデルへのインデックスを、音声認識する音響を入力する装置が与える写像関数を用いて写像する音声認識システム。
音響モデルに含まれる音素へのインデックスである音素IDを、音響を入力する装置が与える写像関数を用いて写像し、且つ、言語モデルに含まれる各単語の読みを示す音素ID列を、音響を入力する装置が与える写像関数を用いて写像し、且つ、言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する音声認識システム。
言語モデルに含まれる各単語へのインデックスである単語IDを、音響を入力する装置が与える写像関数を用いて写像する音声認識システム。
音声データを入力する情報処理装置は、少なくとも音響尤度算出部を備え、言語モデルに含まれる各単語の読みを示す音素ID列を音声データを入力する情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、且つ、音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、音声データを入力する情報処理装置が与える写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索部を有する情報処理装置に送信する音声認識システム。
音声データを入力する情報処理装置は、音声データをブロックに分割し、分割したブロック間の時系列を、音声データを入力する情報処理装置が与える写像関数を用いて写像し、写像後の時系列に従ってそれら音声ブロックを音声認識を行う情報処理装置に送信し、音声認識を行う情報処理装置から、特徴ベクトルまたは音素IDと音響尤度の組の配列のいずれかを受け取り、音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する音声認識システム。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。例えば、上記実施の形態のそれぞれの特徴を、融合させるように構成されたものも本発明に含まれる。
また、音声認識要求装置の各種部は、ハードウェア又は、ハードウェアとソフトウェアの組み合わせを用いて実現しても良い。ハードウェアとソフトウェアとを組み合わせた形態では、RAMに音声認識用プログラムが展開され、プログラムに基づいてCPU等のハードウェアを動作させることによって、各部及び各種手段を実現する。また、前記プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
本発明は、クライアント・サーバ型の音声認識を行うあらゆる用途に、秘匿性を向上させる用途に適用することが可能である。
例えば、企業秘密などを含む音声を認識するための音声認識SaaSシステムの構築に適用できる。また、日記などのプライバシーの高い音声のための音声認識SaaSシステムの構築に適用できる。
また例えば、ショッピングサイトで、メニュー選択などを音声で行えるような音声ショッピングサイトを構築する際、本発明を用いた音声認識SaaSシステムを利用してサイトを構築すれば、ユーザは購入履歴などを少なくとも音声認識SaaSシステムプロバイダに知られずにすむ。これは、音声ショッピングサイトの運営者にとっては顧客情報の流出機会が低下するという点でメリットとなる。
また、音声認識SaaSシステム提供者側から見ると、本発明を用いることで、利用者の音声や、利用者の個人情報に当たる語彙を含む言語モデルを、自らの管理する音声認識サーバに一時的にせよ保持する必要がなくなるため、クラッカー等による意図しない個人情報流出の危険性を回避することができる。
この出願は、2009年10月28日に出願された日本出願特願2009−247874号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
110 クライアント(音声認識要求装置)
111 発話抽出部(発話抽出手段)
112 特徴ベクトル抽出部(特徴ベクトル抽出手段)
113 特徴ベクトル変換部(特徴ベクトル変換手段)
114 音素ID変換部(音素ID変換手段)
115 データ送信部(データ送信手段)
116 探索結果受信部(探索結果受信手段)
117 認識結果構築部(認識結果構築手段)
118 データベース(データ記録手段)
120 サーバ(音声認識装置)
121 データ受信部(データ受信手段)
122 音声認識部(音声認識手段)
122a 音響尤度算出部(音響尤度算出手段)
122b 仮説探索部(仮説探索手段)
123 探索結果送信部(探索結果送信手段)

Claims (30)

  1. ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第1の情報処理装置と、
    前記第1の情報処理装置とネットワークを介して接続し
    前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換して送信し、
    前記第1の情報処理装置から送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果修正することで、音声認識結果を構築する第2の情報処理装置と
    を有することを特徴とする音声認識システム。
  2. ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第1の情報処理装置と、
    前記第1の情報処理装置とネットワークを介して接続し、前記音声認識処理手段の音声認識に用いるデータを、前記第1の情報処理装置の知らない写像関数を用いて写像して送信すると共に、前記第1の情報処理装置から送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記写像関数に基づき修正して音声認識結果を構築する第2の情報処理装置と
    を有することを特徴とする音声認識システム。
  3. ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理手段を有する複数の情報処理装置を備え、
    前記音声認識処理手段を有する情報処理装置に対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
    前記音声認識処理手段を有する情報処理装置は、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、
    前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築する
    ことを特徴とする音声認識システム。
  4. 請求項2又は3に記載の音声認識システムであって、
    写像関数Φ={φ}が、
    データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、
    前記音声認識処理手段が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、またはその誤差が常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
    ことを特徴とする音声認識システム。
  5. 請求項2又は3に記載の音声認識システムであって、
    前記音声認識処理手段が用いるデータ構造は、
    そのデータ構造に含まれる特定のデータを参照するインデックスに関して、
    あるインデックスと参照先との参照関係を指す
    ことを特徴とする音声認識システム。
  6. 請求項2又は3に記載の音声認識システムであって、
    前記写像関数は、
    あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
    かつ、
    写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
    ことを保証する関数である
    ことを特徴とする音声認識システム。
  7. 請求項6に記載の音声認識システムであって、
    前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルである
    ことを特徴とする音声認識システム。
  8. 請求項6に記載の音声認識システムであって、
    前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する
    ことを特徴とする音声認識システム。
  9. 請求項2ないし8の何れか一項に記載の音声認識システムであって、
    前記写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている
    ことを特徴とする音声認識システム。
  10. 請求項2ないし8の何れか一項に記載の音声認識システムであって、
    前記音声認識処理手段で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている
    ことを特徴とする音声認識システム。
  11. 請求項10に記載の音声認識システムであって、
    特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、
    かつ、
    音響モデルの各特徴量に結び付けられたモデルへのインデックスを、音声認識対象である音響を入力する前記装置が与える写像関数を用いて写像する
    ことを特徴とする音声認識システム。
  12. 請求項11に記載の音声認識システムであって、
    音響モデルに含まれる音素へのインデックスである音素IDを、前記音響を入力する装置が与える写像関数を用いて写像し、
    かつ、
    言語モデルに含まれる各単語の読みを示す音素ID列を、前記音響を入力する装置が与える写像関数を用いて写像し、
    かつ、
    前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
    ことを特徴とする音声認識システム。
  13. 請求項12に記載の音声認識システムであって、
    言語モデルに含まれる各単語へのインデックスである単語IDを、前記音響を入力する装置が与える写像関数を用いて写像する
    ことを特徴とする音声認識システム。
  14. 請求項2ないし8の何れか一項に記載の音声認識システムであって、
    音声データを入力する情報処理装置は、少なくとも音響尤度算出手段を備え、
    言語モデルに含まれる各単語の読みを示す音素ID列を前記情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
    かつ、
    音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記情報処理装置が与える写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、
    写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索手段を有する情報処理装置に送信する
    ことを特徴とする音声認識システム。
  15. 請求項2ないし14の何れか一項に記載の音声認識システムであって、
    音声データを入力する情報処理装置は、音声データをブロックに分割し、
    分割したブロック間の時系列を、前記音声データを入力する情報処理装置が与える写像関数を用いて写像し、
    写像後の時系列に従って前記音声データのブロックを音声認識を行う情報処理装置に送信し、
    前記音声認識を行う情報処理装置から、特徴ベクトルまたは音素IDと音響尤度の組の配列のいずれかを受け取り、
    前記音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する
    ことを特徴とする音声認識システム。
  16. ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムにネットワークを介して接続する通信手段と、
    前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、
    変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果修正することで、音声認識結果を構築する認識結果構築手段
    を有することを特徴とする音声認識要求装置。
  17. ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムに ネットワークを介して接続する通信手段と、
    前記音声認識処理手段の音声認識に用いるデータを、前記音声認識システムの知らない写像関数を用いて写像する情報変換手段と、
    写像されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記写像関数に基づき修正して構築する認識結果構築手段
    を有することを特徴とする音声認識要求装置。
  18. 請求項17記載の音声認識要求装置であって、
    前記情報変換手段は、前記音声認識処理手段に対して送信する音声認識に用いるデータのデータ構造を、そのデータ構造に含まれる特定のデータを参照するインデックスに関して、所定のインデックスと参照先との参照関係を指すように写像する
    ことを特徴とする音声認識要求装置。
  19. 請求項17記載の音声認識要求装置であって、
    前記写像関数は、
    あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
    かつ、
    写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
    ことを保証する関数である
    ことを特徴とする音声認識要求装置。
  20. 請求項17記載の音声認識要求装置であって、
    特徴ベクトルに含まれる各特徴量を指すインデックスを、前記写像関数を用いて写像し、
    かつ、
    音響モデルの各特徴量に結び付けられたモデルへのインデックスを、前記写像関数を用いて写像する
    ことを特徴とする音声認識要求装置。
  21. 請求項17記載の音声認識要求装置であって、
    音響モデルに含まれる音素へのインデックスである音素IDを、前記写像関数を用いて写像し、
    かつ、
    言語モデルに含まれる各単語の読みを示す音素ID列を、前記写像関数を用いて写像し、
    かつ、
    前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
    ことを特徴とする音声認識要求装置。
  22. 請求項17ないし請求項21の何れか一項に記載の音声認識要求装置であって、
    音響尤度算出手段を備え、
    言語モデルに含まれる各単語の読みを示す音素ID列を前記写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
    かつ、
    音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、
    写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索手段を有する音声認識システムに送信する
    ことを特徴とする音声認識要求装置。
  23. 請求項17ないし請求項21の何れか一項に記載の音声認識要求装置であって、
    音声認識対象である音響の音声データを複数のブロックに分割し、
    分割したブロック間の時系列を、前記写像関数を用いて写像し、
    写像後の時系列に従って前記音声データのブロックを音声認識システムに送信し、
    前記音声認識システムから送信されてきた音声認識の結果データを受け取り、前記写像関数の逆関数を用いてこれらの時系列を復元する
    ことを特徴とする音声認識要求装置。
  24. 音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを格納する手段と、
    前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、音声認識に用いる各モデルのデータ構造を 秘匿性を有するデータ構造に変換する第1の変換手段と、
    識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
    ネットワークを介して音声認識システムに変換したデータを送信する手段と、
    ネットワークを介して音声認識システムから受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段と
    を有することを特徴とする情報処理装置。
  25. 音声認識処理手段を有する音声認識システムと前記音声認識システムに対して音声認識を要求する音声認識要求装置とをネットワークで相互に接続し、
    前記音声認識要求装置は、前記音声認識システムに対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
    前記音声認識システムは、前記音声認識要求装置に対して、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、
    前記音声認識要求装置は、前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築する
    ことを特徴とする音声認識方法。
  26. 請求項25に記載の音声認識方法であって、
    前記音声認識要求装置から前記音声認識システムに対して変換して送信する前記音声認識処理手段で用いるデータの構造は、音響モデルの構造、言語モデルの構造、及び特徴ベクトルの構造の少なくともいずれかが写像された構造である
    ことを特徴とする音声認識方法。
  27. 請求項25又は26に記載の音声認識方法であって、
    前記写像関数は、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフル 又は、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する関数である
    ことを特徴とする音声認識方法。
  28. 請求項25ないし27の何れか一項に記載の音声認識方法であって、
    写像関数Φ={φ}が、
    データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、
    前記音声認識処理手段が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、またはその誤差が常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
    ことを特徴とする音声認識方法。
  29. 情報処理装置の制御部を、
    ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムと、ネットワークを介して接続する通信手段と、
    前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、
    変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果修正することで、音声認識結果を構築する認識結果構築手段
    として機能させることを特徴とする音声認識用プログラム。
  30. 音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを管理格納する手段と、ネットワークを介して音声認識システムに変換したデータを送信する手段とを有する情報処理装置の制御部を、
    前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、
    音声認識に用いる各モデルのデータ構造を 秘匿性を有するデータ構造に変換する第1の変換手段と、
    識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
    ネットワークを介して前記音声認識システムから受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段
    として機能させることを特徴とする音声認識用プログラム。
JP2011538353A 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム Active JP5621993B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011538353A JP5621993B2 (ja) 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009247874 2009-10-28
JP2009247874 2009-10-28
JP2011538353A JP5621993B2 (ja) 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
PCT/JP2010/068230 WO2011052412A1 (ja) 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JPWO2011052412A1 JPWO2011052412A1 (ja) 2013-03-21
JP5621993B2 true JP5621993B2 (ja) 2014-11-12

Family

ID=43921838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011538353A Active JP5621993B2 (ja) 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム

Country Status (3)

Country Link
US (3) US20120215528A1 (ja)
JP (1) JP5621993B2 (ja)
WO (1) WO2011052412A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
JP5868544B2 (ja) * 2013-03-06 2016-02-24 三菱電機株式会社 音声認識装置および音声認識方法
US9269355B1 (en) * 2013-03-14 2016-02-23 Amazon Technologies, Inc. Load balancing for automatic speech recognition
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
CN105981099A (zh) * 2014-02-06 2016-09-28 三菱电机株式会社 语音检索装置和语音检索方法
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
JP6591217B2 (ja) * 2014-07-16 2019-10-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
EP4350558A2 (en) 2014-11-07 2024-04-10 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus
CN111787012B (zh) * 2014-11-07 2022-10-14 三星电子株式会社 语音信号处理方法及实现此的终端和服务器
US10065124B2 (en) * 2016-01-15 2018-09-04 Disney Enterprises, Inc. Interacting with a remote participant through control of the voice of a toy device
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US9997173B2 (en) * 2016-03-14 2018-06-12 Apple Inc. System and method for performing automatic gain control using an accelerometer in a headset
JP6724511B2 (ja) * 2016-04-12 2020-07-15 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
JP6731609B2 (ja) * 2016-05-13 2020-07-29 パナソニックIpマネジメント株式会社 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム
US9761227B1 (en) * 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
WO2018061824A1 (ja) * 2016-09-29 2018-04-05 日本電気株式会社 情報処理装置、情報処理方法およびプログラム記録媒体
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
JP6599914B2 (ja) * 2017-03-09 2019-10-30 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP7088645B2 (ja) * 2017-09-20 2022-06-21 株式会社野村総合研究所 データ変換装置
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
EP3770777A4 (en) * 2018-03-20 2021-05-05 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS
JP7211103B2 (ja) * 2019-01-24 2023-01-24 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
JP6849977B2 (ja) * 2019-09-11 2021-03-31 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
KR20210044985A (ko) * 2019-10-16 2021-04-26 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
CN111081256A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 数字串声纹密码验证方法及系统
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치
US11900921B1 (en) 2020-10-26 2024-02-13 Amazon Technologies, Inc. Multi-device speech processing
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム
WO2022215140A1 (ja) * 2021-04-05 2022-10-13 株式会社KPMG Ignition Tokyo プログラム、情報処理装置、及び情報処理方法
US11721347B1 (en) * 2021-06-29 2023-08-08 Amazon Technologies, Inc. Intermediate data for inter-device speech processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120293A (ja) * 1995-10-24 1997-05-06 Ricoh Co Ltd 話者認識システムおよび話者認識方法
JP2003005949A (ja) * 2001-06-20 2003-01-10 Nec Corp サーバ・クライアント型音声認識装置及び方法
JP2004530149A (ja) * 2001-02-13 2004-09-30 トムソン ライセンシング ソシエテ アノニム 音声認識のための処理、モジュール、装置及びサーバ
JP2005514682A (ja) * 2001-12-20 2005-05-19 ミュレックス・セキュリティーズ・リミテッド グローバル通信ネットワーク内で情報を捕捉し、マッチングしかつリンクするためのシステム及び方法
JP2005331616A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
JP2006309356A (ja) * 2005-04-26 2006-11-09 Mark-I Inc スケジュール等管理システムおよびスケジュール等管理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893057A (en) 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US6292782B1 (en) * 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8407048B2 (en) * 2008-05-27 2013-03-26 Qualcomm Incorporated Method and system for transcribing telephone conversation to text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120293A (ja) * 1995-10-24 1997-05-06 Ricoh Co Ltd 話者認識システムおよび話者認識方法
JP2004530149A (ja) * 2001-02-13 2004-09-30 トムソン ライセンシング ソシエテ アノニム 音声認識のための処理、モジュール、装置及びサーバ
JP2003005949A (ja) * 2001-06-20 2003-01-10 Nec Corp サーバ・クライアント型音声認識装置及び方法
JP2005514682A (ja) * 2001-12-20 2005-05-19 ミュレックス・セキュリティーズ・リミテッド グローバル通信ネットワーク内で情報を捕捉し、マッチングしかつリンクするためのシステム及び方法
JP2005331616A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
JP2006309356A (ja) * 2005-04-26 2006-11-09 Mark-I Inc スケジュール等管理システムおよびスケジュール等管理方法

Also Published As

Publication number Publication date
WO2011052412A1 (ja) 2011-05-05
US20120215528A1 (en) 2012-08-23
US20140058729A1 (en) 2014-02-27
US20160358608A1 (en) 2016-12-08
JPWO2011052412A1 (ja) 2013-03-21
US9905227B2 (en) 2018-02-27
US9520129B2 (en) 2016-12-13

Similar Documents

Publication Publication Date Title
JP5621993B2 (ja) 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
Tomashenko et al. Introducing the VoicePrivacy initiative
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JP7106680B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
Le et al. Deep shallow fusion for RNN-T personalization
JP6469252B2 (ja) アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体
US11564090B1 (en) Audio verification
US6182038B1 (en) Context dependent phoneme networks for encoding speech information
US9293137B2 (en) Apparatus and method for speech recognition
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
CN113724718B (zh) 目标音频的输出方法及装置、系统
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
KR20230107860A (ko) 실제 노이즈를 사용한 음성 개인화 및 연합 트레이닝
WO2023226260A1 (zh) 语音生成方法及装置、存储介质、电子设备
Aloufi et al. Paralinguistic privacy protection at the edge
JP2023162265A (ja) テキストエコー消去
KR102500255B1 (ko) 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템
JP4769121B2 (ja) サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
JP7146038B2 (ja) 音声認識システム及び方法
Jalal et al. On-Device Speaker Anonymization of Acoustic Embeddings for ASR based onFlexible Location Gradient Reversal Layer
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
JP6965846B2 (ja) 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140909

R150 Certificate of patent or registration of utility model

Ref document number: 5621993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150