JP5621993B2 - 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム - Google Patents
音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム Download PDFInfo
- Publication number
- JP5621993B2 JP5621993B2 JP2011538353A JP2011538353A JP5621993B2 JP 5621993 B2 JP5621993 B2 JP 5621993B2 JP 2011538353 A JP2011538353 A JP 2011538353A JP 2011538353 A JP2011538353 A JP 2011538353A JP 5621993 B2 JP5621993 B2 JP 5621993B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- data
- result
- mapping function
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 67
- 230000006870 function Effects 0.000 claims description 133
- 238000013507 mapping Methods 0.000 claims description 130
- 238000012545 processing Methods 0.000 claims description 121
- 238000006243 chemical reaction Methods 0.000 claims description 115
- 239000013598 vector Substances 0.000 claims description 91
- 230000010365 information processing Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 43
- 238000010276 construction Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 description 26
- 238000000605 extraction Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Description
音声認識システムに入力された音響(音声)には、実際に発話している区間(音声区間)とそうでない区間(無音区間)とが混在しているので、発話区間抽出部を用いてこのうち音声区間のみを取り出す。
第1の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容(音声信号)が第三者に漏洩する危険が高まることである。これは、例え通信路上で音声データを暗号化して通信の秘密を守ったとしても、少なくとも音声認識サービスを提供する音声認識サーバ上では音声データは復号化されるためである。
・ 秘匿したい内容(情報)は、発話した内容(データ化した情報)そのものと、発話する可能性のある内容(発話に関連する情報:音声認識に用いる情報)である
・ 前者は音声を復元することで漏洩し、後者は言語モデルに含まれる語彙情報を解読することなどで漏洩する
・ 音声は音響特徴量から不完全ながら復元可能である
・ 音声そのものが復元できないとしても、音響特徴量の詳細を知っていれば、相応の音声認識処理を行うことで不完全ながら発話内容を復元可能である
・ 通常、音声認識サーバ提供者は、自らが提供する認識サーバの認識処理部がどのような特徴量を用いて動作しているか知っている
→ゆえに、少なくとも音声認識サーバ提供者は、音響特徴量から発話内容を復元可能である
・ 言語モデルに含まれる語彙情報は、通常、少なくとも読み情報を含み、多くの場合さらに表記文字列をも含む
・ 通常、読み情報は、使用される音響モデルに応じた音素ID列に所与の手続きで変換可能なデータであるか、または音素ID列そのものである
・ 前者の場合、その変換手続きは、認識サーバの認識処理部が知っているはずである
→ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
・ 後者の場合、音素IDは、一見すると人間には解読不能であるものの、音響モデルの詳細を知る者であれば、各音素IDが指し示す音素を把握できる
・ 通常、音響モデルの構築は、ユーザでは困難であり、一般に、音声認識サーバ提供者あるいは別の提供者によって構築され、提供される
→すなわち、音声認識サーバ提供者または別の音響モデル提供者は、音素IDの詳細を知っている
→換言すると、音声認識サーバ提供者は、ユーザの関知しない範囲で音素IDの詳細を知ることが可能である。
→ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
以上のことから、ネットワークを介して秘匿音声認識を実施するには、一般的な通信路での音声データの漏洩防止に加えて
・ 音声認識サーバ提供者が詳細を容易に知りえない音響特徴量を用いる
・ 音声認識サーバ提供者が詳細を容易に知りえない音素IDを用いる
のいずれか、または両方の対処が必要であると考える。
クライアント110は、発話抽出部111、特徴ベクトル抽出部112、特徴ベクトル変換部113、音素ID変換部114、データ送信部115、探索結果受信部116、認識結果構築部117を有する。また、データベース118を有し、音響モデル、言語モデル、変換・再構築用データを格納する。変換・再構築用データは、特徴ベクトル変換部113、音素ID変換部114、認識結果構築部117で使用される。尚、変換・再構築用データは、特徴ベクトル変換部113、音素ID変換部114、認識結果構築部117に予め設定しておいても良い。
特徴ベクトル抽出部112は、音声データからケプストラム、パワー、Δパワー等の音響特徴量の集合(特徴ベクトル)を抽出する。
特徴ベクトル変換部113は、特徴ベクトルを、その内容を第3者が知得不能な形式のデータに変換する。このとき、特徴ベクトル変換部113は、サーバ120の音響尤度算出部122aが適切に変換された音響モデルを用いて変換後のデータに対して音響尤度計算を行った場合、その出力結果は、変換前の音響モデルと特徴ベクトルの組み合わせによって得られる出力結果と同一であるか、または近似した値になることが保証されるように、変換処理を行う。変換の例としては、特徴ベクトルの並び順のシャッフルや、冗長かつ計算上は無視できるような次元の付与などが挙げられる。
探索結果受信部116は、最尤な単語ID列等の、音声認識部122の出力をサーバ120の探索結果送信部123を介して受信する。
認識結果構築部117は、探索結果受信部116から受信した最尤な単語ID列に対して、データベース118に記録された変換・再構築用データを参照して音素ID変換部114によって施した変換を復元する。例えば単語IDがシャッフルされていた場合は、その逆変換を行って変換前の言語モデルにおける単語IDを再構築する。このように復元された単語IDを用いて変換前の言語モデルを参照することで、認識結果構築部117は、既存システムの認識結果と同様となる認識結果を構築する。即ち、音声認識結果に影響をほぼ与えずに、音声認識を行うサーバ120に対して、音声認識に用いるデータの内容を知得不能とできる。
音響尤度算出部122aは、音響モデルの各音素に対する特徴ベクトルの音響尤度を求める。仮説探索部122bは、音響尤度、言語尤度を用いて、最尤な単語ID列(=音素ID列)を求める。尚、これらの処理を一度に評価する実装としても良い。
探索結果送信部123は、最尤な単語ID列等の、音声認識部122の出力をクライアント110に送信する。
次に、本実施の形態の全体の動作例について図2を用いて詳細に説明する。以下で、(C)は、クライアント装置を指し、(S)は、サーバ装置を指す。クライアント装置とサーバ装置は、音響の入力や、音声認識の開始指示を受けると、音声認識を開始して、以下のように動作する。
尚、上記1から2の処理と上記3から6の処理は、並列的に行えばよい。
8−1.(S)音響尤度算出部122aでは、各特徴ベクトルについて、音響モデル(変換後音響モデル)に含まれる各音素に対する音響尤度を求める処理が行なわれる。
8−2.(S)また、音響尤度算出部122aでは、言語モデル(変換後言語モデル)に含まれているいずれかの単語の読みにあたる音素ID列に対しての単語(単語ID)が参照され、同じく言語モデルに含まれる単語ID列の妥当性の情報から得られる尤度(言語尤度)の算定処理が成される。
8−3.(S)仮説探索部122bでは、上記の音響尤度および言語尤度を参照しつつ、特徴ベクトル列に対して最も大きな尤度を与える単語ID列の探索処理が行なわれる。
8−4.(S)なお、仮説探索部122bでは、必要に応じて任意のリスコアリング処理を行い、その結果として最大スコアとなった単語ID列を探索結果としてもよい。
特徴ベクトル変換部113および音素ID変換部114における特徴ベクトルと音響モデルの写像関数を用いる変換は、音声認識部122、なかでも特に音響尤度算出部122aの動作に関係する。以下では、例示として写像関数を用いた場合の正当な処理結果に修復する過程を説明する。
l_A(V) = D(V, A) = ( D(V, A_1), D(V, A_2), ..., D(V, A_M) ) = ( l_{A_1}, ..., l_{A_M} )
なる音響尤度関数 D を適用する処理として表現できる。
l_A(V) = D(V, A) = D(f_v(V), f_a(A)) = l_{f_a(A)}(f_v(V))
であるので、写像関数 F で変換された特徴ベクトルと音響モデルを用いても、変換前とまったく同じ認識結果を得ることができる。
特徴ベクトルが N 個の特徴量のベクトルであるとすると次式で表せる。
V = (v_1, ..., v_N)
いま、ある音素に対する特徴ベクトルの音響尤度は、特徴ベクトルの各要素に対する尤度の総和で与えられるとすると次式が成り立つ。
l_{A_j}(V) = D(V, A_j) = D(v_1, A_{1,j}) + ... + D(v_N, A_{N,j}) = \sum_{i,j}{D(v_i, A_{i,j})}
ここで f_v が特徴ベクトルの各要素の添え字をひとつずつずらし、N番目の要素については0番目に移すとする。即ち、次式のようにシフトさせる。
f_v((v_1, ..., v_N)) = (v_N, v_1, ..., v_{N-1})
一方、f_a は、音響モデルの中の i 番目の特徴量に対するモデルを i+1 番目にずらす関数であるなら、
f_a((A_{1,j}, ..., A_{N,j})) = ((A_{N,j}, A_{1,j}, ..., A_{N-1,j}))
となり、このとき、
D(f_v(V), f_a(A_j)) = D(v_N, A_{N,j}) + D(v_1, A_{1,j}) + ... + D(v_{N-1}, A_{N-1,j})
= \sum_{i,j}{D(v_i, A_{i,j})} = D(V, A_j)
となる。
D(v_i, \alpha A_{i,j}) = \alpha D(v_i, A_{i,j})
かつ
\sum_k{ D(c_k, c_k^{-1}) } = 0
であるとする。ここで c_k および c_k^{-1} は上記の式を満たす既知の値の組である。
f_v((v_1, ..., v_N)) = (v_1, ..., v_N, c_1, ..., c_L, v_1)
f_a((A_{1,j}, ..., A_{N,j})) = (A_{1,j}/2, ..., A_{N,j}, c_1^{-1}, ..., c_L^{-1}, A_{1,j}/2)
と与えられれば、
D(f_v(V), f_a(A_j)) = D(v_1, A_{1,j}/2) + ... + D(v_N, A_{N,j}) + D(c_1, c_1^{-1}) + ... D(c_L, c_L^{-1}) + D(v_1, A_{1,j}/2)
= D(v_1, A_{1,j})/2 + ... + D(v_N, A_{N,j}) + 0 + D(v_1, A_{1,j})/2
= \sum_{i,j}{D(v_i, A_{i,j})} = D(V, A_j)
となる。
また、一般に音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、各特徴量に対する音響尤度関数 D(v_i, A_{i,j}) も線形であるなら、ある特徴量を複数の要素に分割することで、特徴ベクトルの見た目の次元数を増やすことができる。
音響尤度算出部122aがこのような性質を持つ音響尤度関数のもとに成り立っているのであれば、以上示したような「特徴ベクトルのシャッフル」や「見た目の次元数の拡張」の組み合わせによって、本発明の実施の形態が要求するような任意の写像関数をいくつでも与えることができる。
音素ID変換部114における音響モデルと言語モデルの変換は、音声認識部122中に関係し、特に仮説探索部122bの動作に関係する。
換言すれば、 M 個の単語を持つ言語モデル L について、L に含まれるすべての単語 w に関して 0, 1 のいずれかを返すルックアップ関数は、次式のように表現できる。
S_L(a_1, ..., a_N) = T(L, a_1, ..., a_N) = { e_1, ..., e_M }
where e_j \in {0, 1}
ここで、添え字 j に対する e_j は、単語 w_j がその音素列によって形成される(=1)か否か(=0)を示す。
一見するとこの関数は非常に計算負荷が高いように見えるが、TRIE構造などを用いて高速に求めることができる。
実際には音素そのものの列の変わりに音素ID列を、単語そのものの変わりに単語IDをそれぞれ用いることが多いが、どちらも音素や単語と一対一に対応するものであるから、以下では音素と単語についてのみ記述する。
T(L, A, a_1, ..., a_N) = T(g_l(L), g_a(A), g_a(a_1), ..., g_a(a_N))
上記式が成り立つならば、下記式が成立するので、写像関数 G で変換された音響モデルと言語モデルを用いても、変換前の音響モデルと言語モデルを用いた場合とまったく同じ認識結果を得ることがわかる。
S_{L,A}(a_1, ..., a_N) = T(L, A, a_1, ..., a_N)
= T(g_l(L), g_a(A), g_a(a_1), ..., g_a(a_N))
= S_{g_l(L), g_a(A)}(g_a(a_1), ..., g_a(a_N))
上述の特徴ベクトルに対する写像と同様に、音素IDや単語IDをシャッフルするような写像はこの性質を満たす。
要件:
変換に用いられる写像関数Φ={φ}は、
データ構造Xをφ_x{X}に、
データ構造Yをφ_y{Y}に、
それぞれ写像するとき、
認識処理部が用いる関数F(X,Y)について
F(X,Y)とF(φ_x{X},φ_y{Y})
の値が常に等しい。
Fの具体的な例は、
特徴ベクトル+音響モデル → 音響尤度
このとき、Xは特徴ベクトル,Yは音響モデル
および、
音素ID列+音響モデル+言語モデル → 単語成立ベクタ
このとき、Xは音響モデル,Yは言語モデル
ということである。
F(X,Y)とF(φ_x{X},φ_y{Y})の等価性ではなく、
F(X,Y)とF(φ_x{X},φ_y{Y})の比が常に一定である、
という性質になる。したがって、そのような音声認識部122を用いる場合、上記の要件は緩和される。また、どのような音声認識部を用いる場合であっても、F(X,Y)とF(φ_x{X},φ_y{Y})の誤差が十分に小さければ、それも認識精度にはほとんど影響しないので、許容できる。
音素ID変換部114における言語モデルの変換では、言語モデルに含まれる各単語に関する情報のうち、音素ID列の情報(この音素IDも上述のように写像関数によって変換されている)以外は基本的にすべて削除する。これは秘匿性をもたらすだけでなく、通信量の削減にも効果がある。
ただし、認識処理部122が参照する他のデータ(音声認識処理結果に影響する情報)があれば、それは削除しないことが望ましい。例えば単語の品詞情報やその単語が属すクラス情報などのデータが挙げられる。尚、単語情報の漏洩にかかわるようなデータを要求する音声認識処理部122は、音声認識処理に用いることを避けるべきである。例えば、単語の表示文字列を要求するような認識処理部122は、本実施の形態では用いないこととする。どうしてもそのようなデータを要求する音声認識処理部を利用したい場合は、音素IDや単語IDと同様に写像するなどの方法で回避するようにしてみてもよい。
特徴ベクトル変換は新たな特徴ベクトルが得られるたびに毎回実行される。
音響モデルと言語モデルの音素ID変換に関しては、上述のように、音声認識に先立って1回行えばよい。
そこで、写像関数を別のものに変更する等、変換動作の振る舞いを定期的に切り替えることで第3者に対する秘匿性が高まる。
切替えるタイミングや頻度は、頻繁に切り替えることによって発生するオーバヘッド(変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量)を考慮した値とすれば良い。また、無音区間のように、処理量や通信量が低下したタイミングで適時改変するようにしても良い。
写像関数を用いた変換を行なう実施の形態は、特徴ベクトルを写像関数によって変換した後にサーバへ送信するよう構成されているため、通信路あるいはサーバ上で第三者が特徴ベクトルを入手したとしても、直ちにこれを音声に復元することを困難にできる。
その一方で、音響モデルも、変換前の特徴ベクトルと同じ音響尤度を返すように選ばれた写像関数によって変換されているため、特徴ベクトルを変換しなかった場合と同じ音響尤度が算出されること、引いては同じ認識結果が得られることが保証される。
複数の音声認識サーバは、それぞれ異なる変換された音響認識情報データに対応している(図中タイプA,B,C)。音声認識を要求するサーバは、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
このような構成であっても、音声認識を要求するサーバで取得された音声を第3者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。
音声認識を要求するサーバは、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。
音声認識を要求する情報処理装置は、音響尤度検出部を有し、距離計算を行える構成である。
複数の音声認識サーバは、それぞれ要求された音声認識処理(音響尤度検出処理、仮説探索処理)を実施し、その結果を送り返す。音声認識を要求する要求端末は、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
このような構成であっても、音声認識を要求する要求端末で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。
その後、要求端末は、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。
音声認識を要求する情報処理装置は、入力を受けた音響(音声)を時分割して特徴ベクトルを抽出する発話分割部を有する。尚、特徴ベクトルの時分割に変えて、音声の文節やワード単位で分割することとしても良い。
音声認識を要求する情報処理装置(要求サーバ)は、分割した音声データの順序関係をシャッフル等した後、そのデータに対して音声認識用情報としての変換を加えた後、複数の音声認識サーバに分けて送信し、それぞれの音声認識サーバから送り返されてきた結果をまとめて再構築する。
このような構成であっても、音声認識を要求する端末で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。
このとき、必要に応じて時分割間隔やシャッフルの仕方、送信する音響認識サーバを切替える。
第6の実施の形態は、クライアントとなる秘匿音声識別装置上で抽出した音声データまたは特徴量を分割し、その順序関係をシャッフルした上で、各サーバ側に音声認識を要求する。秘匿音声識別装置は、各サーバからの音声認識結果に対して、送信前に加えたシャッフルに対する逆処理を加え、正当な認識結果である内容を再構築する。即ち、秘匿音声識別装置が特徴ベクトル抽出までの処理と再構築処理を実施し、それ以外をサーバ側で実施する。
このように動作させることによって、通信負荷と秘匿音声識別装置の負荷を低減できる。
第2の音声認識部は、認識結果構築部内に設けられ、サーバ上の音声認識部(第1の音声認識部)の出力した認識結果を入力として用いる。これは尤度最大の単語ID列(=最尤単語ID列)でも良いし、尤度上位N位(Nベスト)の単語ID列でも良いし、ワードグラフでもよい。ワードグラフには、探索処理の途上で生成されるグラフ構造、各アークに単語とその尤度(言語尤度と音響尤度のどちらか、あるいは両方、または信頼度等その他の尺度のスコア)が割り当てられており、探索処理はこの尤度の総和が最大になるパスを見つける処理になる。
認識結果構築部では、これらを単語列に変換し、さらにそこから読み情報を用いて音素列に変換する。このように処理することによって、最尤単語ID列を入力とした場合はただひとつの音素列が得られ、それ以外の場合は複数の音素列が得られる。
一方で、漏洩が懸念されて削除した単語および単語連鎖も音素列に変換する。そして、第2の音声認識部では、サーバから返却された認識結果に対して、その音素列を取り出し、その列中から削除した単語および単語連鎖の音素列にマッチする区間を探索処理する。
この探索処理は、ある音素と別の音素の弁別困難度の表であるコンフュージョンマトリクスを別途与えておけば、厳密なマッチだけではなく曖昧なマッチも行える。例えばfとvの識別の困難度が高い場合、削除した区間のマッチング処理でfとvさえ一致すればマッチすると看做せる場合、それらを同一と看做してマッチ扱いにすれば良い。
このように構成することによって、言語モデルを特に変換せずに秘匿性のあるクライアント−サーバ型音声認識を行う手段として有効に動作する。
第1の効果は、話者の発話内容が第三者に漏洩する危険性を低下させることができる。その理由は、音声データから変換された中間データ(特徴ベクトル、音素ID列、単語列ID列)を第三者が取得したとしても、これを復元するには音素ID等がどのように変換されたのかその詳細を知る必要があるため、適宜変換を行うことで第三者による音声データの復元を困難にできるためである。
111 発話抽出部(発話抽出手段)
112 特徴ベクトル抽出部(特徴ベクトル抽出手段)
113 特徴ベクトル変換部(特徴ベクトル変換手段)
114 音素ID変換部(音素ID変換手段)
115 データ送信部(データ送信手段)
116 探索結果受信部(探索結果受信手段)
117 認識結果構築部(認識結果構築手段)
118 データベース(データ記録手段)
120 サーバ(音声認識装置)
121 データ受信部(データ受信手段)
122 音声認識部(音声認識手段)
122a 音響尤度算出部(音響尤度算出手段)
122b 仮説探索部(仮説探索手段)
123 探索結果送信部(探索結果送信手段)
Claims (30)
- ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第1の情報処理装置と、
前記第1の情報処理装置とネットワークを介して接続し、
前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換して送信し、
前記第1の情報処理装置から送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する第2の情報処理装置と
を有することを特徴とする音声認識システム。 - ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた第1の情報処理装置と、
前記第1の情報処理装置とネットワークを介して接続し、前記音声認識処理手段の音声認識に用いるデータを、前記第1の情報処理装置の知らない写像関数を用いて写像して送信すると共に、前記第1の情報処理装置から送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記写像関数に基づき修正して音声認識結果を構築する第2の情報処理装置と
を有することを特徴とする音声認識システム。 - ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理手段を有する複数の情報処理装置を備え、
前記音声認識処理手段を有する情報処理装置に対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
前記音声認識処理手段を有する情報処理装置は、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、
前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築する
ことを特徴とする音声認識システム。 - 請求項2又は3に記載の音声認識システムであって、
写像関数Φ={φ}が、
データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、
前記音声認識処理手段が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、またはその誤差が常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
ことを特徴とする音声認識システム。 - 請求項2又は3に記載の音声認識システムであって、
前記音声認識処理手段が用いるデータ構造は、
そのデータ構造に含まれる特定のデータを参照するインデックスに関して、
あるインデックスと参照先との参照関係を指す
ことを特徴とする音声認識システム。 - 請求項2又は3に記載の音声認識システムであって、
前記写像関数は、
あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
かつ、
写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
ことを保証する関数である
ことを特徴とする音声認識システム。 - 請求項6に記載の音声認識システムであって、
前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルである
ことを特徴とする音声認識システム。 - 請求項6に記載の音声認識システムであって、
前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する
ことを特徴とする音声認識システム。 - 請求項2ないし8の何れか一項に記載の音声認識システムであって、
前記写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている
ことを特徴とする音声認識システム。 - 請求項2ないし8の何れか一項に記載の音声認識システムであって、
前記音声認識処理手段で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている
ことを特徴とする音声認識システム。 - 請求項10に記載の音声認識システムであって、
特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、
かつ、
音響モデルの各特徴量に結び付けられたモデルへのインデックスを、音声認識対象である音響を入力する前記装置が与える写像関数を用いて写像する
ことを特徴とする音声認識システム。 - 請求項11に記載の音声認識システムであって、
音響モデルに含まれる音素へのインデックスである音素IDを、前記音響を入力する装置が与える写像関数を用いて写像し、
かつ、
言語モデルに含まれる各単語の読みを示す音素ID列を、前記音響を入力する装置が与える写像関数を用いて写像し、
かつ、
前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
ことを特徴とする音声認識システム。 - 請求項12に記載の音声認識システムであって、
言語モデルに含まれる各単語へのインデックスである単語IDを、前記音響を入力する装置が与える写像関数を用いて写像する
ことを特徴とする音声認識システム。 - 請求項2ないし8の何れか一項に記載の音声認識システムであって、
音声データを入力する情報処理装置は、少なくとも音響尤度算出手段を備え、
言語モデルに含まれる各単語の読みを示す音素ID列を前記情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
かつ、
音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記情報処理装置が与える写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、
写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索手段を有する情報処理装置に送信する
ことを特徴とする音声認識システム。 - 請求項2ないし14の何れか一項に記載の音声認識システムであって、
音声データを入力する情報処理装置は、音声データをブロックに分割し、
分割したブロック間の時系列を、前記音声データを入力する情報処理装置が与える写像関数を用いて写像し、
写像後の時系列に従って前記音声データのブロック群を音声認識を行う情報処理装置に送信し、
前記音声認識を行う情報処理装置から、特徴ベクトルまたは音素IDと音響尤度の組の配列のいずれかを受け取り、
前記音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する
ことを特徴とする音声認識システム。 - ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムにネットワークを介して接続する通信手段と、
前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、
変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段と
を有することを特徴とする音声認識要求装置。 - ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムに ネットワークを介して接続する通信手段と、
前記音声認識処理手段の音声認識に用いるデータを、前記音声認識システムの知らない写像関数を用いて写像する情報変換手段と、
写像されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記写像関数に基づき修正して構築する認識結果構築手段と
を有することを特徴とする音声認識要求装置。 - 請求項17記載の音声認識要求装置であって、
前記情報変換手段は、前記音声認識処理手段に対して送信する音声認識に用いるデータのデータ構造を、そのデータ構造に含まれる特定のデータを参照するインデックスに関して、所定のインデックスと参照先との参照関係を指すように写像する
ことを特徴とする音声認識要求装置。 - 請求項17記載の音声認識要求装置であって、
前記写像関数は、
あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
かつ、
写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
ことを保証する関数である
ことを特徴とする音声認識要求装置。 - 請求項17記載の音声認識要求装置であって、
特徴ベクトルに含まれる各特徴量を指すインデックスを、前記写像関数を用いて写像し、
かつ、
音響モデルの各特徴量に結び付けられたモデルへのインデックスを、前記写像関数を用いて写像する
ことを特徴とする音声認識要求装置。 - 請求項17記載の音声認識要求装置であって、
音響モデルに含まれる音素へのインデックスである音素IDを、前記写像関数を用いて写像し、
かつ、
言語モデルに含まれる各単語の読みを示す音素ID列を、前記写像関数を用いて写像し、
かつ、
前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
ことを特徴とする音声認識要求装置。 - 請求項17ないし請求項21の何れか一項に記載の音声認識要求装置であって、
音響尤度算出手段を備え、
言語モデルに含まれる各単語の読みを示す音素ID列を前記写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
かつ、
音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、
写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索手段を有する音声認識システムに送信する
ことを特徴とする音声認識要求装置。 - 請求項17ないし請求項21の何れか一項に記載の音声認識要求装置であって、
音声認識対象である音響の音声データを複数のブロックに分割し、
分割したブロック間の時系列を、前記写像関数を用いて写像し、
写像後の時系列に従って前記音声データのブロック群を音声認識システムに送信し、
前記音声認識システムから送信されてきた音声認識の結果データを受け取り、前記写像関数の逆関数を用いてこれらの時系列を復元する
ことを特徴とする音声認識要求装置。 - 音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを格納する手段と、
前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、音声認識に用いる各モデルのデータ構造を 秘匿性を有するデータ構造に変換する第1の変換手段と、
識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
ネットワークを介して音声認識システムに変換したデータを送信する手段と、
ネットワークを介して音声認識システムから受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段と
を有することを特徴とする情報処理装置。 - 音声認識処理手段を有する音声認識システムと前記音声認識システムに対して音声認識を要求する音声認識要求装置とをネットワークで相互に接続し、
前記音声認識要求装置は、前記音声認識システムに対して、前記音声認識処理手段で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
前記音声認識システムは、前記音声認識要求装置に対して、前記写像関数を用いて変換されたデータ構造に基づいて音声認識処理を実施してその結果を送信し、
前記音声認識要求装置は、前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に、前記写像関数に基づき修正して音声認識結果を構築する
ことを特徴とする音声認識方法。 - 請求項25に記載の音声認識方法であって、
前記音声認識要求装置から前記音声認識システムに対して変換して送信する前記音声認識処理手段で用いるデータの構造は、音響モデルの構造、言語モデルの構造、及び特徴ベクトルの構造の少なくともいずれかが写像された構造である
ことを特徴とする音声認識方法。 - 請求項25又は26に記載の音声認識方法であって、
前記写像関数は、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフル 又は、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する関数である
ことを特徴とする音声認識方法。 - 請求項25ないし27の何れか一項に記載の音声認識方法であって、
写像関数Φ={φ}が、
データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、
前記音声認識処理手段が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、またはその誤差が常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
ことを特徴とする音声認識方法。 - 情報処理装置の制御部を、
ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理手段を備えた音声認識システムと、ネットワークを介して接続する通信手段と、
前記音声認識処理手段の音声認識に用いるデータを、その内容を自装置以外の第三者に知得不能で 且つ 前記音声認識処理手段が音声認識処理を行うことが可能な形式のデータにデータ変換する情報変換手段と、
変換されたデータに対して音声認識されて前記音声認識システムから送り返されてきた結果のデータを、前記変換を行わずに音声認識した結果と同様の結果に修正することで、音声認識結果を構築する認識結果構築手段
として機能させることを特徴とする音声認識用プログラム。 - 音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを管理格納する手段と、ネットワークを介して音声認識システムに変換したデータを送信する手段とを有する情報処理装置の制御部を、
前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、
音声認識に用いる各モデルのデータ構造を 秘匿性を有するデータ構造に変換する第1の変換手段と、
識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
ネットワークを介して前記音声認識システムから受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段
として機能させることを特徴とする音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011538353A JP5621993B2 (ja) | 2009-10-28 | 2010-10-12 | 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009247874 | 2009-10-28 | ||
JP2009247874 | 2009-10-28 | ||
PCT/JP2010/068230 WO2011052412A1 (ja) | 2009-10-28 | 2010-10-12 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
JP2011538353A JP5621993B2 (ja) | 2009-10-28 | 2010-10-12 | 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011052412A1 JPWO2011052412A1 (ja) | 2013-03-21 |
JP5621993B2 true JP5621993B2 (ja) | 2014-11-12 |
Family
ID=43921838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011538353A Active JP5621993B2 (ja) | 2009-10-28 | 2010-10-12 | 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム |
Country Status (3)
Country | Link |
---|---|
US (3) | US20120215528A1 (ja) |
JP (1) | JP5621993B2 (ja) |
WO (1) | WO2011052412A1 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
DE102012202407B4 (de) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
JP5868544B2 (ja) * | 2013-03-06 | 2016-02-24 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9269355B1 (en) * | 2013-03-14 | 2016-02-23 | Amazon Technologies, Inc. | Load balancing for automatic speech recognition |
US9317736B1 (en) * | 2013-05-08 | 2016-04-19 | Amazon Technologies, Inc. | Individual record verification based on features |
JP6188831B2 (ja) * | 2014-02-06 | 2017-08-30 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
JP6591217B2 (ja) * | 2014-07-16 | 2019-10-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識テキスト化システムの制御方法 |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
EP4350558A3 (en) | 2014-11-07 | 2024-06-19 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
EP3690879A3 (en) * | 2014-11-07 | 2020-08-26 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
US10065124B2 (en) * | 2016-01-15 | 2018-09-04 | Disney Enterprises, Inc. | Interacting with a remote participant through control of the voice of a toy device |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
US9997173B2 (en) * | 2016-03-14 | 2018-06-12 | Apple Inc. | System and method for performing automatic gain control using an accelerometer in a headset |
JP6724511B2 (ja) * | 2016-04-12 | 2020-07-15 | 富士通株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
US10192555B2 (en) * | 2016-04-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Dynamic speech recognition data evaluation |
JP6731609B2 (ja) * | 2016-05-13 | 2020-07-29 | パナソニックIpマネジメント株式会社 | データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム |
US9761227B1 (en) * | 2016-05-26 | 2017-09-12 | Nuance Communications, Inc. | Method and system for hybrid decoding for enhanced end-user privacy and low latency |
US20170365249A1 (en) * | 2016-06-21 | 2017-12-21 | Apple Inc. | System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector |
WO2018061824A1 (ja) * | 2016-09-29 | 2018-04-05 | 日本電気株式会社 | 情報処理装置、情報処理方法およびプログラム記録媒体 |
CN106601257B (zh) * | 2016-12-31 | 2020-05-26 | 联想(北京)有限公司 | 一种声音识别方法、设备和第一电子设备 |
JP6599914B2 (ja) * | 2017-03-09 | 2019-10-30 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP7088645B2 (ja) * | 2017-09-20 | 2022-06-21 | 株式会社野村総合研究所 | データ変換装置 |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
US20210012003A1 (en) * | 2018-03-20 | 2021-01-14 | Sony Corporation | Information processing apparatus and information processing method |
JP7211103B2 (ja) * | 2019-01-24 | 2023-01-24 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
JP6849977B2 (ja) * | 2019-09-11 | 2021-03-31 | 株式会社ソケッツ | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 |
KR20210044985A (ko) * | 2019-10-16 | 2021-04-26 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN111081256A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 数字串声纹密码验证方法及系统 |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
US11900921B1 (en) | 2020-10-26 | 2024-02-13 | Amazon Technologies, Inc. | Multi-device speech processing |
US20240078999A1 (en) * | 2021-01-15 | 2024-03-07 | Nippon Telegraph And Telephone Corporation | Learning method, learning system and learning program |
WO2022215140A1 (ja) * | 2021-04-05 | 2022-10-13 | 株式会社KPMG Ignition Tokyo | プログラム、情報処理装置、及び情報処理方法 |
US11721347B1 (en) * | 2021-06-29 | 2023-08-08 | Amazon Technologies, Inc. | Intermediate data for inter-device speech processing |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09120293A (ja) * | 1995-10-24 | 1997-05-06 | Ricoh Co Ltd | 話者認識システムおよび話者認識方法 |
JP2003005949A (ja) * | 2001-06-20 | 2003-01-10 | Nec Corp | サーバ・クライアント型音声認識装置及び方法 |
JP2004530149A (ja) * | 2001-02-13 | 2004-09-30 | トムソン ライセンシング ソシエテ アノニム | 音声認識のための処理、モジュール、装置及びサーバ |
JP2005514682A (ja) * | 2001-12-20 | 2005-05-19 | ミュレックス・セキュリティーズ・リミテッド | グローバル通信ネットワーク内で情報を捕捉し、マッチングしかつリンクするためのシステム及び方法 |
JP2005331616A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
JP2006309356A (ja) * | 2005-04-26 | 2006-11-09 | Mark-I Inc | スケジュール等管理システムおよびスケジュール等管理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893057A (en) | 1995-10-24 | 1999-04-06 | Ricoh Company Ltd. | Voice-based verification and identification methods and systems |
US6292782B1 (en) * | 1996-09-09 | 2001-09-18 | Philips Electronics North America Corp. | Speech recognition and verification system enabling authorized data transmission over networked computer systems |
JP2003295893A (ja) * | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US8407048B2 (en) * | 2008-05-27 | 2013-03-26 | Qualcomm Incorporated | Method and system for transcribing telephone conversation to text |
-
2010
- 2010-10-12 JP JP2011538353A patent/JP5621993B2/ja active Active
- 2010-10-12 US US13/504,264 patent/US20120215528A1/en not_active Abandoned
- 2010-10-12 WO PCT/JP2010/068230 patent/WO2011052412A1/ja active Application Filing
-
2013
- 2013-10-28 US US14/064,976 patent/US9520129B2/en active Active
-
2016
- 2016-08-19 US US15/241,233 patent/US9905227B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09120293A (ja) * | 1995-10-24 | 1997-05-06 | Ricoh Co Ltd | 話者認識システムおよび話者認識方法 |
JP2004530149A (ja) * | 2001-02-13 | 2004-09-30 | トムソン ライセンシング ソシエテ アノニム | 音声認識のための処理、モジュール、装置及びサーバ |
JP2003005949A (ja) * | 2001-06-20 | 2003-01-10 | Nec Corp | サーバ・クライアント型音声認識装置及び方法 |
JP2005514682A (ja) * | 2001-12-20 | 2005-05-19 | ミュレックス・セキュリティーズ・リミテッド | グローバル通信ネットワーク内で情報を捕捉し、マッチングしかつリンクするためのシステム及び方法 |
JP2005331616A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 |
JP2006309356A (ja) * | 2005-04-26 | 2006-11-09 | Mark-I Inc | スケジュール等管理システムおよびスケジュール等管理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120215528A1 (en) | 2012-08-23 |
JPWO2011052412A1 (ja) | 2013-03-21 |
WO2011052412A1 (ja) | 2011-05-05 |
US9520129B2 (en) | 2016-12-13 |
US9905227B2 (en) | 2018-02-27 |
US20140058729A1 (en) | 2014-02-27 |
US20160358608A1 (en) | 2016-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5621993B2 (ja) | 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム | |
Tomashenko et al. | Introducing the VoicePrivacy initiative | |
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
JP7106680B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
Le et al. | Deep shallow fusion for RNN-T personalization | |
US11564090B1 (en) | Audio verification | |
JP6469252B2 (ja) | アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体 | |
US6182038B1 (en) | Context dependent phoneme networks for encoding speech information | |
US9293137B2 (en) | Apparatus and method for speech recognition | |
Perero-Codosero et al. | X-vector anonymization using autoencoders and adversarial training for preserving speech privacy | |
CN113724718B (zh) | 目标音频的输出方法及装置、系统 | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
KR20230107860A (ko) | 실제 노이즈를 사용한 음성 개인화 및 연합 트레이닝 | |
WO2023226260A1 (zh) | 语音生成方法及装置、存储介质、电子设备 | |
JP2023162265A (ja) | テキストエコー消去 | |
Aloufi et al. | Paralinguistic privacy protection at the edge | |
KR102500255B1 (ko) | 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템 | |
CN114283811A (zh) | 语音转换方法、装置、计算机设备和存储介质 | |
JP4769121B2 (ja) | サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
JP7146038B2 (ja) | 音声認識システム及び方法 | |
Jalal et al. | On-device speaker anonymization of acoustic embeddings for asr based onflexible location gradient reversal layer | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5621993 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |