JP7526846B2

JP7526846B2 - 音声認識

Info

Publication number: JP7526846B2
Application number: JP2023053048A
Authority: JP
Inventors: ビアジー、ファディ; メンヒバル、ペドロジェイ．モレノ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-30
Filing date: 2023-03-29
Publication date: 2024-08-01
Anticipated expiration: 2041-01-20
Also published as: US11823685B2; US20210241777A1; EP4085452A1; US11580994B2; JP2023503718A; CN115023761A; JP2023073393A; KR20220130739A; WO2021154563A1; US20230169983A1; JP7255032B2

Description

本明細書は、概して、音声処理に関する。

音声処理は、音声信号および信号の処理方法の考察である。信号は通常デジタル表現で処理されるため、音声処理は、音声信号に適用されるデジタル信号処理のケースと見なすことができる。音声処理の態様には、音声信号の取得、操作、保存、転送、および出力が含まれる。

非定型音声（ａｔｙｐｉｃａｌｓｐｅｅｃｈ）（例えば、発語失行（ａｐｒａｘｉａ）、クラッタリング（ｃｌｕｔｔｅｒｉｎｇ）、発達性言語協調障害（ｄｅｖｅｌｏｐｍｅｎｔａｌｖｅｒｂａｌｄｙｓｐｒａｘｉａ）、構音障害（ｄｙｓａｒｔｈｒｉａ）、失音調（ｄｙｓｐｒｏｓｏｄｙ）、語音障害（ｓｐｅｅｃｈｓｏｕｎｄｄｉｓｏｒｄｅｒｓ）、不明瞭発語（ｓｌｕｒｒｅｄｓｐｅｅｃｈ）、吃音症（ｓｔｕｔｔｅｒｉｎｇ）、音声障害（ｖｏｉｃｅｄｉｓｏｒｄｅｒｓ）、不全歯擦音（ｌｉｓｐ）、その他）の話者にとって、他の人が話者の言っていることを理解できるようにすることは難しい場合がある。音声認識技術を利用して、話者の音声を転写して、ユーザインタフェースにおいて、または合成音声を介して転写（ｔｒａｎｓｃｒｉｐｔｉｏｎ）を出力することによって、他者を支援することは有用であり得る。しかしながら、聞き手が非定型音声の話者を理解するのが困難であるのと同様に、音声認識器も非定型音声を転写する際に精度が低下することがあり得る。

この課題を克服するには、非定型音声の話者と定型音声（ｔｙｐｉｃａｌｓｐｅｅｃｈ）の別の話者との間の会話のコンテキストを判定することが有用であり得る。システムは、複数の音声認識器を使用して、システムが非定型音声または定型音声のどちらを検出したかに応じて、そのうちの１つを選択的に作動させることができる。

システムは、一般音声認識器を使用して、定型音声の話者からの音声の転写を生成し得る。システムは、その転写を使用して会話のコンテキストを決定し、代替音声認識器をバイアスする（ｂｉａｓ）ことができる。システムは、非定型音声の話者からの音声を転写する際に、バイアスされた代替音声認識器を使用し得る。代替音声認識器をバイアスすることによって、システムは、定型音声の話者からの音声の転写の精度を向上させることができる。

これは、様々な場面で有用であり得る。一例には、非定型音声で話す人と定型音声で話す人の２人の間での電話会話が含まれ得る。システムは、定型音声で話す話者の対話の転写を使用して、代替音声認識器をバイアスし得る。システムは、バイアスされた代替音声認識器を使用して、非定型音声で話す話者の対話に対して音声認識を実行する。システムは、定型音声で話す話者が非定型音声で話す話者をよりよく理解することが可能となるように、非定型音声の話者の対話の転写を出力するか、または合成音声を出力することができる。

本開示の一態様は、データ処理ハードウェア上での実行時に、データ処理ハードウェアに動作を実行させるコンピュータが実施する方法を提供し、動作は、定型音声で話す第１のユーザによって話された第１の発話の音響特徴を受信することと、一般音声認識器を使用して、第１の発話の音響特徴を処理して、第１の発話の第１の転写を生成することと、第１の発話の第１の転写を分析して、代替音声認識器をバイアスするために第１の転写における１つまたは複数のバイアス用語を識別することと、第１の転写において識別された１つまたは複数のバイアス用語で代替音声認識器をバイアスすることと、を含む。動作は、非定型音声で話す第２のユーザによって話された第２の発話の音響特徴を受信することと、第１の転写において識別された１つまたは複数のバイアス用語でバイアスされた代替音声認識器を使用して、第２の発話の音響特徴を処理して第２の発話の第２の転写を生成することとをも含む。

本開示の実施形態は、以下の任意の機能のうちの１つまたは複数を含み得る。いくつかの実施形態では、動作は、第１のユーザに関連付けられたユーザデバイスのディスプレイ上に第２の発話の第２の転写を表示すること、かつ／または第２の発話の第２の転写に対する合成音声表現を生成して、第１のユーザに関連付けられたユーザデバイスからの可聴的な出力のために合成音声表現を提供することとをも含む。いくつかの例では、動作は、非定型音声で話す第２のユーザによって話された第２の発話の音響特徴を受信した後、第２の発話の音響特徴に対して音声識別を実行して、第２の発話の話者を非定型音声で話す第２のユーザとして識別することと、第２の発話の音響特徴に対して実行された音声識別が第２のユーザを第２の発話の話者として識別することに基づいて、第２の発話の音響特徴に対して音声認識を実行するための代替音声認識器を選択することとをも含む。

他のいくつかの例では、動作は、非定型音声で話す第２のユーザによって話された第２の発話の音響特徴を受信した後、音声分類器モデルを使用して、第２の発話の音響特徴が非定型音声の話者によって話された発話に関連していることを示す出力を生成することと、第２の発話の音響特徴が非定型音声の話者によって話された発話に関連していることを示す、音声分類器モデルによって生成された出力に基づいて、第２の発話の音響特徴に対して音声認識を実行するための代替音声認識器を選択することとをも含む。これらの他の例では、音声分類器モデルは、非定型トレーニング発話でトレーニングされ得、非定型トレーニング発話は、非定型音声の話者によって話されたことを示す個々のラベルを含む。ここで、非定型トレーニング発話は、発語失行、聴覚障害音声（ｄｅａｆｓｐｅｅｃｈ）、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、または不全歯擦音のうちの少なくとも１つを有する話者によって話された発話を含み得る。音声分類器モデルは、定型トレーニング発話でトレーニングされ得、定型トレーニング発話は、定型音声の話者によって話されたことを示す個々のラベルを含む。

いくつかの実施形態では、第１の発話の第１の転写を分析して、第１の転写における１つまたは複数のバイアス用語を識別することは、第１の転写における非機能的な用語を識別することによって１つまたは複数のバイアス用語を識別することを含む。第１の発話の第１の転写を分析して、第１の転写における１つまたは複数のバイアス用語を特定することは、第１の転写に対して用語頻度－逆文書頻度（ｔｆ－ｉｄｆ）分析を実行して、１つまたは複数のバイアス用語を識別することを含み得る。追加的または代替的に、第１の発話の第１の転写を分析して、第１の転写における１つまたは複数のバイアス用語を識別することは、第１のユーザと第２のユーザとの間の進行中の会話中に一般音声認識器によって生成された複数の転写に含まれる相互情報を識別することを含み得る。

第１の発話は、第１のユーザに関連付けられた第１のユーザデバイスによってキャプチャされ得、データ処理ハードウェアは、第１のユーザデバイス上に存在し得る。他の構成では、データ処理ハードウェアは、第１のユーザデバイスと通信するリモートコンピューティングデバイス上に存在する。

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含むシステムを提供し、メモリハードウェアは命令を格納し、命令は、データ処理ハードウェア上で実行されるときに、データ処理ハードウェアに動作を実行させ、動作は、定型音声で話す第１のユーザによって話された第１の発話の音響特徴を受信することと、一般音声認識器を使用して、第１の発話の音響特徴を処理して、第１の発話の第１の転写を生成することと、第１の発話の第１の転写を分析して、代替音声認識器をバイアスするために第１の転写における１つまたは複数のバイアス用語を識別することと、第１の転写において識別された１つまたは複数のバイアス用語で代替音声認識器をバイアスすることと、を含む。動作は、非定型音声で話す第２のユーザによって話された第２の発話の音響特徴を受信することと、第１の転写において識別された１つまたは複数のバイアス用語でバイアスされた代替音声認識器を使用して、第２の発話の音響特徴を処理して第２の発話の第２の転写を生成することとをも含む。

この態様は、以下の任意の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、動作はまた、第１のユーザに関連付けられたユーザデバイスのディスプレイ上に第２の発話の第２の転写を表示すること、かつ／または第２の発話の第２の転写に対する合成音声表現を生成して、第１のユーザに関連付けられたユーザデバイスからの可聴的な出力のために合成音声表現を提供することをも含む。いくつかの例では、動作は、非定型音声で話す第２のユーザによって話された第２の発話の音響特徴を受信した後、第２の発話の音響特徴に対して音声識別を実行して、第２の発話の話者を非定型音声で話す第２のユーザとして識別することと、第２の発話の音響特徴に対して実行された音声識別が第２のユーザを第２の発話の話者として識別することに基づいて、第２の発話の音響特徴に対して音声認識を実行するための代替音声認識器を選択することとをも含む。

他のいくつかの例では、動作は、非定型音声で話す第２のユーザによって話された第２の発話の音響特徴を受信した後、音声分類器モデルを使用して、第２の発話の音響特徴が非定型音声の話者によって話された発話に関連していることを示す出力を生成することと、第２の発話の音響特徴が非定型音声の話者によって話された発話に関連していることを示す、音声分類器モデルによって生成された出力に基づいて、第２の発話の音響特徴に対して音声認識を実行するための代替音声認識器を選択することとをも含む。これらの他の例では、音声分類器モデルは、非定型トレーニング発話でトレーニングされ得、非定型トレーニング発話は、非定型音声の話者によって話されたことを示す個々のラベルを含む。ここで、非定型トレーニング発話は、発語失行、聴覚障害音声、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、または不全歯擦音のうちの少なくとも１つを有する話者によって話された発話を含み得る。音声分類器モデルは、定型トレーニング発話でトレーニングされ得、定型トレーニング発話は、定型音声の話者によって話されたことを示す個々のラベルを含む。

本開示の１つまたは複数の実施の詳細は、添付の図面および以下の詳細な説明に記載されている。他の態様、特徴、および利点は、詳細な説明および図面、ならびに特許請求の範囲から明らかになる。

２人のユーザが会話をしている例示的な環境の概略図であり、コンピューティングデバイスは、非定型音声で話すユーザに対してユーザの音声の転写を出力する。定型音声および非定型音声に対して音声認識を実行する例示的な自動音声認識（ＡＳＲ：ａｕｔｏｍａｔｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）システムの概略図である。音声分類器モデルをトレーニングするための例示的なトレーニング手順の概略図である。定型音声および非定型音声に対して音声認識を実行する方法のための例示的な動作の構成のフローチャートである。本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面の同様の参照番号および記号は、同様の構成要素を示す。
図１は、２人のユーザ１０２ａ、１０２ｂが会話している例示的な環境１００を示しており、コンピューティングデバイス１０６は、非定型音声で話すユーザ１０２ｂによって話された音声の転写１４６、１４６ａ－ｂを出力する。簡単に説明すると、そして以下でより詳細に説明するように、定型音声で話すユーザ１０２ａは、非定型音声で話すユーザ１０２ｂと会話している。ユーザ１０２ａがユーザ１０２ｂを理解するのを支援するために、コンピューティングデバイス１０６は、ユーザ１０２ｂによって話された発話１３４、１４２の転写１４６ａ、１４６ｂを含むグラフィカルインタフェース１５０を提供する。コンピューティングデバイス１０６は、非定型音声を認識するように構成された代替音声認識器１３２をバイアスすることによって、ユーザ１０２からの非定型音声に対して実行される音声認識の精度を向上させる。会話は、個々のユーザデバイス１０６、１０６ａ－ｂ（例えば、スマートフォン）を介した電話での会話を含み得る。他の例では、ユーザ１０２ａ、１０２ｂは、単一のユーザデバイス１０６が両方のユーザ１０２ａ、１０２ｂによって話された発話１０８、１３４、１３８、１４２をキャプチャしている対面会話をし得る。

より詳細には、ユーザ１０２ｂは、他の人がユーザ１０２ｂを理解することを時には困難にする非定型音声で話すが、ユーザ１０２ａは、非定型音声で話さない。ユーザ１０２は、非定型音声のユーザ１０２ｂを理解するのを支援するためにユーザデバイス１０６を使用し得る。ユーザデバイス１０６は、複数の音声認識器１２４、１３２を有するコンピューティングデバイスに対応し得る。例えば、ユーザデバイス１０６は、一般音声認識器１２４を使用して、非定型音声を含んでいない音声に対して音声認識を実行し、代替音声認識器１３２を使用して、非定型音声に対して音声認識を実行し得る。より具体的には、一般音声認識器１２４は、定型音声で話す話者によって支配される音声でトレーニングされ得るため、一般音声認識器１２４は、非定型音声のユーザによって話された音声を正確に認識することが困難となる。代替音声認識器１３２は、限定されるものではないが、発語失行、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、不全歯擦音、または、他の人が理解するのを困難にする他の類似の言語障害などの様々なタイプの音声障害を有する話者によって話された音声発話に対してトレーニングされる。

ステージＡにおいて、ユーザ１０２ａは、「昨夜の試合を見ましたか。（Ｄｉｄｙｏｕｓｅｅｔｈｅｇａｍｅｌａｓｔｎｉｇｈｔ？）」という発話１０８を行う。ユーザデバイス１０６は、発話１０８をキャプチャするマイクロフォン２０４（図２）を含み得る。ユーザデバイス１０６は、キャプチャされた発話１０８を話したユーザ１０２ａが非定型音声で話したかどうかを判定するように構成された音声認識器セレクタ１１０を含む。発話１０８が非定型音声を含んでいないことを示す決定１２０に基づいて、音声認識器セレクタ１１０は、一般音声認識器１２４を選択することを示す決定１１４に到達する。

ユーザデバイス１０６は、一般音声認識器１２４を使用して、発話１０８を特徴付ける音声データに対して音声認識を実行する。一般音声認識器１２４は、発話１０８に対するＡＳＲ結果２１８（図２）を出力し、発話１０８に対するＡＳＲ結果２１８を音声認識バイアス器２２２に提供する。音声認識バイアス器２２２は、代替音声認識器１３２をバイアスするための用語２２４およびクラスを選択するように構成される。この例では、音声認識バイアス器２２２は、発話１０８がスポーツに関連していると判定し、代替音声認識器１３２をスポーツに関連する用語２２４ａのクラスにバイアスする。また、音声認識バイアスは、代替音声認識器１３２をバイアスするのに適切な用語２２４ａとして「試合」という用語を識別する。

ステージＢにおいて、ユーザ１０２ｂは、「見ました。あの最後のプレーは素晴らしかったです。今夜行きますか。（Ｉｄｉｄ．Ｔｈａｔｌａｓｔｐｌａｙｗａｓｇｒｅａｔ．Ａｒｅｙｏｕｇｏｉｎｇｔｏｎｉｇｈｔ？）」という発話１３４を行う。ユーザ１０２ｂの発話は非定型であり、そのため、ユーザ１０２ａがユーザ１０２ｂが何を言っているかを理解することが困難な場合がある。また、非定型音声で話すことによって、一般音声認識器１２４が発話１０４の音声データに対して正確に音声認識を実行することが困難な場合がある。ユーザデバイス１０６のマイクロフォンは、発話１３４をキャプチャし、発話１３２を、発話１３２を特徴付ける音声データ（例えば、音響特徴２０５（図２））にデジタル形式で変換する。音声認識器セレクタ１１０は、発話１３４の音声データを分析し、決定１３６によって示されるように、発話１３４が非定型音声を含んでいると判定する。

音声認識器セレクタ１１０が発話１３４が非定型音声を含んでいると判定することに基づいて、音声認識器セレクタ１１０は、代替音声認識器１３２を使用して音声データに対して音声認識を実行するようにユーザデバイス１０６に指示する。代替音声認識器１３２は、代替音声認識器１３２を用語「試合」およびスポーツクラスに関連する一組の用語を含む用語２２４ａに向けてバイアスする際に使用するために、バイアス器２２２によって識別されたバイアス用語２２４を取得／受信し得る。代替音声認識器１３２は、「見ました。あの最後のプレーは素晴らしかったです。今夜行きますか。」という転写１４６を生成する。

ユーザ１０２ａがユーザ１０２ｂを理解するのを支援するために、ユーザデバイス１０６は、転写１４６を含むグラフィカルインタフェース１５０を生成する。ユーザデバイス１０６は、グラフィカルインタフェース１５０をユーザデバイス１０６のディスプレイに出力する。ユーザ１０２ａは、ユーザデバイス１０６のディスプレイ上で「見ました。あの最後のプレーは素晴らしかったです。今夜行きますか。」を見ることが可能である。ユーザデバイス１０６は、追加的または代替的に、転写１４６の合成音声表現を可聴的に出力し得る。

ステージＣにおいて、ユーザ１０２ａとユーザ１０２ｂとの間の会話が続き、ユーザ１０２ａは、「行きたいですが、チケットがありません。（Ｉｗａｎｔｔｏ，ｂｕｔＩｄｏｎ’ｔｈａｖｅａｔｉｃｋｅｔ．）」という発話１３８で応答する。ユーザデバイス１０６のマイクロフォンは、発話１３８をキャプチャして、発話１３８をデジタル形式で特徴付けるために発話１３８を音声データ（例えば、音響特徴２０５（図２））に変換する。音声認識器セレクタ１１０は、発話１３８の音声データを分析する。音声認識器セレクタ１１０は、決定１４０によって示されるように、発話１３８が非定型音声で話さないユーザによって話されたものであると判定する。

音声認識器セレクタ１１０は、発話１３８の音声データに対して音声認識を実行するように一般音声認識器１２４に指示を提供する。いくつかの実施形態では、コンピューティングデバイス１０６は、一般音声認識器１２４をバイアスしない。一般音声認識器１２４は、発話１３８のＡＳＲ結果２１８を生成し、発話１３８のＡＳＲ結果２１８を音声認識バイアス器２２２に提供する。この例では、音声認識バイアス器２２２は、発話１３８が用語「チケット」を代替音声認識器１３２をバイアスするための用語２２４、２２４ｂとして特定していることを決定する。音声認識バイアス器２２２は、代替音声認識器１３２をバイアスするために用語「チケット」を用語２２４ｂとして追加して、バイアス用語２２４が、用語「試合」および「チケット」ならびに「スポーツ」クラスに関連する一組の用語を含むようにする。

いくつかの実施形態では、音声認識バイアス器２２２は、ユーザ１０２ａによって話された累積発話を分析して、代替音声認識器１３２をバイアスするための用語２２４を判定する。例えば、音声認識バイアス器２２２は、発話１０８に対するＡＳＲ結果２１８および発話１３８の両方を分析して、後続の発話に関してバイアス用語２２４を決定することができる。この場合、音声認識バイアス器２２２は、話者１０２ａが定型音声で話した発話１０８，１３８に対するＡＳＲ結果２１８の分析に基づいて、用語「試合」および「チケット」ならびに「スポーツ」クラスに関連する一組の用語を識別し得る。

いくつかの実施形態では、音声認識バイアス器２２２は、ユーザ１０２ａによって話された最新の発話を分析して、以前に識別された用語２２４に追加するために、用語２２４および識別されたクラスに関連する一組の用語を決定する。例えば、音声認識バイアス器２２２は、発話１３８を分析して、追加のバイアス用語２２４ｂを決定し得る。この場合、音声認識バイアス器２２２は、発話１３８に対するＡＳＲ結果２２４の分析に基づいて、用語「チケット」を識別し得る。音声認識バイアス器２２２は、以前に識別された用語２２４ａを、新たな用語「チケット」２２４ｂとともに、ユーザデバイス１０６上にあるメモリハードウェアに格納し得る。音声認識バイアス器２２２は、バイアス用語２２４、２２４ａ－ｂを使用して、代替音声認識器１３２をバイアスし得る。

ステージＤにおいて、ユーザ１０２ｂは、「よかったら、１枚余分にあります。（Ｉｈａｖｅａｎｅｘｔｒａｏｎｅｉｆｙｏｕｗａｎｔｉｔ．）」という発話１４２を行う。ユーザ１０２ｂは、非定型音声で話し続ける。ユーザデバイス１０６のマイクロフォンは、発話１４２をキャプチャし、発話１４２を、発話１４２を特徴付ける音声データに変換する。音声認識器セレクタ１１０は、発話１４２の音声データを分析し、決定１４４によって示されるように、発話１４２が非定型音声でユーザによって話されたと判定する。

音声認識器セレクタ１１０が発話１４２がユーザによって非定型音声で話されたと判定することに基づいて、音声認識器セレクタ１１０は、音声データに対して音声認識を実行するようにユーザデバイス１０６に指示する。代替音声認識器１３２は、バイアス用語２２４を取得／受信し、代替音声認識器１３２を、用語「試合」および「スポーツ」クラスに関連する一組の用語を含むバイアス用語２２４ａ、ならびに用語「チケット」を含むバイアス用語２２４ｂに向けてバイアスする。代替音声認識器１３２は、「よかったら、１枚余分にあります。」という転写１４８を生成する。

ユーザデバイス１０６は、転写１４８を含むようにグラフィカルインタフェース１５０を更新する。ユーザデバイス１０６は、グラフィカルインタフェース１５０をユーザデバイス１０６のディスプレイに出力する。ユーザ１０２は、コンピューティングデバイス１０６のディスプレイ上で「よかったら、１枚余分にあります。」を見ることができる。ユーザデバイス１０６は、追加的または代替的に、転写１４８の合成音声表現を可聴的に出力し得る。

図２は、定型音声および非定型音声に対して音声認識を実行する例示的な自動音声認識（ＡＳＲ）システム２００を示す。いくつかの実施形態では、ＡＳＲシステム２００は、ユーザ１０２、１０４のユーザデバイス１０６上、および／またはユーザデバイスと通信するリモートコンピューティングデバイス２０１（例えば、クラウドコンピューティング環境で実行される分散システムの１つまたは複数のサーバ）上に存在する。いくつかの例では、ＡＳＲシステム２００の構成要素の一部は、ユーザデバイス１０６上に存在し、一方、構成要素の残りの部分は、リモートコンピューティングデバイス２０１上に存在する。ユーザデバイス１０６は、モバイルコンピューティングデバイス（例えば、スマートフォン）として示されているが、ユーザデバイス１０６は、これらに限定されない、タブレットデバイス、ラップトップ／デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカ／ディスプレイ、スマート家電、自動車インフォテインメントシステム、またはモノのインターネット（ＩｏＴ）デバイスなどの任意のタイプのコンピューティングデバイスに対応し得る。

ＡＳＲシステム２００は、システム２００の他の構成要素がユーザデバイス１０６および／またはリモートシステム２０１上に存在し得る一方で、ユーザデバイス１０６上に実装されるオーディオサブシステム２０２を含む。オーディオサブシステム２０２は、１つまたは複数のマイクロフォン２０４、アナログ－デジタル（Ａ－Ｄ）変換器２０６、バッファ２０８、および他の様々なオーディオフィルタを含み得る。１つまたは複数のマイクロフォン２０４は、ユーザ１０２によって話された発話などの音声をキャプチャするように構成され、Ａ－Ｄ変換器２０６は、音声を、ＡＳＲシステム２００の様々な構成要素によって処理することが可能な入力音響特徴２０５に関連付けられた対応するデジタル形式に変換するように構成される。いくつかの例では、音響特徴２０５は、短い（例えば、２５ミリ秒（ミリ秒））ウィンドウで計算され、かつ例えば、１０ミリ秒ごとにシフトされる８０次元の対数メル特徴をそれぞれ含む一連のパラメータ化された入力音響フレームを含む。バッファ２０８は、ＡＳＲシステム２００によるさらなる処理のために、１つまたは複数のマイクロフォン２０４によってキャプチャされた対応する音声からサンプリングされた最新の音響特徴２０５（例えば、最後の１０秒）を格納し得る。ＡＳＲシステム２００の他の構成要素は、さらなる処理のために、音響特徴２０５を取得してバッファ２０８に格納し得る。

いくつかの実施形態では、ＡＳＲシステム２００は、オーディオサブシステム２０２から音響特徴２０５を受信し、音響特徴２０５が非定型音声の話者によって話された発話に関連するか、または定型音声の話者によって話された発話に関連するかを決定するように構成された音声識別器２１０を含む。音声識別器２１０は、音響特徴２０５が非定型音声または定型音声のどちらに関連付けられているかを示す出力２１１を生成し得る。例えば、図１に示される定型音声検出決定１２０、１４０の各々および非定型音声検出決定１３６、１４４の各々は、音声識別器２１０によって生成された対応する出力２１１を含み得る。いくつかの例では、音声識別器２１０は、音響特徴２０５を処理することによって音声認識／音声識別を実行して、音声埋め込み（例えば、ｄベクトルまたはｉベクトル）を生成し、音声埋め込みが、非定型音声または定型音声のユーザに対する格納された音声埋め込みと一致するかどうかを判定する。音声埋め込みは、格納されている音声埋め込みとの間の埋め込み距離が距離閾値を満たす場合、格納されている音声埋め込みと一致する。

追加の例では、音声識別器２１０は、音響特徴２０５を入力として受け取り、音響特徴２０５が非定型音声の話者または非定型音声の話者によって話された発話に関連するかどうかを示す出力２１１を生成するようにトレーニングされた音声分類器モデル３１０を含む。例えば、図３は、音声分類器モデル３１０をトレーニングするための例示的なトレーニング手順３００を示す。音声分類器モデル３１０は、ニューラルネットワークベースのモデルであり得る。トレーニング手順３００は、非定型音声の話者によって話された発話を含む非定型トレーニング発話３０２で音声分類器モデル３１０をトレーニングする。非定型トレーニング発話３０２は、限定されるものではないが、発語失行、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、不全歯擦音、または、他の人が理解するのを困難にする他の類似の言語障害などの様々なタイプの音声障害を有する話者によって話された発話を含み得る。非定型トレーニング発話３０２は、非定型話者によって話された発話を非定型音声として分類するように音声分類器モデル３１０を教えるためにラベル付けされ得る。いくつかのシナリオでは、モデル３１０は、発話が特定のタイプの非定型音声の話者によって話されたかどうかを示す出力２１１を生成するようにトレーニングされる。例えば、出力２１１は、構音障害のある話者によって話された発話に関連する音響特徴が構音障害を含むことを示し、出力２１１は、聴覚障害のある別の話者によって話された別の発話に関連する他の音響特徴が聴覚障害の音声を含むことを示すことができる。これらのシナリオでは、モデル３１０は、構音障害の非定型音声を含んでいると明示的にラベル付けされた非定型トレーニング発話３０２と、聴覚障害の音声を含んでいると明示的にラベル付けされた非定型トレーニング発話３０２とでトレーニングされる。モデル３１０は、より細分性を提供するために、任意の数の異なる特定のタイプの非定型音声を示す出力２１１を生成するようにトレーニングされ得る。このようにして、各タイプの非定型音声は、特定のタイプの非定型音声を認識するために個人化された個々の代替音声認識器１３２に関連付けられ得る。

追加的または代替的に、トレーニング手順３００は、定型音声の話者によって話された発話を含む定型トレーニング発話３０４で音声分類器モデル３１０をトレーニングし得る。非定型トレーニング発話３０２と同様に、定型トレーニング発話３０４は、定型の話者によって話された発話を定型音声として分類するように音声分類器モデル３１０を教えるためにラベル付けされ得る。

システム２００はまた、音声認識器セレクタ１１２を含む。音声認識器セレクタ１１２は、音響特徴２０５が定型音声の話者または非定型音声の話者によって話された発話を含むかどうかを示す音声識別器２１０によって生成された出力２１１を受信するように構成される。音声認識器セレクタ１１２によって受信された出力２１１が、音響特徴２０５が非定型音声の話者によって話された発話を含むことを示す場合、音声認識器セレクタ１１２は、音響特徴２０５に対して音声認識を実行するために代替音声認識器１３２を（例えば、決定１１８により）選択する。音声認識器セレクタ１１２が、音声特徴２０５が非定型音声の話者によって話された発話を含んでいないことを示す出力２１１を受信した場合、音声認識器セレクタ１１２は、音響特徴２０５に対して音声認識を実行するために一般音声認識器１２４を（例えば、決定１１４により）選択する。

いくつかの実施形態では、音声識別器２１０は、異なるタイプの非定型音声を識別するように構成される。例えば、音声識別器２１０は、話者が非定型音声なしで話すか、構音障害音声で話すか、または発語失行で話すかを判定するように構成され得る。即ち、音声識別器２１０は、音声分類器モデル３１０を実装して、異なるタイプの非定型音声および定型音声を示す出力２１１を生成することができ、かつ／または音声識別器２１０は、受信した音響特徴２０５に対して音声識別を単に実行して、音声埋め込みが特定のタイプの非定型音声または定型音声で話すことが知られている話者に対する格納された音声埋め込みと一致するかどうかを判定することができる。この例では、ＡＳＲシステム２００は、３つの音声認識器、即ち、定型音声を認識するための一般音声認識器１２４、構音障害音声を認識するようにトレーニングされた第１の代替音声認識器１３２、および発語失行を認識するようにトレーニングされた第２の代替音声認識器１３２を含み得る。音声認識器セレクタ１１０は、音声識別器２１０が話者が非定型音声で話していないという出力２１１を生成した場合、一般音声認識器１２４を選択し得る。音声認識器セレクタ１１０は、音声識別器１１０が話者が構音障害音声を有していることを示す出力２１１を生成した場合、構音障害音声の話者に関する第１の代替音声認識器１３２を選択し得る。音声認識器セレクタ１１０は、音声識別器２１０が話者が発語失行を有してることを示す出力２１１を生成した場合、発語失行の話者に関する第２の代替音声認識器１３２を選択し得る。

音声認識器セレクタ１１０が決定１１４を介して一般音声認識器１２４を選択する場合、一般音声認識器１２４は、オーディオサブシステム２０２から、またはオーディオサブシステム２０２から受信した音響特徴２０５を格納するストレージデバイスから音響特徴２０５を受信する。一般音声認識器１２４は、音響特徴２０５に対して音声認識を実行して、定型音声で話者によって話された発話に対するＡＳＲ結果２１８を生成する。

音声認識バイアス器２２２は、一般音声認識器１２４によって生成されたＡＳＲ結果２１８を取得／受信して、ＡＳＲ結果２１８を使用して代替音声認識器１３２をバイアスする。具体的には、音声認識バイアス器２２２は、ＡＳＲ結果２１８において最も顕著な用語２２４を識別し、代替音声認識器１３２をそれらの用語２２４に向けてバイアスするように構成される。従って、バイアス器２２２によってＡＳＲ結果２１７において識別された顕著な用語２２４は、代替音声認識器１３２をバイアスするためのバイアス用語２２４と呼ばれ得る。いくつかの実施形態では、音声認識バイアス器２２２は、ＡＳＲ結果２１８において最も繰り返される非機能的な用語（ｎｏｎ－ｆｕｎｃｔｉｏｎａｌｔｅｒｍｓ）を識別することによって、顕著な用語を識別する。追加の実施形態では、音声認識バイアス器２２２は、ＡＳＲ結果２１８に対して用語頻度－逆文書頻度（ｔｆ－ｉｄｆ：ｔｅｒｍｆｒｅｑｕｅｎｃｙ－ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）分析を実行することによって、顕著な用語２２４を識別する。追加的または代替的に、音声認識バイアス器２２２は、進行中の会話中に一般音声認識器１２４によって生成される複数のＡＳＲ結果２１８に含まれる相互情報（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）を識別することによって、顕著な用語を識別することができる。

いくつかの実施形態では、音声認識バイアス器２２２は、減衰関数（ｄｅｃａｙｆｕｎｃｔｉｏｎ）を使用して、代替音声認識器１３２をバイアスするための顕著な用語２２４を決定する。この場合、音声認識バイアス器２２２は、各用語２２４に重みを割り当て、ＡＳＲシステム２００が以前に識別した用語を含んでいない追加の発話を受け取ると、その重みを減らす。例えば、音声認識バイアス器２２２が最初の発話で「雪」および「氷」という用語を識別し、次に、次の発話で「雨」という用語を識別した場合、音声認識バイアス器２２２は、代替音声認識器１３２を「雪」や「雨」よりも「雨」に対してより一層向けてバイアスし得る。

いくつかの追加の実施形態では、音声認識バイアス器２２２は、バイアス、言語モデル適応（ｌａｎｇｕａｇｅｍｏｄｅｌａｄａｐｔｉｏｎ）、および／またはビームサーチの任意の組み合わせを使用して、代替音声認識器１３２を調整する。音声認識バイアス器２２２はまた、代替音声認識器１３２が会話の話題性、ドメイン、および／または言語的文脈をより認識するように、フィードを使用して代替音声認識器１３２を更新することができる。音声認識バイアス器２２２は、代替音声認識器１３２によるビームサーチ復号中に、特定の単語またはフレーズをブーストするように構成され得る。音声認識バイアス器２２２は、代替音声認識器１３２による第１のパスまたは第２のパスに対して、言語モデルをオンザフライ（ｏｎｔｈｅｆｌｙ）で構築および／または適合させるように構成され得る。音声認識バイアス器２２２は、代替音声認識器１３２がリカレントニューラルネットワーク言語モデルエンコーダの隠れ状態にわたってアテンションするように代替音声認識器１３２を修正するように構成され得る。

音声認識器セレクタ１１０が決定１１８を介して代替音声認識器１３２を選択する場合、代替音声認識器１３２は、オーディオサブシステム２０２から、またはオーディオサブシステム２０２から受信した音響特徴２０５を格納するストレージデバイスから音響特徴２０５を受信する。代替音声認識器１３２は、発話に対応する音響特徴２０５に対して音声認識を実行し、発話の転写２３０（例えば、転写１４６、図１の１４６）をメモリハードウェアに格納する。ここで、音響特徴２０５に対して音声認識を実行する場合、代替音声認識器１３２は、定型音声で話者によって話された会話の以前の発話から一般音声認識器１２４によって生成されたＡＳＲ結果（単数または複数）２１８から音声認識器バイアス器２２２によって識別されたバイアス用語２２４でバイアスされ得る。

ユーザインタフェースジェネレータ２３２は、代替音声認識器１３２から転写（単数または複数）２３０を取得／受信して、代替音声認識器の転写２３０を含むユーザインタフェース１５０を生成する。ＡＳＲシステム２００は、システム２００と通信するディスプレイ上にユーザインタフェース１５０を出力する。例えば、ＡＳＲシステム２００は、定型音声で話す図１のユーザ１０２ａに関連付けられたユーザデバイス１０６ａのディスプレイ上にユーザインタフェース１５０を出力し得る。特に、第２の転写２３０は、第１のユーザ１０２ａが第２のユーザ１０２ｂによって非定型音声で話された第２の発話１３４を理解することができるように、標準的なテキスト（ｃａｎｏｎｉｃａｌｔｅｘｔ）である。

いくつかの実施形態では、ＡＳＲシステム２００は、代替音声認識器１３２によって生成された転写２３０の合成音声２３６を生成する音声合成器２３４を含む。合成器２３４は、テキスト読み上げモジュール／システムを含み得る。ＡＳＲシステム２００は、合成音声２３６をスピーカまたは他の音声出力デバイスを介して出力し得る。例えば、ＡＳＲシステム２００は、定型音声で話す図１のユーザ１０２ａに関連付けられたユーザデバイス１０６ａのスピーカを介して合成音声２３６を出力し得る。ここで、合成音声表現２３６は、非定型音声で話す第２のユーザ１０２ｂによって話された発話１３４、１４２を伝達する標準的な音声に対応する。

ＡＳＲシステム２００が一般音声認識器１２４を使用して音声認識を実行する場合、ＡＳＲシステム２００は、代替音声認識器１３２での音声認識の実行を非アクティブ化するか、またはバイパスする。ＡＳＲシステム２００が複数の代替音声認識器１３２のうちの１つを使用する場合、ＡＳＲシステム２００は、一般音声認識器１２４および他の任意の代替音声認識器１３２での音声認識の実行を非アクティブ化するか、またはバイパスし得る。

図４は、代替音声認識器１３２をバイアスする方法４００の例示的な動作の構成のフローチャートである。代替音声認識器１３２は、非定型音声のユーザによって話された音声に対して自動音声認識（ＡＳＲ）を実行するようにトレーニングされ得る。データ処理ハードウェア５１０（図５）は、方法４００の動作を実行するために、メモリハードウェア５２０（図５）に格納された命令を実行し得る。データ処理ハードウェア５１０およびメモリハードウェア５２０は、ユーザ１０２に関連付けられたユーザデバイス１０６またはユーザデバイス１０６と通信するリモートコンピューティングデバイス（例えば、サーバ）上に存在し得る。方法４００は、図１および図２を参照して説明することができる。

動作４０２において、方法４００は、定型音声で話す第１のユーザ１０２ａによって話された第１の発話１０８の音響特徴２０５を受信することを含み、動作４０４において、方法４００は、一般音声認識器１２４を使用して、第１の発話１０８の音響特徴を処理して、第１の発話１０８の第１の転写（即ち、ＡＳＲ結果）２１８を生成することを含む。

動作４０６において、方法４００は、第１の発話１０８の第１の転写２１８を分析して、代替音声認識器１３２をバイアスするための第１の転写２１８における１つまたは複数のバイアス用語２２４を識別することを含む。動作４０８において、方法４００は、第１の転写２１８で識別された１つまたは複数のバイアス用語２２４で代替音声認識器１３２をバイアスすることを含む。１つまたは複数のバイアス用語２２４の少なくとも一部は、第１の転写２１８で識別されたトピックまたはクラスに関連するバイアス用語に関連付けられ得る。例えば、一般音声認識器１２４によって生成された転写２１８が政治に関連する場合、方法４００は、政治に関連する１つまたは複数のバイアス用語２２４のセットで代替音声認識器１３２をバイアスし得る。

動作４１０において、方法４００は、非定型音声で話す第２のユーザ１０２ｂによって話された第２の発話１３４の音響特徴２０５を受信することを含む。動作４１２において、方法４００は、第１の転写２２４において識別された１つまたは複数のバイアス用語２２４でバイアスされた代替音声認識器１３２を使用して、第２の発話１３４の音響特徴２０５を処理して、第２の発話１３４の第２の転写２３０を生成することを含む。

いくつかの例では、コンピューティングデバイス１０６は、そのような第１のユーザ１０４のグラフィカルユーザインタフェース１５０に第２の発話１３４の第２の転写１４６を表示する。特に、第２の転写２３０は、第１のユーザ１０２ａが第２のユーザ１０２ｂによって非定型音声で話された第２の発話１３４を理解することができるように、標準的なテキストである。追加的または代替的に、方法４００は、さらに合成器（例えば、テキスト読み上げモジュール）２３４を使用して、第２の転写２３０に対する合成音声表現２３６を生成して、コンピューティングデバイス１０６から合成音声表現２３６を可聴的に出力し得る。ここで、合成音声表現２３６は、非定型音声で話す第２のユーザ１０２ｂによって話された第２の発話１３４を伝達する標準的な音声に対応する。

図５は、本明細書で説明されるシステム（例えば、音声認識器２００）および方法（例えば、方法４００）を実施するために使用され得る例示的なコンピューティングデバイス５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを代表することが意図されている。本明細書に示された構成要素、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎず、本明細書に記載および／または特許請求の範囲に記載される本発明の実施形態を限定するものではない。

コンピューティングデバイス５００は、プロセッサ５１０（例えば、データ処理ハードウェア）、メモリ５２０（例えば、メモリハードウェア）、ストレージデバイス５３０、メモリ５２０および高速拡張ポート５４０に接続する高速インタフェース／コントローラ５４０、および低速バス５７０およびストレージデバイス５３０に接続する低速インタフェース／コントローラ５６０を含む。構成要素５１０、５２０、５３０、５４０、５５０、および５６０の各々は、様々なバスを使用して相互接続され、かつ共通のマザーボード上に、または適切な他の方法で搭載され得る。プロセッサ５１０は、メモリ５２０またはストレージデバイス５３０に格納された命令を含むコンピューティングデバイス５００内での実行のための命令を処理して、高速インタフェース５４０に接続されたディスプレイ５８０などの外部入力／出力デバイス上にグラフィカルユーザインタフェース（ＧＵＩ）用のグラフィカル情報を表示する。他の実施形態では、複数のメモリおよび複数のタイプのメモリと共に、複数のプロセッサおよび／または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス５００が接続され、各デバイスが（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な処理の一部を提供してもよい。

メモリ５２０は、コンピューティングデバイス５００内に非一時的に情報を記憶する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ５２０は、コンピューティングデバイス５００による使用のための一時的または永久的な基準でプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理的デバイスであってもよい。不揮発性メモリの例には、これらに限定されないが、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラム可能読み出し専用メモリ（ＰＲＯＭ）／消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）／電子消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）が含まれる。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープが含まれる。

ストレージデバイス５３０は、コンピューティングデバイス５００の大容量ストレージデバイスを提供することができる。いくつかの実施形態では、ストレージデバイス５３０は、コンピュータ可読媒体である。種々の異なる実施形態では、ストレージデバイス５３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報媒体に有形的に具体化される。コンピュータプログラム製品は、実行時に、上記したような１つまたは複数の方法を実行する命令を含む。情報媒体は、メモリ５２０、ストレージデバイス５３０、またはプロセッサ５１０上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ５４０は、コンピューティングデバイス５００の帯域幅を大量に使用する処理を管理し、低速コントローラ５６０は、より低い帯域幅を大量に使用する処理を管理する。このような役割の配分は、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ５４０は、メモリ５２０、ディスプレイ５８０（例えば、グラフィックプロセッサまたはアクセラレータを介する）、および各種拡張カード（図示せず）を受け入れる高速拡張ポート５５０に接続される。いくつかの実施形態では、低速コントローラ５６０は、ストレージデバイス５３０および低速拡張ポート５９０に接続される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含む低速拡張ポート５９０は、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプターを介するスイッチまたはルータなどのネットワークデバイスなどの１つまたは複数の入力／出力デバイスに接続され得る。

コンピューティングデバイス５００は、図面に示されるように、いくつかの異なる形態で実施することができる。例えば、標準サーバ５００ａとして、またはそのようなサーバ５００ａのグループ内で複数回、ラップトップコンピュータ５００ｂとして、またはラックサーバシステム５００ｃの一部として実施することができる。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように接続された、特別または一般的な目的であってもよい、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型言語および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語で実施することができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、機械命令を機械可読信号として受け取る機械可読媒体を含む、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

本明細書で説明するプロセスおよび論理フローは、入力データを処理して出力を生成することによって機能を実行する１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローは、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの特定用途論理回路によっても実行することができる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを格納するための１つまたは複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための１つまたは複数の大容量ストレージデバイス（例えば、磁気ディスク、光磁気ディスク、または光ディスク）からのデータを受信するか、またはデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内蔵ハードディスクまたはリムーバブルディスク）、光磁気ディスク、およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての形態の不揮発性メモリ、媒体およびメモリデバイスが含まれる。プロセッサおよびメモリは、特定用途論理回路によって補完または特定用途論理回路に組み込むことができる。

ユーザとのインタラクションを提供するために、本開示の１つまたは複数の態様は、例えば、ＣＲＴ（陰極線管）、ＬＤＣ（液晶ディスプレイ）モニタ、またはタッチスクリーンなどのユーザに情報を表示するためのディスプレイデバイスと、任意選択でユーザがコンピュータに入力を提供するキーボードおよびポインティングデバイス（例えば、マウスやトラックボール）とを有するコンピュータ上で実施することができる。他の種類の装置を使用して、例えば、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得るユーザに提供されるフィードバックとともにユーザとのインタラクションを提供することもでき、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって（例えば、ウェブブラウザから受信した要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって）、ユーザとインタラクションすることができる。

いくつかの実施形態が説明されている。それにもかかわらず、本開示の技術思想および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施形態も以下の特許請求の範囲内にある。

Claims

データ処理ハードウェア上での実行時に、前記データ処理ハードウェアに動作を実行させるコンピュータが実施する方法であって、前記動作は、
第２のユーザとの会話中に第１のユーザによって話された第１の発話の音響特徴を受信することと、
前記第１のユーザに関連付けられた第１の音声認識器を使用して、前記第１の発話の音響特徴を処理して、前記第１の発話の第１の転写を生成することと、ここで、前記第１の転写は、１つまたは複数のバイアス用語を含んでおり、
前記第１の転写の前記１つまたは複数のバイアス用語に基づいて、前記第２のユーザに関連付けられた第２の音声認識器をバイアスすることと、
前記第１のユーザとの会話中に、前記第２のユーザによって話された第２の発話の音響特徴を受信することと、
前記１つまたは複数のバイアス用語に基づいてバイアスされた前記第２の音声認識器を使用して、前記第２の発話の音響特徴を処理して、前記第２の発話の第２の転写を生成することと、を含むコンピュータが実施する方法。
前記第１のユーザが第１のタイプの音声で話し、
前記第１の音声認識器は、前記第１のタイプの音声で話す話者によって話されたトレーニング発話でトレーニングされ、
前記第２のユーザは、前記第１のユーザによって話された前記第１のタイプの音声とは異なる第２のタイプの音声で話し、
前記第２の音声認識器は、前記第２のタイプの音声で話す話者によって話されたトレーニング発話でトレーニングされる、請求項１に記載のコンピュータが実施する方法。
前記第２のタイプの発話で話す話者によって話された前記トレーニング発話は、発語失行、聴覚障害音声、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、または不全歯擦音のうちの少なくとも１つを有する話者によって話された発話を含む、請求項２に記載のコンピュータが実施する方法。
前記動作が、前記第１の転写における非機能的な用語を識別することによって前記１つまたは複数のバイアス用語を識別することをさらに含む、請求項１に記載のコンピュータが実施する方法。
前記動作が、前記第１の転写に対して用語頻度－逆文書頻度（ｔｆ－ｉｄｆ）分析を実行して前記１つまたは複数のバイアス用語を識別することをさらに含む、請求項１に記載のコンピュータが実施する方法。
前記動作が、前記第１のユーザと前記第２のユーザとの間の会話中に前記第１の音声認識器によって生成された複数の転写に含まれる相互情報を識別することをさらに含む、請求項１に記載のコンピュータが実施する方法。
前記第１の発話が、前記第１のユーザに関連付けられた第１のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第１のユーザデバイス上に存在する、請求項１に記載のコンピュータが実施する方法。
前記第１の発話が、前記第１のユーザに関連付けられた第１のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第１のユーザデバイスと通信するリモートコンピューティングデバイス上に存在する、請求項１に記載のコンピュータが実施する方法。
前記動作が、前記第１のユーザに関連付けられたユーザデバイスのディスプレイ上に前記第２の発話の前記第２の転写を表示することをさらに含む、請求項１に記載のコンピュータが実施する方法。
前記動作が、前記第２の発話の前記第２の転写のための合成音声表現を生成することと、
前記第１のユーザに関連付けられたユーザデバイスからの可聴的な出力のために前記合成音声表現を提供することと、をさらに含む、請求項１に記載のコンピュータが実施する方法。
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信し、かつ命令を格納するメモリハードウェアと、を備え、前記命令は、前記データ処理ハードウェア上で実行されるときに、前記データ処理ハードウェアに、
第２のユーザとの会話中に第１のユーザによって話された第１の発話の音響特徴を受信することと、
前記第１のユーザに関連付けられた第１の音声認識器を使用して、前記第１の発話の音響特徴を処理して、前記第１の発話の第１の転写を生成することと、ここで、前記第１の転写は、１つまたは複数のバイアス用語を含んでおり、
前記第１の転写の前記１つまたは複数のバイアス用語に基づいて、前記第２のユーザに関連付けられた第２の音声認識器をバイアスすることと、
前記第１のユーザとの会話中に、前記第２のユーザによって話された第２の発話の音響特徴を受信することと、
前記１つまたは複数のバイアス用語に基づいてバイアスされた前記第２の音声認識器を使用して、前記第２の発話の音響特徴を処理して、前記第２の発話の第２の転写を生成することと、を含む動作を実行させる、システム。
前記第１のユーザが第１のタイプの音声で話し、
前記第１の音声認識器は、前記第１のタイプの音声で話す話者によって話されたトレーニング発話に対してトレーニングされ、
前記第２のユーザは、前記第１のユーザによって話された前記第１のタイプの音声とは異なる第２のタイプの音声で話し、
前記第２の音声認識器は、前記第２のタイプの音声で話す話者によって話されたトレーニング発話でトレーニングされる、請求項１１に記載のシステム。
前記第２のタイプの発話で話す話者によって話される前記トレーニング発話は、発語失行、聴覚障害音声、クラッタリング、発達性言語協調障害、構音障害、失音調、語音障害、不明瞭発語、吃音症、音声障害、または不全歯擦音のうちの少なくとも１つを有する話者によって話された発話を含む、請求項１２に記載のシステム。
前記動作が、前記第１の転写における非機能的な用語を識別することによって前記１つまたは複数のバイアス用語を識別することをさらに含む、請求項１１に記載のシステム。
前記動作が、前記第１の転写に対して用語頻度－逆文書頻度（ｔｆ－ｉｄｆ）分析を実行して前記１つまたは複数のバイアス用語を識別することをさらに含む、請求項１１に記載のシステム。
前記動作が、前記第１のユーザと前記第２のユーザとの間の会話中に前記第１の音声認識器によって生成された複数の転写に含まれる相互情報を識別することをさらに含む、請求項１１に記載のシステム。
前記第１の発話が、前記第１のユーザに関連付けられた第１のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第１のユーザデバイス上に存在する、請求項１１に記載のシステム。
前記第１の発話が、前記第１のユーザに関連付けられた第１のユーザデバイスによってキャプチャされ、
前記データ処理ハードウェアは、前記第１のユーザデバイスと通信するリモートコンピューティングデバイス上に存在する、請求項１１に記載のシステム。
前記動作が、前記第１のユーザに関連付けられたユーザデバイスのディスプレイ上に前記第２の発話の前記第２の転写を表示することをさらに含む、請求項１１に記載のシステム。
前記動作が、前記第２の発話の前記第２の転写のための合成音声表現を生成することと、
前記第１のユーザに関連付けられたユーザデバイスからの可聴的な出力のために前記合成音声表現を提供することと、をさらに含む、請求項１１に記載のシステム。