JP2022055347A

JP2022055347A - コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム（スピーチ認識トランスクリプションの改善）

Info

Publication number: JP2022055347A
Application number: JP2021156549A
Authority: JP
Inventors: アンドリューアール．フリード; R Freed Andrew; マルコノエル; Noel Marco; アイシュワリヤハリハラン; Hariharan Aishwarya; マーサホロマン; Holloman Martha; モハマドゴルジ－セフィドマジ; Gorji-Sefidmazgi Mohammad; ダニエルジスカ; Zyska Daniel
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-28
Filing date: 2021-09-27
Publication date: 2022-04-07
Also published as: CN114283810A

Abstract

【課題】スピーチ認識モデルのトランスクリプションを訂正するコンピュータ実装方法、システム及びプログラムを提供する。
【解決手段】トランスクリプションを訂正するための方法は、発話及びオーディオメトリクスを受信し、発話をトランスクライブし、発話のトランスクリプションの正確度に関する信頼度スコアを生成する。信頼度スコアが閾値より下である場合、トランスクリプションにおける音素を所与のノードについての高頻度用語の音素と比較し、一致した音素及び一致した「類似音」音素の数をスコアリングし、トランスクリプションを、一致した音素に対応するトランスクリプションに置き換える。
【選択図】図５

Description

本発明は概して、スピーチ認識の分野に関し、より具体的には、スピーチ認識における発話のトランスクリプションの改善に関する。

スピーチ認識モデルは長い間、発話または話されたコマンドを通じてユーザがコンピューティングデバイスとインタラクトすることを可能にするよう試みてきた。話されたコマンドおよび発話を処理する音声アシスタントの能力は、過去十年で驚異的な成長を遂げ、処理能力およびメモリ容量が改善した。これらの改善は、話されたコマンドおよび発話がコンピューティングデバイスに命令を提供できる新しいユーザインタフェースの開発を可能にした。いくつかのモデルにおいて、スピーチ認識は、音波を受信して音波から音素を識別すること、および、コンピュータが理解可能な意味を音素に割り当てることを伴う。

いくつかのモデルにおいて、スピーチ認識は、音波を受信して音波から音素を識別すること、および、コンピュータが理解可能な意味を音素に割り当てることを伴う。

本開示の実施形態は、コンピュータ実装方法、コンピュータプログラム製品、および、スピーチアシスタントのスピーチ認識を改善するためのシステムを含む。スピーチ認識は、発話をテキストにトランスクライブすることを含み得る。トランスクリプションおよびオーディオメトリクスに基づいてトランスクリプション信頼度スコアを生成する。トランスクリプション信頼度スコアが閾値より下であることに応答する場合、発話における音素を、高頻度用語リストからの少なくとも１つの用語の音素と比較する。追加的に、実施形態は、比較に基づいて、高頻度用語リストからの少なくとも１つの用語における音素について類似音スコアを生成することを含み得る。更に、いくつかの実施形態は、類似音スコアが閾値の上である場合、元のトランスクリプションを、高頻度用語リストからの少なくとも１つの用語と置き換え得る。

上記サマリは、本開示のすべての実装の例示的な実施形態の各々を説明することを意図するものでない。

本発明の実施形態によるスピーチ認識トランスクリプション訂正環境を一般的に図示する機能ブロック図である。

本発明の実施形態によるトランスクリプション訂正エンジンを図示する機能ブロック図である。

本発明の実施形態による自動スピーチ認識モジュールを図示する機能ブロック図である。

本発明の実施形態による類似音リストを生成するための方法を図示するフローチャートである。

本発明の実施形態によるスピーチ認識トランスクリプションを訂正するための方法を図示するフローチャートである。

本発明の実施形態による、スピーチ認識トランスクリプション訂正環境における例示的なコンピューティングシステムの機能ブロック図である。

本発明の実施形態によるクラウドコンピューティング環境を図示する図である。

本発明の実施形態による抽象化モデル層を図示する機能ブロック図である。

本明細書において説明される実施形態は、様々な修正および代替形態の対象となるが、その具体的事項は、図面において例として示され、詳細に説明される。しかしながら、説明される特定の実施形態は、限定的な意味として解釈されるべきでないことを理解されたい。むしろ、本開示の思想および範囲に含まれる、すべての修正、均等物、および代替形態を包含することが意図される。

図示される実施形態は、スピーチ認識トランスクリプションを訂正するためのアプローチ、より具体的には、低信頼度トランスクリプションの音素を、予期される高頻度用語の音素と比較すること、および、比較に基づいて低信頼度トランスクリプションを訂正することを可能とする。

本発明の実施形態において、仮想アシスタント（ＶＡ）の特定のノードにおけるユーザの発話およびオーディオメトリクスの履歴記録のログが受信される。ＶＡは質問／回答プログラム（例えば、ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅ，Ｉｎｃ．によるＷａｔｓｏｎ（登録商標）、Ａｐｐｌｅ，Ｉｎｃ．によるＳｉｒｉ（登録商標）、Ａｍａｚｏｎ，ＬＬＣ．によるＡｌｅｘａ（登録商標）など）であり得る。または、ＶＡは、プロンプトを提供されてプロンプトに発話またはコマンドで応答するユーザに関連付けられたコンピュータプログラム（カスタマーサービスの番号に電話したときに経験するものなど）であり得る。追加的に、ノードは、ＶＡによって提供される隔離されたプロンプトまたは質問（ＶＡが特定の回答を予期する）であり得る。記録は、ＶＡによって判断された、ユーザによって発せられた用語に基づいて識別される。最高頻度の発話も識別される。最高頻度の発話は、それぞれの音素に抽出される。抽出された音素は隔離され得、類似音の音素のリストが音素について生成され得る。リストの音における音素が、抽出された音素にどれほど類似しているかについて、類似性信頼度スコアが生成され得る。類似音のリストが、それぞれのＶＡノードに対応するデータレポジトリに格納され得る。

本発明の別の実施形態において、発話の記録は、ＶＡからのプロンプトに基づいてノードにおいて受信され得る。発話は、自動スピーチ認識（ＡＳＲ）モジュールによってトランスクライブされ得、トランスクリプションの信頼度スコアは、ＶＡノードのプロンプトに対する予期される応答もしくは記録のオーディオメトリクスまたはその両方に基づいて割り当てられ得る。信頼度スコアが閾値より下である場合、トランスクリプションは「失敗」とみなされる。ノードについての高頻度用語応答の「類似音」リストからの良い潜在的なトランスクリプションは、データレポジトリからロードされ得る。失敗したトランスクリプションは、予期される高頻度用語に基づいて、良いトランスクリプション（「失敗」からの音素は、潜在的な良いトランスクリプションからの音素と比較される）と照合され得る。照合されたトランスクリプションは、適切に整列された音素に基づいてスコアリングされる。照合されたスコアが閾値より上である場合、「失敗」したトランスクリプションは、最高スコアの潜在的な良いトランスクリプションと置き換えられ得る。

図１は、スピーチ認識トランスクリプション訂正環境１００を一般的に図示する機能ブロック図である。スピーチ認識トランスクリプション訂正環境１００は、サーバ１０２上で動作する自動スピーチ認識（ＡＳＲ）モジュール１０４およびトランスクリプション訂正エンジン１０６、サーバ１０２に格納されたデータレポジトリ１０８、クライアントコンピュータ１１２、ならびに、サーバ１０２とクライアントコンピュータ１１２との間の通信をサポートするネットワーク１１０を備える。ここでは簡潔性のためにサーバ１０２のみであるが、複数のサーバおよび他のコンピューティングデバイスが、ネットワーク１１０を介してアクセス可能な環境（すなわち、１、２、ｎ...ｎ＋１）に含まれ得ることに留意されたい。

サーバ１０２およびクライアントコンピュータ１１２は、スタンドアロンのコンピューティングデバイス、管理サーバ、ウェブサーバ、モバイルコンピューティングデバイス、または、データを受信、送信および処理することが可能な任意の他の電子デバイスもしくはコンピューティングシステムであり得る。他の実施形態において、サーバ１０２およびクライアントコンピュータ１１２は、複数のコンピュータをサーバシステムとして利用するサーバコンピューティングシステムを表し得る。別の実施形態において、サーバ１０２およびクライアントコンピュータ１１２は、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、パーソナルコンピュータ、デスクトップコンピュータ、または、ネットワーク１１０を介してスピーチ認識トランスクリプション訂正環境１００内の他のコンピューティングデバイス（図示せず）と通信可能な任意のプログラマブル電子デバイスであり得る。

別の実施形態において、サーバ１０２およびクライアントコンピュータ１１２は、スピーチ認識トランスクリプション訂正環境１００内でアクセスされたとき、シームレスなリソースの単一プールとして動作し得るクラスタ化されたコンピュータおよびコンポーネント（例えば、データベースサーバコンピュータ、アプリケーションサーバコンピュータなど）を利用するコンピューティングシステムを表す。サーバ１０２およびクライアントコンピュータ１１２は、図６に関して更に詳細に図示および説明されるような内部および外部のハードウェアコンポーネントを含み得る。

自動スピーチ認識（ＡＳＲ）モジュール１０４は、発話またはコマンドを受信して、それを（下で更に説明される）コンピュータ可読フォーマットに変換することが可能なコンピュータモジュールであり得る。図１において、ＡＳＲモジュール１０４はサーバ１０２上で動作するものとして示されているが、ネットワーク１１０を介してトランスクリプション訂正エンジン１０６と通信する任意のコンピューティングデバイス上で、または、トランスクリプション訂正エンジン１０６を有するローカルコンピューティングデバイス上で動作し得ることに留意されたい。

トランスクリプション訂正エンジン１０６は、履歴データログを受信するためのモジュールであり得る。履歴データログはユーザの発話の記録を含み得る。例えば、ユーザの発話の記録は、仮想アシスタントのシステム内の１または複数のノードに関連付けられている。履歴データログはまた、記録されたユーザの発話に対応するオーディオメトリクスを含み得る。オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、および非スピーチレベルを含む、記録の品質に関する情報を含み得る。オーディオメトリクスが、オーディオメトリクスの特徴を抽出するＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅ，Ｉｎｃ．のＷａｔｓｏｎ（登録商標）のスピーチ‐テキストサービスを含むがこれに限定されるものではないソフトウェアによって提供され得る。追加的に、トランスクリプション訂正エンジン１０６は、所与の時間枠（例えば、１か月、２週間、またはユーザ定義）における履歴データログからの最高頻度用語を識別することが可能であり得る。更に、トランスクリプション訂正エンジン１０６は、最大頻度用語のユーザの発話を用語の音素に隔離し得る。隔離された音素と類似の音である音素のリストが、（下で更に説明される）トランスクリプション訂正エンジン１０６によって生成され得る。

更に、トランスクリプション訂正エンジン１０６は、所与のＶＡノードについて、記録を通じて、またはリアルタイムで、ユーザの発話および発話についてのオーディオメトリクスを受信し、発話をトランスクリプションに変換し得る。トランスクリプション信頼度スコアは、発話およびオーディオメトリクスに対する予期される応答に基づいて、トランスクリプションについて生成され得る。更に、トランスクリプション訂正エンジン１０６は、（下で更に説明される）類似音リストに基づいてトランスクリプションを訂正し得る。図１は、１つのみのコンピューティングデバイス上で動作するトランスクリプション訂正エンジン１０６を示すが、いくつかの実施形態において、トランスクリプション訂正エンジン１０６は、１または複数のコンピューティングデバイス上で、または、クラウドコンピューティングシステム内で動作し得ることに留意されたい。トランスクリプション訂正エンジン１０６は、同一のコンピューティングデバイスまたは異なるコンピューティングデバイス上で、上で説明された、いくつかのアクションを実行し得る。

データレポジトリ１０８は、生成された「類似音リスト」、音素信頼度スコア、トランスクリプション信頼度スコア、発話、および、所与のＶＡノードについての対応するオーディオメトリクスを含むが、これらに限定されるものではないデータを格納可能なデータベースであり得る。図１は、サーバ１０２上に位置するデータレポジトリ１０８を示すが、いくつかの実施形態において、データレポジトリ１０８は、１または複数のコンピューティングデバイス上に、または、クラウドコンピューティングシステム内に位置し得ることに留意されたい。

ネットワーク１１０は例えば、ローカルエリアネットワーク（ＬＡＮ）、インターネットなどのワイドエリアネットワーク（ＷＡＮ）、または、２つの組み合わせであり得、有線、無線、または光ファイバ接続を含み得る。一般的に、ネットワーク１１０は、サーバ１０２とクライアントコンピュータ１１２との間の通信をサポートする接続およびプロトコルの任意の組み合わせであり得る。

図２は、トランスクリプション訂正エンジン１０６の機能ブロック図２００である。用語識別モジュール２０２および音素比較モジュール２０４は、トランスクリプション訂正エンジン１０６内において動作することが示される。

用語識別モジュール２０２は、音素に分解された発話およびオーディオメトリクスをデータレポジトリ１０８から受信または取得することが可能なコンピュータモジュールである。追加的に、用語識別モジュール２０２はまた、音素に分解されたユーザの発話およびオーディオメトリクスをＡＳＲモジュール１０４からリアルタイムで受信し得る。いくつかの実施形態において、用語識別モジュール２０２は、履歴音声ログからの高頻度発話、および、ＶＡの特定のノードについての対応する用語を識別し得る。更に、用語識別モジュール２０２は、用語が所与のノードにおいて、ある期間にわたって使用されたパーセンテージを判断し得る。期間は、構成に基づいて、静的または動的であり得る。例えば、所与の月にわたって、金融機関のカスタマーサービスＶＡがユーザに４つのプロンプトを提供して、１）小切手、２）貯金、３）年金、または４）ローンから選択させる場合。用語識別モジュール２０２は、記録された発話履歴のどれが各用語に対応するか判断し、各用語がユーザによって選択されるパーセンテージ（例えば、チェック５５％、貯金２５％、年金１０％、およびローン１０％）を生成し得る。追加的に、用語識別モジュール２０２は、低いオーディオメトリクス、アクセント、または発音ミス（例えば、ユーザがｒｅｔｉｒｅｍｅｎｔ（年金）ではなくｒｅｆｉｒｅｍｅｎｔと、または、ｓａｖｉｎｇｓ（貯金）ではなくｓａｂｉｎｇと述べる）に起因して厳密に一致しない発話を識別し得る。用語識別モジュール２０２は、用語に対応する高頻度用語および発話を識別し、用語を音素比較モジュール２０４へ送信し得る。

音素比較モジュール２０４は、発話履歴およびリアルタイムのユーザの発話から抽出された音素を分析する能力を有するコンピュータモジュールであり得る。実施形態において、音素比較モジュールは、用語識別モジュール２０２から、ＶＡノードについての発話について高頻度用語および音素を受信または取得し得る。更に、音素比較モジュール２０４は、ＶＡノードの用語に基づいて、発話の音素についての類似音リストを生成し得る。例えば、英語には４４の音素がある。音素比較モジュール２０４は、用語の音素を判断し、その用語に類似する音素を見つけ、音素の「類似音リスト」を形成し得る。いくつかの実施形態において、類似性スコアはリスト上の各音素に割り当てられ得る。類似性スコアは、人間が注釈を付けた音素リスト、または、２つの音素間の音声スペクトログラムの類似性の分析に基づき得る。いくつかの実施形態において、類似性スコアは、発話したユーザのアクセントの識別に基づいて、地域方言の特徴を含み得る。

いくつかの実施形態において、音素比較モジュール２０４は、ユーザの発話のリアルタイムのトランスクリプション、および、閾値より下のトランスクリプション信頼度スコアを有する発話の抽出された音素をＡＳＲモジュール１０４から受信し得る。音素比較モジュール２０４は、発話からの音素を分析し、リアルタイムのユーザの発話について、潜在的に「良い」トランスクリプションを生成し得る。いくつかの実施形態において、音素の数が、ＶＡノードについての予期される用語についての予期される音素の数に対してチェックされる。音素がより多い、または少ない用語は却下される。例えば、ユーザが「ａｕ－ｔｈｏｒ－ｉ－ｚａ－ｔｉｏｎ（認可）」と言うことを意図し、ＡＳＲモジュール１０４がそれを「ｏｆ－ｈｅｒ－ｉ－ｓａｙ－ｓｈｕｎ」とトランスクライブする場合、音素比較モジュール２０４は、発話に５つの音素があると認識して、リストにおける４以下の音素および６以上の音素を有する高頻度用語を考慮から除外する。更に、残りの用語は、どの音素が一致するか判断するために分析され得る。一致しない音素は、予期される用語について、「類似音」リストからの音素と比較される。上の例では、「ｉ－ｓａｙ－ｓｈｕｎ」が、類似音リストからの一致である。残りの２つの音素、「ｏｆ」および「ｈｅｒ」は、認可について、類似音リストからの類似の音の音素と比較される。この例では、「ｏｆ」は、当該音素および「ａｕ」についての類似音リストにある。しかしながら、「ｈｅｒ」は、「ｔｈｏｒ」に対応する音素についての類似音リストにない。一致する任意の用語は、音素整列スコアを受信し、音素整列スコアが（予め定められた、または、オーディオメトリクスに基づいて動的な）閾値より上である場合、新しく整列された音素は、元のトランスクリプションと置き換わり得る。元のトランスクリプションの正確に整列された音素のパーセンテージを判断し、非整列音素に対して、類似音スコアによってパーセンテージを組み込むことによって音素整列スコアが計算され得る。新しいトランスクリプションは、ＡＳＲモジュール１０４を更新するために使用され得る。

図３は、本発明の実施形態によるＡＳＲモジュール１０４の機能ブロック図３００である。ＡＳＲモジュール１０４は、スピーチ変換部３０２、スピーチトランスクライブ部３０４、トークン化部３０６、品詞（ＰＯＳ）タグ付け部３０８、セマンティック関係識別部３１０、およびシンタクティック関係識別部３１２から構成され得る。いくつかの実施形態において、ＡＳＲモジュール１０４は、発話を受信して発話から音素を抽出し、抽出された音素からテキストをトランスクライブすることが可能な、ニューラルネットワークもしくは隠れマルコフモデル、または、ハイブリッドニューラルネットワーク／隠れマルコフモデルであり得る。

スピーチ変換部３０２は、ユーザからの発話を受信または取得し得る。発話は、音波モデルとしてリアルタイムに記録または受信され得る。スピーチ変換部３０２は、更なる分析のために、波モデルを音声スペクトログラムに変換し得る。音声スペクトログラムは、発話の長さ、振幅、および周波数の視覚的表現を二次元表現で提供し得る。スピーチ変換部３０２は、音声スペクトログラムの分析に基づいて音素を判断し得る。追加的に、発話からの音素の判断を強化するべく、スペクトログラムは、より小さい時間枠（例えば１０ミリ秒）に分解され得る。

スピーチトランスクライブ部３０４は、スピーチ変換部３０２から受信または取得された音素の分析に基づいて、テキストを生成可能なコンピュータモジュールである。本発明のいくつかの実施形態は、前の音素または複数の音素が予測において考慮される予測モデルに基づいて、単語を判断する能力を保持し得る。更に、スピーチトランスクライブ部は、テキストのトランスクライブの進行中に、トークン化部３０６、ＰＯＳタグ付け部３０８、セマンティック関係識別部３１０、およびシンタクティック関係識別部３１２から入力を受け付け得る。スピーチトランスクライブ部はまた、発話に対応するオーディオメトリクスに基づいて、トランスクリプション信頼度スコアをトランスクリプションに割り当てる能力を提供し得る。いくつかの実施形態において、トランスクリプション信頼度スコアは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、および非スピーチレベルの評価であり得る。いくつかの他の実施形態において、信頼度スコアは、コンテキストドリブンであり得、スコアは特定のＶＡノードについての予期される応答に基づく。更に、予期される応答は、トランスクリプションが予期される応答にどれだけ近く一致しているかであり得る。

いくつかの実施形態において、トークン化部３０６は、語彙分析を実行するコンピュータモジュールであり得る。トークン化部３０６は、文字列をトークン列に変換し得る。トークンは、記録に含まれる文字の文字列であり、意味のあるシンボルとして分類され得る。更に、いくつかの実施形態において、トークン化部３０６は、記録における単語の境界を識別し、コーパス内の任意のテキストをそれらのコンポーネントテキスト要素（単語、マルチワードトークン、数字、および句読点など）に分解し得る。いくつかの実施形態において、トークン化部３０６は、文字の文字列を受信し、文字列における語彙素を識別し、それらをトークンに分類し得る。

様々な実施形態によれば、ＰＯＳタグ付け部３０８は、スピーチの特定の一部に対応するように、トランスクリプションにおける単語を割り当てるコンピュータモジュールであり得る。ＰＯＳタグ付け部３０８は、発話のトランスクリプションを分析し、スピーチの一部を各単語または他のトークンに割り当て得る。ＰＯＳタグ付け部３０８は、単語の定義および単語の文脈に基づいて、単語が対応するスピーチの一部を判断し得る。単語の文脈は、語句、文、または段落における隣接し関連する単語との関係に基づき得る。いくつかの実施形態において、単語の文脈は、コーパスにおいて前に分析された１または複数の単語に依存し得る。単語に割り当てられ得るスピーチの一部の例は、名詞、動詞、形容詞、副詞などを含むが、これらに限定されるものではない。ＰＯＳタグ付け部３０８が割り当て得るスピーチカテゴリの他の一部の例は、比較級もしくは最上級副詞、ｗｈ副詞、接続詞、限定詞、不変化詞、所有格、前置詞、ｗｈ代名詞などを含み得るが、これらに限定されるものではない。いくつかの実施形態において、ＰＯＳタグ付け部３０８は、スピーチカテゴリの一部を用いて、コーパスにおける「ａｎ」単語のトークンにタグ付けし得る、または、そうでなければ、注釈を付け得る。いくつかの実施形態において、ＰＯＳタグ付け部３０８は、スピーチトランスクライブ部３０４によって解析されるコーパスのトークンまたは単語をタグ付けし得る。

いくつかの実施形態において、セマンティック関係識別部３１０は、コーパスにおける認識された対象（例えば、単語、語句、画像など）のセマンティック関係を識別するよう構成され得るコンピュータモジュールであり得る。いくつかの実施形態において、セマンティック関係識別部３１０は、エンティティ間の機能的依存性、および、トランスクリプション内の他のセマンティック関係を判断し得る。

様々な実施形態によれば、シンタクティック関係識別部３１２は、トークンから構成されるコーパスにおけるシンタクティック関係を識別するよう構成され得るコンピュータモジュールであり得る。シンタクティック関係識別部３１２は、例えば、単語のどのグループが語句として関連付けられか、および、どの単語が動詞の主語または目的語であるかなど、文の文法的構造を判断し得る。シンタクティック関係識別部３１２は公式の文法に従い得る。

図４は、「類似音」リストを生成するための方法４００を図示するフローチャートである。４０２において、発話履歴および対応するオーディオメトリクスは、トランスクリプション訂正エンジン１０６において受信される。

４０４において、トランスクリプション訂正エンジン１０６は、発話履歴およびオーディオメトリクスから高頻度用語を識別する。高頻度用語は、ある時間枠においてＶＡノードで用語が選択された回数の分析を通じて、用語識別モジュール２０２によって識別され得る。更に、いくつかの実施形態において、オーディオメトリクスは、用語が選択されたかどうかを判断するための評価された用語識別であり得、所与の発話についてオーディオメトリクスが低い場合、発話は最終分析において無視され得る。

４０６において、ＡＳＲモジュール１０４は、識別された高頻度用語を対応する音素に分解し得る。いくつかの実施形態において、ＡＳＲモジュール１０４は、以前に記録された発話の音波モデルを評価し、スピーチ変換部３０２は、音波モデルを音声スペクトログラムに変換し、音声スペクトログラムから音素を隔離する。スピーチトランスクライブ部３０４は、トークン化部３０６、ＰＯＳタグ付け部３０８、セマンティック関係識別部３１０、およびシンタクティック関係識別部３１２からの入力を用いて、隔離された音素をテキストに変換し得、トランスクライブされたテキストがセマンティック的かつシンタクティック的に訂正されることを確実にする。

４０８において、音素比較モジュール２０４は、ＡＳＲモジュール１０４によってトランスクライブされた高頻度用語の音素についての「類似音」リストを生成する。更に、音素比較モジュール２０４は、高頻度用語からの各音素について、音が類似する音素のリストに信頼度スコアを割り当て得る。

図５は、類似音リストを使用してトランスクリプションを訂正するための方法５００を図示するフローチャートである。５０２において、発話およびオーディオメトリクスがＡＳＲモジュール１０４によって受信され得る。発話は、特定のＶＡノードについてのものであり得る、または、ＶＡについてのオープンダイアログフレームワーク内にあり得る。いくつかの実施形態について、発話は、自動カスタマー電話サポートラインからの特定の文脈内にあり得る。更に別の実施形態において、発話は、ＶＡが特定の発話によって動作するようトリガされ既存のコマンドを与えられる、または、特定の範囲内の質問を尋ねられるオープンダイアログフレームワークからのものであり得る。

５０４において、ＡＳＲモジュール１０４は、受信された発話をトランスクライブし得る。いくつかの実施形態において、ＡＳＲモジュール１０４は、発話をその音素に分解し、音素に基づいてテキストを生成し得る。いくつかの実施形態において、テキストは、モデルがディープニューラルネットワークである予測モデルを使用して生成され得る。

５０６において、ＡＳＲモジュール１０４は、トランスクリプション信頼度スコアを発話のトランスクリプションに割り当て得る。いくつかの実施形態において、トランスクリプション信頼度スコアは、オーディオメトリクスの評価、または、予期される応答に基づくコンテキスト、または、その２つの組み合わせに基づき得る。

５０８において、トランスクリプション訂正エンジン１０６は、トランスクリプション信頼度スコアが閾値より上かどうかを判断する。閾値は静的または動的であり得る。閾値が静的である場合、その時間のユーザの判断または必要性に基づいて、ユーザによって構成され得る。閾値は、その時間に利用可能なコンピューティングリソース、発話の長さ、発話を受信する時間のＶＡノード利用率などを含む多くの要素に基づいて、動的に構成され得る。トランスクリプション信頼度スコアが閾値より下である場合、トランスクリプションは「失敗」とみなされ、更なる処理のために送信される。信頼度スコアが閾値より上である場合、トランスクリプション方法が終了する。

５１０において、音素比較モジュール２０４は、「失敗」したトランスクリプションにおける音素を所与のノードについての高頻度用語の音素と比較する。いくつかの実施形態において、音素比較モジュールは、トランスクリプションにおける音素の数を分析し、どの高頻度用語が同一の音素数を含むか判断するよう構成され得る。更に、音素比較モジュール２０４は、トランスクリプションにおける任意の音素が高頻度用語における音素と一致するかどうかを判断し得る。音素が一致し得るかどうかを判断するために、トランスクリプションにおける音素と一致しない高頻度用語からの任意の音素は、「類似音」リストからの音素と比較され得る。追加的に、音素比較モジュール２０４は、一致した音素および一致した「類似音」音素の数をスコアリングし得る。このスコアは、一致した音素、および、一致した「類似音」音素の要素のパーセンテージであり得る。

５１２において、一致した音素スコアが（静的または動的に割り当てられる）閾値より上である場合、「失敗」したトランスクリプションは、一致した音素に対応するトランスクリプションと置き換えられる。新しく展開されたトランスクリプションはＡＳＲモジュール１０４を更新するのに使用され得る。

５１４において、方法が終了する。

図６は、発明の実施形態における、サーバ１０２およびデータレポジトリ１０８または任意の他のコンピューティングデバイスを表す例示的なコンピュータシステムであるコンピュータシステム６００を図示する。コンピュータシステム６００は、コンピュータプロセッサ１４、メモリ１６、永続ストレージ１８、ネットワークアダプタ２８、入出力（Ｉ／Ｏ）インタフェース２６の間の通信を提供する通信ファブリック１２を備える。通信ファブリック１２は、プロセッサ（マイクロプロセッサ、通信およびネットワークプロセッサなど）、システムメモリ、ペリフェラルドライブ、およびシステム内の任意の他のハードウェアコンポーネントの間でデータもしくは制御情報またはその両方を渡すために設計された任意のアーキテクチャで実装され得る。例えば、通信ファブリック１２は、１または複数のバスで実装され得る。

コンピュータシステム６００は、プロセッサ１４、キャッシュ２２、メモリ１６、ネットワークアダプタ２８、入出力（Ｉ／Ｏ）インタフェース２６、および通信ファブリック１２を備える。通信ファブリック１２は、キャッシュ２２、メモリ１６、永続ストレージ１８、ネットワークアダプタ２８、および入出力（Ｉ／Ｏ）インタフェース２６の間の通信を提供する。通信ファブリック１２は、プロセッサ（マイクロプロセッサ、通信およびネットワークプロセッサなど）、システムメモリ、ペリフェラルドライブ、およびシステム内の任意の他のハードウェアコンポーネントの間でデータもしくは制御情報またはその両方を渡すために設計された任意のアーキテクチャで実装され得る。例えば、通信ファブリック１２は、１または複数のバスまたはクロスバースイッチで実装され得る。

メモリ１６および永続ストレージ１８はコンピュータ可読記憶媒体である。この実施形態において、メモリ１６は、永続ストレージ１８、ランダムアクセスメモリ（ＲＡＭ）２０、キャッシュ２２、およびプログラムモジュール２４を含む。一般的に、メモリ１６は、任意の好適な揮発性または非揮発性コンピュータ可読記憶媒体を含み得る。キャッシュ２２は、メモリ１６からの最近アクセスされたデータ、および、最近アクセスされたデータに近いデータを保持することによってプロセッサ１４のパフォーマンスを強化する高速メモリである。下で更に図示および説明されるように、メモリ１６は、本発明の実施形態の機能を実行するよう構成される少なくとも１つのプログラムモジュール２４を含み得る。

少なくとも１つのプログラムモジュール２４を有するプログラム／ユーティリティ、ならびに、オペレーティングシステム、１または複数のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータは、限定としてではなく例としてメモリ１６に格納され得る。オペレーティングシステム、１または複数のアプリケーションプログラム、他のプログラムモジュール、および、プログラムデータの各々、または、それらのいくつかの組み合わせは、ネットワーク環境の実装を含み得る。プログラムモジュール２４は一般に、本明細書に説明されるように、本発明の実施形態の機能もしくは方法またはその両方を実行する。

本発明の実施形態を実施するために使用されるプログラム命令およびデータは、キャッシュ２２を介した、それぞれのプロセッサ１４の１または複数による実行のために、永続ストレージ１８およびメモリ１６に格納され得る。実施形態において、永続ストレージ１８は磁気ハードディスクドライブを含む。磁気ハードディスクドライブに対して代替的に、または、追加的に、永続ストレージ１８は、ソリッドステートハードドライブ、半導体記憶装置、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、または、プログラム命令またはデジタル情報を格納することが可能な任意の他のコンピュータ可読記憶媒体を含むことができる。

永続ストレージ１８によって使用される媒体は、リムーバブルでもあり得る。例えば、リムーバブルハードドライブは、永続ストレージ１８のために使用され得る。他の例は、永続ストレージ１８の一部でもある別のコンピュータ可読記憶媒体への転送のためにドライブに挿入される、光学および磁気ディスク、サムドライブ、ならびに、スマートカードを含む。

これらの例におけるネットワークアダプタ２８は、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例において、ネットワークアダプタ２８は、１または複数のネットワークインタフェースカードを含む。ネットワークアダプタ２８は、物理および無線通信リンクのいずれか、または両方の使用を通じた通信を提供し得る。本発明の実施形態を実施するために使用されるプログラム命令およびデータは、ネットワークアダプタ２８を通じて永続ストレージ１８にダウンロードされ得る。

Ｉ／Ｏインタフェース２６は、各コンピュータシステムに接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインタフェース２６は、キーボード、キーパッド、タッチ画面もしくはいくつかの他の好適な入力デバイスまたはその組み合わせなどの外部デバイス３０への接続を提供し得る。外部デバイス３０はまた、例えば、サムドライブ、ポータブル光学または磁気ディスク、およびメモリカードなどのポータブルコンピュータ可読記憶媒体を含み得る。本発明の実施形態を実施するために使用されるソフトウェアおよびデータは、そのようなポータブルコンピュータ可読記憶媒体に格納でき、Ｉ／Ｏインタフェース２６を介して永続ストレージ１８にロードできる。Ｉ／Ｏインタフェース２６はまた、ディスプレイ３２に接続する。

ディスプレイ３２は、データをユーザに表示する機構を提供し、例えば、コンピュータモニタまたは仮想グラフィカルユーザインタフェースであり得る。

本明細書に説明されるコンポーネントは、本発明の特定の実施形態においてそれらが実装されるアプリケーションに基づいて識別される。しかしながら、本明細書における任意の特定のコンポーネントの名称は、単に便宜のために使用され、したがって、本発明は、そのような名称によって識別もしくは示唆されるまたはその両方の任意の特定のアプリケーションのみにおける使用に限定されるべきでないことが理解されるべきである。

本発明は、システム、方法もしくはコンピュータプログラム製品またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるための命令を保持および格納できる有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体記憶装置、または、上記の任意の好適な組み合わせに限定されるものではないことがあり得る。コンピュータ可読記憶媒体のより具体的な例の非包括的リストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝における凸構造などの機械的符号化デバイス、および、上記の任意の好適な組み合わせを含む。本明細書において使用されるコンピュータ可読記憶媒体は、無線または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通る光パルス）、または、ワイヤを通じて伝送される電気信号など、一時的な信号自体として解釈されるべきでない。

本明細書において説明するコンピュータ可読プログラム命令は、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはその組み合わせなどのネットワークを介して、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスへダウンロードされ得るか、または、外部コンピュータもしくは外部ストレージデバイスへダウンロードされ得る。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはその組み合わせを含み得る。各コンピューティング／処理デバイスにおけるネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体において格納するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋、または同様のものなどのオブジェクト指向プログラミング言語、Ｃプログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む１または複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で部分的かつリモートコンピュータ上で部分的に、または、リモートコンピュータもしくはサーバ上で全体的に実行し得る。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得るか、または、接続は、（例えば、インターネットサービスプロバイダを使用してインターネットを通じて）外部コンピュータに行われ得る。いくつかの実施形態において、本発明の態様を実行するべく、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または、プログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。

本発明の態様は、本明細書において、発明の実施形態に係る方法、装置（システム）、および、コンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して説明されている。フローチャート図もしくはブロック図またはその両方の各ブロックは、ならびに、フローチャート図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることを理解されたい。

これらのコンピュータ可読プログラム命令は、機械を生じさせるために、汎用コンピュータ、特定用途向けコンピュータ、または、他のプログラマブルデータ処理装置のプロセッサに提供され得る。それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行する命令は、フローチャートもしくはブロック図またはその両方のブロックまたは複数のブロックにおいて指定される機能／動作を実装するための手段を形成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置もしくは他のデバイスまたはその組み合わせに、特定の方式で機能するよう指示できるコンピュータ可読記憶媒体に格納され得る。それにより、命令を格納したコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方のブロックまたは複数のブロックにおいて指定された機能／動作の態様を実装する命令を含む、製造者の品目を含む。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、または、他のデバイス上にロードされ得ることにより、一連の動作ステップを、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行させ、コンピュータ実装プロセスを生じさせ、それにより、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行する命令が、フローチャートもしくはブロック図またはその両方のブロックまたは複数のブロックにおいて指定される機能／動作を実装する。

図面内のフローチャート及びブロック図は、本発明の様々な実施形態に係る、システム、方法、および、コンピュータプログラム製品のあり得る実装のアーキテクチャ、機能、および、動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装するための１または複数の実行可能命令を含む、モジュール、セグメント、または、命令の一部を表し得る。いくつかの代替的な実装において、ブロックにおいて記載される機能は、図に記載された順序とは別の順序で生じ得る。例えば、連続して示される２つのブロックは、関与する機能に応じて、ほぼ同時に実行され得るか、または、ブロックは場合によっては、逆の順序で実行されてよい。また、ブロック図もしくはフローチャート図またはその両方の各ブロック、ならびに、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせは、指定された機能または動作を実行する特定用途向けハードウェアベースのシステムによって実装できる、または、特定用途向けハードウェアおよびコンピュータ命令の組み合わせを実行できることに留意されたい。

本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書において列挙される教示の実装はクラウドコンピューティング環境に限定されるものではないことを理解されたい。むしろ、本発明の実施形態は、現在知られている、または、後に開発される任意の他のタイプのコンピューティング環境と協調して実装されることが可能である。

クラウドコンピューティングは、管理の労力またはサービスのプロバイダとのインタラクションを最小限に抑えながら迅速にプロビジョニングおよびリリースできる構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、プロセス、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールに対する便利なオンデマンドのネットワークアクセスを可能するための、サービス提供のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、および少なくとも４つの展開モデルを含み得る。

特性は以下の通りである。

オンデマンドセルフサービス：クラウド消費者は、人間とサービスのプロバイダとのインタラクションを要求することなく、必要に応じて自動的に、サーバ時間およびネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングできる。

ブロードネットワークアクセス：能力はネットワークを通じて利用可能であり、異種混合のシンまたはシッククライアントプラットフォームによる使用を促進する標準的な機構（例えば携帯電話、ラップトップ、およびＰＤＡ）を通じてアクセスされる。

リソースプール：プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを使用して複数の消費者にサービスを提供し、異なる物理的および仮想的リソースが需要に応じて動的に割り当ておよび再割り当てされる。概して消費者は提供されるリソースの厳密な位置についての制御または知識を有しないが、より高い抽象化レベル（例えば、国、州、またはデータセンタ）で位置を指定可能であり得るという点で、位置独立性の意味がある。

迅速な柔軟性：いくつかの場合においては自動的に、迅速なスケールアウトのために、能力を急速かつ柔軟にプロビジョニングでき、迅速なスケールインのために迅速にリリースできる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時間に任意の量で購入できる。

測定されたサービス：クラウドシステムは、サービスのタイプに適切な、いくらかの抽象化レベル（例えば、ストレージ、処理、帯域幅、および、アクティブユーザアカウント）で、測定能力を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用量が監視、制御、レポートされ得、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供する。

サービスモデルは以下の通りである。

ソフトウェア・アズ・ア・サービス（ＳａａＳ）：消費者に提供される能力は、クラウドインフラストラクチャ上で実行するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ（例えばウェブベースの電子メール）などのシンクライアントインタフェースを通じて様々なクライアントデバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージ、または更には個々のアプリケーション能力を含む基礎のクラウドインフラストラクチャを管理または制御しないが、限定されたユーザ固有のアプリケーション構成設定は例外である可能性がある。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して形成される、消費者が形成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む基礎のクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーション、および、場合によっては、環境構成をホストするアプリケーションに対する制御を有する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：消費者に提供される能力は、処理、ストレージ、ネットワーク、および、消費者がオペレーティングシステムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基礎のクラウドインフラストラクチャを管理または制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、および、場合によっては、選択されたネットワークコンポーネント（例えばホストファイアウォール）の限定された制御に対する制御を有する。

展開モデルは以下の通りである。

プライベートクラウド：クラウドインフラストラクチャは組織のみのために動作される。組織またはサードパーティによって管理され得、敷地内または敷地外に存在し得る。

コミュニティクラウド：クラウドインフラストラクチャは、複数の組織によって共有され、共有された関心（例えば、役割、セキュリティ要件、ポリシー、および、コンプライアンス上の考慮事項）を有する特定のコミュニティをサポートする。組織またはサードパーティによって管理され得、敷地内または敷地外に存在し得る。

パブリッククラウド：クラウドインフラストラクチャは、一般大衆または大きい産業グループに利用可能となり、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：クラウドインフラストラクチャは、固有のエンティティであり続けるが、データおよびアプリケーションのポータビリティを可能にする標準化またはプロプライエタリ技術（例えば、クラウド間のロードバランシングのためのクラウドバースティング）によって共に結合される２以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合である。

クラウドコンピューティング環境は、ステートレス、低結合、モジュール性、および、セマンティック相互運用性に対する重点を指向したサービスである。クラウドコンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

図７は、本発明の少なくとも１つの実施形態によるクラウドコンピューティング環境５０を図示するブロック図である。示されるように、クラウドコンピューティング環境５０は、例えば、パーソナルデジタルアシスタント（ＰＤＡ）または携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃもしくは自動車コンピュータシステム５４Ｎまたはその組み合わせなど、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る１または複数のクラウドコンピューティングノード１０を含む。ノード１０は互いに通信し得る。それらは、上で説明されるプライベート、コミュニティ、パブリック、またはハイブリッドクラウド、またはそれらの組み合わせなど、１または複数のネットワークにおいて物理的または仮想的にグループ化され得る（図示されない）。これにより、クラウドコンピューティング環境５０は、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせを、クラウド消費者がローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能となる。図６に示されるコンピューティングデバイス５４Ａ－Ｎのタイプは、単に例示を意図するだけであり、コンピューティングノード１０およびクラウドコンピューティング環境５０は、任意のタイプのネットワークもしくはネットワークアドレス可能接続またはその両方を介して（例えば、ウェブブラウザを使用して）、任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。

図８は、本発明の少なくとも１つの実施形態による、図６に図示されるクラウドコンピューティング環境５０によって提供される機能抽象化モデル層のセットを図示するブロック図である。図７に示されるコンポーネント、層、および機能は、例示を意図するだけであり、本発明の実施形態はこれらに限定されるものではないことが予め理解されるべきである。図示されるように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層６０は、ハードウェアおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例は、メインフレーム６１、ＲＩＳＣ（最小命令セットコンピュータ）アーキテクチャベースサーバ６２、サーバ６３、ブレードサーバ６４、ストレージデバイス６５、ならびに、ネットワークおよびネットワークコンポーネント６６を含む。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７およびデータベースソフトウェア６８を含む。

仮想化層７０は抽象化層を提供し、抽象化層からは、仮想エンティティの以下の例、すなわち、仮想サーバ７１、仮想ストレージ７２、仮想プライベートネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティングシステム７４、ならびに仮想クライアント７５が提供され得る。

一例において、管理層８０は、以下に説明される機能を提供し得る。リソースプロビジョニング８１は、コンピューティングリソース、および、クラウドコンピューティング環境内でタスクを実行するために利用される他のリソースの動的な調達を提供する。測定および価格設定８２は、クラウドコンピューティング環境内でリソースが利用されるときのコスト追跡、および、これらのリソースの消費に対する課金または請求を提供する。一例において、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクについてのアイデンティティ検証、ならびに、データおよび他のリソースについての保護を提供する。ユーザポータル８３は、消費者およびシステム管理者のために、クラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８４は、要求されるサービスレベルが満たされるように、クラウドコンピューティングリソース割り当ておよび管理を提供する。サービス水準合意（ＳＬＡ）計画および達成８５は、ＳＬＡに従って将来の要件が予想されるクラウドコンピューティングリソースの事前手配および調達を提供する。

ワークロード層９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育配信９３、データ分析処理９４、トランザクション処理９５、および、スピーチ認識トランスクリプション訂正９６を含む。

本発明の様々な実施形態の説明は、例示の目的で提示されたものであり、包括的な意図、または、開示された実施形態に対する限定の意図はない。本発明の範囲および思想から逸脱しない多くの修正または変形が、当技術分野の当業者にとって明らかであろう。本明細書において使用される用語は、実施形態の原理、実際的な用途、または、市場において見られる技術に対する技術的改善をもっとも良く説明するために、または、当技術分野における他の当業者が、本明細書において開示される実施形態を理解することを可能にするために選択された。

Claims

スピーチ認識を改善するためにモデルを訓練するためのコンピュータ実装方法であって、
１または複数のプロセッサが発話をテキストにトランスクライブする段階と、
前記１または複数のプロセッサが、トランスクリプションおよびオーディオメトリクスに基づいて、トランスクリプション信頼度スコアを生成する段階と、
前記トランスクリプション信頼度スコアが閾値より下であることに応答して、前記１または複数のプロセッサが、前記発話における音素を高頻度用語リストからの少なくとも１つの用語における音素と比較する段階と、
前記１または複数のプロセッサが、前記比較に基づいて、高頻度用語リストからの前記少なくとも１つの用語における音素についての類似音スコアを生成する段階と、
前記類似音スコアが閾値より上である場合、前記１または複数のプロセッサが、前記トランスクリプションを前記高頻度用語リストからの前記少なくとも１つの用語と置き換える段階と
を備えるコンピュータ実装方法。
前記比較する段階は、
前記１または複数のプロセッサが、前記発話における音素の数を判断する段階と、
前記１または複数のプロセッサが、前記発話と同一の音素数を有しない高頻度用語を考慮から除外する段階と、
前記１または複数のプロセッサが、残りの高頻度用語の前記音素を前記発話における前記音素と照合する段階と
を更に含む、請求項１に記載のコンピュータ実装方法。
前記音素が一致しないことに応答して、前記１または複数のプロセッサが、前記高頻度用語に一致しない前記発話の音素が、対応する前記高頻度用語の音素についての類似音リストからの音素と一致するかどうかを判断する段階を更に備える、請求項２に記載のコンピュータ実装方法。
前記オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、または非スピーチレベルの少なくとも１つから構成される、請求項１から３のいずれか一項に記載のコンピュータ実装方法。
前記トランスクライブは、ディープニューラルネットワークに基づいて自動スピーチ認識モジュールによって実行される、請求項１から４のいずれか一項に記載のコンピュータ実装方法。
前記１または複数のプロセッサが前記発話を受信する段階を更に備える、請求項１から５のいずれか一項に記載のコンピュータ実装方法。
前記受信は、仮想アシスタントによって、前記仮想アシスタントの特定のノードにおいて実行され、ある期間にわたる高頻度用語は、前記特定のノードについて識別されたものである、請求項６に記載のコンピュータ実装方法。
スピーチ認識トランスクリプションを改善するためのコンピュータシステムであって、
１または複数のコンピュータプロセッサと、
１または複数のコンピュータ可読記憶媒体と、
コンピュータプログラム命令と
を備え、前記コンピュータプログラム命令は、
発話をテキストにトランスクライブすること、
トランスクリプションおよびオーディオメトリクスに基づいてトランスクリプション信頼度スコアを生成すること、
前記トランスクリプション信頼度スコアが閾値より下であることに応答して、前記１または複数のコンピュータプロセッサが、前記発話における音素を、高頻度用語リストからの少なくとも１つの用語における音素と比較すること、
前記比較に基づいて、高頻度用語リストからの前記少なくとも１つの用語における音素についての類似音スコアを生成すること、および、
前記類似音スコアが閾値より上である場合、前記トランスクリプションを、前記高頻度用語リストからの前記少なくとも１つの用語に置き換えること
のためのものである、システム。
前記比較は更に、
前記発話における音素の数を判断すること、
前記発話と同一の音素数を有しない高頻度用語を考慮から除外すること、および、
残りの高頻度用語の前記音素を前記発話における前記音素と照合すること
を含む、請求項８に記載のコンピュータシステム。
前記高頻度用語の前記音素が一致しないことに応答して、前記高頻度用語に一致しない前記発話の音素が、対応する前記高頻度用語の音素についての類似音リストからの音素に一致するかどうかを判断するための命令を更に含む、請求項９に記載のコンピュータシステム。
前記オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、または非スピーチレベルの少なくとも１つから構成される、請求項８から１０のいずれか一項に記載のコンピュータシステム。
前記トランスクライブは、ディープニューラルネットワークに基づいて自動スピーチ認識モジュールによって実行される、請求項８から１１のいずれか一項に記載のコンピュータシステム。
前記発話を受信するための命令を更に含む、請求項８から１２のいずれか一項に記載のコンピュータシステム。
前記受信は、仮想アシスタントによって、前記仮想アシスタントの特定のノードにおいて実行され、ある期間にわたる高頻度用語は、前記特定のノードについて識別されたものである、請求項１３に記載のコンピュータシステム。
スピーチ認識トランスクリプションを改善するためのコンピュータプログラムであってプロセッサに、
トランスクリプションおよびオーディオメトリクスに基づいてトランスクリプション信頼度スコアを生成する手順と、
前記トランスクリプション信頼度スコアが閾値より下であることに応答して、発話における音素を、高頻度用語リストからの少なくとも１つの用語における音素と比較する手順と、
前記比較に基づいて、高頻度用語リストからの前記少なくとも１つの用語における音素についての類似音スコアを生成する手順と、
前記類似音スコアが閾値より上である場合、前記トランスクリプションを、前記高頻度用語リストからの前記少なくとも１つの用語に置き換える手順と
を実行させるためのコンピュータプログラム。
前記比較する手順は更に、
前記発話における音素数を判断する手順と、
前記発話と同一の音素数を有しない高頻度用語を考慮から除外する手順と、
残りの高頻度用語の前記音素を前記発話における前記音素と照合する手順と
を含む、請求項１５に記載のコンピュータプログラム。
前記プロセッサに、
前記高頻度用語の前記音素が一致しないことに応答して、前記高頻度用語に一致しない前記発話の音素が、対応する前記高頻度用語の音素についての類似音リストからの音素と一致するかどうかを判断する手順を更に実行させる、請求項１６に記載のコンピュータプログラム。
前記オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、または非スピーチレベルの少なくとも１つから構成される、請求項１５から１７のいずれか一項に記載のコンピュータプログラム。
トランスクライブは、ディープニューラルネットワークに基づいて自動スピーチ認識モジュールによって実行される、請求項１５から１８のいずれか一項に記載のコンピュータプログラム。
前記プロセッサに、
前記発話を受信する手順であって、前記受信は、仮想アシスタントによって前記仮想アシスタントの特定のノードにおいて実行され、ある期間にわたる高頻度用語は、前記特定のノードについて識別されたものである、手順を更に実行させる、請求項１５から１９のいずれか一項に記載のコンピュータプログラム。