JP2022055347A - コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善) - Google Patents

コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善) Download PDF

Info

Publication number
JP2022055347A
JP2022055347A JP2021156549A JP2021156549A JP2022055347A JP 2022055347 A JP2022055347 A JP 2022055347A JP 2021156549 A JP2021156549 A JP 2021156549A JP 2021156549 A JP2021156549 A JP 2021156549A JP 2022055347 A JP2022055347 A JP 2022055347A
Authority
JP
Japan
Prior art keywords
phoneme
high frequency
computer
utterance
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021156549A
Other languages
English (en)
Inventor
アンドリュー アール. フリード
R Freed Andrew
マルコ ノエル
Noel Marco
アイシュワリヤ ハリハラン
Hariharan Aishwarya
マーサ ホロマン
Holloman Martha
モハマド ゴルジ-セフィドマジ
Gorji-Sefidmazgi Mohammad
ダニエル ジスカ
Zyska Daniel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/034,114 external-priority patent/US20220101835A1/en
Priority claimed from US17/034,082 external-priority patent/US11580959B2/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022055347A publication Critical patent/JP2022055347A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

Figure 2022055347000001
【課題】スピーチ認識モデルのトランスクリプションを訂正するコンピュータ実装方法、システム及びプログラムを提供する。
【解決手段】トランスクリプションを訂正するための方法は、発話及びオーディオメトリクスを受信し、発話をトランスクライブし、発話のトランスクリプションの正確度に関する信頼度スコアを生成する。信頼度スコアが閾値より下である場合、トランスクリプションにおける音素を所与のノードについての高頻度用語の音素と比較し、一致した音素及び一致した「類似音」音素の数をスコアリングし、トランスクリプションを、一致した音素に対応するトランスクリプションに置き換える。
【選択図】図5

Description

本発明は概して、スピーチ認識の分野に関し、より具体的には、スピーチ認識における発話のトランスクリプションの改善に関する。
スピーチ認識モデルは長い間、発話または話されたコマンドを通じてユーザがコンピューティングデバイスとインタラクトすることを可能にするよう試みてきた。話されたコマンドおよび発話を処理する音声アシスタントの能力は、過去十年で驚異的な成長を遂げ、処理能力およびメモリ容量が改善した。これらの改善は、話されたコマンドおよび発話がコンピューティングデバイスに命令を提供できる新しいユーザインタフェースの開発を可能にした。いくつかのモデルにおいて、スピーチ認識は、音波を受信して音波から音素を識別すること、および、コンピュータが理解可能な意味を音素に割り当てることを伴う。
いくつかのモデルにおいて、スピーチ認識は、音波を受信して音波から音素を識別すること、および、コンピュータが理解可能な意味を音素に割り当てることを伴う。
本開示の実施形態は、コンピュータ実装方法、コンピュータプログラム製品、および、スピーチアシスタントのスピーチ認識を改善するためのシステムを含む。スピーチ認識は、発話をテキストにトランスクライブすることを含み得る。トランスクリプションおよびオーディオメトリクスに基づいてトランスクリプション信頼度スコアを生成する。トランスクリプション信頼度スコアが閾値より下であることに応答する場合、発話における音素を、高頻度用語リストからの少なくとも1つの用語の音素と比較する。追加的に、実施形態は、比較に基づいて、高頻度用語リストからの少なくとも1つの用語における音素について類似音スコアを生成することを含み得る。更に、いくつかの実施形態は、類似音スコアが閾値の上である場合、元のトランスクリプションを、高頻度用語リストからの少なくとも1つの用語と置き換え得る。
上記サマリは、本開示のすべての実装の例示的な実施形態の各々を説明することを意図するものでない。
本発明の実施形態によるスピーチ認識トランスクリプション訂正環境を一般的に図示する機能ブロック図である。
本発明の実施形態によるトランスクリプション訂正エンジンを図示する機能ブロック図である。
本発明の実施形態による自動スピーチ認識モジュールを図示する機能ブロック図である。
本発明の実施形態による類似音リストを生成するための方法を図示するフローチャートである。
本発明の実施形態によるスピーチ認識トランスクリプションを訂正するための方法を図示するフローチャートである。
本発明の実施形態による、スピーチ認識トランスクリプション訂正環境における例示的なコンピューティングシステムの機能ブロック図である。
本発明の実施形態によるクラウドコンピューティング環境を図示する図である。
本発明の実施形態による抽象化モデル層を図示する機能ブロック図である。
本明細書において説明される実施形態は、様々な修正および代替形態の対象となるが、その具体的事項は、図面において例として示され、詳細に説明される。しかしながら、説明される特定の実施形態は、限定的な意味として解釈されるべきでないことを理解されたい。むしろ、本開示の思想および範囲に含まれる、すべての修正、均等物、および代替形態を包含することが意図される。
図示される実施形態は、スピーチ認識トランスクリプションを訂正するためのアプローチ、より具体的には、低信頼度トランスクリプションの音素を、予期される高頻度用語の音素と比較すること、および、比較に基づいて低信頼度トランスクリプションを訂正することを可能とする。
本発明の実施形態において、仮想アシスタント(VA)の特定のノードにおけるユーザの発話およびオーディオメトリクスの履歴記録のログが受信される。VAは質問/回答プログラム(例えば、International Business Machine,Inc.によるWatson(登録商標)、Apple,Inc.によるSiri(登録商標)、Amazon,LLC.によるAlexa(登録商標)など)であり得る。または、VAは、プロンプトを提供されてプロンプトに発話またはコマンドで応答するユーザに関連付けられたコンピュータプログラム(カスタマーサービスの番号に電話したときに経験するものなど)であり得る。追加的に、ノードは、VAによって提供される隔離されたプロンプトまたは質問(VAが特定の回答を予期する)であり得る。記録は、VAによって判断された、ユーザによって発せられた用語に基づいて識別される。最高頻度の発話も識別される。最高頻度の発話は、それぞれの音素に抽出される。抽出された音素は隔離され得、類似音の音素のリストが音素について生成され得る。リストの音における音素が、抽出された音素にどれほど類似しているかについて、類似性信頼度スコアが生成され得る。類似音のリストが、それぞれのVAノードに対応するデータレポジトリに格納され得る。
本発明の別の実施形態において、発話の記録は、VAからのプロンプトに基づいてノードにおいて受信され得る。発話は、自動スピーチ認識(ASR)モジュールによってトランスクライブされ得、トランスクリプションの信頼度スコアは、VAノードのプロンプトに対する予期される応答もしくは記録のオーディオメトリクスまたはその両方に基づいて割り当てられ得る。信頼度スコアが閾値より下である場合、トランスクリプションは「失敗」とみなされる。ノードについての高頻度用語応答の「類似音」リストからの良い潜在的なトランスクリプションは、データレポジトリからロードされ得る。失敗したトランスクリプションは、予期される高頻度用語に基づいて、良いトランスクリプション(「失敗」からの音素は、潜在的な良いトランスクリプションからの音素と比較される)と照合され得る。照合されたトランスクリプションは、適切に整列された音素に基づいてスコアリングされる。照合されたスコアが閾値より上である場合、「失敗」したトランスクリプションは、最高スコアの潜在的な良いトランスクリプションと置き換えられ得る。
図1は、スピーチ認識トランスクリプション訂正環境100を一般的に図示する機能ブロック図である。スピーチ認識トランスクリプション訂正環境100は、サーバ102上で動作する自動スピーチ認識(ASR)モジュール104およびトランスクリプション訂正エンジン106、サーバ102に格納されたデータレポジトリ108、クライアントコンピュータ112、ならびに、サーバ102とクライアントコンピュータ112との間の通信をサポートするネットワーク110を備える。ここでは簡潔性のためにサーバ102のみであるが、複数のサーバおよび他のコンピューティングデバイスが、ネットワーク110を介してアクセス可能な環境(すなわち、1、2、n...n+1)に含まれ得ることに留意されたい。
サーバ102およびクライアントコンピュータ112は、スタンドアロンのコンピューティングデバイス、管理サーバ、ウェブサーバ、モバイルコンピューティングデバイス、または、データを受信、送信および処理することが可能な任意の他の電子デバイスもしくはコンピューティングシステムであり得る。他の実施形態において、サーバ102およびクライアントコンピュータ112は、複数のコンピュータをサーバシステムとして利用するサーバコンピューティングシステムを表し得る。別の実施形態において、サーバ102およびクライアントコンピュータ112は、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、パーソナルコンピュータ、デスクトップコンピュータ、または、ネットワーク110を介してスピーチ認識トランスクリプション訂正環境100内の他のコンピューティングデバイス(図示せず)と通信可能な任意のプログラマブル電子デバイスであり得る。
別の実施形態において、サーバ102およびクライアントコンピュータ112は、スピーチ認識トランスクリプション訂正環境100内でアクセスされたとき、シームレスなリソースの単一プールとして動作し得るクラスタ化されたコンピュータおよびコンポーネント(例えば、データベースサーバコンピュータ、アプリケーションサーバコンピュータなど)を利用するコンピューティングシステムを表す。サーバ102およびクライアントコンピュータ112は、図6に関して更に詳細に図示および説明されるような内部および外部のハードウェアコンポーネントを含み得る。
自動スピーチ認識(ASR)モジュール104は、発話またはコマンドを受信して、それを(下で更に説明される)コンピュータ可読フォーマットに変換することが可能なコンピュータモジュールであり得る。図1において、ASRモジュール104はサーバ102上で動作するものとして示されているが、ネットワーク110を介してトランスクリプション訂正エンジン106と通信する任意のコンピューティングデバイス上で、または、トランスクリプション訂正エンジン106を有するローカルコンピューティングデバイス上で動作し得ることに留意されたい。
トランスクリプション訂正エンジン106は、履歴データログを受信するためのモジュールであり得る。履歴データログはユーザの発話の記録を含み得る。例えば、ユーザの発話の記録は、仮想アシスタントのシステム内の1または複数のノードに関連付けられている。履歴データログはまた、記録されたユーザの発話に対応するオーディオメトリクスを含み得る。オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、および非スピーチレベルを含む、記録の品質に関する情報を含み得る。オーディオメトリクスが、オーディオメトリクスの特徴を抽出するInternational Business Machine,Inc.のWatson(登録商標)のスピーチ‐テキストサービスを含むがこれに限定されるものではないソフトウェアによって提供され得る。追加的に、トランスクリプション訂正エンジン106は、所与の時間枠(例えば、1か月、2週間、またはユーザ定義)における履歴データログからの最高頻度用語を識別することが可能であり得る。更に、トランスクリプション訂正エンジン106は、最大頻度用語のユーザの発話を用語の音素に隔離し得る。隔離された音素と類似の音である音素のリストが、(下で更に説明される)トランスクリプション訂正エンジン106によって生成され得る。
更に、トランスクリプション訂正エンジン106は、所与のVAノードについて、記録を通じて、またはリアルタイムで、ユーザの発話および発話についてのオーディオメトリクスを受信し、発話をトランスクリプションに変換し得る。トランスクリプション信頼度スコアは、発話およびオーディオメトリクスに対する予期される応答に基づいて、トランスクリプションについて生成され得る。更に、トランスクリプション訂正エンジン106は、(下で更に説明される)類似音リストに基づいてトランスクリプションを訂正し得る。図1は、1つのみのコンピューティングデバイス上で動作するトランスクリプション訂正エンジン106を示すが、いくつかの実施形態において、トランスクリプション訂正エンジン106は、1または複数のコンピューティングデバイス上で、または、クラウドコンピューティングシステム内で動作し得ることに留意されたい。トランスクリプション訂正エンジン106は、同一のコンピューティングデバイスまたは異なるコンピューティングデバイス上で、上で説明された、いくつかのアクションを実行し得る。
データレポジトリ108は、生成された「類似音リスト」、音素信頼度スコア、トランスクリプション信頼度スコア、発話、および、所与のVAノードについての対応するオーディオメトリクスを含むが、これらに限定されるものではないデータを格納可能なデータベースであり得る。図1は、サーバ102上に位置するデータレポジトリ108を示すが、いくつかの実施形態において、データレポジトリ108は、1または複数のコンピューティングデバイス上に、または、クラウドコンピューティングシステム内に位置し得ることに留意されたい。
ネットワーク110は例えば、ローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、または、2つの組み合わせであり得、有線、無線、または光ファイバ接続を含み得る。一般的に、ネットワーク110は、サーバ102とクライアントコンピュータ112との間の通信をサポートする接続およびプロトコルの任意の組み合わせであり得る。
図2は、トランスクリプション訂正エンジン106の機能ブロック図200である。用語識別モジュール202および音素比較モジュール204は、トランスクリプション訂正エンジン106内において動作することが示される。
用語識別モジュール202は、音素に分解された発話およびオーディオメトリクスをデータレポジトリ108から受信または取得することが可能なコンピュータモジュールである。追加的に、用語識別モジュール202はまた、音素に分解されたユーザの発話およびオーディオメトリクスをASRモジュール104からリアルタイムで受信し得る。いくつかの実施形態において、用語識別モジュール202は、履歴音声ログからの高頻度発話、および、VAの特定のノードについての対応する用語を識別し得る。更に、用語識別モジュール202は、用語が所与のノードにおいて、ある期間にわたって使用されたパーセンテージを判断し得る。期間は、構成に基づいて、静的または動的であり得る。例えば、所与の月にわたって、金融機関のカスタマーサービスVAがユーザに4つのプロンプトを提供して、1)小切手、2)貯金、3)年金、または4)ローンから選択させる場合。用語識別モジュール202は、記録された発話履歴のどれが各用語に対応するか判断し、各用語がユーザによって選択されるパーセンテージ(例えば、チェック55%、貯金25%、年金10%、およびローン10%)を生成し得る。追加的に、用語識別モジュール202は、低いオーディオメトリクス、アクセント、または発音ミス(例えば、ユーザがretirement(年金)ではなくrefirementと、または、savings(貯金)ではなくsabingと述べる)に起因して厳密に一致しない発話を識別し得る。用語識別モジュール202は、用語に対応する高頻度用語および発話を識別し、用語を音素比較モジュール204へ送信し得る。
音素比較モジュール204は、発話履歴およびリアルタイムのユーザの発話から抽出された音素を分析する能力を有するコンピュータモジュールであり得る。実施形態において、音素比較モジュールは、用語識別モジュール202から、VAノードについての発話について高頻度用語および音素を受信または取得し得る。更に、音素比較モジュール204は、VAノードの用語に基づいて、発話の音素についての類似音リストを生成し得る。例えば、英語には44の音素がある。音素比較モジュール204は、用語の音素を判断し、その用語に類似する音素を見つけ、音素の「類似音リスト」を形成し得る。いくつかの実施形態において、類似性スコアはリスト上の各音素に割り当てられ得る。類似性スコアは、人間が注釈を付けた音素リスト、または、2つの音素間の音声スペクトログラムの類似性の分析に基づき得る。いくつかの実施形態において、類似性スコアは、発話したユーザのアクセントの識別に基づいて、地域方言の特徴を含み得る。
いくつかの実施形態において、音素比較モジュール204は、ユーザの発話のリアルタイムのトランスクリプション、および、閾値より下のトランスクリプション信頼度スコアを有する発話の抽出された音素をASRモジュール104から受信し得る。音素比較モジュール204は、発話からの音素を分析し、リアルタイムのユーザの発話について、潜在的に「良い」トランスクリプションを生成し得る。いくつかの実施形態において、音素の数が、VAノードについての予期される用語についての予期される音素の数に対してチェックされる。音素がより多い、または少ない用語は却下される。例えば、ユーザが「au-thor-i-za-tion(認可)」と言うことを意図し、ASRモジュール104がそれを「of-her-i-say-shun」とトランスクライブする場合、音素比較モジュール204は、発話に5つの音素があると認識して、リストにおける4以下の音素および6以上の音素を有する高頻度用語を考慮から除外する。更に、残りの用語は、どの音素が一致するか判断するために分析され得る。一致しない音素は、予期される用語について、「類似音」リストからの音素と比較される。上の例では、「i-say-shun」が、類似音リストからの一致である。残りの2つの音素、「of」および「her」は、認可について、類似音リストからの類似の音の音素と比較される。この例では、「of」は、当該音素および「au」についての類似音リストにある。しかしながら、「her」は、「thor」に対応する音素についての類似音リストにない。一致する任意の用語は、音素整列スコアを受信し、音素整列スコアが(予め定められた、または、オーディオメトリクスに基づいて動的な)閾値より上である場合、新しく整列された音素は、元のトランスクリプションと置き換わり得る。元のトランスクリプションの正確に整列された音素のパーセンテージを判断し、非整列音素に対して、類似音スコアによってパーセンテージを組み込むことによって音素整列スコアが計算され得る。新しいトランスクリプションは、ASRモジュール104を更新するために使用され得る。
図3は、本発明の実施形態によるASRモジュール104の機能ブロック図300である。ASRモジュール104は、スピーチ変換部302、スピーチトランスクライブ部304、トークン化部306、品詞(POS)タグ付け部308、セマンティック関係識別部310、およびシンタクティック関係識別部312から構成され得る。いくつかの実施形態において、ASRモジュール104は、発話を受信して発話から音素を抽出し、抽出された音素からテキストをトランスクライブすることが可能な、ニューラルネットワークもしくは隠れマルコフモデル、または、ハイブリッドニューラルネットワーク/隠れマルコフモデルであり得る。
スピーチ変換部302は、ユーザからの発話を受信または取得し得る。発話は、音波モデルとしてリアルタイムに記録または受信され得る。スピーチ変換部302は、更なる分析のために、波モデルを音声スペクトログラムに変換し得る。音声スペクトログラムは、発話の長さ、振幅、および周波数の視覚的表現を二次元表現で提供し得る。スピーチ変換部302は、音声スペクトログラムの分析に基づいて音素を判断し得る。追加的に、発話からの音素の判断を強化するべく、スペクトログラムは、より小さい時間枠(例えば10ミリ秒)に分解され得る。
スピーチトランスクライブ部304は、スピーチ変換部302から受信または取得された音素の分析に基づいて、テキストを生成可能なコンピュータモジュールである。本発明のいくつかの実施形態は、前の音素または複数の音素が予測において考慮される予測モデルに基づいて、単語を判断する能力を保持し得る。更に、スピーチトランスクライブ部は、テキストのトランスクライブの進行中に、トークン化部306、POSタグ付け部308、セマンティック関係識別部310、およびシンタクティック関係識別部312から入力を受け付け得る。スピーチトランスクライブ部はまた、発話に対応するオーディオメトリクスに基づいて、トランスクリプション信頼度スコアをトランスクリプションに割り当てる能力を提供し得る。いくつかの実施形態において、トランスクリプション信頼度スコアは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、および非スピーチレベルの評価であり得る。いくつかの他の実施形態において、信頼度スコアは、コンテキストドリブンであり得、スコアは特定のVAノードについての予期される応答に基づく。更に、予期される応答は、トランスクリプションが予期される応答にどれだけ近く一致しているかであり得る。
いくつかの実施形態において、トークン化部306は、語彙分析を実行するコンピュータモジュールであり得る。トークン化部306は、文字列をトークン列に変換し得る。トークンは、記録に含まれる文字の文字列であり、意味のあるシンボルとして分類され得る。更に、いくつかの実施形態において、トークン化部306は、記録における単語の境界を識別し、コーパス内の任意のテキストをそれらのコンポーネントテキスト要素(単語、マルチワードトークン、数字、および句読点など)に分解し得る。いくつかの実施形態において、トークン化部306は、文字の文字列を受信し、文字列における語彙素を識別し、それらをトークンに分類し得る。
様々な実施形態によれば、POSタグ付け部308は、スピーチの特定の一部に対応するように、トランスクリプションにおける単語を割り当てるコンピュータモジュールであり得る。POSタグ付け部308は、発話のトランスクリプションを分析し、スピーチの一部を各単語または他のトークンに割り当て得る。POSタグ付け部308は、単語の定義および単語の文脈に基づいて、単語が対応するスピーチの一部を判断し得る。単語の文脈は、語句、文、または段落における隣接し関連する単語との関係に基づき得る。いくつかの実施形態において、単語の文脈は、コーパスにおいて前に分析された1または複数の単語に依存し得る。単語に割り当てられ得るスピーチの一部の例は、名詞、動詞、形容詞、副詞などを含むが、これらに限定されるものではない。POSタグ付け部308が割り当て得るスピーチカテゴリの他の一部の例は、比較級もしくは最上級副詞、wh副詞、接続詞、限定詞、不変化詞、所有格、前置詞、wh代名詞などを含み得るが、これらに限定されるものではない。いくつかの実施形態において、POSタグ付け部308は、スピーチカテゴリの一部を用いて、コーパスにおける「an」単語のトークンにタグ付けし得る、または、そうでなければ、注釈を付け得る。いくつかの実施形態において、POSタグ付け部308は、スピーチトランスクライブ部304によって解析されるコーパスのトークンまたは単語をタグ付けし得る。
いくつかの実施形態において、セマンティック関係識別部310は、コーパスにおける認識された対象(例えば、単語、語句、画像など)のセマンティック関係を識別するよう構成され得るコンピュータモジュールであり得る。いくつかの実施形態において、セマンティック関係識別部310は、エンティティ間の機能的依存性、および、トランスクリプション内の他のセマンティック関係を判断し得る。
様々な実施形態によれば、シンタクティック関係識別部312は、トークンから構成されるコーパスにおけるシンタクティック関係を識別するよう構成され得るコンピュータモジュールであり得る。シンタクティック関係識別部312は、例えば、単語のどのグループが語句として関連付けられか、および、どの単語が動詞の主語または目的語であるかなど、文の文法的構造を判断し得る。シンタクティック関係識別部312は公式の文法に従い得る。
図4は、「類似音」リストを生成するための方法400を図示するフローチャートである。402において、発話履歴および対応するオーディオメトリクスは、トランスクリプション訂正エンジン106において受信される。
404において、トランスクリプション訂正エンジン106は、発話履歴およびオーディオメトリクスから高頻度用語を識別する。高頻度用語は、ある時間枠においてVAノードで用語が選択された回数の分析を通じて、用語識別モジュール202によって識別され得る。更に、いくつかの実施形態において、オーディオメトリクスは、用語が選択されたかどうかを判断するための評価された用語識別であり得、所与の発話についてオーディオメトリクスが低い場合、発話は最終分析において無視され得る。
406において、ASRモジュール104は、識別された高頻度用語を対応する音素に分解し得る。いくつかの実施形態において、ASRモジュール104は、以前に記録された発話の音波モデルを評価し、スピーチ変換部302は、音波モデルを音声スペクトログラムに変換し、音声スペクトログラムから音素を隔離する。スピーチトランスクライブ部304は、トークン化部306、POSタグ付け部308、セマンティック関係識別部310、およびシンタクティック関係識別部312からの入力を用いて、隔離された音素をテキストに変換し得、トランスクライブされたテキストがセマンティック的かつシンタクティック的に訂正されることを確実にする。
408において、音素比較モジュール204は、ASRモジュール104によってトランスクライブされた高頻度用語の音素についての「類似音」リストを生成する。更に、音素比較モジュール204は、高頻度用語からの各音素について、音が類似する音素のリストに信頼度スコアを割り当て得る。
図5は、類似音リストを使用してトランスクリプションを訂正するための方法500を図示するフローチャートである。502において、発話およびオーディオメトリクスがASRモジュール104によって受信され得る。発話は、特定のVAノードについてのものであり得る、または、VAについてのオープンダイアログフレームワーク内にあり得る。いくつかの実施形態について、発話は、自動カスタマー電話サポートラインからの特定の文脈内にあり得る。更に別の実施形態において、発話は、VAが特定の発話によって動作するようトリガされ既存のコマンドを与えられる、または、特定の範囲内の質問を尋ねられるオープンダイアログフレームワークからのものであり得る。
504において、ASRモジュール104は、受信された発話をトランスクライブし得る。いくつかの実施形態において、ASRモジュール104は、発話をその音素に分解し、音素に基づいてテキストを生成し得る。いくつかの実施形態において、テキストは、モデルがディープニューラルネットワークである予測モデルを使用して生成され得る。
506において、ASRモジュール104は、トランスクリプション信頼度スコアを発話のトランスクリプションに割り当て得る。いくつかの実施形態において、トランスクリプション信頼度スコアは、オーディオメトリクスの評価、または、予期される応答に基づくコンテキスト、または、その2つの組み合わせに基づき得る。
508において、トランスクリプション訂正エンジン106は、トランスクリプション信頼度スコアが閾値より上かどうかを判断する。閾値は静的または動的であり得る。閾値が静的である場合、その時間のユーザの判断または必要性に基づいて、ユーザによって構成され得る。閾値は、その時間に利用可能なコンピューティングリソース、発話の長さ、発話を受信する時間のVAノード利用率などを含む多くの要素に基づいて、動的に構成され得る。トランスクリプション信頼度スコアが閾値より下である場合、トランスクリプションは「失敗」とみなされ、更なる処理のために送信される。信頼度スコアが閾値より上である場合、トランスクリプション方法が終了する。
510において、音素比較モジュール204は、「失敗」したトランスクリプションにおける音素を所与のノードについての高頻度用語の音素と比較する。いくつかの実施形態において、音素比較モジュールは、トランスクリプションにおける音素の数を分析し、どの高頻度用語が同一の音素数を含むか判断するよう構成され得る。更に、音素比較モジュール204は、トランスクリプションにおける任意の音素が高頻度用語における音素と一致するかどうかを判断し得る。音素が一致し得るかどうかを判断するために、トランスクリプションにおける音素と一致しない高頻度用語からの任意の音素は、「類似音」リストからの音素と比較され得る。追加的に、音素比較モジュール204は、一致した音素および一致した「類似音」音素の数をスコアリングし得る。このスコアは、一致した音素、および、一致した「類似音」音素の要素のパーセンテージであり得る。
512において、一致した音素スコアが(静的または動的に割り当てられる)閾値より上である場合、「失敗」したトランスクリプションは、一致した音素に対応するトランスクリプションと置き換えられる。新しく展開されたトランスクリプションはASRモジュール104を更新するのに使用され得る。
514において、方法が終了する。
図6は、発明の実施形態における、サーバ102およびデータレポジトリ108または任意の他のコンピューティングデバイスを表す例示的なコンピュータシステムであるコンピュータシステム600を図示する。コンピュータシステム600は、コンピュータプロセッサ14、メモリ16、永続ストレージ18、ネットワークアダプタ28、入出力(I/O)インタフェース26の間の通信を提供する通信ファブリック12を備える。通信ファブリック12は、プロセッサ(マイクロプロセッサ、通信およびネットワークプロセッサなど)、システムメモリ、ペリフェラルドライブ、およびシステム内の任意の他のハードウェアコンポーネントの間でデータもしくは制御情報またはその両方を渡すために設計された任意のアーキテクチャで実装され得る。例えば、通信ファブリック12は、1または複数のバスで実装され得る。
コンピュータシステム600は、プロセッサ14、キャッシュ22、メモリ16、ネットワークアダプタ28、入出力(I/O)インタフェース26、および通信ファブリック12を備える。通信ファブリック12は、キャッシュ22、メモリ16、永続ストレージ18、ネットワークアダプタ28、および入出力(I/O)インタフェース26の間の通信を提供する。通信ファブリック12は、プロセッサ(マイクロプロセッサ、通信およびネットワークプロセッサなど)、システムメモリ、ペリフェラルドライブ、およびシステム内の任意の他のハードウェアコンポーネントの間でデータもしくは制御情報またはその両方を渡すために設計された任意のアーキテクチャで実装され得る。例えば、通信ファブリック12は、1または複数のバスまたはクロスバースイッチで実装され得る。
メモリ16および永続ストレージ18はコンピュータ可読記憶媒体である。この実施形態において、メモリ16は、永続ストレージ18、ランダムアクセスメモリ(RAM)20、キャッシュ22、およびプログラムモジュール24を含む。一般的に、メモリ16は、任意の好適な揮発性または非揮発性コンピュータ可読記憶媒体を含み得る。キャッシュ22は、メモリ16からの最近アクセスされたデータ、および、最近アクセスされたデータに近いデータを保持することによってプロセッサ14のパフォーマンスを強化する高速メモリである。下で更に図示および説明されるように、メモリ16は、本発明の実施形態の機能を実行するよう構成される少なくとも1つのプログラムモジュール24を含み得る。
少なくとも1つのプログラムモジュール24を有するプログラム/ユーティリティ、ならびに、オペレーティングシステム、1または複数のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータは、限定としてではなく例としてメモリ16に格納され得る。オペレーティングシステム、1または複数のアプリケーションプログラム、他のプログラムモジュール、および、プログラムデータの各々、または、それらのいくつかの組み合わせは、ネットワーク環境の実装を含み得る。プログラムモジュール24は一般に、本明細書に説明されるように、本発明の実施形態の機能もしくは方法またはその両方を実行する。
本発明の実施形態を実施するために使用されるプログラム命令およびデータは、キャッシュ22を介した、それぞれのプロセッサ14の1または複数による実行のために、永続ストレージ18およびメモリ16に格納され得る。実施形態において、永続ストレージ18は磁気ハードディスクドライブを含む。磁気ハードディスクドライブに対して代替的に、または、追加的に、永続ストレージ18は、ソリッドステートハードドライブ、半導体記憶装置、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM)、フラッシュメモリ、または、プログラム命令またはデジタル情報を格納することが可能な任意の他のコンピュータ可読記憶媒体を含むことができる。
永続ストレージ18によって使用される媒体は、リムーバブルでもあり得る。例えば、リムーバブルハードドライブは、永続ストレージ18のために使用され得る。他の例は、永続ストレージ18の一部でもある別のコンピュータ可読記憶媒体への転送のためにドライブに挿入される、光学および磁気ディスク、サムドライブ、ならびに、スマートカードを含む。
これらの例におけるネットワークアダプタ28は、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例において、ネットワークアダプタ28は、1または複数のネットワークインタフェースカードを含む。ネットワークアダプタ28は、物理および無線通信リンクのいずれか、または両方の使用を通じた通信を提供し得る。本発明の実施形態を実施するために使用されるプログラム命令およびデータは、ネットワークアダプタ28を通じて永続ストレージ18にダウンロードされ得る。
I/Oインタフェース26は、各コンピュータシステムに接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインタフェース26は、キーボード、キーパッド、タッチ画面もしくはいくつかの他の好適な入力デバイスまたはその組み合わせなどの外部デバイス30への接続を提供し得る。外部デバイス30はまた、例えば、サムドライブ、ポータブル光学または磁気ディスク、およびメモリカードなどのポータブルコンピュータ可読記憶媒体を含み得る。本発明の実施形態を実施するために使用されるソフトウェアおよびデータは、そのようなポータブルコンピュータ可読記憶媒体に格納でき、I/Oインタフェース26を介して永続ストレージ18にロードできる。I/Oインタフェース26はまた、ディスプレイ32に接続する。
ディスプレイ32は、データをユーザに表示する機構を提供し、例えば、コンピュータモニタまたは仮想グラフィカルユーザインタフェースであり得る。
本明細書に説明されるコンポーネントは、本発明の特定の実施形態においてそれらが実装されるアプリケーションに基づいて識別される。しかしながら、本明細書における任意の特定のコンポーネントの名称は、単に便宜のために使用され、したがって、本発明は、そのような名称によって識別もしくは示唆されるまたはその両方の任意の特定のアプリケーションのみにおける使用に限定されるべきでないことが理解されるべきである。
本発明は、システム、方法もしくはコンピュータプログラム製品またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるための命令を保持および格納できる有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体記憶装置、または、上記の任意の好適な組み合わせに限定されるものではないことがあり得る。コンピュータ可読記憶媒体のより具体的な例の非包括的リストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝における凸構造などの機械的符号化デバイス、および、上記の任意の好適な組み合わせを含む。本明細書において使用されるコンピュータ可読記憶媒体は、無線または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通る光パルス)、または、ワイヤを通じて伝送される電気信号など、一時的な信号自体として解釈されるべきでない。
本明細書において説明するコンピュータ可読プログラム命令は、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはその組み合わせなどのネットワークを介して、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへダウンロードされ得るか、または、外部コンピュータもしくは外部ストレージデバイスへダウンロードされ得る。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはその組み合わせを含み得る。各コンピューティング/処理デバイスにおけるネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体において格納するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(登録商標)、C++、または同様のものなどのオブジェクト指向プログラミング言語、Cプログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1または複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で部分的かつリモートコンピュータ上で部分的に、または、リモートコンピュータもしくはサーバ上で全体的に実行し得る。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得るか、または、接続は、(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータに行われ得る。いくつかの実施形態において、本発明の態様を実行するべく、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、または、プログラマブルロジックアレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。
本発明の態様は、本明細書において、発明の実施形態に係る方法、装置(システム)、および、コンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して説明されている。フローチャート図もしくはブロック図またはその両方の各ブロックは、ならびに、フローチャート図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることを理解されたい。
これらのコンピュータ可読プログラム命令は、機械を生じさせるために、汎用コンピュータ、特定用途向けコンピュータ、または、他のプログラマブルデータ処理装置のプロセッサに提供され得る。それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行する命令は、フローチャートもしくはブロック図またはその両方のブロックまたは複数のブロックにおいて指定される機能/動作を実装するための手段を形成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置もしくは他のデバイスまたはその組み合わせに、特定の方式で機能するよう指示できるコンピュータ可読記憶媒体に格納され得る。それにより、命令を格納したコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方のブロックまたは複数のブロックにおいて指定された機能/動作の態様を実装する命令を含む、製造者の品目を含む。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、または、他のデバイス上にロードされ得ることにより、一連の動作ステップを、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行させ、コンピュータ実装プロセスを生じさせ、それにより、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行する命令が、フローチャートもしくはブロック図またはその両方のブロックまたは複数のブロックにおいて指定される機能/動作を実装する。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態に係る、システム、方法、および、コンピュータプログラム製品のあり得る実装のアーキテクチャ、機能、および、動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装するための1または複数の実行可能命令を含む、モジュール、セグメント、または、命令の一部を表し得る。いくつかの代替的な実装において、ブロックにおいて記載される機能は、図に記載された順序とは別の順序で生じ得る。例えば、連続して示される2つのブロックは、関与する機能に応じて、ほぼ同時に実行され得るか、または、ブロックは場合によっては、逆の順序で実行されてよい。また、ブロック図もしくはフローチャート図またはその両方の各ブロック、ならびに、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせは、指定された機能または動作を実行する特定用途向けハードウェアベースのシステムによって実装できる、または、特定用途向けハードウェアおよびコンピュータ命令の組み合わせを実行できることに留意されたい。
本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書において列挙される教示の実装はクラウドコンピューティング環境に限定されるものではないことを理解されたい。むしろ、本発明の実施形態は、現在知られている、または、後に開発される任意の他のタイプのコンピューティング環境と協調して実装されることが可能である。
クラウドコンピューティングは、管理の労力またはサービスのプロバイダとのインタラクションを最小限に抑えながら迅速にプロビジョニングおよびリリースできる構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、プロセス、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールに対する便利なオンデマンドのネットワークアクセスを可能するための、サービス提供のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの展開モデルを含み得る。
特性は以下の通りである。
オンデマンドセルフサービス:クラウド消費者は、人間とサービスのプロバイダとのインタラクションを要求することなく、必要に応じて自動的に、サーバ時間およびネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングできる。
ブロードネットワークアクセス:能力はネットワークを通じて利用可能であり、異種混合のシンまたはシッククライアントプラットフォームによる使用を促進する標準的な機構(例えば携帯電話、ラップトップ、およびPDA)を通じてアクセスされる。
リソースプール:プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを使用して複数の消費者にサービスを提供し、異なる物理的および仮想的リソースが需要に応じて動的に割り当ておよび再割り当てされる。概して消費者は提供されるリソースの厳密な位置についての制御または知識を有しないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で位置を指定可能であり得るという点で、位置独立性の意味がある。
迅速な柔軟性:いくつかの場合においては自動的に、迅速なスケールアウトのために、能力を急速かつ柔軟にプロビジョニングでき、迅速なスケールインのために迅速にリリースできる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時間に任意の量で購入できる。
測定されたサービス:クラウドシステムは、サービスのタイプに適切な、いくらかの抽象化レベル(例えば、ストレージ、処理、帯域幅、および、アクティブユーザアカウント)で、測定能力を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用量が監視、制御、レポートされ得、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供する。
サービスモデルは以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で実行するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えばウェブベースの電子メール)などのシンクライアントインタフェースを通じて様々なクライアントデバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージ、または更には個々のアプリケーション能力を含む基礎のクラウドインフラストラクチャを管理または制御しないが、限定されたユーザ固有のアプリケーション構成設定は例外である可能性がある。
プラットフォーム・アズ・ア・サービス(PaaS):消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して形成される、消費者が形成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む基礎のクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーション、および、場合によっては、環境構成をホストするアプリケーションに対する制御を有する。
インフラストラクチャ・アズ・ア・サービス(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク、および、消費者がオペレーティングシステムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基礎のクラウドインフラストラクチャを管理または制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、および、場合によっては、選択されたネットワークコンポーネント(例えばホストファイアウォール)の限定された制御に対する制御を有する。
展開モデルは以下の通りである。
プライベートクラウド:クラウドインフラストラクチャは組織のみのために動作される。組織またはサードパーティによって管理され得、敷地内または敷地外に存在し得る。
コミュニティクラウド:クラウドインフラストラクチャは、複数の組織によって共有され、共有された関心(例えば、役割、セキュリティ要件、ポリシー、および、コンプライアンス上の考慮事項)を有する特定のコミュニティをサポートする。組織またはサードパーティによって管理され得、敷地内または敷地外に存在し得る。
パブリッククラウド:クラウドインフラストラクチャは、一般大衆または大きい産業グループに利用可能となり、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、固有のエンティティであり続けるが、データおよびアプリケーションのポータビリティを可能にする標準化またはプロプライエタリ技術(例えば、クラウド間のロードバランシングのためのクラウドバースティング)によって共に結合される2以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合である。
クラウドコンピューティング環境は、ステートレス、低結合、モジュール性、および、セマンティック相互運用性に対する重点を指向したサービスである。クラウドコンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
図7は、本発明の少なくとも1つの実施形態によるクラウドコンピューティング環境50を図示するブロック図である。示されるように、クラウドコンピューティング環境50は、例えば、パーソナルデジタルアシスタント(PDA)または携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54Cもしくは自動車コンピュータシステム54Nまたはその組み合わせなど、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る1または複数のクラウドコンピューティングノード10を含む。ノード10は互いに通信し得る。それらは、上で説明されるプライベート、コミュニティ、パブリック、またはハイブリッドクラウド、またはそれらの組み合わせなど、1または複数のネットワークにおいて物理的または仮想的にグループ化され得る(図示されない)。これにより、クラウドコンピューティング環境50は、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせを、クラウド消費者がローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能となる。図6に示されるコンピューティングデバイス54A-Nのタイプは、単に例示を意図するだけであり、コンピューティングノード10およびクラウドコンピューティング環境50は、任意のタイプのネットワークもしくはネットワークアドレス可能接続またはその両方を介して(例えば、ウェブブラウザを使用して)、任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。
図8は、本発明の少なくとも1つの実施形態による、図6に図示されるクラウドコンピューティング環境50によって提供される機能抽象化モデル層のセットを図示するブロック図である。図7に示されるコンポーネント、層、および機能は、例示を意図するだけであり、本発明の実施形態はこれらに限定されるものではないことが予め理解されるべきである。図示されるように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例は、メインフレーム61、RISC(最小命令セットコンピュータ)アーキテクチャベースサーバ62、サーバ63、ブレードサーバ64、ストレージデバイス65、ならびに、ネットワークおよびネットワークコンポーネント66を含む。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア67およびデータベースソフトウェア68を含む。
仮想化層70は抽象化層を提供し、抽象化層からは、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティングシステム74、ならびに仮想クライアント75が提供され得る。
一例において、管理層80は、以下に説明される機能を提供し得る。リソースプロビジョニング81は、コンピューティングリソース、および、クラウドコンピューティング環境内でタスクを実行するために利用される他のリソースの動的な調達を提供する。測定および価格設定82は、クラウドコンピューティング環境内でリソースが利用されるときのコスト追跡、および、これらのリソースの消費に対する課金または請求を提供する。一例において、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクについてのアイデンティティ検証、ならびに、データおよび他のリソースについての保護を提供する。ユーザポータル83は、消費者およびシステム管理者のために、クラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、要求されるサービスレベルが満たされるように、クラウドコンピューティングリソース割り当ておよび管理を提供する。サービス水準合意(SLA)計画および達成85は、SLAに従って将来の要件が予想されるクラウドコンピューティングリソースの事前手配および調達を提供する。
ワークロード層90は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ分析処理94、トランザクション処理95、および、スピーチ認識トランスクリプション訂正96を含む。
本発明の様々な実施形態の説明は、例示の目的で提示されたものであり、包括的な意図、または、開示された実施形態に対する限定の意図はない。本発明の範囲および思想から逸脱しない多くの修正または変形が、当技術分野の当業者にとって明らかであろう。本明細書において使用される用語は、実施形態の原理、実際的な用途、または、市場において見られる技術に対する技術的改善をもっとも良く説明するために、または、当技術分野における他の当業者が、本明細書において開示される実施形態を理解することを可能にするために選択された。

Claims (20)

  1. スピーチ認識を改善するためにモデルを訓練するためのコンピュータ実装方法であって、
    1または複数のプロセッサが発話をテキストにトランスクライブする段階と、
    前記1または複数のプロセッサが、トランスクリプションおよびオーディオメトリクスに基づいて、トランスクリプション信頼度スコアを生成する段階と、
    前記トランスクリプション信頼度スコアが閾値より下であることに応答して、前記1または複数のプロセッサが、前記発話における音素を高頻度用語リストからの少なくとも1つの用語における音素と比較する段階と、
    前記1または複数のプロセッサが、前記比較に基づいて、高頻度用語リストからの前記少なくとも1つの用語における音素についての類似音スコアを生成する段階と、
    前記類似音スコアが閾値より上である場合、前記1または複数のプロセッサが、前記トランスクリプションを前記高頻度用語リストからの前記少なくとも1つの用語と置き換える段階と
    を備えるコンピュータ実装方法。
  2. 前記比較する段階は、
    前記1または複数のプロセッサが、前記発話における音素の数を判断する段階と、
    前記1または複数のプロセッサが、前記発話と同一の音素数を有しない高頻度用語を考慮から除外する段階と、
    前記1または複数のプロセッサが、残りの高頻度用語の前記音素を前記発話における前記音素と照合する段階と
    を更に含む、請求項1に記載のコンピュータ実装方法。
  3. 前記音素が一致しないことに応答して、前記1または複数のプロセッサが、前記高頻度用語に一致しない前記発話の音素が、対応する前記高頻度用語の音素についての類似音リストからの音素と一致するかどうかを判断する段階を更に備える、請求項2に記載のコンピュータ実装方法。
  4. 前記オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、または非スピーチレベルの少なくとも1つから構成される、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記トランスクライブは、ディープニューラルネットワークに基づいて自動スピーチ認識モジュールによって実行される、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  6. 前記1または複数のプロセッサが前記発話を受信する段階を更に備える、請求項1から5のいずれか一項に記載のコンピュータ実装方法。
  7. 前記受信は、仮想アシスタントによって、前記仮想アシスタントの特定のノードにおいて実行され、ある期間にわたる高頻度用語は、前記特定のノードについて識別されたものである、請求項6に記載のコンピュータ実装方法。
  8. スピーチ認識トランスクリプションを改善するためのコンピュータシステムであって、
    1または複数のコンピュータプロセッサと、
    1または複数のコンピュータ可読記憶媒体と、
    コンピュータプログラム命令と
    を備え、前記コンピュータプログラム命令は、
    発話をテキストにトランスクライブすること、
    トランスクリプションおよびオーディオメトリクスに基づいてトランスクリプション信頼度スコアを生成すること、
    前記トランスクリプション信頼度スコアが閾値より下であることに応答して、前記1または複数のコンピュータプロセッサが、前記発話における音素を、高頻度用語リストからの少なくとも1つの用語における音素と比較すること、
    前記比較に基づいて、高頻度用語リストからの前記少なくとも1つの用語における音素についての類似音スコアを生成すること、および、
    前記類似音スコアが閾値より上である場合、前記トランスクリプションを、前記高頻度用語リストからの前記少なくとも1つの用語に置き換えること
    のためのものである、システム。
  9. 前記比較は更に、
    前記発話における音素の数を判断すること、
    前記発話と同一の音素数を有しない高頻度用語を考慮から除外すること、および、
    残りの高頻度用語の前記音素を前記発話における前記音素と照合すること
    を含む、請求項8に記載のコンピュータシステム。
  10. 前記高頻度用語の前記音素が一致しないことに応答して、前記高頻度用語に一致しない前記発話の音素が、対応する前記高頻度用語の音素についての類似音リストからの音素に一致するかどうかを判断するための命令を更に含む、請求項9に記載のコンピュータシステム。
  11. 前記オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、または非スピーチレベルの少なくとも1つから構成される、請求項8から10のいずれか一項に記載のコンピュータシステム。
  12. 前記トランスクライブは、ディープニューラルネットワークに基づいて自動スピーチ認識モジュールによって実行される、請求項8から11のいずれか一項に記載のコンピュータシステム。
  13. 前記発話を受信するための命令を更に含む、請求項8から12のいずれか一項に記載のコンピュータシステム。
  14. 前記受信は、仮想アシスタントによって、前記仮想アシスタントの特定のノードにおいて実行され、ある期間にわたる高頻度用語は、前記特定のノードについて識別されたものである、請求項13に記載のコンピュータシステム。
  15. スピーチ認識トランスクリプションを改善するためのコンピュータプログラムであってプロセッサに、
    トランスクリプションおよびオーディオメトリクスに基づいてトランスクリプション信頼度スコアを生成する手順と、
    前記トランスクリプション信頼度スコアが閾値より下であることに応答して、発話における音素を、高頻度用語リストからの少なくとも1つの用語における音素と比較する手順と、
    前記比較に基づいて、高頻度用語リストからの前記少なくとも1つの用語における音素についての類似音スコアを生成する手順と、
    前記類似音スコアが閾値より上である場合、前記トランスクリプションを、前記高頻度用語リストからの前記少なくとも1つの用語に置き換える手順と
    を実行させるためのコンピュータプログラム。
  16. 前記比較する手順は更に、
    前記発話における音素数を判断する手順と、
    前記発話と同一の音素数を有しない高頻度用語を考慮から除外する手順と、
    残りの高頻度用語の前記音素を前記発話における前記音素と照合する手順と
    を含む、請求項15に記載のコンピュータプログラム。
  17. 前記プロセッサに、
    前記高頻度用語の前記音素が一致しないことに応答して、前記高頻度用語に一致しない前記発話の音素が、対応する前記高頻度用語の音素についての類似音リストからの音素と一致するかどうかを判断する手順を更に実行させる、請求項16に記載のコンピュータプログラム。
  18. 前記オーディオメトリクスは、信号対ノイズ比、バックグラウンドノイズ、スピーチ比、高周波数損失、直流オフセット、クリッピングレート、スピーチレベル、または非スピーチレベルの少なくとも1つから構成される、請求項15から17のいずれか一項に記載のコンピュータプログラム。
  19. トランスクライブは、ディープニューラルネットワークに基づいて自動スピーチ認識モジュールによって実行される、請求項15から18のいずれか一項に記載のコンピュータプログラム。
  20. 前記プロセッサに、
    前記発話を受信する手順であって、前記受信は、仮想アシスタントによって前記仮想アシスタントの特定のノードにおいて実行され、ある期間にわたる高頻度用語は、前記特定のノードについて識別されたものである、手順を更に実行させる、請求項15から19のいずれか一項に記載のコンピュータプログラム。
JP2021156549A 2020-09-28 2021-09-27 コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善) Pending JP2022055347A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US17/034,082 2020-09-28
US17/034,114 2020-09-28
US17/034,114 US20220101835A1 (en) 2020-09-28 2020-09-28 Speech recognition transcriptions
US17/034,082 US11580959B2 (en) 2020-09-28 2020-09-28 Improving speech recognition transcriptions

Publications (1)

Publication Number Publication Date
JP2022055347A true JP2022055347A (ja) 2022-04-07

Family

ID=80868578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021156549A Pending JP2022055347A (ja) 2020-09-28 2021-09-27 コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善)

Country Status (2)

Country Link
JP (1) JP2022055347A (ja)
CN (1) CN114283810A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220215056A1 (en) * 2021-01-04 2022-07-07 Oracle International Corporation Drill back to original audio clip in virtual assistant initiated lists and reminders

Also Published As

Publication number Publication date
CN114283810A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN111226274B (zh) 自动阻止音频流中包含的敏感数据
US11580959B2 (en) Improving speech recognition transcriptions
US10062385B2 (en) Automatic speech-to-text engine selection
US10755719B2 (en) Speaker identification assisted by categorical cues
US9972308B1 (en) Splitting utterances for quick responses
US10089978B2 (en) Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
US20220101835A1 (en) Speech recognition transcriptions
US10607601B2 (en) Speech recognition by selecting and refining hot words
US11011161B2 (en) RNNLM-based generation of templates for class-based text generation
CN112309393B (zh) 用于自动语音识别输出的域特定纠正的方法和系统
US20170263269A1 (en) Multi-pass speech activity detection strategy to improve automatic speech recognition
WO2022237376A1 (en) Contextualized speech to text conversion
WO2022121684A1 (en) Alternative soft label generation
US9747891B1 (en) Name pronunciation recommendation
US20220188525A1 (en) Dynamic, real-time collaboration enhancement
JP2022055347A (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善)
WO2023139015A1 (en) Data sorting for generating speech recognition models
US20230419950A1 (en) Artificial intelligence factsheet generation for speech recognition
CN116686045A (zh) 在没有完整转录本的情况下的端到端口语理解
US20230136842A1 (en) Training data sequence for rnn-t based global english model
US11971887B2 (en) Identifying and replacing logically neutral phrases in natural language queries for query processing
US20220319494A1 (en) End to end spoken language understanding model
US20240029712A1 (en) Speech recognition using cadence patterns
JP2024519263A (ja) テキスト・ツー・スピーチ・モデルの訓練におけるスピーチ・ツー・テキスト・データの使用

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240215