JP2023541879A - 分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識 - Google Patents

分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識 Download PDF

Info

Publication number
JP2023541879A
JP2023541879A JP2023515727A JP2023515727A JP2023541879A JP 2023541879 A JP2023541879 A JP 2023541879A JP 2023515727 A JP2023515727 A JP 2023515727A JP 2023515727 A JP2023515727 A JP 2023515727A JP 2023541879 A JP2023541879 A JP 2023541879A
Authority
JP
Japan
Prior art keywords
audio input
dilation
speaker
computer
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023515727A
Other languages
English (en)
Inventor
ボーマン、アーロン
シェルトン、コリー
ハマー、スティーブン
クワトラ、シカール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023541879A publication Critical patent/JP2023541879A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)

Abstract

分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識。本開示は、音声認識のために、分離されたオーディオ入力からの音声内容のダイレーションを使用することを含む。話者からのオーディオ入力、および、外部ノイズに基づく、オーディオ入力についての予測される変更がCNN(畳み込みニューラルネットワーク)において受信される。CNNにおいて、ダイアライゼーションがオーディオ入力に適用され、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測し、CNN出力を生成する。結果のダイレーションはCNN出力から決定される。音声-テキスト出力の精度を決定するために、単語誤り率が、ダイレーションされたCNN出力について決定される。単語誤り率に基づいてダイレーションの範囲を変更するために調整パラメータが設定され、CNN出力の結果のダイレーションは、調整されたパラメータに基づいて調整され、単語誤り率を低減する。

Description

本開示は、コンピュータを使用する、オーディオ入力からの音声内容の音声認識についての技法に関する。より具体的には、オーディオ入力は、オーディオ入力から分離された音声内容を含む。
技法は、コンピュータを使用して、人間の音声をテキストに変換するために使用され得る。人間の音声は例えば、話された単語、歌を単独またはグループで含み得る。人間の音声の間、音声出力の変換、または、音声出力信号がテキストに変換されることは困難であり得る。例えば、音声認識および変換は、音が変更されるとき、または、単語の典型的な発音より一般的でないときに困難であり得る。例えば、音は引き延ばされるか、または、他の1または複数のノイズと混合されることがあり得る。一例において、話者が話しているときにバックグラウンドノイズがあり得る。別の例において、話者のグループが話し得、話者に重複があり得る。別の例において、バックグラウンドノイズは、1または複数の話者が話しているときに生じ得る。別の例において、話者は、意図せず、または強調のために意図して、または、非正当もしくは非典型的な音声パターンの一部として、またはアクセントの一部として、1または複数の単語の典型的な発音を変更し得る。話者が話すときの、そのような変更された音、もしくは、非典型的な音、またはその組み合わせは、音声識別、および、音声からテキストへの変換にとって困難な音声を生じさせる。
本開示は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識のための現在の技法に関連する短所および問題を認識する。
本発明は、複数の話者の各々の音声認識のために、インターレースされたオーディオ入力からの音声内容を解析し、音声内容からテキストへの変換を提供し得る。例えば、音が変更された、または、典型的な単語の発音より一般的でないときの音声認識および変換の課題は、音声内容が音声からテキストへの変換のための話者からの変更された音、もしくは、非典型的な音、またはその組み合わせを含むとき、本発明を使用して克服できる。
例えば、アーティストが曲を歌っていて、単語の一部が一般的な発音ではなく和声楽に従う方式で変更または改変されるときに、1つの問題が生じ得る。別の例において、騒々しい環境において、音波および音の混合は、変換するときに単語誤り率を増加させ得る。例えば、大きいイベント、大きい群衆の大声、またはスポーツイベントにおいて、音は音声符号を閉塞し得る。本発明は、音声信号、音声入力のダイレーションを使用する音声認識を含み、単語を認識することを試みる、または、音声内容を解析して1または複数の単語を認識する前にサンプルまたは音声サンプリング間の空間を増加させる。本発明による一例において、異なるダイレーションパラメータを有する畳み込みニューラルネットワーク(CNN)を訓練して、これらの問題に適用することができる。さらに、予想される環境ノイズおよび音声タイプは、どのダイレーションを使用するかを示し得る。加えて、別の例において、各話者は、機械学習を通じてダイレーションパラメータを割り当てることができる。会話または曲のグループ設定において、パラメータのダイレーションは、各話者の振幅に基づいてグループごとに共に重み付けすることができる。
本発明は、各人間の話者のオーディオ信号または音声内容を未来に向けて予想することを含む。一例において、本発明は、外部ノイズに基づいて、話者のオーディオ信号または音声内容がどのように変化するかを予想し得る。出力がダイレーションなしでCNNに入力され、未来のトレンドに基づいて、音声内容のダイレーションがどのように変化するかが予測され得る。結果のダイレーションが決定され、音声-テキスト変換に適用され得る。
ある態様において、本発明によれば、音声認識のためのコンピュータ実装方法は、分離されたオーディオ入力からの音声内容のダイレーションを使用し、CNN(畳み込みニューラルネットワーク)においてオーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信する段階を備え、オーディオ入力は、話者からの音声内容を含む。方法は、CNNにおいて、ダイアライゼーションをオーディオ入力に適用して、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測し、CNN出力を生成する段階を備える。CNN出力からの結果のダイレーションが決定され、CNN出力の結果のダイレーションは、オーディオ入力の音を分離することを含む。音声-テキスト出力の精度を決定するために、ダイレーションされたCNN出力についての単語誤り率が決定される。単語誤り率に基づいてダイレーションの範囲を変更するために調整パラメータが設定される。方法は、調整パラメータに基づいてCNN出力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。
本発明の1つの利点は、本発明による方法を使用して音声認識を使用してオーディオ入力からテキストに音声を変換するために分離されたオーディオ入力からの音声内容を変換するときに単語誤り率を低減することを含む。
関連する態様において、方法はさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。
関連する態様において、方法は、識別された音声内容からテキストを生成する段階を備える。
関連する態様において、オーディオ入力および予測される変更は、音声内容のダイレーションなしで受信される。
関連する態様において、方法は、グリッド検索を使用して単語誤り率に基づいてオーディオ入力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。
関連する態様において、方法は、コンピュータにおいて、話者についての予想オーディオ入力を受信する段階であって、予想オーディオ入力は、話者についての音声内容を含む、段階と、予想オーディオ入力についての環境刺激オーディオ入力を生成する段階と、環境刺激オーディオ入力に基づいて話者についてのオーディオ入力の変更を予測する段階とを備える。
関連する態様において、方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階と、話者についての調整された結果のダイレーションに適用された学習修正に基づいてオーディオ入力から話者からの音声内容を識別する段階と、識別された音声内容からテキストを生成する段階とを備える。
関連する態様において、方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階とを備える。
関連する態様において、方法はさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。
関連する態様において、方法はさらに、識別された音声内容からテキストを生成する段階を備える。
関連する態様において、方法はさらに、CNNにおいて、複数の話者の1人の音声内容についてのダイレーションパラメータを受信する段階であって、ダイレーションパラメータは、複数の話者からのオーディオ入力から導出される、段階を備える。
関連する態様において、複数の話者からのオーディオ入力はインターレースされたオーディオ入力である。
本発明による別の態様において、音声認識のためのシステムは、コンピュータシステムを含む分離されたオーディオ入力からの音声内容のダイレーションを使用する。コンピュータシステムは、コンピュータプロセッサ、コンピュータ可読記憶媒体、およびプロセッサによって実行可能であるコンピュータ可読記憶媒体に記憶されたプログラム命令を含み、コンピュータシステムに以下の機能、すなわち、CNN(畳み込みニューラルネットワーク)においてオーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信することであって、オーディオ入力は話者からの音声内容を有する、こと、CNNにおいて、ダイアライゼーションをオーディオ入力に適用し、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測してCNN出力を生成すること、CNN出力から結果のダイレーションを決定することであって、CNN出力の結果のダイレーションは、オーディオ入力の音を分離することを含む、こと、ダイレーションされたCNN出力についての単語誤り率を決定して、音声-テキスト出力についての精度を決定すること、調整パラメータを設定して、単語誤り率に基づいてダイレーションの範囲を変更すること、および、調整パラメータに基づいてCNN出力の結果のダイレーションを調整して単語誤り率を低減することを実行させる。
本発明の1つの利点は、本発明による方法を使用して音声認識を使用してオーディオ入力からテキストに音声を変換するために分離されたオーディオ入力からの音声内容を変換するときに単語誤り率を低減することを含む。
関連する態様において、システムはさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。
関連する態様において、システムはさらに、識別された音声内容からテキストを生成する段階を備える。
関連する態様において、オーディオ入力および予測される変更は、音声内容のダイレーションなしで受信される。
関連する態様において、システムはさらに、グリッド検索を使用して単語誤り率に基づいてオーディオ入力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。
関連する態様において、システムはさらに、コンピュータにおいて、話者についての予想オーディオ入力を受信する段階であって、予想オーディオ入力は、話者についての音声内容を含む、段階と、予想オーディオ入力についての環境刺激オーディオ入力を生成する段階と、環境刺激オーディオ入力に基づいて話者についてのオーディオ入力の変更を予測する段階とを備える。
関連する態様において、システムはさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階と、話者についての調整された結果のダイレーションに適用された学習修正に基づいてオーディオ入力から話者からの音声内容を識別する段階と、識別された音声内容からテキストを生成する段階とを備える。
関連する態様において、システムはさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階と、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階と、話者についての調整された結果のダイレーションに学習修正を適用する段階とを備える。
関連する態様において、システムは、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。
関連する態様において、システムはさらに、識別された音声内容からテキストを生成する段階を備える。
別の態様において、本発明によれば、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含む。プログラム命令はコンピュータによって実行可能であり、コンピュータに、コンピュータによる機能を実行させ、当該機能は、CNN(畳み込みニューラルネットワーク)において、オーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信することであって、オーディオ入力は、話者からの音声内容を有する、こと、CNNにおいて、オーディオ入力にダイアライゼーションを適用して、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測してCNN出力を生成すること、CNN出力から結果のダイレーションを決定することであって、CNN出力の結果のダイレーションは、オーディオ入力の音を分離することを含む、こと、ダイレーションされたCNN出力についての単語誤り率を決定して、音声-テキスト出力についての精度を決定すること、調整パラメータを設定して、単語誤り率に基づいてダイレーションの範囲を変更すること、および、調整パラメータに基づいて、CNN出力の結果のダイレーションを調整して単語誤り率を低減することを含む。
本発明の1つの利点は、本発明による方法を使用して音声認識を使用してオーディオ入力からテキストに音声を変換するために分離されたオーディオ入力からの音声内容を変換するときに単語誤り率を低減することを含む。
関連する態様において、コンピュータプログラム製品はさらに、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。
関連する態様において、コンピュータプログラム製品はさらに、識別された音声内容からテキストを生成することを含む。
本発明のこれらの目的、特徴および利点並びに他の目的、特徴および利点は、本発明の例示的な実施形態に係る以下の詳細な説明から明らかとなろう。例示的な実施形態は、添付図面と併せて読まれたい。例示は当業者が詳細な説明に関する本発明の理解を容易にする上での明確性のためのものであるので、図面の様々な特徴は正確な縮尺ではない。図面については、以下で論じられる。
本発明の実施形態による、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのシステムの概要、システムの特徴またはコンポーネント、および方法を示す概略的ブロック図である。
本発明の実施形態による、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図1に示されるシステムを使用して実装される方法を示すフローチャートである。
本開示によるダイレーションの実施形態を示す一連の表である。
インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図1に示されるシステムを使用して実装される、本開示による方法の別の実施形態を示すフローチャートである。
本発明の実施形態による、図4に示される方法の継続を描写する、図4に示されるフローチャートから継続するフローチャートである。
インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図1、図2、図3、図4および図5に示される実施形態に関連する、本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。
インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図1、図2、図3、図4および図5に示される実施形態に関連する本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。
本発明の実施形態による、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図1に示されるシステムを使用して実装される、本開示の実施形態による方法を示すフローチャートである。
分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図1に示されるシステムを使用して実装される、本開示による方法の別の実施形態を示すフローチャートである。
本開示の実施形態による、図9に示される方法の継続を描写する、図9に示されるフローチャートから継続するフローチャートである。
分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図8、9および10に示される実施形態に関連する本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。
分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についての、図8、図9および図10において示される実施形態に関連する、本開示の機能的特徴を示す、説明の目的のための一連の動作および機能的方法を示す機能的概略ブロック図である。
図1に示される1または複数のコンピュータまたはデバイスに全部または部分的に組み込まれ得、図1、図2、図3、図4、図5、図6、図7、図8、図9、図10、図11および図12に示されるシステムおよび方法と協働する、本開示の実施形態によるコンピュータシステムを描写する概略的ブロック図である。
バスを使用して相互接続されるシステムコンポーネントを描写するシステムの概略的ブロック図である。コンポーネントは、全部または一部が、本開示の1または複数の実施形態に従い、本開示の実施形態と共に用いるためのものである。
本発明の実施形態によるクラウドコンピューティング環境を描写するブロック図である。
本発明の実施形態による抽象モデル層を示すブロック図である。
添付図面を参照する以下の説明は、特許請求の範囲およびそれらの同等物によって定義される本発明の例示的な実施形態の包括的な理解を助けるために提供される。それは、理解を助ける様々な具体的詳細を含むが、これらは単に例示とみなされるべきである。したがって、当業者は、本明細書に記載された実施形態の様々な変更および修正は、本発明の範囲から逸脱することなく行われることが可能であると認識するだろう。加えて、明確性および簡潔性のために、周知の機能および構造の説明は省略され得る。
以下の説明および特許請求の範囲で使用される用語および単語は、書誌的な意味に限定されず、本発明の明確で一貫性のある理解を可能にするために使用されるに過ぎない。したがって、本発明の例示的な実施形態に関する以下の説明は、例示目的のみのために提供されており、添付の特許請求の範囲およびその均等物によって定義される本発明を限定する目的で提供されているのではないということは、当業者には明らかなはずである。
文脈での明確な指示がない限り、単数形「1つの(a)」、「1つの(an)」、および「その(the)」には複数の指示対象が含まれることを理解されたい。よって、例えば、「コンポーネントの表面」に言及する場合に、文脈が明らかにそうでないと指示していない場合には、そのような表面が1または複数が存在することを指す場合を含む。
本開示による実施形態は、インターレースされたオーディオ入力からの音声内容を解析して複数の話者の各々についての音声認識を提供し、それにより、単語認識および識別ならびに音声内容からテキストへの変換を提供する。本開示は、音が変更されるとき、または、単語の典型的な発音より一般的でないとき、例えば、音声内容が、話者からの変更された音、もしくは、非典型的な音、またはその組み合わせを含むとき、音声認識および音声からテキストへの変換を可能にする。
本開示の実施形態は、音声信号または音声入力のダイレーションを使用する音声認識を含み、単語の認識を試みるか、または、音声内容を解析して1または複数の単語を認識する前に、サンプルまたは音声サンプリング間の空間を増加させる。本開示による一例において、異なるダイレーションパラメータを有する畳み込みニューラルネットワーク(CNN)を訓練して、これらの問題に適用することができる。別の例において、予想された環境ノイズおよび音声タイプは、どのダイレーションを使用するかを示し得る。別の例において、各話者は、機械学習を通じてダイレーションパラメータを割り当てられ得る。別の例において、会話または曲のグループ設定において、パラメータのダイレーションは、各話者の振幅に基づいて、グループごとに共に重み付けられ得る。
本開示の実施形態はそれにより、予想環境ノイズを提供して、ダイレーションパラメータを設定し得る。別の例において、本開示の実施形態は、音声タイプ(例えば歌、発話)を分類して、ダイレーションパラメータに寄与する。別の例において、本開示の実施形態は、音声スプレッドを他の独立モデルに適合する。別の例において、本開示の実施形態は、話者ダイアライゼーションおよびグループモデルに基づく平均ダイレーションパラメータを含み得る。そして別の例において、本開示の実施形態は、知識のソーシャルダイレーション転送を含み得る。
それにより、本開示の実施形態は、環境ノイズからのダイレーションをモデリングすること、および、ダイレーションパラメータを予想することを含む。ダイレーションスプレッドがマッピングされ得、さらに、ソーシャル態様が会話の各人物のダイレーションメトリクスと組み合わされ得る。
図1および図2を参照すると、本開示の実施形態によるシステム10(図1)に関する方法100(図2)が、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識のために提供される。図2を参照すると、方法は、本開示による一実施形態を実装するための一連の動作ブロックを含む。図2を参照すると、方法100は、ブロック104のように、学習モデル320(図6を参照)を開始して、オーディオ入力60としてコンピュータ22で受信された複数の人間の話者52からの音声内容64の複数の可聴音62の各々についてダイレーションパラメータ324を決定する段階を備える。
図6を参照すると、機能システム300は、本開示による実施形態についてのコンポーネントおよび動作を含み、図1、図2、図3、図4および図5に示される方法およびシステムを参照して本明細書で使用される。
一例において、話者のグループは、共に話し得る。話者のグループからのオーディオ出力は、コンピュータまたはデバイスを使用して、例えば、デバイスのマイクロフォンを使用するか、または、デバイスもしくはコンピュータと通信して、オーディオ入力として受信され得る。
一例において、スペクトログラムが生成され、信号の周波数のスペクトルの視覚的表現として使用され得、オーディオ信号のように、時間と共に変動する。スペクトログラムは、ソノグラフ、声紋、またはボイスグラムとも称され得る。
スペクトログラムが作成され得、DFT(離散フーリエ変換)が、潜在的な固有の話者を決定するために適用され得る。DFTは、関数の等しく隔てられたサンプルの有限系列を、周波数の複素数値関数である、離散時間フーリエ変換(DTFT)の等しく隔てられたサンプルの同一の長さの系列に変換し得る。初期ダイレーション変数は、各DFTの推定に初期化され得る。
一例において、グループにおいて誰が話している、または歌っているかが認識されているとき、ダイレーションパラメータは、情報に基づいて調整または指定され得る。そのような識別情報は、例えば、ソーシャルメディアの入力、観察から収集され得る。
複数の可聴音は、例えば、話していて可聴音62を生成している、近隣50の複数の人間の話者52またはユーザとして、1または複数の人間の話者14またはユーザを含み得る。可聴音は例えば、会話、一人の音声、歌、話者のグループの歌などにおいて話す人間を含み得る。そして、可聴音62はこのようにして、音声内容64を生成し、含む。
可聴音は、モバイルデバイスなどのコンピュータ22またはデバイス20におけるマイクロフォンを介して、オーディオ入力60としてコンピュータで受信され得、コンピュータは、単独で、または、制御システム70の制御デバイスと組み合わせて、(本開示の技法に従って処理するために、通信ネットワーク45、例えば、インターネットを介して)オーディオファイルを別のコンピュータ72またはサーバ、例えばリモートコンピュータまたはサーバへ送信し得る。別の例において、オーディオファイルにおける可聴音は、コンピュータ上でローカルに、もしくは、リモートコンピュータもしくはサーバと組み合わせて、またはその組み合わせで、本開示の技法に従って処理され得る。
学習モデル320は、パラメータを使用する機械学習を含み得る。例えば、ダイレーションパラメータは、機械学習を使用して、複数の話者またはユーザの各々を割り当てられ得る。
音声認識のための音のダイレーションは、音または音サンプルの間の空間の増加として定義され得る。本開示において、ダイレーションは、音から単語を認識することを試みる前に実行される。
ダイレーションパラメータは、音サンプル間の指定された量の空間を含み得るか、または、音サンプル間の空間の範囲を指定する。ダイレーション変数は、各潜在的話者に割り当てられ、学習モデルにおいて使用され得る。
一例において、図3を参照すると、テーブル154、158、162の代表的イメージ150は、イメージ166のダイレーションを描写する。これは例えば、断片または音サンプル168に階層化された音イメージであり得る。イメージ150は、ダイレーションパラメータDの変化を描写する。テーブル154において、ダイレーションパラメータ172は1に等しく、イメージ166は空間を有しない。第2テーブル158において、ダイレーションパラメータ174は2に等しく、イメージは、サンプル間の空間180を有する音サンプル168を有する。第3テーブル162において、ダイレーションパラメータ176は3に等しく、イメージは、サンプル間により多くの空間180を有する音サンプル168を有する。
方法は、ブロック108のように、学習モデルの一部として、オーディオ刺激に応じて複数の独立の音の各々の変化を決定する段階であって、独立の音は、オーディオ入力から導出される、段階を備える。例えば、オーディオ刺激は環境刺激を含み得る。音の変更、または、独立の音の変更322は、環境刺激に応じて決定され得る。
一実施形態において、オーディオ入力は、ダイアライゼーションを使用して、複数の話者の各々について精緻化され得る。例えば、ダイアライゼーションは、入力オーディオストリームを、話者識別に対応するセグメントにパーティショニングするプロセスを含み得、一例においてセグメントは同質であり得る。ダイアライズされた信号は、オーディオ入力を独立の音に階層化するために使用され得る。
ダイアライゼーションは、各話者に帰属可能な複数の話者の各々からのオーディオ入力を精緻化するために深層学習に使用され得る。一例において、話者識別のDFTもしくは深層学習またはその組み合わせのアプローチからのエラーがある場合、ダイアライゼーションパラメータは共に平均化され得る。
一例において、声紋が構築され得る。一例において、環境刺激を再生でき、階層化されたデータがどのように変化するかについて決定され得る。ダイレーションパラメータは、オーディオ入力データ(例えば音声データ)の変化に基づいて修正され得る。例えば、音声が引き延ばされる場合、ダイレーションパラメータは増加し得る。加えて、各話者に関するダイレーションパラメータは、独立信号の相関係数に基づき得る。相関の係数(R値)は、回帰出力におけるサマリテーブルにおいて与えられる値である。R二乗は決定係数と呼ばれ、すなわち、R×RでR二乗の値が取得される。決定係数は、相関の係数の二乗である。
一例において、R二乗相関メトリックは、どのようにペアワイズのもっとも相関する話者を共に組み合せるかを決定する。例えば、Rのランクは0と0.5との間でシフトされ得、その結果、最大で、ペアの話者は調整されたダイレーションの50%に寄与する。
方法は、ブロック112のように、独立の音の各々の変化に基づいて、ダイレーションパラメータをそれぞれ適用する段階を備える。
方法は、ブロック116のように、独立の音およびダイレーションパラメータのそれぞれに基づいて話者の各々についての声紋を構築する段階を備える。
方法は、ブロック120のように、それぞれの声紋および独立の音に少なくとも部分的に基づいて、複数の話者の各々に音声内容を帰属させる段階を備える。
方法は、ブロック124のように、帰属させられた音声内容からテキストを生成する段階を備え得る。
ブロック126において決定されるように、生成されたテキストがローカルに、例えばローカルコンピュータ上に表示される場合、方法はブロック130に継続する。ブロック126において決定されるように、生成されたテキストがローカルに表示されない場合、デバイスまたはコンピュータディスプレイまたはモニタ上に表示されるために、方法はブロック128に継続する。
方法は、ブロック126において決定されるようにテキスト位置を表示することに応じて、ブロック130のように、コンピュータまたはデバイスと通信する画面またはモニタ上にテキストを表示する段階を備える。
方法は、ブロック128のように、ブロック126において決定されるようにテキストをローカルに表示しないことに応じて、電子通信システムを介して、テキストをコンピュータもしくはデバイスまたはその組み合わせに送信して、コンピュータもしくはデバイスまたはその組み合わせと通信する画面またはモニタ上に表示する段階を備え得る。方法は、ブロック130のように、コンピュータまたはデバイスと通信する画面またはモニタ上にテキストを表示することを継続し得る。
方法は、独立の音を受信し、ダイアライゼーションを使用してオーディオ刺激に応じて独立の音の各々の変更を決定するためのCNN326(畳み込みニューラルネットワーク)を含む学習モデル320を含み得る。
CNN(畳み込みニューラルネットワーク)は、深層学習の少なくとも一部であり得、CNNはディープニューラルネットワークのクラスである。CNNは、第3関数を生成し、畳み込みと呼ばれる2つの機能として一般的に定義される数学的演算を含む。畳み込みは、特殊化した種類の線型操作である。したがって、畳み込みネットワークは、複数の層の少なくとも1つにおける汎用行列乗算の代わりに畳み込みを使用するニューラルネットワークである。
方法は、複数の可聴音を含み得るオーディオ入力を含み得、オーディオ入力はコンピュータで受信され得る。さらに、可聴音は複数の話者からの音声内容を含み得る。
方法はさらに、コンピュータを使用してオーディオ入力をダイレーションする段階を備え得る。ダイレーションは、オーディオ入力における音を分離することを含み得る。
方法はさらに、音308のダイアライゼーションを使用して複数の話者の各々について、ダイレーションさせられたオーディオ入力302を精緻化する段階を備え得る。
方法はさらに、オーディオ入力のダイアライゼーションを使用して、精緻化されたオーディオ入力304における音306を独立の音310に階層化する段階を備え得る。
方法は、オーディオ入力における音の分離を含み得、複数の話者のうちの話者からの音声から環境音またはバックグラウンド音を区別する段階を備え得る。
方法は、オーディオ入力を話者識別に関する均質なセグメントにパーティショニングすることを含み得る、ダイアライゼーションを使用して複数の話者の各々についてのオーディオ入力を精緻化する段階を備え得る。
本開示による別の実施形態において、図4を参照すると、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンピュータ実装方法200は、ブロック204のように、複数の可聴音を含むオーディオ入力をコンピュータで受信する段階であって、可聴音は、複数の話者からの音声内容を含む、段階を備える。図4および図5に示される方法200の動作ブロックは、図2に示される動作ブロックと同様であり得る。図4および図5に示されている方法は、本開示において既に示され論じられた態様/動作を含むことがあり得る別の例示的な実施形態として意図されている。
方法200は、ブロック208のように、コンピュータを使用してオーディオ入力をダイレーションさせる段階であって、ダイレーションは、オーディオ入力における音を分離することを含む、段階を備える。
方法200は、ブロック212のように、ダイアライゼーションを使用して、複数の話者の各々についてのオーディオ入力を精緻化する段階を備える。方法は、ブロック216のように、オーディオ入力のダイアライゼーションを使用して、オーディオ入力における音を独立の音に階層化する段階を備える。
方法200は、ブロック220のように、学習モデルを開始して、可聴音の各々についてのダイレーションパラメータを決定する段階を備える。
方法200は、ブロック222のように、独立の音を受信し、ダイアライゼーションを使用してオーディオ刺激に応じて独立の音の各々の変更を決定するためのCNN(畳み込みニューラルネットワーク)を含む学習モデルを備える。
方法200は、ブロック224のように、オーディオ刺激に応じて、複数の独立の音の各々の変更を学習モデルの一部として決定する段階を備える。
方法200は、ブロック228のように、独立の音の各々の変化に基づいて、ダイレーションパラメータをそれぞれ適用する段階を備える。
方法200は、ブロック232のように、独立の音310およびダイレーションパラメータ324のそれぞれに基づいて、話者52の各々についての声紋330を構築する段階を備える。
方法200は、ブロック236のように、それぞれの声紋および独立の音に少なくとも部分的に基づいて、複数の話者の各々に音声内容を帰属する段階を備える。帰属させられた音声内容332は、テキストを生成するために使用され得る。
図5を参照すると、方法200は、ブロック240のように、帰属させられた音声内容332からテキスト334を生成する段階を備える。
方法200はさらに、ブロック244のように、電子通信システムを介して、コンピュータもしくはデバイスまたはその組み合わせへテキストを送信して、コンピュータもしくはデバイスまたはその組み合わせと通信する画面またはモニタ上に表示する段階を備える。別の例において、通信は、SMS、電子メール、インスタントメッセージ、ナビゲーションソフトウェアから成るグループから実装され得る。そのような例は、例示かつ非網羅的であることが意図される。
方法200はさらに、ブロック248のように、コンピュータまたはデバイスと通信する画面またはモニタ上にテキストを表示する段階を備え得る。
図7を参照すると、本開示の実施形態による、本明細書に説明される実施形態を示しサポートする機能システム400は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンポーネントおよび動作を含む。システム400は、オーディオ出力を出力する人間の話者402のグループを含む。オーディオ出力は、ブロック404のように、ダイレーションを使用して、別個の各信号を学習するために受信される。システムは、ブロック406のように、ダイアライゼーションに基づいて、オーディオ入力信号のダイレーションを学習し得る。
システムは、ブロック410のように、ダイアライゼーションを使用してオーディオ入力信号を階層化することを含む。システムは、ブロック412のように、音、例えば環境刺激を再生して、ダイアライズされたオーディオ入力信号をグループ化することを含む。システムは、ブロック414のように、環境刺激に基づいて個別およびグループのダイレーションを設定することを含む。システムは、ブロック416のように、オーディオ出力を生成することを含む。システムは、ダイレーションおよび環境刺激に基づいて、オーディオ出力416を使用して、ブロック418のようにテキスト出力を生成することを含む。
一例において、システムは、ブロック450のように、一例において、外部ノイズに基づいて、話者の信号がどのように変化するかを予測することによって、予想話者信号技法または方法/システムを使用して話者の信号を予想し、その後の話者の信号を予測し得る。そのような予想は、本開示の焦点ではない。
図1および2に示された本開示の実施形態では、コンピュータは、リモートコンピュータまたは例えばリモートサーバ1100(図8)のようなリモートサーバの一部であり得る。別の例では、コンピュータ72は、制御システム70の一部であり、本開示の機能の実行を提供することができる。別の実施形態では、コンピュータ22が、モバイルデバイス20の一部であり、本開示の機能の実行を提供することが可能である。さらに別の実施形態では、本開示の機能の実行の一部が、制御システムのコンピュータとモバイルデバイスコンピュータとの間で共有される場合もあって、例えば、制御システムは、本開示を具現化する1または複数のプログラムのバックエンドとして機能し、モバイルデバイスコンピュータは、その1または複数のプログラムのフロントエンドとして機能する。
コンピュータは、モバイルデバイス、またはモバイルデバイスと通信するリモートコンピュータの一部であり得る。別の例では、モバイルデバイスとリモートコンピュータとが、協働して機能することにより、本明細書に記載された方法の特徴を実行するための記憶されたプログラムコードまたは命令を用いて、本開示の方法を実装することができる。一例において、モバイルデバイス20は、プロセッサ15、および、アプリケーション40を記憶する記憶媒体34を有するコンピュータ22を備え得る。アプリケーションは、プロセッサ15を用いて本開示の特徴を実行するためのプログラム命令を組み入れることができる。別の例では、モバイルデバイス20アプリケーション40は、本開示の方法の特徴をプログラム命令に組み入れるソフトウェアアプリケーションのフロントエンドのために実行可能なプログラム命令を有することがあり、他方で、制御システム70のコンピュータ72上に記憶されたソフトウェアアプリケーションの1または複数のバックエンドプログラム74は、モバイルデバイスコンピュータと通信して、方法の他の特徴を実行する。制御システム70とモバイルデバイス20とは、通信ネットワーク45、例えばインターネットを用いて通信できる。
それにより、本開示の一実施形態による方法100は、電子記憶媒体34上に記憶されており、モバイルデバイス20上のコンピュータの一部としてプロセッサ15によって実行可能な1または複数のコンピュータプログラムまたはアプリケーション40に組み入れられることがあり得る。例えば、人間の話者またはユーザ14はデバイス20を有し、デバイスは制御システム70と通信し得る。他のユーザ(図示せず)は、同様のデバイスを有し、制御システムと同様に通信し得る。アプリケーションは、全体または一部が、コンピュータまたはモバイルデバイスにおけるコンピュータ上に、そして、例えばインターネットなどの通信ネットワーク45を用いてデバイスと通信する制御システムにおいて、記憶され得る。本開示の方法を実装するために、アプリケーションがプログラム命令の全部または一部にアクセスできるということが想定されている。プログラムまたはアプリケーションは、通信ネットワーク45(例えば、インターネット)を介してリモートコンピュータシステムと通信し、データにアクセスして、そのリモートコンピュータシステム上に記憶されているプログラムと協働することができる。そのような相互作用および機構は、本明細書においてさらに詳細に説明されており、コンピュータ可読記憶媒体などのコンピュータシステムのコンポーネントに関して参照され、これらは、図8における一実施形態に示されており、これに関しては、1または複数のコンピュータシステム1010を参照してより詳細に説明される。
したがって、一例において、制御システム70は、デバイス20と通信し、デバイス20はアプリケーション40を含み得る。デバイス20は通信ネットワーク45を使用して制御システム70と通信する。
別の例では、制御システム70は、デバイス20など、1または複数のユーザに属するフロントエンドコンピュータと、制御システムとして具現化されたバックエンドコンピュータとを有し得る。
また、図1を参照すると、デバイス20は、コンピュータ22、コンピュータ可読記憶媒体34、オペレーティングシステム、もしくはプログラム、またはその組み合わせ、もしくはソフトウェアアプリケーション40またはその組み合わせを含み得、ソフトウェアアプリケーション40は、プロセッサ15を用いて実行可能なプログラム命令を含み得る。これらの特徴は、本明細書の図1において示されており、1または複数の一般的なコンピュータコンポーネントを含み得る1または複数のコンピュータシステム1010を参照して、図8に示されたコンピュータシステムの一実施形態にも示されている。
本開示による方法は、制御システムの一部として本開示による方法の特徴を実装するためのコンピュータを含み得る。別の例では、制御システムの一部としてのコンピュータが、本開示による方法の特徴を実装するためにモバイルデバイスコンピュータと共に機能することができる。別の例では、この方法の特徴を実装するためのコンピュータは、モバイルデバイスの一部であり得ることにより、この方法をローカルに実装することができる。
図6および図7に示される特徴は、本開示の特徴の機能表現であると理解されたい。それらの特徴は、本開示の特徴の機能性を明確にするために、例示的な目的で、本開示のシステムおよび方法の実施形態において示されている。
具体的には、制御システム70に関して、1または複数のユーザ14のデバイス20は、通信ネットワーク50を介して制御システム70と通信し得る。図1に示された制御システムの実施形態では、制御システム70は、データベース76とコンピュータ可読記憶媒体73に記憶された1または複数のプログラム74とを有するコンピュータ72を含む。図1に示された本開示の実施形態では、デバイス20は、制御システム70、およびコンピュータ可読記憶媒体73上に記憶された1または複数のプログラム74と通信する。制御システムは、プロセッサ75を有するコンピュータ72を含んでおり、プロセッサ75は、またデータベース76へのアクセスも有する。
制御システム70は、オーディオ入力の解析のために、ユーザの登録82と、ユーザのデバイスとを維持するための記憶媒体80を含み得る。そのような登録は、ユーザプロファイル83を含み得、このユーザプロファイル83は、アカウントの登録および設定に関してユーザによって供給されたユーザデータを含み得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション40であり得る方法およびシステムのフロントエンドとの組合せおよび協働での制御システム(一般的に、バックエンドと称される)を含む。一例では、アプリケーション40は、デバイス、例えばデバイス20上に記憶されており、アプリケーションのバックエンド、例えば制御システム70にあるデータおよび追加的プログラムにアクセスすることができる。
制御システムは、また、ソフトウェアアプリケーションの実装の一部であり得るか、もしくは機能を提供するフロントエンドユーザ部分およびバックエンド部分を有するソフトウェアアプリケーションを表し得るか、またはその両方であり得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション40を有するデバイス20の図1に示されている例におけるように、デバイスにおいて本願の方法およびシステムの別の一部を組み入れたソフトウェアアプリケーションのフロントエンドとの組合せおよび協働で、(本願の一実施形態の方法およびシステムの一部を組み入れたソフトウェアアプリケーションのバックエンドとして一般的に称され得る)制御システムを含む。アプリケーション40は、デバイス20上に記憶されており、このアプリケーションのバックエンドにある、例えば制御システム70に記憶されているプログラム74におけるデータおよび追加的プログラムにアクセスすることができる。
プログラム74は、全部または一部が、本開示の方法を実装するための一連の実行可能なステップを含み得る。本開示による方法を組み入れたプログラムは、全部もしくは一部が、制御システム上のコンピュータ可読記憶媒体に、または、全部もしくは一部が、デバイス20上に記憶され得る。制御システム70は、ユーザのプロファイルを記憶できるだけでなく、一実施形態では、デバイスのディスプレイ上で見るためのウェブサイト、または別の例ではインターネットとインタラクトし、本開示の方法およびシステムに関係するユーザ入力を受け取ることができることが想定されている。図1は1または複数のプロファイル83を示しているが、この方法は複数のプロファイル、ユーザ、登録などを含み得ることが理解される。複数のユーザまたはユーザのグループが、本開示の方法およびシステムによる使用のために、制御システムを用いて、プロファイルを登録し提供できることが想定されている。
本開示に関するデータの収集については、プロファイルのそのようなアップロードまたは生成は、1または複数のユーザによる自発的なものであり、したがって、ユーザの承認によっておよびユーザの承認を伴って開始される。それにより、ユーザは、本開示に従って、プロファイルを有するアカウントを確立することに同意することができる。同様に、システムによって受け取られた、または入力されたもしくは入力として受け取られたデータは、1または複数のユーザによる自発的なものであり、したがって、ユーザの承認によりおよびユーザの承認を伴って開始される。それにより、ユーザは、本開示に従い、データを入力することにオプトインすることができる。そのようなユーザの承認は、また、そのようなプロファイルもしくはアカウント、またはデータの入力、あるいはその両方をキャンセルする、よって、ユーザの裁量で通信およびデータの捕捉をオプトアウトするユーザのオプションを含む。さらに、記憶されているまたは収集されたどのデータも、安全に記憶され、ユーザによる承認がなければ利用不可能であって、公衆もしくは承認されていないユーザまたはその両方に対して利用可能ではないことが意図されていると理解される。そのような記憶されているデータは、ユーザのリクエストに応じて削除される、かつ安全な態様で削除されるものと理解される。また、そのような記憶されているデータのいかなる利用も、本開示によると、ユーザの承認および同意を伴う場合のみであると理解される。
本発明の1または複数の実施形態では、ユーザは、制御システムを用いてオプトインまたは登録することができ、プロセスにおいてデータもしくは情報またはその両方を、ユーザの同意および承認を伴って自発的に提供するのであり、データは、本開示の1または複数の方法で、記憶され用いられる。また、ユーザは、本開示による1または複数の方法およびシステムと共に用いるために、1または複数のユーザ電子デバイスを登録することができる。登録の一部として、ユーザは、1もしくは複数の活動または他のシステム(例えば、オーディオもしくはビデオまたはその両方のシステム)へのアクセスを識別して承認することもできる。登録のそのようなオプトインと、データの収集もしくは記憶またはその両方の承認とは、自発的であり、ユーザは、(プロファイルもしくはプロファイルデータまたはその両方を含む)データの削除、登録解除、もしくは任意の登録のオプトアウト、またはそれらの組合せを、リクエストすることができる。そのようなオプトアウトは、安全な態様でのすべてのデータの廃棄を含むものと理解される。
一例では、ダイレーションパラメータを決定するための学習モデルのために、全部または部分的に、人工知能(AI)が使用され得る。
別の例では、制御システム70が、全部または一部において、人工知能(AI)システムであり得る。例えば、制御システムは、AIシステムの1または複数のコンポーネントであり得る。
また、本開示の一実施形態による方法100を、それぞれのAIシステムおよびそれぞれのAIシステムプラットフォームと通信することができるAI(人工知能)デバイスの中に組み入れることが可能である、ということも理解される。これにより、本開示の方法を組み入れたそのようなプログラムまたはアプリケーションは、既に論じられたように、AIシステムの一部であり得る。本発明による一実施形態では、制御システムがAIシステムと通信できること、または別の例では、AIシステムの一部であり得ることが想定されている。制御システムは、また、機能を提供するフロントエンドユーザ部分とバックエンド部分とを有するソフトウェアアプリケーションを表すことも可能であり、これが、1または複数の例では、AIシステムなどのより大きなシステムとインタラクトし、それを包含し、またはその一部であることが可能である。一例では、AIデバイスが、全部または一部が制御システムもしくはコンテンツデリバリシステムまたはその両方であり、AIデバイスとはリモートの関係であり得るAIシステムと関連し得る。そのようなAIシステムは、1または複数のAIデバイスと通信できるコンピュータ可読媒体上にプログラムを記憶している1または複数のサーバによって表されることが可能である。AIシステムは、制御システムと通信することができ、1または複数の実施形態では、制御システムは、AIシステムの全部もしくは一部であるか、またはその逆であり得る。
本明細書で論じられているように、ダウンロードまたはダウンロード可能なデータは、音声コマンドを用いて、またはマウスやタッチスクリーンなどを用いて開始され得ると理解される。そのような例では、モバイルデバイスはユーザによる開始が可能であり、または、AIデバイスはユーザの同意および許可と共に使用が可能になる。AIデバイスの他の例は、マイクロフォン、スピーカを含むデバイスを含み、セルラネットワークもしくはモバイルネットワーク、通信ネットワーク、またはインターネットへのアクセスが可能であり、例えば、コンピュータを有しセルラもしくは衛星通信を有する車両であり、または別の例では、セルラネットワークもしくはインターネットアクセスを有する家電製品などのIoT(モノのインターネット)デバイスである。
図1および図8を参照すると、本開示の実施形態によるシステム10(図1)に関する方法500(図8)が、分離されたオーディオ出力(またはシンギュラーとも称される)からの音声内容のダイレーションを使用する音声認識のために提供される。図8を参照すると、方法は、本開示による一実施形態を実装するための一連の動作ブロックを含む。図8を参照すると、方法100は、ブロック504のように、CNN(畳み込みニューラルネットワーク)において、オーディオ入力を受信して、オーディオ入力についての予測される変更を受信する段階であって、オーディオ入力は、人物、すなわち、人間の話者からの音声内容を有する、段階を備える。
一例において、オーディオ入力は、人間の話者から音声内容、例えば、デバイスのマイクロフォンまたはデバイスもしくはコンピュータと通信するマイクロフォンを使用して、例えば、コンピュータまたはデバイスを使用するオーディオ入力を含み得る。一例において、話者オーディオ入力は、図12に示されるシステム800におけるブロック802として表され得る。別の例において、話者オーディオ入力は、図1および図11に示されるように、ブロック52として表され得、少なくとも部分的にオーディオ入力704として使用され得る。
別の例において、オーディオ入力は、音声を認識するためのシステムまたは方法からの出力を含み得る。例えば、システムおよび方法は、図2に示される方法100などの音声を認識するためにダイレーションおよびダイアライゼーションを使用し得る。追加的に、この例において、ブロック120における方法100の出力は、方法500において、話者についてのオーディオ入力として使用され得る。システムからのそのようなオーディオ出力はまた、図12に示されるシステム800におけるブロック416として表され得、少なくとも部分的に話者の信号804においてオーディオ入力として使用され得る。別の例において、ダイレーションを使用するシステムからの話者のオーディオ出力は、図11に示されるシステム700のブロック702によって表され、オーディオ入力704の少なくとも一部として使用され得る。
各場合において、オーディオ入力は、人間の話者からの音声内容を含み、音声内容708(図11)は複数の可聴音706(図11)を有する。
図8および11を参照すると、一例において、外部ノイズ714に基づくオーディオ入力についての受信された予測される変更712は、例えば学習モデルから導出される予測される変更のセットを含み得る。学習モデルは例えば、外部ノイズに基づいて、オーディオ入力における1または複数の外部ノイズおよびモデル変更を使用し得る。外部ノイズは、例えば、環境音、追加の話のノイズを含む、バックグラウンドノイズを含み得るが、これに限定されない。
CNN(畳み込みニューラルネットワーク)718は、深層学習の少なくとも一部であり得、CNNはディープニューラルネットワークのクラスである。CNNは、第3関数を生成し、畳み込みと呼ばれる2つの機能として一般的に定義される数学的演算を含む。畳み込みは、特殊化した種類の線型操作である。したがって、畳み込みネットワークは、複数の層の少なくとも1つにおける汎用行列乗算の代わりに畳み込みを使用するニューラルネットワークである。
図8を参照すると、方法500は、ブロック508のように、CNNにおいて、ダイアライゼーション720をオーディオ入力に適用して、話者からの音声内容のダイレーションがどのようにオーディオ入力を変更してCNN出力724を生成するかを予測する段階を備える。例えば、学習モデルは、音声内容のダイレーション、および、ダイレーションがどのように音声内容を変更するかを予測するための解析を含み得る。
方法500は、ブロック512のように、CNN出力から結果のダイレーション726を決定する段階であって、CNN出力の結果のダイレーションは、オーディオ入力の音732を分離することを含む、段階を備える。例えば、学習モデル730は、ダイレーション734、および、ダイレーションが音声内容をどのように変更するかの予測を決定し得る。
方法500は、ブロック516のように、ダイレーションされたCNN出力についての単語誤り率736を決定して、音声-テキスト出力の精度を決定する段階を備える。例えば、方法は、音声-テキストの変換のための精度740パーセンテージを決定し得る。別の例において、方法は、音声-テキストの変換についての精度数、例えば、異なるダイレーションおよび予測モデルについての精度の異なるパーセンテージを決定し得る。
方法500は、ブロック520のように、単語誤り率736に基づいて、ダイレーションの範囲を変更するための調整パラメータを設定する段階を備える。例えば、1または複数の調整パラメータが、音声内容についてのダイレーションまたはダイレーションの範囲を設定するために使用され得る。調整パラメータ742は、単語誤り率736に基づき得、例えば、単語誤り率と協働してダイレーション744を調整する。
方法500は、ブロック524のように、調整パラメータに基づいてCNN出力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。一例において、単語誤り率がより高いとき、ダイレーションは増加され得る。別の例において、単語誤り率閾値は、単語誤り率閾値が満たされるとき(例えば、不満足に高い単語誤り率)、ダイレーションを変更、例えば増加させることをトリガするために使用され得る。別の例において、単語誤り率閾値が満たされないことがあり得、単語誤り率が許容可能であることを示す。
図8を参照すると、方法500は、ブロック526において許容可能な単語誤り率を有し得、方法が終了する。方法が許容可能な単語誤り率を有しないとき、方法はブロック524に戻り、CNNのダイレーションを調整し得る。
一実施形態において、図11のブロック746、および、図12のブロック824を参照すると、調整された結果のダイレーション524は、音声認識のためにダイレーションを使用するシステムによる使用のための出力であり得る。出力は、図11のブロック748、および、図12のブロック828のように、音声認識のためにダイレーションを使用するシステムについての入力として使用され得る。別の例において、ブロック524における方法500およびブロック648における方法600においても参照される、ブロック746および824における出力は、少なくとも部分的に、以前に説明された実施形態において入力として、例えば、図2におけるブロック104、図4におけるブロック204、図6におけるブロック60、および図7におけるブロック404において使用され得る。
方法はさらに、話者のために調整された結果のダイレーションを適用する学習修正に基づいてオーディオ入力から話者からの音声内容を識別する段階を備え得る。
別の例において、方法は、識別された音声内容からテキストを生成する段階を備え得る。
別の例において、方法におけるオーディオ入力および予測される変更は、音声内容のダイレーションなしで受信される。
別の例において、方法はさらに、グリッド検索を使用して単語誤り率に基づいてオーディオ入力の結果のダイレーションを調整して、単語誤り率を低減する段階を備える。例えば、グリッド検索は、例えば、学習アルゴリズムまたはコンピュータ学習モデルなど、モデルの最適なハイパーパラメータを発見するために使用され得、これにより、より正確な予測がもたらされ得る。
方法はさらに、話者についての予想オーディオ入力をコンピュータにおいて受信する段階であって、予想オーディオ入力は、話者についての音声内容を含み得る、段階を備え得る。環境刺激オーディオ入力が予想オーディオ入力について生成される。そして、方法は、環境刺激オーディオ入力に基づいて話者についてのオーディオ入力の変更を予測する段階を備える。
一例において、方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階を備え得る。学習修正は、予想オーディオ入力の調整された結果のダイレーションの共有から生成され得る。学習修正は、話者についての調整された結果のダイレーションに適用され得る。方法は、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。そして、方法は、識別された音声内容からテキストを生成する段階を備える。
方法はさらに、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階を備え得る。方法は、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成し、話者についての調整された結果のダイレーションに学習修正を適用する段階を備え得る。
加えて、方法は、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備え得る。
方法は、識別された音声内容からテキストを生成する段階を備え得る。
方法は、複数の話者の1人の音声内容についてのダイレーションパラメータをCNNにおいて受信する段階であって、ダイレーションパラメータは、複数の話者からのオーディオ入力から導出される、段階を備え得る。
一例において、方法における複数の話者からのオーディオ入力はインターレースされたオーディオ入力である。
図11を参照すると、本開示の実施形態による、本明細書に説明される実施形態を示しサポートする機能システム700は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンポーネントおよび動作を含む。例えば、システム700は、本開示の実施形態に含まれる機能の代表であり、そこで使用される動作を含む。
図12を参照すると、本開示の実施形態による、本明細書に説明される実施形態を示しサポートするシステム800は、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識についてのコンポーネントおよび動作を含む。システム800は、オーディオ出力を出力する人間の話者802のグループを含む。オーディオ出力は、ブロック804のように、話者の信号を予想するために受信される。代替的に、システム800は、技法を使用して、予想話者信号を提供するためにオーディオ出力、例えば、図7に示されるシステム400のオーディオ出力416を受信し得る。システム800は、ブロック804のように、話者の信号を予想するためのオーディオ入力を受信する。
一例において、オーディオ入力が話者から受信される。別の例において、オーディオ入力は、インターレースされたオーディオ入力からの音声内容のダイレーションを使用する音声認識システムの出力、例えば、図6のブロック332におけるダイレーションされた音声内容、または、別の例において、図7に示されるオーディオ出力416であり得る。別の例において、ダイレーションされたオーディオ入力は、図2のブロック120におけるダイレーションされた音声内容、または、別の例において、図4のブロック236における帰属させられた音声内容、または、図7に示されるオーディオ出力416であり得る。
システム800は、ブロック806のように、環境ノイズから学習すること、および、ブロック808のように、環境刺激を用いて話者の信号を予想することを含む。
ブロック810のように、CNNを用いてダイアライゼーションに適用するために、環境刺激808を有する予想話者信号および予想話者信号804の両方が受信される。
ブロック814のように、単語誤り率812が決定され、ダイアライゼーションは、グリッド検索を用いて調整され得る。ブロック816のように、環境ノイズを有するダイアライゼーションは、ソーシャルネットワークと共有される。ブロック818のように、能動的な学習調整がソーシャルネットワークにプッシュされる。ブロック820のように、ダイアライゼーションの知識は、話者に転送される。
例において、図12を参照すると、音声内容のより良いダイアライゼーションのための出力824が、インターレースされたオーディオ入力のダイレーションを使用する音声認識のためのシステムに対する入力828として使用され得る。例えば、出力は、システム400について、ブロック414における入力として図7のブロック414で受信され、より良くダイレーションを設定する。
別の例において、出力824は、CNNによる使用のためにブロック326においてシステム300についての入力として図6のブロック320において受信され得、より良い結果の声紋をもたらすためにダイレーションと共に使用される。
図9および図10を参照すると、分離された(またはシンギュラー)オーディオ入力からの音声内容のダイレーションを使用する音声認識のための、本開示の別の実施形態による方法600は、ブロック604において、話者についての予想オーディオ入力をコンピュータで受信する段階であって、予想オーディオ入力は話者についての音声内容を含む、段階を備える。
方法は、ブロック608のように、予想オーディオ入力についての環境刺激オーディオ入力を生成する段階を備える。
方法は、ブロック612のように、環境刺激オーディオ入力に基づいて、話者についてのオーディオ入力の変更を予測する段階を備える。
方法は、CNN(畳み込みニューラルネットワーク)において、オーディオ入力、および、オーディオ入力についての予測される変更を受信する段階であって、オーディオ入力は話者からの音声内容を有する、段階を備える。
方法は、ブロック620のように、CNNにおいて、ダイアライゼーションをオーディオ入力に適用して、話者からの音声内容のダイレーションがオーディオ入力をどのように変更するかを予測し、CNN出力を生成する段階を備える。
方法は、ブロック622のように、CNN出力から結果のダイレーションを決定する段階であって、CNN出力の結果のダイレーションは、オーディオ入力の音を分離することを含む、段階を備える。
方法は、ブロック624のように、ダイレーションされたCNN出力についての単語誤り率を決定して、音声-テキスト出力についての精度数を決定する段階を備える。
方法は、ブロック628のように、単語誤り率に基づいて、ダイレーションの潜在的な範囲を変更するために調整パラメータを設定する段階を備える。
方法は、ブロック632のように、調整パラメータに基づいてCNN出力の結果のダイレーションを調整して単語誤り率を低減する段階を備える。
方法は、ブロック636のように、予想オーディオ入力の調整された結果のダイレーションをソーシャルネットワークと共有する段階を備える。
方法は、ブロック640のように、予想オーディオ入力の調整された結果のダイレーションの共有から学習修正を生成する段階を備える。
方法は、ブロック644のように、話者についての調整された結果のダイレーションに学習修正を適用する段階を備える。
方法は、ブロック648のように、話者についての調整された結果のダイレーションに適用される学習修正に基づいて、オーディオ入力から話者からの音声内容を識別する段階を備える。
方法は、ブロック652のように、識別された音声内容からテキストを生成する段階を備える。
図1および2に示された本開示の実施形態では、コンピュータは、リモートコンピュータまたは例えばリモートサーバ1100(図8)のようなリモートサーバの一部であり得る。別の例では、コンピュータ72は、制御システム70の一部であり、本開示の機能の実行を提供することができる。別の実施形態では、コンピュータ22が、モバイルデバイス20の一部であり、本開示の機能の実行を提供することが可能である。さらに別の実施形態では、本開示の機能の実行の一部が、制御システムのコンピュータとモバイルデバイスコンピュータとの間で共有される場合もあって、例えば、制御システムは、本開示を具現化する1または複数のプログラムのバックエンドとして機能し、モバイルデバイスコンピュータは、その1または複数のプログラムのフロントエンドとして機能する。
コンピュータは、モバイルデバイス、またはモバイルデバイスと通信するリモートコンピュータの一部であり得る。別の例では、モバイルデバイスとリモートコンピュータとが、協働して機能することにより、本明細書に記載された方法の特徴を実行するための記憶されたプログラムコードまたは命令を用いて、本開示の方法を実装することができる。一例では、モバイルデバイス20は、プロセッサ15と、アプリケーション40を記憶する記憶媒体34とを有するコンピュータ22を備え得る。アプリケーションは、プロセッサ15を用いて本開示の特徴を実行するためのプログラム命令を組み入れることができる。別の例では、モバイルデバイス20アプリケーション40は、本開示の方法の特徴をプログラム命令に組み入れるソフトウェアアプリケーションのフロントエンドのために実行可能なプログラム命令を有することがあり、他方で、制御システム70のコンピュータ72上に記憶されたソフトウェアアプリケーションの1または複数のバックエンドプログラム74は、モバイルデバイスコンピュータと通信して、方法の他の特徴を実行する。制御システム70およびモバイルデバイス20は、通信ネットワーク45、例えばインターネットを使用して通信し得る。
それにより、本開示の一実施形態による方法100は、電子記憶媒体34上に記憶されており、モバイルデバイス20上のコンピュータの一部としてプロセッサ15によって実行可能な1または複数のコンピュータプログラムまたはアプリケーション40に組み入れられることがあり得る。例えば、人間の話者またはユーザ14はデバイス20を有し、デバイスは制御システム70と通信し得る。他のユーザ(図示せず)が同様のデバイスを有し、同様に制御システムと通信し得る。アプリケーションは、全体または一部が、コンピュータまたはモバイルデバイスにおけるコンピュータ上に、そして、例えばインターネットなどの通信ネットワーク45を用いてデバイスと通信する制御システムにおいて、記憶され得る。本開示の方法を実装するために、アプリケーションがプログラム命令の全部または一部にアクセスできるということが想定されている。プログラムまたはアプリケーションは、通信ネットワーク45(例えば、インターネット)を介してリモートコンピュータシステムと通信し、データにアクセスして、そのリモートコンピュータシステム上に記憶されているプログラムと協働することができる。そのような相互作用および機構は、本明細書においてさらに詳細に説明されており、コンピュータ可読記憶媒体などのコンピュータシステムのコンポーネントに関して参照され、これらは、図13における一実施形態に示されており、これに関しては、1または複数のコンピュータシステム1010を参照してより詳細に説明される。
一例において、制御システム70はデバイス20と通信し、デバイス20はアプリケーション40を含み得る。デバイス20は通信ネットワーク45を使用して制御システム70と通信する。
別の例では、制御システム70は、デバイス20など、1または複数のユーザに属するフロントエンドコンピュータと、制御システムとして具現化されたバックエンドコンピュータとを有し得る。
また、図1を参照すると、デバイス20は、コンピュータ22、コンピュータ可読記憶媒体34、オペレーティングシステム、もしくはプログラムまたはその組み合わせ、もしくはソフトウェアアプリケーション40またはその組み合わせを含み得、ソフトウェアアプリケーション40は、プロセッサ15を用いて実行可能なプログラム命令を含み得る。これらの特徴は、本明細書の図1において示されており、1または複数の一般的なコンピュータコンポーネントを含み得る1または複数のコンピュータシステム1010を参照して、図13に示されたコンピュータシステムの一実施形態にも示されている。
本開示による方法は、制御システムの一部として本開示による方法の特徴を実装するためのコンピュータを含み得る。別の例では、制御システムの一部としてのコンピュータが、本開示による方法の特徴を実装するためにモバイルデバイスコンピュータと共に機能することができる。別の例では、この方法の特徴を実装するためのコンピュータは、モバイルデバイスの一部であり得ることにより、この方法をローカルに実装することができる。
図11および図12に示される特徴は、本開示の特徴の機能表現であることを理解されたい。それらの特徴は、本開示の特徴の機能性を明確にするために、例示的な目的で、本開示のシステムおよび方法の実施形態において示されている。
具体的には、制御システム70に関して、1または複数のユーザ14のデバイス20は、通信ネットワーク50を介して制御システム70と通信し得る。図1に示された制御システムの実施形態では、制御システム70は、データベース76とコンピュータ可読記憶媒体73に記憶された1または複数のプログラム74とを有するコンピュータ72を含む。図1に示された本開示の実施形態では、デバイス20は、制御システム70、およびコンピュータ可読記憶媒体73上に記憶された1または複数のプログラム74と通信する。制御システムは、プロセッサ75を有するコンピュータ72を含んでおり、プロセッサ75は、またデータベース76へのアクセスも有する。
制御システム70は、オーディオ入力の解析のために、ユーザの登録82と、ユーザのデバイスとを維持するための記憶媒体80を含み得る。そのような登録は、ユーザプロファイル83を含み得、このユーザプロファイル83は、アカウントの登録および設定に関してユーザによって供給されたユーザデータを含み得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション40であり得る方法およびシステムのフロントエンドとの組合せおよび協働での制御システム(一般的に、バックエンドと称される)を含む。一例では、アプリケーション40は、デバイス、例えばデバイス20上に記憶されており、アプリケーションのバックエンド、例えば制御システム70にあるデータおよび追加的プログラムにアクセスすることができる。
制御システムは、また、ソフトウェアアプリケーションの実装の一部であり得るか、もしくは機能を提供するフロントエンドユーザ部分とバックエンド部分とを有するソフトウェアアプリケーションを表し得るか、またはその両方であり得る。一実施形態では、本開示を組み入れた方法およびシステムは、アプリケーション40を有するデバイス20の図1に示されている例におけるように、デバイスにおいて本願の方法およびシステムの別の一部を組み入れたソフトウェアアプリケーションのフロントエンドとの組合せおよび協働で、(本願の一実施形態の方法およびシステムの一部を組み入れたソフトウェアアプリケーションのバックエンドとして一般的に称され得る)制御システムを含む。アプリケーション40は、デバイス20上に記憶されており、このアプリケーションのバックエンドにある、例えば制御システム70に記憶されているプログラム74におけるデータおよび追加的プログラムにアクセスすることができる。
プログラム74は、全部または一部が、本開示の方法を実装するための一連の実行可能なステップを含み得る。本開示による方法を組み入れたプログラムは、全部もしくは一部が、制御システム上のコンピュータ可読記憶媒体に、または、全部もしくは一部が、デバイス20上に記憶され得る。制御システム70は、ユーザのプロファイルを記憶できるだけでなく、一実施形態では、デバイスのディスプレイ上で見るためのウェブサイト、または別の例ではインターネットとインタラクトし、本開示の方法およびシステムに関係するユーザ入力を受け取ることができることが想定されている。図1は1または複数のプロファイル83を示しているが、この方法は複数のプロファイル、ユーザ、登録などを含み得ることが理解される。複数のユーザまたはユーザのグループが、本開示の方法およびシステムに従った使用のために、制御システムを用いて、プロファイルを登録し提供できることが想定されている。
組とは別個の対象物または要素の集まりであると理解される。組を構成する対象物または要素は、何であってもよく、例えば、数、アルファベットの文字、他の組などである。組は、1つの要素、例えば1つのものまたは数、換言すれば、1つの要素の組であり得ることがさらに理解される。
図13を参照すると、本開示によるシステムまたはコンピュータ環境1000の一実施形態は、一般的なコンピューティングデバイスという形態で示されたコンピュータシステム1010を含む。方法100は、例えば、コンピュータ可読ストレージデバイスまたはコンピュータ可読記憶媒体上に具現化されたプログラム命令を含むプログラム1060において具現化され得、このコンピュータ可読記憶媒体は、例えば、一般的にコンピュータメモリ1030と称され、より具体的にはコンピュータ可読記憶媒体1050と称される。そのようなメモリもしくはコンピュータ可読記憶媒体またはその両方は、非一時的なコンピュータ可読記憶媒体または非一過性のコンピュータ可読記憶媒体とも知られ、称される、不揮発性メモリまたは不揮発性ストレージを含む。例えば、そのような不揮発性メモリは、また、1または複数のハードドライブを含むディスクストレージデバイスでもあり得る。例えば、メモリ1030は、RAM(Random Access Memory)またはROM(Read Only Memory)などの記憶媒体1034と、キャッシュメモリ1038とを含むことができる。プログラム1060は、(プログラムステップ、コード、またはプログラムコードを実行するために)コンピュータシステム1010のプロセッサ1020で実行可能である。追加的なデータストレージは、データ1114を含むデータベース1110としても具現化され得る。コンピュータシステム1010およびプログラム1060は、ユーザにとってローカルであっても、リモートサービスとして(例えば、クラウドベースのサービスとして)提供されてもよい、コンピュータおよびプログラムの一般的な表現であり、通信ネットワーク1200を使用して(例えば、ネットワーク、インターネット、またはクラウドサービスと相互作用して)アクセス可能なウェブサイトを使用して、更なる例で提供されてよい。本明細書において、コンピュータシステム1010はまた、ラップトップコンピュータまたはデスクトップコンピュータなどといった、コンピュータデバイスもしくはデバイスに含まれるコンピュータ、または、1または複数のサーバを、単独でまたはデータセンタの一部として一般的に表すことが解る。コンピュータシステムは、ネットワークアダプタ/インタフェース1026および入出力(I/O)インタフェース1022を含むことができる。I/Oインタフェース1022は、コンピュータシステムに接続され得る外部デバイス1074とのデータの入出力を可能にする。ネットワークアダプタ/インタフェース1026は、コンピュータシステムと通信ネットワーク1200として一般的に示されているネットワークとの間での通信を提供することができる。
コンピュータ1010は、コンピュータシステムにより実行されている、プログラムモジュールなどのコンピュータシステム実行可能命令の一般的なコンテキストで説明されてよい。一般には、プログラムモジュールは、特定のタスクを実行する、または、特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、および、データ構造などを含み得る。方法のステップと、システムコンポーネントおよび技法とは、方法のステップおよびシステムの各々のタスクを実行するためのプログラム1060のモジュールに具現化されてよい。モジュールは一般的に、プログラムモジュール1064として図に表される。プログラム1060およびプログラムモジュール1064は、プログラムの特定のステップ、ルーチン、サブルーチン、命令、またはコードを実行することができる。
本開示の方法は、モバイルデバイスなどのデバイス上でローカルに実行されることができるか、または、例えばリモートにあり得、通信ネットワーク1200を用いてアクセスされることが可能なサーバ1100上でのサービスとして実行されることができる。プログラムまたは実行可能命令は、プロバイダによりサービスとして提供されてもよい。コンピュータ1010は、通信ネットワーク1200を介してリンクされるリモート処理デバイスによりタスクが実行される分散クラウドコンピューティング環境で実施されてよい。分散クラウドコンピューティング環境では、メモリ記憶デバイスを含むローカルコンピュータシステム記憶媒体およびリモートコンピュータシステム記憶媒体の両方にプログラムモジュールが配置されてよい。
より具体的には、システムまたはコンピュータ環境1000は、例示的な周辺デバイスを伴う汎用コンピューティングデバイスの形態で示されたコンピュータシステム1010を含む。コンピュータシステム1010のコンポーネントは、1もしくは複数のプロセッサまたは処理ユニット1020と、システムメモリ1030と、システムメモリ1030を含む様々なシステムコンポーネントをプロセッサ1020に結合するバス1014とを含み得るが、これらに限定されない。
バス1014は、メモリバスまたはメモリコントローラと、ペリフェラルバスと、アクセラレーテッドグラフィックスポートと、様々なバスアーキテクチャのいずれかを用いるプロセッサまたはローカルバスとを含む、複数のタイプのバス構造のいずれかのうちの1または複数を表す。例として、そのようなアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バスと、マイクロチャネルアーキテクチャ(MCA)バスと、エンハンスドISA(EISA)バスと、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバスと、ペリフェラルコンポーネントインターコネクト(PCI)バスとを含むが、これらに限定されない。
コンピュータ1010は、様々なコンピュータ可読媒体を含むことができる。そのような媒体は、コンピュータ1010(例えば、コンピュータシステムまたはサーバ)によりアクセス可能な任意の利用可能な媒体であってよく、揮発性媒体および不揮発性媒体の両方、並びに、取り外し可能な媒体および取り外し不可能な媒体を含むことができる。コンピュータメモリ1030は、ランダムアクセスメモリ(RAM)1034もしくはキャッシュメモリ1038またはその両方などの、揮発性メモリの形の更なるコンピュータ可読媒体を含むことができる。コンピュータ1010は、他の取り外し可能/取り外し不可能な揮発性/不揮発性のコンピュータ記憶媒体、一例では、ポータブルコンピュータ可読記憶媒体1072をさらに含んでよい。一実施形態では、コンピュータ可読記憶媒体1050は、取り外し不可能な不揮発性の磁気媒体に対する読み取りおよび書き込みを行うために提供され得る。コンピュータ可読記憶媒体1050は、例えば、ハードドライブとして具現化され得る。例えば、データ1114を記憶し、かつ、処理ユニット1020と通信するための、記憶システム1110(例えば、データベース)として、更なるメモリおよびデータ記憶装置が提供され得る。データベースは、サーバ1100上に記憶されてもよいし、サーバ1100の一部であってもよい。図示されていないが、取り外し可能不揮発性磁気ディスク(例えば、「フロッピディスク」)からの読み出し、及びこれへの書き込みを行うための磁気ディスクドライブと、CD-ROM、DVD-ROMまたは他の光媒体等の取り外し可能不揮発性光ディスクからの読み出し、及びこれへの書き込みを行うための光ディスクドライブとを提供することができる。そのような場合は、各々が1または複数のデータ媒体インタフェースによりバス1014へ接続され得る。以下でさらに描写および説明するように、メモリ1030は、本発明の実施形態の機能を実行するように構成される1または複数のプログラムモジュールを含み得る少なくとも1つのプログラム製品を含んでよい。
本開示で説明する方法は、例えば、プログラム1060と一般的に呼ばれる1または複数のコンピュータプログラムに具現化されてよく、コンピュータ可読記憶媒体1050内のメモリ1030に記憶され得る。プログラム1060は、プログラムモジュール1064を含むことができる。プログラムモジュール1064は概して、本明細書で説明するような本発明の実施形態の機能もしくは方法論またはその両方を実行することができる。1または複数のプログラム1060は、メモリ1030に記憶され、処理ユニット1020で実行可能である。例として、メモリ1030は、コンピュータ可読記憶媒体1050上にオペレーティングシステム1052、1または複数のアプリケーションプログラム1054、他のプログラムモジュール、およびプログラムデータを記憶してよい。プログラム1060と、コンピュータ可読記憶媒体1050上に記憶されるオペレーティングシステム1052およびアプリケーションプログラム1054とは、処理ユニット1020で同様に実行可能であることが解る。また、アプリケーション1054およびプログラム1060が、一般的に示されるものであり、本開示で説明する1または複数のアプリケーションおよびプログラムの全てを含んでもよいし、その一部であってもよいこと、または、その逆であってもよいこと、すなわち、アプリケーション1054およびプログラム1060が、本開示で説明する1または複数のアプリケーションまたはプログラムの全てであってもよいし、その一部であってもよいことが解る。本開示に説明された制御システムの機能を達成するために、コンピュータシステムと通信する制御システム70は、コンピュータシステム1010およびそのコンポーネントの全部もしくは一部を含み得るか、または制御システムは、リモートコンピュータシステムとしてのコンピュータシステム1010およびそのコンポーネントの全部もしくは一部と通信することができるか、あるいはその両方であるということも理解される。制御システムの機能は、例えば、本開示の機能を実行するために、ソフトウェア命令を記憶し、処理し、実行することを含み得る。本開示で説明されているコンピュータ機能を達成するために、図1に示されている1もしくは複数のコンピュータまたはコンピュータシステムが同様にコンピュータシステム1010およびそのコンポーネントの全部または一部を含み得るか、または1もしくは複数のコンピュータがリモートコンピュータシステムとしてのコンピュータシステム1010およびそのコンポーネントの全部もしくは一部と通信することができるか、あるいはその両方であるということも理解される。
本開示による一実施形態では、1または複数のプログラムが、コンピュータ可読記憶媒体においてプログラムが具現化もしくはエンコードまたはその両方がなされるように、1または複数のコンピュータ可読記憶媒体に記憶され得る。一例では、記憶されているプログラムは、方法を実行するように、またはコンピュータシステムに1もしくは複数の機能を実行させるように、プロセッサ、またはプロセッサを有するコンピュータシステムによって実行されるためのプログラム命令を含み得る。例えば、本開示による一実施形態では、方法を具現化するプログラムが、コンピュータ可読記憶媒体において具現化またはエンコードされているが、このコンピュータ可読記憶媒体は、非一時的または非一過性のコンピュータ可読記憶媒体を含み、非一時的または非一過性のコンピュータ可読記憶媒体として定義される。よって、コンピュータ可読記憶媒体の本開示による実施形態または例は、信号を含まず、実施形態は、1もしくは複数の非一時的または非一過性のコンピュータ可読記憶媒体を含み得る。それにより、一例では、プログラムは、コンピュータ可読記憶媒体上に記録されることが可能であり、媒体と構造的かつ機能的に相互関係している。
コンピュータ1010は、キーボード、ポインティングデバイス、ディスプレイ1080などといった1または複数の外部デバイス1074、ユーザがコンピュータ1010と相互作用することを可能にする1または複数のデバイス、もしくは、コンピュータ1010が1または複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)、またはその組み合わせと通信してもよい。そのような通信は、入出力(I/O)インタフェース1022を介して行われ得る。なおもさらに、コンピュータ1010は、ネットワークアダプタ/インタフェース1026を介して、ローカルエリアネットワーク(LAN)、一般的なワイドエリアネットワーク(WAN)、もしくはパブリックネットワーク(例えば、インターネット)、またはその組み合わせなどの1または複数のネットワーク1200と通信することができる。示されているように、ネットワークアダプタ1026は、バス1014を介してコンピュータ1010の他のコンポーネントと通信する。示されてはいないが、他のハードウェアもしくはソフトウェアコンポーネントまたはその両方がコンピュータ1010と併せて使用され得ることを理解されたい。例には、マイクロコード、デバイスドライバ1024、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ、およびデータアーカイブ記憶システムなどが含まれるが、これらに限定されない。
コンピュータ、またはコンピュータ1010上で実行されているプログラムは、通信ネットワーク1200として具現化される1または複数の通信ネットワークを介して、サーバ1100として具現化されるサーバと通信してよいことが解る。通信ネットワーク1200は、例えば、無線、有線、または光ファイバを含む、伝送媒体およびネットワークリンク、並びに、ルータ、ファイアウォール、スイッチ、およびゲートウェイコンピュータを含んでよい。通信ネットワークは、有線、無線通信リンク、または光ファイバケーブルなどの接続を含んでよい。通信ネットワークは、ライトウェイトディレクトリアクセスプロトコル(LDAP)、トランスポートコントロールプロトコル/インターネットプロトコル(TCP/IP)、ハイパーテキストトランスポートプロトコル(HTTP)、ワイヤレスアプリケーションプロトコル(WAP)などといった様々なプロトコルを使用して互いに通信する、インターネットなどのネットワークおよびゲートウェイの世界的な集合を表す場合がある。ネットワークは、例えば、イントラネット、ローカルエリアネットワーク(LAN)、またはワイドエリアネットワーク(WAN)などのいくつかの異なるタイプのネットワークを含んでもよい。
一例では、コンピュータは、インターネットを使用してウェブ(ワールドワイドウェブ)上のウェブサイトにアクセスし得るネットワークを使用することができる。一実施形態では、モバイルデバイスを含むコンピュータ1010は、インターネットを含み得る通信システムもしくはネットワーク1200、または、公衆交換電話網(PSTN)、例えば、セルラネットワークを使用することができる。PSTNは、電話回線、光ファイバケーブル、マイクロ波伝送リンク、セルラネットワーク、および通信衛星を含み得る。インターネットは、例えば携帯電話またはラップトップコンピュータを使用して、テキストメッセージ(SMS)、(SMSに関連する)マルチメディアメッセージングサービス(MMS)、電子メール、またはウェブブラウザを介して検索エンジンにクエリを送信するなど、多数の検索技法およびテキスティング技法を容易にする場合がある。検索エンジンは、検索結果、すなわち、クエリに対応するウェブサイト、ドキュメント、または他のダウンロード可能なデータへのリンクを取得し、同様に、例えば、検索結果のウェブページとして、デバイスを介してユーザに検索結果を提供することができる。
図14を参照すると、本開示の実施形態と共に用いるための例示的なシステム1500が、図示されている。システム1500は、システムバス1504(バスとも称される)を介して接続された複数のコンポーネントおよび要素を含む。少なくとも1つのプロセッサ(CPU)1510が、システムバス1504を介して、他のコンポーネントに接続されている。キャッシュ1570、リードオンリメモリ(ROM)1512、ランダムアクセスメモリ(RAM)1514、入出力(I/O)アダプタ1520、音声アダプタ1530、ネットワークアダプタ1540、ユーザインタフェースアダプタ1552、ディスプレイアダプタ1560および表示デバイス1562が、また、システム1500のシステムバス1504に動作的に結合されている。
1または複数のストレージデバイス1522が、I/Oアダプタ1520によって、システムバス1504に動作的に結合されている。ストレージデバイス1522は、例えば、ディスクストレージデバイス(例えば、磁気または光ディスクストレージデバイス)、ソリッドステート 磁気デバイスなどのうちのいずれかであり得る。ストレージデバイス1522は、同じタイプのストレージデバイスまたは異なるタイプのストレージデバイスであり得る。ストレージデバイスは、例えば、ハードドライブまたはフラッシュメモリを含み得るが、これらに限定されず、1または複数のプログラム1524またはアプリケーション1526を記憶するのに用いられ得る。プログラムおよびアプリケーションは、一般的なコンポーネントとして示されており、プロセッサ1510を用いて実行可能である。プログラム1524もしくはアプリケーション1526またはその両方は、本開示で論じられるプログラムまたはアプリケーションの全部または一部を含み得るが、同様に、その逆の場合、すなわち、プログラム1524およびアプリケーション1526が、本開示で論じられる他のアプリケーションまたはプログラムの一部である場合もあり得る。ストレージデバイスは、本開示において説明される様々な機能を有する制御システム70と通信することができる。
スピーカ1532は、音声アダプタ1530によって、システムバス1504に動作的に結合されている。トランシーバ1542は、ネットワークアダプタ1540によって、システムバス1504に動作的に結合されている。ディスプレイ1562は、ディスプレイアダプタ1560によって、システムバス1504に動作的に結合されている。
1または複数のユーザ入力デバイス1550は、ユーザインタフェースアダプタ1552によって、システムバス1504に動作的に結合されている。ユーザ入力デバイス1550は、例えば、キーボード、マウス、キーパッド、画像キャプチャデバイス、運動感知デバイス、マイクロフォン、前述のデバイスのうちの少なくとも2つの機能を組み入れているデバイスなどのうちのいずれかであり得る。本発明の趣旨を維持しながら、他のタイプの入力デバイスを用いることもできる。ユーザ入力デバイス1550は、同じタイプのユーザ入力デバイス、または異なるタイプのユーザ入力デバイスであり得る。ユーザ入力デバイス1550は、システム1500との間で、情報を入力および出力するのに用いられる。
本発明は、任意の可能な技術詳細レベルで統合化されたシステム、方法、もしくはコンピュータプログラム製品、またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数のコンピュータ可読記憶媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上述のものの任意の好適な組合せであり得るが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、以下、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、命令が記録されているパンチカードまたは溝の中の隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。本明細書において使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波路または他の伝送媒体を通って伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号等、それ自体が一時的な信号であると解釈されるべきではない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされてもよく、あるいは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくは無線ネットワーク、またはその組み合わせを介して、外部コンピュータまたは外部ストレージデバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ、またはその組み合わせを備え得る。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データであってもよく、Smalltalk(登録商標)またはC++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語または同様のプログラミング言語のような手続き型プログラミング言語を含む1または複数のプログラミング言語の任意の組み合わせで記述したソースコードまたはオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で全体を実行すること、ユーザのコンピュータ上で一部分を実行することができ、ユーザのコンピュータ上で一部分を、リモートコンピュータ上で一部分を実行すること、または、リモートコンピュータもしくはサーバ上で全体を実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、またはその接続は、外部コンピュータに対して(例えば、インターネットサービスプロバイダを使用してインターネットを介して)行われてもよい。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。
本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して、説明されている。フローチャート図もしくはブロック図またはその組み合わせの各々のブロックと、フローチャート図もしくはブロック図またはその組み合わせにおけるブロックの組合せとが、コンピュータ可読プログラム命令によって実装できることが理解されよう。
これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図、またはその両方の1または複数のブロックで指定された機能/動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブルデータ処理装置、もしくは、他のデバイス、またはその組み合わせに特定の様式で機能するように指示することが可能なコンピュータ可読記憶媒体にも記憶することができ、これにより、命令を記憶したコンピュータ可読記憶媒体が、フローチャートもしくはブロック図の、またはその両方の1または複数のブロックで指定される機能/動作の態様を実装する命令を含む製品を含むようになる。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または、他のデバイスにロードして、コンピュータ、他のプログラマブル装置、または、他のデバイス上で一連の動作段階を実行させることでコンピュータ実装プロセスを作ることもでき、これにより、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行される命令が、フローチャートもしくはブロック図の、またはその両方の1または複数のブロックで指定される機能/動作を実装するようになる。
本開示の図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を図解している。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装する1または複数の実行可能命令を含む命令のモジュール、セグメント、または一部を表し得る。いくつかの代替的な実装形態において、ブロックに記されている機能は、図面に記されている順序とは異なる順序で行われ得る。例えば、連続して示されている2つのブロックが、実際には、1つの段階として実現されてもよく、同時に、実質的に同時に、部分的にもしくは全体的に時間重複する方式で実行されてもよく、または、ブロックは、場合によっては、関与する機能に依存して逆の順序で実行されてもよい。ブロック図もしくはフローチャート、またはその両方の各ブロック、および、ブロック図もしくはフローチャート、またはその両方のブロックの組合せを、指定された機能もしくは動作を行う、または、特殊目的のハードウェア命令およびコンピュータ命令の組合せを実行する特殊目的のハードウェアベースのシステムにより実装することが可能であることも留意されるであろう。
本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載されている教示の実装は、クラウドコンピューティング環境に限定されないことが理解されるべきである。むしろ、本発明の実施形態は、現在知られている、または、今後開発される他の任意のタイプのコンピューティング環境と併せて実装することが可能である。
クラウドコンピューティングは、管理の労力またはサービスのプロバイダとの対話を最小限に抑えながら迅速にプロビジョニングおよびリリースできる構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールに対する便利なオンデマンドネットワークアクセスを可能にするための、サービス提供モデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、及び少なくとも4つの展開モデルを含み得る。
以下が特性である。
オンデマンドセルフサービス:クラウドコンシューマは、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:この能力は、ネットワークを介して利用可能であり、異種のシンまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促す標準メカニズムを介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者に役立つようプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は概して提供されたリソースの正確なロケーションに対して制御または知識を有していないが、より高いレベルの抽象化(例えば、国、州、またはデータセンタ)においてロケーションを指定することが可能である場合があるという点で、ロケーションの独立性がある。
迅速な弾力性:この能力は、迅速かつ弾力的に、場合によっては自動的にプロビジョニングして、早急にスケールアウトし、かつ迅速にリリースして早急にスケールインすることができる。消費者にとって、多くの場合、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入することができる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント)に適切な或るレベルの抽象化における計測能力を活用することによって、自動的にリソース使用を制御及び最適化する。リソース使用量をモニタリング、制御及び報告することができ、それにより、利用されるサービスのプロバイダ及び消費者の両方に透明性が提供される。
以下がサービスモデルである。
サービスとしてのソフトウェア(SaaS:Software as a Service):消費者に提供される能力は、クラウドインフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)等のシンクライアントインタフェースを通して様々なクライアントデバイスからアクセス可能である。消費者は、考えられる例外としての限定されたユーザ固有のアプリケーション構成設定を除き、ネットワーク、サーバ、オペレーティングシステム、ストレージまたはさらには個々のアプリケーション能力を含む、基礎をなすクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS:Platform as a Service):消費者に提供される能力は、クラウドインフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成される、消費者が作成または取得したアプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む、基礎をなすクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーション、及び場合によってはアプリケーションホスティング環境構成を制御する。
サービスとしてのインフラストラクチャ(IaaS:Infrastructure as a Service):消費者に提供される能力は、処理、ストレージ、ネットワーク及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、ここで消費者は、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することが可能である。消費者は、基礎をなすクラウドインフラストラクチャを管理または制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御するとともに、場合によっては選択されたネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
展開モデルは以下の通りである。
プライベートクラウド:このクラウドインフラストラクチャは、或る組織のためにのみ動作する。プライベートクラウドは、その組織またはサードパーティによって管理されてよく、オンプレミスまたはオフプレミスで存在してよい。
コミュニティクラウド:このクラウドインフラストラクチャは、いくつかの組織によって共有され、共有される関心事項(例えば、ミッション、セキュリティ要件、ポリシ及びコンプライアンス考慮事項)を有する特定のコミュニティをサポートする。これは、組織またはサードパーティにより管理することができ、オンプレミスまたはオフプレミスに存在することができる。
パブリッククラウド:このクラウドインフラストラクチャは、一般大衆または大規模な業界団体に利用可能とされ、クラウドサービスを販売する組織によって所有される。ハイブリッドクラウド:クラウドインフラストラクチャは、一意的なエンティティを保つが、データおよびアプリケーションポータビリティ(例えば、クラウド間のロードバランシングのためのクラウドバースティング)を可能とする、標準化されたかまたは自己所有の技術によって共に結び付けられている、2またはそれ以上のクラウド(プライベート、コミュニティ、または公衆)の複合である。
クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、およびセマンティック相互運用性を重視したサービス指向型である。クラウドコンピューティングの中核には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
ここで図15を参照すると、例示的なクラウドコンピューティング環境2050が示される。示すように、クラウドコンピューティング環境2050は、例えば、パーソナルデジタルアシスタント(PDA)または携帯電話2054A、デスクトップコンピュータ2054B、ラップトップコンピュータ2054C、もしくは自動車コンピュータシステム2054N、またはその組み合わせ等の、クラウドコンシューマによって使用されるローカルコンピューティングデバイスと通信し得る、1または複数のクラウドコンピューティングノード2010を備える。ノード2010は、相互に通信し得る。ノード2010は、本明細書の上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、もしくはハイブリッドクラウド、またはその組み合わせ等の、1または複数のネットワーク内で物理的にまたは仮想的にグループ化されてよい(図示せず)。これにより、クラウドコンピューティング環境2050が、インフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはそれらの組合せを、クラウドコンシューマがローカルコンピューティングデバイスにおいてリソースを保持する必要のないサービスとして提供することが可能になる。図15に示されるコンピューティングデバイス2054A-Nのタイプは、例示のみを意図し、コンピューティングノード2010およびクラウドコンピューティング環境2050は、任意のタイプのネットワークもしくはネットワークアドレス指定可能な接続(例えば、ウェブブラウザを使用して)またはその組み合わせを通して、任意のタイプのコンピュータ化デバイスと通信可能であることを理解されたい。
ここで図16を参照すると、クラウドコンピューティング環境2050(図15)により提供される機能抽象化層のセットが示される。図16に示されているコンポーネント、層、および機能が例示のみを意図したものであり、本発明の実施形態がそれらに限定されないことを事前に理解されたい。図示されているように、以下の層および対応する機能が設けられている。
ハードウェアおよびソフトウェア層2060は、ハードウェアコンポーネントと、ソフトウェアコンポーネントとを含む。ハードウェアコンポーネントの例は、メインフレーム2061、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ2062、サーバ2063、ブレードサーバ2064、ストレージデバイス2065、ならびにネットワークおよびネットワーキングコンポーネント2066を含む。いくつかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア2067と、データベースソフトウェア2068とを含む。
仮想化層2070は、抽象化層を提供する。抽象化層から、以下の仮想エンティティの例が提供され得る:仮想サーバ2071、仮想ストレージ2072、仮想プライベートネットワークを含む仮想ネットワーク2073、仮想アプリケーションおよびオペレーティングシステム2074、ならびに、仮想クライアント2075。
一例では、管理層2080が下記の機能を提供してよい。リソースプロビジョニング2081は、クラウドコンピューティング環境内でタスクを実行するのに利用される、コンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定2082では、クラウドコンピューティング環境内でリソースが利用されると費用の追跡を行い、これらのリソースの消費に対して請求書作成または請求書送付を行う。1つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウドコンシューマ及びタスクに対する識別情報検証、並びに、データ及び他のリソースに対する保護を提供する。ユーザポータル2083では、コンシューマおよびシステムアドミニストレータにクラウドコンピューティング環境へのアクセスが与えられる。サービスレベル管理2084では、必要なサービスレベルが満たされるように、クラウドコンピューティングリソース割り当ておよび管理を行う。サービスレベルアグリーメント(SLA)計画および履行2085は、SLAに従って将来の要件が予測されるクラウドコンピューティングリソースの事前準備および調達を提供する。
ワークロード層2090は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション2091;ソフトウェア開発およびライフサイクル管理2092;仮想クラスルーム教育配信2093;データ分析処理2094;トランザクション処理2095;および音声認識2096、例えば、より具体的には、分離されたオーディオ入力からのオーディオ入力についての音声認識の音声内容のダイレーションを使用することを含む。
本発明の様々な実施形態の説明は、例示目的で提示されてきたが、包括的になること、または開示された実施形態に限定されることが意図されるものではない。同様に、本明細書で説明する本開示の実施形態の特徴または機能の例は、特定の実施形態の説明に使用されるか、例として列挙されるかに関わらず、本明細書で説明する本開示の実施形態を限定することを意図するものでも、本明細書で説明する例に本開示を限定することを意図するものでもない。そのような例は、例であるまたは例示的であり、非網羅的であることが意図されている。多くの修正および変更が、説明されている実施形態の範囲から逸脱することなく、当業者には明らかだろう。本明細書において使用される用語は、実施形態の原理、実際的な用途、または、市場において見られる技術に対する技術的改善をもっとも良く説明するために、または、当技術分野における他の当業者が、本明細書において開示される実施形態を理解することを可能にするために選択された。

Claims (25)

  1. 分離された(シンギュラー)オーディオ入力からの音声内容のダイレーションを使用する音声認識のためのコンピュータ実装方法であって、
    CNN(畳み込みニューラルネットワーク)において、オーディオ入力を受信し、外部ノイズに基づいてオーディオ入力についての予測される変更を受信する段階であって、前記オーディオ入力は話者からの音声内容を有する、段階と、
    前記CNNにおいて、ダイアライゼーションを前記オーディオ入力に適用して、前記話者からの音声内容のダイレーションが前記オーディオ入力をどのように変更するかを予測してCNN出力を生成する段階と、
    前記CNN出力から結果のダイレーションを決定する段階であって、前記CNN出力の前記結果のダイレーションは、前記オーディオ入力の音を分離することを含む、段階と、
    ダイレーションされた前記CNN出力についての単語誤り率を決定して、音声-テキスト出力の精度を決定する段階と、
    調整パラメータを設定して、前記単語誤り率に基づいて、前記ダイレーションの範囲を変更する段階と、
    前記調整パラメータに基づいて前記CNN出力の前記結果のダイレーションを調整して前記単語誤り率を低減する段階と
    を備える方法。
  2. 前記話者についての調整された前記結果のダイレーションに適用される学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別する段階をさらに備える、請求項1に記載の方法。
  3. 識別された前記音声内容からテキストを生成する段階をさらに備える、請求項2に記載の方法。
  4. 前記オーディオ入力および前記予測される変更は、前記音声内容のダイレーションなしで受信される、請求項1に記載の方法。
  5. グリッド検索を使用して、前記単語誤り率に基づいて前記オーディオ入力の前記結果のダイレーションを調整し、前記単語誤り率を低減する段階をさらに備える、請求項1に記載の方法。
  6. 話者についての予想オーディオ入力をコンピュータで受信する段階であって、前記予想オーディオ入力は前記話者についての音声内容を含む、段階と、
    前記予想オーディオ入力についての環境刺激オーディオ入力を生成する段階と、
    環境刺激オーディオ入力に基づいて、前記話者についての前記オーディオ入力の変更を予測する段階と
    をさらに備える、請求項1に記載の方法。
  7. 前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有する段階と、
    前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成する段階と、
    前記学習修正を前記話者についての調整された前記結果のダイレーションに適用する段階と、
    前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別する段階と、
    識別された前記音声内容からテキストを生成する段階と
    をさらに備える、請求項6に記載の方法。
  8. 前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有する段階と、
    前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成する段階と、
    前記話者についての調整された前記結果のダイレーションに前記学習修正を適用する段階と
    をさらに備える、請求項6に記載の方法。
  9. 前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別する段階をさらに備える、請求項8に記載の方法。
  10. 識別された前記音声内容からテキストを生成する段階をさらに備える、請求項9に記載の方法。
  11. 前記CNNにおいて、複数の話者の1人の音声内容についてのダイレーションパラメータを受信する段階であって、前記ダイレーションパラメータは、複数の話者からのオーディオ入力から導出されることをさらに含む、請求項1に記載の方法。
  12. 前記複数の話者からの前記オーディオ入力は、インターレースされたオーディオ入力である、請求項11に記載の方法。
  13. コンピュータシステムを備える、分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識のためのシステムであって、前記コンピュータシステムは、
    コンピュータプロセッサ、コンピュータ可読記憶媒体、および、前記コンピュータ可読記憶媒体に記憶され前記コンピュータプロセッサにより実行可能なプログラム命令を含み、前記プログラム命令は、前記コンピュータシステムに、以下の機能、すなわち、
    CNN(畳み込みニューラルネットワーク)において、オーディオ入力を受信し、外部ノイズに基づいて前記オーディオ入力についての予測される変更を受信する機能であって、前記オーディオ入力は、話者からの音声内容を有する、機能、
    前記CNNにおいて、ダイアライゼーションを前記オーディオ入力に適用して、前記話者からの音声内容のダイレーションがどのように前記オーディオ入力を変更するかを予測してCNN出力を生成する機能、
    前記CNN出力から結果のダイレーションを決定する機能でって、前記CNN出力の前記結果のダイレーションは、前記オーディオ入力の音を分離することを含む、機能、
    ダイレーションされた前記CNN出力についての単語誤り率を決定して、音声-テキスト出力の精度を決定する機能、
    調整パラメータを設定して、前記単語誤り率に基づいて前記ダイレーションの範囲を変更する機能、および、
    前記調整パラメータに基づいて前記CNN出力の前記結果のダイレーションを調整して前記単語誤り率を低減する機能
    を実行させる、システム。
  14. 前記話者についての調整された前記結果のダイレーションに適用される学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別することをさらに含む、請求項13に記載のシステム。
  15. 識別された前記音声内容からテキストを生成することをさらに含む、請求項14に記載のシステム。
  16. 前記オーディオ入力および前記予測される変更は、前記音声内容のダイレーションなしで受信される、請求項13に記載のシステム。
  17. グリッド検索を使用して前記単語誤り率に基づいて前記オーディオ入力の前記結果のダイレーションを調整して前記単語誤り率を低減することをさらに含む、請求項13に記載のシステム。
  18. 話者についての予想オーディオ入力をコンピュータにおいて受信することであって、前記予想オーディオ入力は前記話者についての音声内容を含む、こと、
    前記予想オーディオ入力についての環境刺激オーディオ入力を生成すること、および、
    環境刺激オーディオ入力に基づいて、前記話者についての前記オーディオ入力の変更を予測すること
    をさらに含む、請求項13に記載のシステム。
  19. 前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有すること、
    前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成すること、
    前記話者についての調整された前記結果のダイレーションに前記学習修正を適用すること、
    前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別すること、および、
    識別された前記音声内容からテキストを生成すること
    をさらに含む、請求項18に記載のシステム。
  20. 前記予想オーディオ入力の調整された前記結果のダイレーションをソーシャルネットワークと共有すること、
    前記予想オーディオ入力の調整された前記結果のダイレーションの前記共有から学習修正を生成すること、
    前記話者についての調整された前記結果のダイレーションに前記学習修正を適用すること
    をさらに含む、請求項18に記載のシステム。
  21. 前記話者についての調整された前記結果のダイレーションに適用される前記学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別することをさらに含む、請求項20に記載のシステム。
  22. 識別された前記音声内容からテキストを生成することをさらに含む、請求項21に記載のシステム。
  23. 分離されたオーディオ入力からの音声内容のダイレーションを使用する音声認識のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令は、コンピュータにより実行可能であり、前記コンピュータに、前記コンピュータによる機能を実行させ、前記機能は、
    CNN(畳み込みニューラルネットワーク)において、オーディオ入力を受信し、外部ノイズに基づいて、前記オーディオ入力についての予測される変更を受信する機能であって、前記オーディオ入力は、話者からの音声内容を有する、機能と、
    前記CNNにおいて、ダイアライゼーションを前記オーディオ入力に適用して、前記話者からの音声内容のダイレーションがどのように前記オーディオ入力を変更するかを予測してCNN出力を生成する機能と、
    前記CNN出力から結果のダイレーションを決定する機能であって、前記CNN出力の前記結果のダイレーションは、前記オーディオ入力の音を分離することを含む、機能と、
    ダイレーションされた前記CNN出力についての単語誤り率を決定して、音声-テキスト出力の精度を決定する機能と、
    調整パラメータを設定して、前記単語誤り率に基づいて、前記ダイレーションの範囲を変更する機能と、
    前記調整パラメータに基づいて、前記CNN出力の前記結果のダイレーションを調整して、前記単語誤り率を低減する機能と
    を含む、コンピュータプログラム製品。
  24. 前記話者についての調整された前記結果のダイレーションに適用される学習修正に基づいて、前記オーディオ入力から前記話者からの音声内容を識別することをさらに含む、請求項23に記載のコンピュータプログラム製品。
  25. 識別された前記音声内容からテキストを生成することをさらに含む、請求項24に記載のコンピュータプログラム製品。
JP2023515727A 2020-09-09 2021-08-24 分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識 Pending JP2023541879A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/016,360 US11538464B2 (en) 2020-09-09 2020-09-09 Speech recognition using data analysis and dilation of speech content from separated audio input
US17/016,360 2020-09-09
PCT/EP2021/073412 WO2022053310A1 (en) 2020-09-09 2021-08-24 Speech recognition using data analysis and dilation of speech content from separated audio input

Publications (1)

Publication Number Publication Date
JP2023541879A true JP2023541879A (ja) 2023-10-04

Family

ID=77627135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023515727A Pending JP2023541879A (ja) 2020-09-09 2021-08-24 分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識

Country Status (5)

Country Link
US (1) US11538464B2 (ja)
EP (1) EP4211678A1 (ja)
JP (1) JP2023541879A (ja)
CN (1) CN116075887A (ja)
WO (1) WO2022053310A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651767B2 (en) 2020-03-03 2023-05-16 International Business Machines Corporation Metric learning of speaker diarization
US11443748B2 (en) * 2020-03-03 2022-09-13 International Business Machines Corporation Metric learning of speaker diarization
US11495216B2 (en) 2020-09-09 2022-11-08 International Business Machines Corporation Speech recognition using data analysis and dilation of interlaced audio input
US11929169B2 (en) * 2022-02-09 2024-03-12 Kyndryl, Inc. Personalized sensory feedback

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
CA2436400A1 (en) 2002-07-30 2004-01-30 Abel G. Wolman Geometrization for pattern recognition, data analysis, data merging, and multiple criteria decision making
US10134400B2 (en) 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
JP6750121B2 (ja) 2016-09-06 2020-09-02 ディープマインド テクノロジーズ リミテッド 畳み込みニューラルネットワークを使用したシーケンスの処理
US20180082679A1 (en) 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
CN118297118A (zh) 2017-06-09 2024-07-05 渊慧科技有限公司 生成输入数据项的离散潜在表示
US10867610B2 (en) 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US10726858B2 (en) 2018-06-22 2020-07-28 Intel Corporation Neural network for speech denoising trained with deep feature losses
US20200051582A1 (en) 2018-08-08 2020-02-13 Comcast Cable Communications, Llc Generating and/or Displaying Synchronized Captions
US11031017B2 (en) 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
CN110459240B (zh) 2019-08-12 2021-01-12 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110751957B (zh) 2019-09-25 2020-10-27 电子科技大学 一种使用堆叠多尺度模块的语音增强方法
CN111191000B (zh) 2019-12-20 2023-08-18 北京淇瑀信息科技有限公司 一种智能语音机器人的对话管理方法、装置和系统
CN111326178A (zh) 2020-02-27 2020-06-23 长沙理工大学 基于卷积神经网络的多模态语音情感识别系统及方法
CN111508524B (zh) 2020-03-05 2023-02-21 合肥工业大学 语音来源设备的识别方法和系统
CN111508487B (zh) 2020-04-13 2023-07-18 深圳市友杰智新科技有限公司 基于膨胀机制的特征提取方法及语音命令识别方法
US11495216B2 (en) 2020-09-09 2022-11-08 International Business Machines Corporation Speech recognition using data analysis and dilation of interlaced audio input

Also Published As

Publication number Publication date
US11538464B2 (en) 2022-12-27
CN116075887A (zh) 2023-05-05
WO2022053310A1 (en) 2022-03-17
US20220076665A1 (en) 2022-03-10
EP4211678A1 (en) 2023-07-19

Similar Documents

Publication Publication Date Title
JP2023541879A (ja) 分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識
US11011161B2 (en) RNNLM-based generation of templates for class-based text generation
US10395658B2 (en) Pre-processing partial inputs for accelerating automatic dialog response
US11288293B2 (en) Methods and systems for ensuring quality of unstructured user input content
US10896664B1 (en) Providing adversarial protection of speech in audio signals
JP2023518220A (ja) 多様なテキストを自動的に生成する方法
CN114450747B (zh) 用于基于音频文件更新文档的方法、系统和计算机可读介质
CN111462727A (zh) 用于生成语音的方法、装置、电子设备和计算机可读介质
CN116648746A (zh) 特定于说话者的语音放大
JP2022173132A (ja) コンピュータ実装方法、コンピュータプログラム、およびコンピュータシステム(メタデータを組み込むトランスフォーマによるエンコーディング)
AU2021341757B2 (en) Speech recognition using data analysis and dilation of interlaced audio input
WO2023139015A1 (en) Data sorting for generating speech recognition models
US20230085012A1 (en) Ai based system and method for corners of trust for a caller
US20220189475A1 (en) Dynamic virtual assistant speech modulation
US11416686B2 (en) Natural language processing based on user context
US11397857B2 (en) Methods and systems for managing chatbots with respect to rare entities
US10949618B2 (en) Conversation content generation based on user professional level
JP2023552561A (ja) ナレッジディスティレーションフレームワークの為のミックスアップデータオーギュメンテーション
US20210234911A1 (en) Modifying multimedia based on user context
JP2023517071A (ja) キーワードスポッティングのためのマルチルック強化モデリングおよびアプリケーション
US11526544B2 (en) System for object identification
US20220375484A1 (en) Acoustic data augmentation with mixed normalization factors
US20230069628A1 (en) External language model fusing method for speech recognition
CN111292766A (zh) 用于生成语音样本的方法、装置、电子设备和介质
JP2023542615A (ja) 発話障害のあるユーザのための人工知能音声応答システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240123