JP7371159B2

JP7371159B2 - リマインドオーディオの生成方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7371159B2
Application number: JP2022059557A
Authority: JP
Inventors: ジンリュウ; ジェンリリュウ
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-06-11
Filing date: 2022-03-31
Publication date: 2023-10-30
Anticipated expiration: 2042-03-31
Also published as: EP4080382A3; US20220301583A1; EP4080382A2; CN113448533B; CN113448533A; JP2022088601A; KR20220035886A

Description

本開示は、人工知能技術の分野、具体的には深層学習、クラウドプラットホーム技術の分野に関し、特にリマインドオーディオの生成方法、装置、電子機器及び記憶媒体に関する。

現在、車載端末のユーザ体験を高めるために、スマート車両に対する研究がますます多くなり、音声作成リマインド機能は車載端末で最も広く応用されている技術の１つとなっている。

しかしながら、どのようにリマインドオーディオを正確に録音するかは業界で急速に解決しなければならない課題となっている。

本開示は、リマインドオーディオの生成方法、装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、リマインドオーディオの生成方法を提供し、オーディオデータを取得するステップと、前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするステップと、前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するステップと、を含む。

第２の態様によれば、リマインドオーディオの生成装置を提供し、オーディオデータを取得するための取得モジュールと、前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするための第１の検出モジュールと、前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するための第２の検出モジュールと、を含む。

第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本開示の第１の態様に記載のリマインドオーディオの生成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の第１の態様に記載のリマインドオーディオの生成方法を実行させる。

第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の第１の態様に記載のリマインドオーディオの生成方法を実現する。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例に係るリマインドオーディオの生成方法のフローチャートである。本開示の第２の実施例に係るリマインドオーディオの生成方法のフローチャートである。本開示の第３の実施例に係るリマインドオーディオの生成方法のフローチャートである。本開示の第４の実施例に係るリマインドオーディオの生成方法のフローチャートである。本開示の実施例に係るリマインドオーディオの生成方法のシナリオの概略図である。本開示の実施例に係るリマインドオーディオの生成方法の具体的な実施形態の概略図である。本開示の第１の実施例に係るリマインドオーディオの生成装置のブロック図である。本開示の第２の実施例に係るリマインドオーディオの生成装置のブロック図である。本開示の実施例に係るリマインドオーディオの生成方法を実現するための電子機器のブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確および簡潔にするために、以下の説明では、周知の機能および構造の説明を省略する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩと省略する）は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術および応用システムを研究、開発する新しい技術科学である。現在、ＡＩ技術は、自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。

深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、ＤＬと省略する）は、機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬと省略する）分野における新しい研究方向であり、サンプルデータの内的法則と表現レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大きいに役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。具体的な研究内容にとっては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワーク、多層ニューロンベースの自己コーディングニューラルネットワーク、及び多層自己コーディングニューラルネットワーク方式で予めトレーニングし、さらに認証情報と組み合わせてニューラルネットワークの重み値をさらに最適化する深層信頼ネットワークを含む。深層学習は検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推薦と個性化技術、及びその他の関連分野で多くの成果を収めた。深層学習は機械に視聴や思考などの人間の活動を模倣させ、多くの複雑なパターン認識の課題を解決し、人工知能の関連技術が大きく進歩させた。

クラウドプラットフォームとは、ハードウェアリソースとソフトウェアリソースに基づくサービスであり、コンピューティング、ネットワーク、ストレージ能力を提供する。クラウドプラットフォームは、データストレージを中心としたストレージ型クラウドプラットフォーム、データ処理を中心としたコンピューティング型クラウドプラットフォーム、およびコンピューティングとデータストレージ処理を両立させた総合クラウドコンピューティングプラットフォームという３種類に分類できる。

以下、図面を参照しながら、本開示の実施例に係るリマインドオーディオの生成方法、装置、電子機器および記憶媒体を説明する。

図１は本開示の第１の実施例に係るリマインドオーディオの生成方法のフローチャートである。

図１に示すように、本開示の実施例に係るリマインドオーディオの生成方法は、具体的には以下のステップＳ１０１～Ｓ１０３を含むことができる。

Ｓ１０１、オーディオデータを取得する。

具体的には、本開示の実施例に係るリマインドオーディオの生成方法の実行主体は、本開示の実施例によって提供されるリマインドオーディオの生成装置であってもよく、当該リマインドオーディオの生成装置は、データ情報処理能力を有するハードウェア装置および／または当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、および他のデバイスを含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。

本開示の実施例では、オーディオデータは、マイクロフォンまたは他の録音装置によってリアルタイムで収集されたオーディオデータであってもよく、例えば、ユーザが車載端末で音声指示により日常的なリマインドを設定する場合、マイクロフォンによって録音された、前記音声によって指示されたリマインドコンテンツを含むオーディオデータである。なお、上記のオーディオデータには、有効な人声およびノイズが含まれる可能性があり、ここで、有効な人声はユーザの音声データであり、ノイズは、非音声データである。

Ｓ１０２、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。

具体的には、ステップＳ１０１で取得されたオーディオデータを検出し、オーディオデータが音声データであると検出された場合、上記オーディオデータをキャッシュする。なお、本開示の実施例において、オーディオデータに対する検出とキャッシュは非同期で行うことができ、マイクロフォンによってユーザの音声データが録音された時、検出しながらキャッシュすることを実現する。

Ｓ１０３、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。

具体的には、ステップＳ１０１で取得されたオーディオデータを検出し、オーディオデータが非音声データであると検出された場合、上記オーディオデータのキャッシュを停止し、これによってオーディオデータにおける音声データの抽出を実現する。意味解析により、キャッシュされたオーディオデータのコンテンツを検出し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶することにより、リマインドオーディオの正確な録音を実現し、端末にユーザによって設定された時間に完全で正確なリマインドオーディオを再生させ、音声リマインドサービスを実現する。ここで、ディスクは、車載端末又は他のクライアントにおける記憶装置であってもよく、本開示では限定されない。キャッシュされたオーディオデータのコンテンツがリマインドコンテンツでない場合、キャッシュされたオーディオデータを破棄する。

以上のように、本開示の実施例に係るリマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータである場合、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。

図２は本開示の第２の実施例に係るリマインドオーディオの生成方法のフローチャートである。

図２に示すように、図１に示す実施例を基に、本開示の実施例に係るリマインドオーディオの生成方法は、具体的には以下のステップＳ２０１～Ｓ２０４を含むことができる。

Ｓ２０１、オーディオデータを取得する。

具体的には、本実施例におけるステップＳ２０１は上記実施例のステップＳ１０１と同じであり、ここでは説明を省略する。

Ｓ２０２、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出する。

具体的には、音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤと省略する）は、一般的に、オーディオ信号における音声出現（ｓｐｅｅｃｈｐｒｅｓｅｎｃｅ）と音声消失（ｓｐｅｅｃｈａｂｓｅｎｃｅ）を識別し、すなわち、所与のオーディオ信号から音声の開始点および終了点を見つけるために使用される。音声認識システムにおいて、区間検出を正確かつ効率的に行うことで、計算量の低減と処理時間の短縮が可能であるだけでなく、無音部分のノイズ干渉を排除し、音声認識の正解率を向上させることができる。

音声区間検出アルゴリズムを用いて、ステップＳ２０１で取得されたオーディオデータが音声データであるか否かを検出する。本開示の実施例では、ウェブリアルタイム通信の音声区間検出アルゴリズム（ＷｅｂＲｅａｌ－ＴｉｍｅＣｏｍｍｕｎｉｃａｔｉｏｎＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＷｅｂＲＴＣＶＡＤと省略する）を、オーディオデータを検出する区間検出アルゴリズムとして使用する。当該アルゴリズムはガウスモデルおよび人声の固定周波数帯域特性に基づいて、確率計算により人声とノイズを効率的に区別し、すなわちオーディオデータにおける音声データと非音声データを効率的に区別する。

Ｓ２０３、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。

Ｓ２０４、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。

具体的には、本実施例のステップＳ２０３～Ｓ２０４は上記実施例のステップＳ１０２～Ｓ１０３と同じであり、ここでは説明を省略する。

さらに、図３に示すように、図２に示す実施例を基に、上記ステップＳ２０３における「オーディオデータをキャッシュするステップ」は具体的に以下のステップＳ３０１～Ｓ３０３を含むことができる。

Ｓ３０１、オーディオデータを共通データキューに書き込む。

具体的には、ステップＳ２０３で検出された音声データであるオーディオデータを共通データキューに書き込む。

Ｓ３０２、共通データキューにおけるオーディオデータを読み取る。

具体的には、ステップＳ３０１で共通データキューに書き込まれたオーディオデータを読み取る。

Ｓ３０３、読み取られたオーディオデータをキャッシュする。

具体的には、ステップＳ３０２で読み取られたオーディオデータをキャッシュする。

さらに、図４に示すように、図２に示す実施例を基に、本開示の実施例に係るリマインドオーディオの生成方法は、以下のステップＳ４０１～Ｓ４０３をさらに含むことができる。

Ｓ４０１、キャッシュされたオーディオデータをクラウドに送信する。

具体的には、オーディオデータのキャッシュを停止する時、キャッシュされたオーディオデータをクラウドに送信する。

Ｓ４０２、クラウドから送信されたオーディオ保存命令を受信し、オーディオ保存命令は、クラウドによって意味解析によりオーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成される。

具体的には、クラウドはオーディオデータを受信し、受信されたオーディオデータに対して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された場合、オーディオ保存命令を生成してリマインドオーディオの生成装置に送信する。リマインドオーディオの生成装置がクラウドから送信されたオーディオ保存命令を受信する。ここで、意味解析は、自動音声認識（ＡｕｔｏｍａｔｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲと省略する）技術、自然言語理解（ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ、ＮＬＵと省略する）技術によって実現することができる。

Ｓ４０３、オーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定する。

具体的には、リマインドオーディオの生成装置は、受信されたオーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定し、ディスクに保存する。これによってリマインドコンテンツを含む正確なリマインドオーディオを生成し、リマインド時間にユーザにリマインドオーディオを再生し、音声リマインドサービスを実現する。

以上のように、本開示の実施例に係るリマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、意味解析により、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータであると検出された時、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。

本開示の実施例に係るリマインドオーディオの生成方法を明確に説明するために、以下、図５～図６と併せて詳細に説明する。

図５は本開示の実施例に係るリマインドオーディオの生成方法のシナリオの概略図である。図５に示すように、マイクロフォンがオーディオデータを取得し、ＶＡＤ検出モジュールによってオーディオデータにおける音声データを検出し、音声データであるオーディオデータを共通データキューに書き込んでからキャッシュし、ＶＡＤ検出モジュールが非音声データを検出するとキャッシュを停止し、キャッシュされたオーディオデータをクラウドに送信して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された場合、クラウドがオーディオ保存命令を生成して車載端末に送信し、車載端末がオーディオ保存命令を受信し、キャッシュされたオーディオデータをリマインドオーディオとして決定し、ディスクに保存する。なお、図５に示す概略図は、ユーザが１つの音声指示を開始する時、車載端末がリマインドオーディオを生成することを示し、ユーザが次の音声命令を継続すると、上記のプロセスを繰り返すことにより、完全な指示コンテンツを含むリマインドオーディオを生成することができる。

図６は本開示の実施例に係るリマインドオーディオの生成方法の具体的な実施形態の概略図である。図６に示すように、本開示の実施例に係るリマインドオーディオの生成方法は具体的に以下のステップＳ６０１～Ｓ６０８を含む。

Ｓ６０１、オーディオデータを取得する。

Ｓ６０２、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出する。

そうである場合、ステップＳ６０３を実行し、そうでない場合、ステップＳ６０５を実行する。

Ｓ６０３、オーディオデータを共通データキューに書き込む。

Ｓ６０４、共通データキューにおけるオーディオデータを読み取ってキャッシュする。

Ｓ６０５、共通データキューへのオーディオデータの書き込みを停止する。

Ｓ６０６、キャッシュされたオーディオデータをクラウドに送信する。

Ｓ６０７、クラウドがオーディオデータに対して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された時にオーディオ保存命令を生成して車載端末に送信する。

Ｓ６０８、オーディオ保存命令を受信し、対応するオーディオデータをリマインドオーディオとして決定してディスクに保存する。

図７は本開示の第１の実施例に係るリマインドオーディオの生成装置のブロック図である。

図７に示すように、本開示の実施例に係るリマインドオーディオの生成装置７００は、取得モジュール７０１、キャッシュモジュール７０２および記憶モジュール７０３を含む。

取得モジュール７０１は、オーディオデータを取得する。

キャッシュモジュール７０２は、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。

記憶モジュール７０３は、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。

なお、上記のリマインドオーディオの生成方法の実施例に対する説明は、本開示の実施例に係るリマインドオーディオの生成装置にも適用され、具体的なプロセスはここでは説明を省略する。

以上のように、本開示の実施例に係るリマインドオーディオの生成装置は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータである場合、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。

図８は本開示の第２の実施例に係るリマインドオーディオの生成装置のブロック図である。

図８に示すように、本開示の実施例に係るリマインドオーディオの生成装置８００は、取得モジュール８０１、キャッシュモジュール８０２および記憶モジュール８０３を含む。

取得モジュール８０１は、上記実施例の取得モジュール７０１と同じ構造及び機能を有し、キャッシュモジュール８０２は、上記実施例のキャッシュモジュール７０２と同じ構造及び機能を有し、記憶モジュール８０３は、上記実施例の記憶モジュール７０３と同じ構造及び機能を有する。

さらに、本開示の実施例に係るリマインドオーディオの生成装置８００は、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出するための検出モジュール８０４をさらに含むことができる。

さらに、音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである。

さらに、キャッシュモジュール８０２は、具体的には、オーディオデータを共通データキューに書き込むための書き込みユニットと、共通データキューにおけるオーディオデータを読み取るための読み取りユニットと、読み取られたオーディオデータをキャッシュするためのキャッシュユニットと、を含むことができる。

さらに、本開示の実施例に係るリマインドオーディオの生成装置８００は、キャッシュされたオーディオデータをクラウドに送信するための送信モジュールと、クラウドから送信されたオーディオ保存命令を受信するための受信モジュールであって、オーディオ保存命令は、クラウドによって意味解析によりオーディオデータのコンテンツがリマインドコンテンツであるときに生成される受信モジュールと、オーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定するための決定モジュールと、をさらに含むことができる。

以上のように、本開示の実施例に係るリマインドオーディオの生成装置は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、意味解析により、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータであると検出された時、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムをさらに提供する。

図９は、本開示の実施例を実行するための例示的な電子機器９００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および／又は求められる本開示の実現を制限することを意図したものではない。

図９に示すように、電子機器９００は、読み取り専用メモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラムまたは記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット９０１を含む。ＲＡＭ９０３には、電子機器９００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、バス９０４を介して互いに接続されている。パス９０４には、入力／出力（Ｉ／Ｏ）インターフェース９０５も接続されている。

電子機器９００の複数のコンポーネントはＩ／Ｏインタフェース９０５に接続され、キーボード、マウスなどの入力ユニット９０６、各タイプのディスプレイ、スピーカなどの出力ユニット９０７、磁気ディスク、光ディスクなどの記憶ユニット９０８、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９を含む。通信ユニット９０９は、電子機器９００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット９０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、前文に記載の各方法および処理、例えば、図１～図６に示すリマインドオーディオの生成方法を実行する。例えば、いくつかの実施例では、リマインドオーディオの生成方法を、記憶ユニット９０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はＲＯＭ９０２および／または通信ユニット９０９を介して電子機器９００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ９０３にロードされ、計算ユニット９０１によって実行される場合、前文に記載のリマインドオーディオの生成方法の１つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット９０１はリマインドオーディオの生成方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記記載されたシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび／又はブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボードおよび当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバーはクラウドサーバであっても良く、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」，または「ＶＰＳ」と省略する）に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバーは分散システムのサーバであってもよく、またはブロックチェーンと組合わせたサーバであってもよい。

本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示されるリマインドオーディオの生成方法を実現する。

なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、および代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、および改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

リマインドオーディオの生成方法であって、
オーディオデータを取得するステップと、
前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするステップと、
前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するステップと、を含む、
ことを特徴とするリマインドオーディオの生成方法。
音声区間検出アルゴリズムを用いて、前記オーディオデータが音声データであるか否かを検出するステップをさらに含む、
ことを特徴とする請求項１に記載の生成方法。
前記音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである、
ことを特徴とする請求項２に記載の生成方法。
前記オーディオデータをキャッシュするステップは、
前記オーディオデータを共通データキューに書き込むステップと、
前記共通データキューにおける前記オーディオデータを読み取るステップと、
読み取られた前記オーディオデータをキャッシュするステップと、を含む、
ことを特徴とする請求項１に記載の生成方法。
キャッシュされた前記オーディオデータをクラウドに送信するステップと、
前記クラウドから送信されたオーディオ保存命令を受信するステップであって、前記オーディオ保存命令は、前記クラウドによって意味解析により前記オーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成されるステップと、
前記オーディオ保存命令に基づいて、キャッシュされた前記オーディオデータを前記リマインドオーディオとして決定するステップと、をさらに含む、
ことを特徴とする請求項１に記載の生成方法。
リマインドオーディオの生成装置であって、
オーディオデータを取得するための取得モジュールと、
前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするためのキャッシュモジュールと、
前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するための記憶モジュールと、を含む、
ことを特徴とするリマインドオーディオの生成装置。
音声区間検出アルゴリズムを用いて、前記オーディオデータが音声データであるか否かを検出するための検出モジュールをさらに含む、
ことを特徴とする請求項６に記載の生成装置。
前記音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである、
ことを特徴とする請求項７に記載の生成装置。
前記キャッシュモジュールが、
前記オーディオデータを共通データキューに書き込むための書き込みユニットと、
前記共通データキューにおける前記オーディオデータを読み取るための読み取りユニットと、
読み取られた前記オーディオデータをキャッシュするためのキャッシュユニットと、を含む、
ことを特徴とする請求項６に記載の生成装置。
キャッシュされた前記オーディオデータをクラウドに送信するための送信モジュールと、
前記クラウドから送信されたオーディオ保存命令を受信するための受信モジュールであって、前記オーディオ保存命令は、前記クラウドによって意味解析により前記オーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成される受信モジュールと、
前記オーディオ保存命令に基づいて、キャッシュされた前記オーディオデータを前記リマインドオーディオとして決定するための決定モジュールと、をさらに含む、
ことを特徴とする請求項６に記載の生成装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれかに記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムはプロセッサによって実行される場合、請求項１～５のいずれかに記載の方法を実現する、
ことを特徴とするコンピュータプログラム。