JP7371159B2 - リマインドオーディオの生成方法、装置、電子機器及び記憶媒体 - Google Patents

リマインドオーディオの生成方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7371159B2
JP7371159B2 JP2022059557A JP2022059557A JP7371159B2 JP 7371159 B2 JP7371159 B2 JP 7371159B2 JP 2022059557 A JP2022059557 A JP 2022059557A JP 2022059557 A JP2022059557 A JP 2022059557A JP 7371159 B2 JP7371159 B2 JP 7371159B2
Authority
JP
Japan
Prior art keywords
audio data
audio
reminder
data
cached
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022059557A
Other languages
English (en)
Other versions
JP2022088601A (ja
Inventor
ジン リュウ
ジェンリ リュウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022088601A publication Critical patent/JP2022088601A/ja
Application granted granted Critical
Publication of JP7371159B2 publication Critical patent/JP7371159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本開示は、人工知能技術の分野、具体的には深層学習、クラウドプラットホーム技術の分野に関し、特にリマインドオーディオの生成方法、装置、電子機器及び記憶媒体に関する。
現在、車載端末のユーザ体験を高めるために、スマート車両に対する研究がますます多くなり、音声作成リマインド機能は車載端末で最も広く応用されている技術の1つとなっている。
しかしながら、どのようにリマインドオーディオを正確に録音するかは業界で急速に解決しなければならない課題となっている。
本開示は、リマインドオーディオの生成方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、リマインドオーディオの生成方法を提供し、オーディオデータを取得するステップと、前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするステップと、前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するステップと、を含む。
第2の態様によれば、リマインドオーディオの生成装置を提供し、オーディオデータを取得するための取得モジュールと、前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするための第1の検出モジュールと、前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するための第2の検出モジュールと、を含む。
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本開示の第1の態様に記載のリマインドオーディオの生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本開示の第1の態様に記載のリマインドオーディオの生成方法を実行させる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、本開示の第1の態様に記載のリマインドオーディオの生成方法を実現する。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係るリマインドオーディオの生成方法のフローチャートである。 本開示の第2の実施例に係るリマインドオーディオの生成方法のフローチャートである。 本開示の第3の実施例に係るリマインドオーディオの生成方法のフローチャートである。 本開示の第4の実施例に係るリマインドオーディオの生成方法のフローチャートである。 本開示の実施例に係るリマインドオーディオの生成方法のシナリオの概略図である。 本開示の実施例に係るリマインドオーディオの生成方法の具体的な実施形態の概略図である。 本開示の第1の実施例に係るリマインドオーディオの生成装置のブロック図である。 本開示の第2の実施例に係るリマインドオーディオの生成装置のブロック図である。 本開示の実施例に係るリマインドオーディオの生成方法を実現するための電子機器のブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確および簡潔にするために、以下の説明では、周知の機能および構造の説明を省略する。
人工知能(Artificial Intelligence、AIと省略する)は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術および応用システムを研究、開発する新しい技術科学である。現在、AI技術は、自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。
深層学習(Deep Learning、DLと省略する)は、機械学習(Machine Learning、MLと省略する)分野における新しい研究方向であり、サンプルデータの内的法則と表現レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大きいに役立つ。その最終的な目標は、機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。具体的な研究内容にとっては、主に畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワーク、多層ニューロンベースの自己コーディングニューラルネットワーク、及び多層自己コーディングニューラルネットワーク方式で予めトレーニングし、さらに認証情報と組み合わせてニューラルネットワークの重み値をさらに最適化する深層信頼ネットワークを含む。深層学習は検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推薦と個性化技術、及びその他の関連分野で多くの成果を収めた。深層学習は機械に視聴や思考などの人間の活動を模倣させ、多くの複雑なパターン認識の課題を解決し、人工知能の関連技術が大きく進歩させた。
クラウドプラットフォームとは、ハードウェアリソースとソフトウェアリソースに基づくサービスであり、コンピューティング、ネットワーク、ストレージ能力を提供する。クラウドプラットフォームは、データストレージを中心としたストレージ型クラウドプラットフォーム、データ処理を中心としたコンピューティング型クラウドプラットフォーム、およびコンピューティングとデータストレージ処理を両立させた総合クラウドコンピューティングプラットフォームという3種類に分類できる。
以下、図面を参照しながら、本開示の実施例に係るリマインドオーディオの生成方法、装置、電子機器および記憶媒体を説明する。
図1は本開示の第1の実施例に係るリマインドオーディオの生成方法のフローチャートである。
図1に示すように、本開示の実施例に係るリマインドオーディオの生成方法は、具体的には以下のステップS101~S103を含むことができる。
S101、オーディオデータを取得する。
具体的には、本開示の実施例に係るリマインドオーディオの生成方法の実行主体は、本開示の実施例によって提供されるリマインドオーディオの生成装置であってもよく、当該リマインドオーディオの生成装置は、データ情報処理能力を有するハードウェア装置および/または当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、および他のデバイスを含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
本開示の実施例では、オーディオデータは、マイクロフォンまたは他の録音装置によってリアルタイムで収集されたオーディオデータであってもよく、例えば、ユーザが車載端末で音声指示により日常的なリマインドを設定する場合、マイクロフォンによって録音された、前記音声によって指示されたリマインドコンテンツを含むオーディオデータである。なお、上記のオーディオデータには、有効な人声およびノイズが含まれる可能性があり、ここで、有効な人声はユーザの音声データであり、ノイズは、非音声データである。
S102、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。
具体的には、ステップS101で取得されたオーディオデータを検出し、オーディオデータが音声データであると検出された場合、上記オーディオデータをキャッシュする。なお、本開示の実施例において、オーディオデータに対する検出とキャッシュは非同期で行うことができ、マイクロフォンによってユーザの音声データが録音された時、検出しながらキャッシュすることを実現する。
S103、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
具体的には、ステップS101で取得されたオーディオデータを検出し、オーディオデータが非音声データであると検出された場合、上記オーディオデータのキャッシュを停止し、これによってオーディオデータにおける音声データの抽出を実現する。意味解析により、キャッシュされたオーディオデータのコンテンツを検出し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶することにより、リマインドオーディオの正確な録音を実現し、端末にユーザによって設定された時間に完全で正確なリマインドオーディオを再生させ、音声リマインドサービスを実現する。ここで、ディスクは、車載端末又は他のクライアントにおける記憶装置であってもよく、本開示では限定されない。キャッシュされたオーディオデータのコンテンツがリマインドコンテンツでない場合、キャッシュされたオーディオデータを破棄する。
以上のように、本開示の実施例に係るリマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータである場合、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
図2は本開示の第2の実施例に係るリマインドオーディオの生成方法のフローチャートである。
図2に示すように、図1に示す実施例を基に、本開示の実施例に係るリマインドオーディオの生成方法は、具体的には以下のステップS201~S204を含むことができる。
S201、オーディオデータを取得する。
具体的には、本実施例におけるステップS201は上記実施例のステップS101と同じであり、ここでは説明を省略する。
S202、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出する。
具体的には、音声区間検出(Voice Activity Detection、VADと省略する)は、一般的に、オーディオ信号における音声出現(speech presence)と音声消失(speech absence)を識別し、すなわち、所与のオーディオ信号から音声の開始点および終了点を見つけるために使用される。音声認識システムにおいて、区間検出を正確かつ効率的に行うことで、計算量の低減と処理時間の短縮が可能であるだけでなく、無音部分のノイズ干渉を排除し、音声認識の正解率を向上させることができる。
音声区間検出アルゴリズムを用いて、ステップS201で取得されたオーディオデータが音声データであるか否かを検出する。本開示の実施例では、ウェブリアルタイム通信の音声区間検出アルゴリズム(Web Real-Time Communication Voice Activity Detection、Web RTC VADと省略する)を、オーディオデータを検出する区間検出アルゴリズムとして使用する。当該アルゴリズムはガウスモデルおよび人声の固定周波数帯域特性に基づいて、確率計算により人声とノイズを効率的に区別し、すなわちオーディオデータにおける音声データと非音声データを効率的に区別する。
S203、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。
S204、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
具体的には、本実施例のステップS203~S204は上記実施例のステップS102~S103と同じであり、ここでは説明を省略する。
さらに、図3に示すように、図2に示す実施例を基に、上記ステップS203における「オーディオデータをキャッシュするステップ」は具体的に以下のステップS301~S303を含むことができる。
S301、オーディオデータを共通データキューに書き込む。
具体的には、ステップS203で検出された音声データであるオーディオデータを共通データキューに書き込む。
S302、共通データキューにおけるオーディオデータを読み取る。
具体的には、ステップS301で共通データキューに書き込まれたオーディオデータを読み取る。
S303、読み取られたオーディオデータをキャッシュする。
具体的には、ステップS302で読み取られたオーディオデータをキャッシュする。
さらに、図4に示すように、図2に示す実施例を基に、本開示の実施例に係るリマインドオーディオの生成方法は、以下のステップS401~S403をさらに含むことができる。
S401、キャッシュされたオーディオデータをクラウドに送信する。
具体的には、オーディオデータのキャッシュを停止する時、キャッシュされたオーディオデータをクラウドに送信する。
S402、クラウドから送信されたオーディオ保存命令を受信し、オーディオ保存命令は、クラウドによって意味解析によりオーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成される。
具体的には、クラウドはオーディオデータを受信し、受信されたオーディオデータに対して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された場合、オーディオ保存命令を生成してリマインドオーディオの生成装置に送信する。リマインドオーディオの生成装置がクラウドから送信されたオーディオ保存命令を受信する。ここで、意味解析は、自動音声認識(Automated Speech Recognition、ASRと省略する)技術、自然言語理解(Natural Language Understanding、NLUと省略する)技術によって実現することができる。
S403、オーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定する。
具体的には、リマインドオーディオの生成装置は、受信されたオーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定し、ディスクに保存する。これによってリマインドコンテンツを含む正確なリマインドオーディオを生成し、リマインド時間にユーザにリマインドオーディオを再生し、音声リマインドサービスを実現する。
以上のように、本開示の実施例に係るリマインドオーディオの生成方法は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、意味解析により、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータであると検出された時、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
本開示の実施例に係るリマインドオーディオの生成方法を明確に説明するために、以下、図5~図6と併せて詳細に説明する。
図5は本開示の実施例に係るリマインドオーディオの生成方法のシナリオの概略図である。図5に示すように、マイクロフォンがオーディオデータを取得し、VAD検出モジュールによってオーディオデータにおける音声データを検出し、音声データであるオーディオデータを共通データキューに書き込んでからキャッシュし、VAD検出モジュールが非音声データを検出するとキャッシュを停止し、キャッシュされたオーディオデータをクラウドに送信して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された場合、クラウドがオーディオ保存命令を生成して車載端末に送信し、車載端末がオーディオ保存命令を受信し、キャッシュされたオーディオデータをリマインドオーディオとして決定し、ディスクに保存する。なお、図5に示す概略図は、ユーザが1つの音声指示を開始する時、車載端末がリマインドオーディオを生成することを示し、ユーザが次の音声命令を継続すると、上記のプロセスを繰り返すことにより、完全な指示コンテンツを含むリマインドオーディオを生成することができる。
図6は本開示の実施例に係るリマインドオーディオの生成方法の具体的な実施形態の概略図である。図6に示すように、本開示の実施例に係るリマインドオーディオの生成方法は具体的に以下のステップS601~S608を含む。
S601、オーディオデータを取得する。
S602、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出する。
そうである場合、ステップS603を実行し、そうでない場合、ステップS605を実行する。
S603、オーディオデータを共通データキューに書き込む。
S604、共通データキューにおけるオーディオデータを読み取ってキャッシュする。
S605、共通データキューへのオーディオデータの書き込みを停止する。
S606、キャッシュされたオーディオデータをクラウドに送信する。
S607、クラウドがオーディオデータに対して意味解析を行い、オーディオデータのコンテンツがリマインドコンテンツであると検出された時にオーディオ保存命令を生成して車載端末に送信する。
S608、オーディオ保存命令を受信し、対応するオーディオデータをリマインドオーディオとして決定してディスクに保存する。
図7は本開示の第1の実施例に係るリマインドオーディオの生成装置のブロック図である。
図7に示すように、本開示の実施例に係るリマインドオーディオの生成装置700は、取得モジュール701、キャッシュモジュール702および記憶モジュール703を含む。
取得モジュール701は、オーディオデータを取得する。
キャッシュモジュール702は、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュする。
記憶モジュール703は、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。
なお、上記のリマインドオーディオの生成方法の実施例に対する説明は、本開示の実施例に係るリマインドオーディオの生成装置にも適用され、具体的なプロセスはここでは説明を省略する。
以上のように、本開示の実施例に係るリマインドオーディオの生成装置は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータである場合、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
図8は本開示の第2の実施例に係るリマインドオーディオの生成装置のブロック図である。
図8に示すように、本開示の実施例に係るリマインドオーディオの生成装置800は、取得モジュール801、キャッシュモジュール802および記憶モジュール803を含む。
取得モジュール801は、上記実施例の取得モジュール701と同じ構造及び機能を有し、キャッシュモジュール802は、上記実施例のキャッシュモジュール702と同じ構造及び機能を有し、記憶モジュール803は、上記実施例の記憶モジュール703と同じ構造及び機能を有する。
さらに、本開示の実施例に係るリマインドオーディオの生成装置800は、音声区間検出アルゴリズムを用いて、オーディオデータが音声データであるか否かを検出するための検出モジュール804をさらに含むことができる。
さらに、音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである。
さらに、キャッシュモジュール802は、具体的には、オーディオデータを共通データキューに書き込むための書き込みユニットと、共通データキューにおけるオーディオデータを読み取るための読み取りユニットと、読み取られたオーディオデータをキャッシュするためのキャッシュユニットと、を含むことができる。
さらに、本開示の実施例に係るリマインドオーディオの生成装置800は、キャッシュされたオーディオデータをクラウドに送信するための送信モジュールと、クラウドから送信されたオーディオ保存命令を受信するための受信モジュールであって、オーディオ保存命令は、クラウドによって意味解析によりオーディオデータのコンテンツがリマインドコンテンツであるときに生成される受信モジュールと、オーディオ保存命令に基づいて、キャッシュされたオーディオデータをリマインドオーディオとして決定するための決定モジュールと、をさらに含むことができる。
以上のように、本開示の実施例に係るリマインドオーディオの生成装置は、オーディオデータを取得し、オーディオデータが音声データであると検出された場合、オーディオデータをキャッシュし、オーディオデータが非音声データであると検出された場合、オーディオデータのキャッシュを停止し、キャッシュされたオーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされたオーディオデータをリマインドオーディオとして決定し、リマインドオーディオをディスクに記憶する。オーディオデータを検出し、その中に音声データであるオーディオデータを取得し、キャッシュし、意味解析により、キャッシュされたオーディオデータがリマインドコンテンツが含まれるオーディオデータであると検出された時、それをリマインドオーディオとして決定してディスクに記憶することにより、取得されたオーディオデータにおける非音声データと音声データにおける非リマインドオーディオを除去し、リマインドオーディオの正確な録音を実現する。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムをさらに提供する。
図9は、本開示の実施例を実行するための例示的な電子機器900の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/又は求められる本開示の実現を制限することを意図したものではない。
図9に示すように、電子機器900は、読み取り専用メモリ(ROM)902に記憶されているコンピュータプログラムまたは記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット901を含む。RAM903には、電子機器900の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット901、ROM902、およびRAM903は、バス904を介して互いに接続されている。パス904には、入力/出力(I/O)インターフェース905も接続されている。
電子機器900の複数のコンポーネントはI/Oインタフェース905に接続され、キーボード、マウスなどの入力ユニット906、各タイプのディスプレイ、スピーカなどの出力ユニット907、磁気ディスク、光ディスクなどの記憶ユニット908、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909を含む。通信ユニット909は、電子機器900が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット901は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット901のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、前文に記載の各方法および処理、例えば、図1~図6に示すリマインドオーディオの生成方法を実行する。例えば、いくつかの実施例では、リマインドオーディオの生成方法を、記憶ユニット908などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 902および/または通信ユニット909を介して電子機器900にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 903にロードされ、計算ユニット901によって実行される場合、前文に記載のリマインドオーディオの生成方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット901はリマインドオーディオの生成方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書で上記記載されたシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/又はブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボードおよび当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバーはクラウドサーバであっても良く、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバーは分散システムのサーバであってもよく、またはブロックチェーンと組合わせたサーバであってもよい。
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示されるリマインドオーディオの生成方法を実現する。
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、および代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、および改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (13)

  1. リマインドオーディオの生成方法であって、
    オーディオデータを取得するステップと、
    前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするステップと、
    前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するステップと、を含む、
    ことを特徴とするリマインドオーディオの生成方法。
  2. 音声区間検出アルゴリズムを用いて、前記オーディオデータが音声データであるか否かを検出するステップをさらに含む、
    ことを特徴とする請求項1に記載の生成方法。
  3. 前記音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである、
    ことを特徴とする請求項2に記載の生成方法。
  4. 前記オーディオデータをキャッシュするステップは、
    前記オーディオデータを共通データキューに書き込むステップと、
    前記共通データキューにおける前記オーディオデータを読み取るステップと、
    読み取られた前記オーディオデータをキャッシュするステップと、を含む、
    ことを特徴とする請求項1に記載の生成方法。
  5. キャッシュされた前記オーディオデータをクラウドに送信するステップと、
    前記クラウドから送信されたオーディオ保存命令を受信するステップであって、前記オーディオ保存命令は、前記クラウドによって意味解析により前記オーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成されるステップと、
    前記オーディオ保存命令に基づいて、キャッシュされた前記オーディオデータを前記リマインドオーディオとして決定するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の生成方法。
  6. リマインドオーディオの生成装置であって、
    オーディオデータを取得するための取得モジュールと、
    前記オーディオデータが音声データであると検出された場合、前記オーディオデータをキャッシュするためのキャッシュモジュールと、
    前記オーディオデータが非音声データであると検出された場合、前記オーディオデータのキャッシュを停止し、キャッシュされた前記オーディオデータのコンテンツがリマインドコンテンツである場合、キャッシュされた前記オーディオデータをリマインドオーディオとして決定し、前記リマインドオーディオをディスクに記憶するための記憶モジュールと、を含む、
    ことを特徴とするリマインドオーディオの生成装置。
  7. 音声区間検出アルゴリズムを用いて、前記オーディオデータが音声データであるか否かを検出するための検出モジュールをさらに含む、
    ことを特徴とする請求項6に記載の生成装置。
  8. 前記音声区間検出アルゴリズムは、ウェブリアルタイム通信の音声区間検出アルゴリズムである、
    ことを特徴とする請求項7に記載の生成装置。
  9. 前記キャッシュモジュールが、
    前記オーディオデータを共通データキューに書き込むための書き込みユニットと、
    前記共通データキューにおける前記オーディオデータを読み取るための読み取りユニットと、
    読み取られた前記オーディオデータをキャッシュするためのキャッシュユニットと、を含む、
    ことを特徴とする請求項6に記載の生成装置。
  10. キャッシュされた前記オーディオデータをクラウドに送信するための送信モジュールと、
    前記クラウドから送信されたオーディオ保存命令を受信するための受信モジュールであって、前記オーディオ保存命令は、前記クラウドによって意味解析により前記オーディオデータのコンテンツがリマインドコンテンツであると検出された時に生成される受信モジュールと、
    前記オーディオ保存命令に基づいて、キャッシュされた前記オーディオデータを前記リマインドオーディオとして決定するための決定モジュールと、をさらに含む、
    ことを特徴とする請求項6に記載の生成装置。
  11. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載の方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~5のいずれかに記載の方法を実現する、
    ことを特徴とするコンピュータプログラム。
JP2022059557A 2021-06-11 2022-03-31 リマインドオーディオの生成方法、装置、電子機器及び記憶媒体 Active JP7371159B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110653252.4 2021-06-11
CN202110653252.4A CN113448533B (zh) 2021-06-11 2021-06-11 提醒音频的生成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022088601A JP2022088601A (ja) 2022-06-14
JP7371159B2 true JP7371159B2 (ja) 2023-10-30

Family

ID=77811389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022059557A Active JP7371159B2 (ja) 2021-06-11 2022-03-31 リマインドオーディオの生成方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20220301583A1 (ja)
EP (1) EP4080382A3 (ja)
JP (1) JP7371159B2 (ja)
KR (1) KR20220035886A (ja)
CN (1) CN113448533B (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014135543A (ja) 2013-01-08 2014-07-24 Nakayo Telecommun Inc 予定に係る音声メモ登録方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03244000A (ja) * 1990-02-22 1991-10-30 Sanyo Electric Co Ltd 音声記録再生装置
WO1993007562A1 (en) * 1991-09-30 1993-04-15 Riverrun Technology Method and apparatus for managing information
KR100739180B1 (ko) * 2005-10-20 2007-07-13 엘지전자 주식회사 이동 통신 단말기의 멀티미디어 데이터를 송수신하는 장치및 그 방법
EP2060116A2 (en) * 2006-08-30 2009-05-20 Broadcom Corporation Framebuffer sharing for video processing
US8166194B2 (en) * 2006-12-13 2012-04-24 Microsoft Corporation Lock-free shared audio buffer
GB2459107B (en) * 2008-04-09 2012-11-14 Ubiquisys Ltd Access point
US11397462B2 (en) * 2012-09-28 2022-07-26 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
WO2017196422A1 (en) * 2016-05-12 2017-11-16 Nuance Communications, Inc. Voice activity detection feature based on modulation-phase differences
US10027796B1 (en) * 2017-03-24 2018-07-17 Microsoft Technology Licensing, Llc Smart reminder generation from input
US10805370B2 (en) * 2017-06-02 2020-10-13 Apple Inc. Alarms for a system of smart media playback devices
US10333710B2 (en) * 2017-09-12 2019-06-25 Qed-It Systems Ltd. Method and system for determining desired size of private randomness using Tsallis entropy
CN108001344A (zh) * 2017-12-07 2018-05-08 北海市天硌打印耗材有限公司 一种汽车提醒装置及汽车提醒机
US20190244613A1 (en) * 2018-02-07 2019-08-08 Net2Phone, Inc. VoIP Cloud-Based Virtual Digital Assistant Using Voice Commands
US20200273263A1 (en) * 2018-12-27 2020-08-27 Southern Taiwan University Of Science And Technology Smart driving management system and method
CN110060685B (zh) * 2019-04-15 2021-05-28 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US11551670B1 (en) * 2019-09-26 2023-01-10 Sonos, Inc. Systems and methods for generating labeled data to facilitate configuration of network microphone devices
CN111028834B (zh) * 2019-10-30 2023-01-20 蚂蚁财富(上海)金融信息服务有限公司 语音信息提醒方法、装置、服务器和语音信息提醒设备
CN110970054B (zh) * 2019-11-06 2022-06-24 广州视源电子科技股份有限公司 语音采集自动停止的方法、装置、终端设备和存储介质
CN110838296B (zh) * 2019-11-18 2022-04-29 锐迪科微电子科技(上海)有限公司 录音过程的控制方法、系统、电子设备和存储介质
US11055649B1 (en) * 2019-12-30 2021-07-06 Genesys Telecommunications Laboratories, Inc. Systems and methods relating to customer experience automation
CN111739521B (zh) * 2020-06-19 2021-06-22 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
US20210407510A1 (en) * 2020-06-24 2021-12-30 Netflix, Inc. Systems and methods for correlating speech and lip movement
US11551700B2 (en) * 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014135543A (ja) 2013-01-08 2014-07-24 Nakayo Telecommun Inc 予定に係る音声メモ登録方法

Also Published As

Publication number Publication date
EP4080382A3 (en) 2022-11-30
US20220301583A1 (en) 2022-09-22
EP4080382A2 (en) 2022-10-26
CN113448533B (zh) 2023-10-31
CN113448533A (zh) 2021-09-28
JP2022088601A (ja) 2022-06-14
KR20220035886A (ko) 2022-03-22

Similar Documents

Publication Publication Date Title
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
JP7406606B2 (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
US10832658B2 (en) Quantized dialog language model for dialog systems
US20180366107A1 (en) Method and device for training acoustic model, computer device and storage medium
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
CN108564944B (zh) 智能控制方法、系统、设备及存储介质
CN111291882A (zh) 一种模型转换的方法、装置、设备和计算机存储介质
CN114548110A (zh) 语义理解方法、装置、电子设备及存储介质
CN112365875B (zh) 语音合成方法、装置、声码器和电子设备
CN113836278A (zh) 通用对话模型的训练与对话生成方法、装置
CN112711943B (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN112650844A (zh) 对话状态的追踪方法、装置、电子设备和存储介质
JP7371159B2 (ja) リマインドオーディオの生成方法、装置、電子機器及び記憶媒体
CN109710939B (zh) 用于确定主题的方法和装置
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
US20220300717A1 (en) Method and apparatus for generating dialogue state
CN109036379B (zh) 语音识别方法、设备及存储介质
CN115080739A (zh) 用于训练对话模型的方法以及用于输出应答信息的方法
CN115312042A (zh) 用于处理音频的方法、装置、设备以及存储介质
CN110990528A (zh) 一种问答方法、装置及电子设备
CN111883133A (zh) 客服语音识别方法、装置、服务器及存储介质
US20220390230A1 (en) Method for generating speech package, and electronic device
JP7397114B2 (ja) テキスト生成方法、装置、電子機器及び記憶媒体
CN110647627B (zh) 答案生成方法及装置、计算机设备与可读介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231018

R150 Certificate of patent or registration of utility model

Ref document number: 7371159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150