JP2022091933A

JP2022091933A - 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022091933A
Application number: JP2022059733A
Authority: JP
Inventors: フーユージャン; Fuyu Zhang; ロンリュウ; Rong Liu; クンワン; Kun Wang
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-06-08
Filing date: 2022-03-31
Publication date: 2022-06-21
Anticipated expiration: 2042-03-31
Also published as: KR20220056836A; EP4102498A1; US20220215839A1; CN113380229B; CN113380229A; JP7375089B2

Abstract

【課題】音声応答速度確定方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、テストオーディオファイルを構成するデータストリームを読み取り完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するステップと、完全なデータストリームに含まれる音声指示情報を確定して音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するステップと、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するステップと、を含む。【選択図】図２

Description

本開示はデータ処理技術分野に関し、具体的には音声認識、自然言語処理、深層学習などの人工知能技術分野に関し、特に音声応答速度確定方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。

エンドツーエンドの音声応答速度は、通常、機械が外界から停止音声入力を受信してから、機械がユーザの意図を実行するまでの時間を指す。この指標は、音声認識の効果を評価するための重要な指標であり、応答速度はユーザエクスペリエンスに直接影響する。

現在、エンドツーエンドの音声応答速度の統計的手法は、ほとんどの場合、テストビデオ全体の開始時間と終了時間を手動で選択することによって確定される。これには、少なくとも２つのデバイスが連携することで実現する必要がある。

本開示の実施例は、音声応答速度確定方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。

第１の形態では、本開示の実施例は、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定することと、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定することと、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定することとを含む音声応答速度確定方法を提供する。

第２の形態では、本開示の実施例は、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するように配置されるデータストリーム読み取り／開始時刻確定ユニットと、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される指示情報確定／終了時刻確定ユニットと、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するように配置される音声応答速度確定ユニットとを含む音声応答速度確定装置を提供する。

第３の形態では、本開示の実施例は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも１つのプロセッサによって実行され、少なくとも１つのプロセッサによって実行されると、第１の形態のいずれかの実現形態に説明される音声応答速度確定方法が実行される電子機器を提供する。

第４の形態では、本開示の実施例は、コンピュータによって実行されると、第１の形態のいずれかの実現形態に説明される音声応答速度確定方法を実現するコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

第５の形態では、本開示の実施例は、プロセッサによって実行されると、第１の形態のいずれかの実現形態に説明される音声応答速度確定方法を実現するコンピュータプログラムを提供する。

本開示の実施例に係る音声応答速度確定方法は、まず、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定し、次に、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定し、最後に、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定する。

当該方法は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために１つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。

理解できるように、この部分に記載の内容は本開示の実施例の肝心又は重要な特徴を特定することを意図するものでもなく、本開示の範囲を限定するものではない。本開示のほかの特徴は以下の明細書によって容易に理解されるようになる。

以下の図面を参照して非限定的な実施例の詳細な説明を読むことにより、本開示の他の特徴、目的、および利点がより明らかになる。
本開示を適用できる例示的なシステムアーキテクチャ図である。本開示の実施例に係る音声応答速度確定方法のフローチャートである。本開示の実施例に係るインタラクション終了時刻の確定方法のフローチャートである。本開示の実施例に係るエラーフィードバックをブロードキャストして受信しオブジェクト的処理を行う方法のフローチャートである。本開示の実施例に係る別の音声応答速度確定方法のフローチャートである。本開示の実施例に係る音声応答速度確定装置の構造ブロック図である。本開示の実施例に係る音声応答速度確定方法を実行するのに適した電子機器の構造模式図である。

以下、図面を参照しながら本開示の例示的な実施例を説明し、理解を助けるように本開示の実施例の様々な細部が含まれているが、単なる例示的なものであると考えられる。従って、当業者が理解できるように、本開示の範囲及び趣旨を逸脱せずに、ここで説明される実施例に対して種々の変更や修正を行うことができる。同様に、明確化及び簡明化のために、以下の説明では公知の機能及び構造についての説明は省略される。ただし、本開示における実施例及び実施例における特徴は、矛盾がない場合、互いに組み合わせることができる。

本開示の技術的解決策では、関連するユーザの個人情報の取得、保存、および適用は、関連する法律および規制に準拠し、必要な機密保持措置が講じられており、公序良俗に違反していない。

図１は、本開示の音声応答速度確定方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体が適応可能な実施例の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、テストオーディオ提供端末１０１、１０２、１０３、ネットワーク１０４及びセマンティック応答速度確定端末１０５を含んでもよい。ネットワーク１０４は、テストオーディオ提供端末１０１、１０２、１０３と音声応答速度確定端末１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、例えば、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプを含んでもよい。

テストオーディオ提供端末１０１、１０２、１０３は、テストオーディオファイルが記憶されている異なるキャリアであり、テストオーディオファイルはネットワーク１０４を介して音声応答速度確定端末１０５に伝送することができる。テストオーディオ提供端末１０１、１０２、１０３及び音声応答速度確定端末１０５には、両者間の情報通信を実現するための様々なアプリケーションをインストールすることができ、例えばオーディオファイル伝送アプリケーション、応答速度分析アプリケーション、エラー報告およびフィードバックアプリケーション等が挙げられる。

テストオーディオ提供端末１０１、１０２、１０３及び音声応答速度確定端末１０５はハードウェアであってもよく、ソフトウェアであってもよい。テストオーディオ提供端末１０１、１０２、１０３がハードウェアである場合、オーディオファイルの記憶及び伝送機能を有する様々な電子機器であってもよく、スマートフォン、タブレット、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。テストオーディオ提供端末１０１、１０２、１０３がソフトウェアである場合、以上に挙げられる電子機器にインストールすることができ、複数のソフトウェア又はソフトウェアモジュールとして実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよく、ここでは特に限定されない。音声応答速度確定端末１０５がハードウェアである場合、複数の音声応答速度確定端末からなる分散型音声応答速度確定端末クラスタとして実現されてもよく、単一の音声応答速度確定端末として実現されてもよく、音声応答速度確定端末がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュールとして実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよく、ここでは特に限定されない。

音声応答速度確定端末１０５は、様々な組み込みアプリケーションを通じて様々なサービスを提供することができる。確定音声応答速度サービスを提供することができる応答速度分析アプリケーションを例にとると、音声応答速度確定端末１０５は、当該応答速度分析アプリケーションを実行する時に以下の効果を達成することができる。まず、ネットワーク１０４を介してテストオーディオ提供端末１０１、１０２、１０３からテストオーディオファイルを取得し、次に、当該テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定し、さらに、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定し、最後に、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定する。さらに、確定された音声応答速度を結果として事前設定された位置に出力する。

ただし、テストオーディオファイルは、ネットワーク１０４を介してテストオーディオ提供端末１０１、１０２、１０３から取得することができる以外、様々な方法音声応答速度確定端末１０５にローカルに事前に記憶されてもよい（例えば、テストオーディオファイルはＳＤカードに記憶されてから音声応答速度確定端末１０５のＳＤカードスロットに挿入される）。従って、当音声応答速度確定端末１０５は、これらのデータ（例えば処理を開始する前に保存された処理すべきテストオーディオファイル）がローカルに記憶されていることを検出した場合、ローカルからこれらのデータを直接取得することができ、この場合、例示的なシステムアーキテクチャ１００はテストオーディオ提供端末１０１、１０２、１０３及びネットワーク１０４を含まなくてもよい。

本開示の後続の実施例に係る音声応答速度確定方法は、一般に、音声応答速度確定端末１０５によって実行される。それに対応して、音声応答速度確定装置も、一般に、音声応答速度確定端末１０５に設置される。テストオーディオ提供端末１０１、１０２、１０３及びネットワーク１０４は、音声応答速度確定端末１０５がテストオーディオファイルを取得するためのものに過ぎず、即ち、テストオーディオファイルを保持した後、上記のステップで実行できる任意の装置を音声応答速度確定装置として使用することができることを強調すべきである。例えばテストオーディオ提供端末１０１、１０２、１０３は同時に音声応答速度確定端末１０５として機能することもできる。

図１におけるテストオーディオ提供端末、ネットワーク及び音声応答速度確定端末の数は、単なる例示であることを理解される。実現の必要性に応じて、任意の数のテストオーディオ提供端末、ネットワーク及び音声応答速度確定端末が存在し得る。

図２を参照すると、図２は、本開示の実施例に係る音声応答速度確定方法のフローチャートであり、フロー２００は、次のステップを含む。

ステップ２０１：テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定する。

バイナリの目的は、音声応答速度確定方法の実行体（例えば図１に示すサーバ１０５）により、読み取り操作によってテストオーディオファイルのデータストリームを取得し、完全なデータストリームが読み取られた時刻を音声応答過程のインタラクション開始時刻として確定することである。

通常、テストオーディオファイルはバイナリデータで構成されており、読み取り操作も、当該テストオーディオファイルを構成するバイナリデータストリームを読み取って取得する操作であり、読み取りにかかる時間は、テストオーディオファイルのサイズに正比例し、ある程度は読み取り方法に依存する。完全なデータストリームが読み取られた後、テストオーディオファイルに含まれる有効な情報を確定する必要がないため、完全なデータストリームが読み取られることは、本質的に、従来技術においてテストデバイスがユーザから送信された完全な音声データを受信したことと確認したことと本質的に同等であるため、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定する。

従来の方法で完全な音声データが受信されるかを確定するために使用される検証期間（すなわち、検証期間内に新しい音声データが受信されていない）と比較して、本実施例は、他の主体からの音声信号を受信する方法を採用せず、テストオーディオファイルを自体で直接読み取る方法を採用しているため、テストオーディオファイルを読み取った後、検証期間を設定せずにインタラクションの開始時刻をタイムリーに確定することができる。

ステップ２０２：完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定する。

ステップ２０１に基づいて、本ステップの目的は、上記実行体により、まず、読み取られた完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定する。

そのうち、音声指示情報が「エアコンの電源を入れる」、「ＸＸ曲を再生する」、「今日の天気を確認する」などの操作指示であってもよく、それに対応して、対応すする指示されるアクションは、「エアコンを制御して電源を入れるための制御指示を発する」、「プレーヤーをオンにして、ＸＸという名前の曲を検索して再生する」、「天気予報アプリケーションを開いて、その日の天気情報をブロードキャストする」であってもよく、インタラクション終了時刻は即ち上記アクションの実行体が上記アクションを実行する時刻であり、ただし、上記アクションの実行体は上記実行体であってもよく、別の実行体であってもよい。

音声指示情報を確定する方法は、例えばテキスト認識、音声コンテンツ認識、セマンティック分析等様々ある。

ステップ２０３：インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定する。

ステップ２０１及びステップ２０２に基づいて、本ステップの目的は、インタラクション開始時刻及びインタラクション終了時刻に基づいて、当該テストオーディオファイルに対応する音声応答速度を確定することである。インタラクション終了時刻とインタラクション開始時刻との時間差を計算することにより、当該時間差を音声応答速度として確定する。一部のシナリオでは、当該音声応答速度がユーザの実際のエクスペリエンスとより一致するように、時間差に基づいて、一部の偏差値を修正する必要がある。

本開示の実施例に係る音声応答速度確定方法は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために１つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。

図３を参照すると、図３は本開示の実施例に係るインタラクション終了時刻の確定方法のフローチャートであり、即ち、図２に示すフロー２００におけるステップ２０２でのインタラクション終了時刻確定部分に対して、具体的な実現形態を提供する。フロー２００における他のステップを調整せず、本実施例に係る具体的な実現形態で、ステップ２０２でのインタラクション終了時刻確定部分を置き換えることで、新しい完全な実施例を得る。フロー３００は、次のステップを含む。

ステップ３０１：音声指示情報によって指示されるアクションの実行オブジェクトを確定する。

本ステップの目的は、上記実行体により、確定された音声指示情報に基づいて、指示されるアクションの実行オブジェクトを確定することであり、当該音声指示情報が「エアコンの電源を入れる」であると仮定すると、「エアコンの電源を入れる」アクションを実行するオブジェクトは、少なくともエアコンを制御できる、「エアコンのリモコン」、「ホームコントロール端末」等の関連機器である必要がある。

ステップ３０２：実行オブジェクトが非ローカルオブジェクトであるかどうかを判断し、非ローカルオブジェクトである場合、ステップ３０４を実行し、そうでない場合、ステップ３０５を実行する。

ステップ３０１に基づいて、本ステップの目的は、上記実行体により、確定された実行オブジェクトが非ローカルオブジェクトであるかどうかを判断することである。

上記実行体が指示されるアクションの実行を直接制御するかどうかによって、指定オブジェクトは、ローカルオブジェクトと非ローカルオブジェクトの２つのカテゴリに分類でき、ローカルオブジェクトは、上記実行体が指示されるアクションの実行を直接制御できるオブジェクトであり、非ローカルオブジェクトは、上記実行体が指示されるアクションの実行を直接制御できないが間接制御できるオブジェクトである。

依然として「エアコンの電源を入れる」を例にとると、上記実行体自体はエアコンの電源を入れるように制御する能力を持っていると、実行オブジェクトはローカルオブジェクトであり、上記実行体自体はエアコンの電源を入れるように制御する能力を持っておらず、間接的にエアコンの電源を入れるために他の機器を制御する必要があると、実行オブジェクトはエアコンの電源を入れるように制御する能力を持っている機器であり、従って、非ローカルオブジェクトである。

ステップ３０３：音声指示情報を非ローカルオブジェクトに転送する。

ステップ３０４：非ローカルオブジェクトが音声指示情報によって指示されるアクションを実行するように制御し、非ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを返すように制御する。

ステップ３０３－ステップ３０４は、ステップ３０２の判断結果は実行オブジェクトが非ローカルオブジェクトであることであることに基づくものであり、その目的は、上記主体によって音声指示情報を当該非ローカルオブジェクトに転送し、且つ、当該非ローカル機器が受信した音声指示情報に基づいて対応する指示されるアクションを実行するように制御し、当該非ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを返すように制御することにより、上記実行体が当該タイムスタンプに基づいて実際のインタラクション終了時間を確定することである。

ステップ３０５：ローカルオブジェクトが音声指示情報によって指示されるアクションを実行するように制御する。

ステップ３０６：ローカルの実行ログから、ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを取得する。

ステップ３０５－ステップ３０６は、ステップ３０２の判断結果は実行オブジェクトがローカルオブジェクトであることであることに基づくものであり、その目的は、上記主体によって、当該ローカル機器が音声指示情報で指示されるアクションを実行するように直接制御し、且つ、ローカルの実行ログを読み取ることによって、指示されるアクションを実行するタイムスタンプを取得することにより、上記実行体が当該タイムスタンプに基づいて実際のインタラクション終了時間を確定することである。

ステップ３０７：タイムスタンプによって記録された時刻をインタラクション終了時刻として確定する。

本実施例は、より包括的な状況に対応するように、音声指示情報によって指示されるアクションの実行オブジェクトがローカルオブジェクトであるか非ローカルオブジェクトであるかを判別することにより、インタラクション終了時刻を確定する異なる実現解決策を提供する。

図４を参照すると、図４は本開示の実施例に係るエラーフィードバックをブロードキャストして受信しオブジェクト的処理を行う方法のフローチャートであり、図２に示すフロー２００におけるステップ２０２で確定された音声指示情報及びその指示されるアクションに対して、追加の処理方法を提供し、当該処理方法により、音声指示情報の確定及び指示されるアクションの確定にエラーがあるかどうかを確定し、更にその後の無効なアクションの実行を回避する。フロー２００における他のステップを調整せず、本実施例に係る具体的な実現形態をフロー２００の対応する部分に追加する方法で、新しい完全な実施例を得る。フロー４００は、次のステップを含む。

ステップ４０１：音声指示情報及び／又は音声指示情報によって指示されるアクションをブロードキャストする。

本ステップの目的は、上記実行体により、音声ブロードキャストの方法を通じて、現在確定された音声指示情報及び／又は音声指示情報によって指示されるアクションをテスターに通知し、これにより、音声ブロードキャストを通じて、確定された音声指示情報及び／又は音声指示情報によって指示されるアクションが正しいかどうかをテスターに知らせる。もちろん、音声ブロードキャストの方法に加えて、表示画面に画面投影する又は出力するなどの方法を用いて、上記情報をテスターに知らせることもでき、実際の状況に応じて柔軟に選択できる。本実施例は実施形態の例に過ぎない。

ステップ４０２：ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、エラーフィードバックに対応する音声指示情報及び／又は音声指示情報によって指示されるアクションにエラーマークを付く。

ステップ４０１に基づいて、本ステップの目的は、上記実行体により、ブロードキャストコンテンツに対するエラーフィードバックを受信した場合、エラーフィードバックに対応する音声指示情報及び／又は音声指示情報によって指示されるアクションにエラーマークを付くことである。

例えば、現在ブロードキャストされている音声指示情報が「ブラウザを確認する」であるが、テスターは、当該テストオーディオファイルに含まれる実際の音声指示情報が「天気を確認する」であることを事前に知っているので、音声指示情報を確定する際に上記の実行体が誤りを犯したことが容易に判断できる。ソース情報に誤りがある場合、その後に確定された指示されるアクション、実行及び音声応答速度はいずれも無効である。従って、その後の無効なアクションの実行を回避するために、本ステップの目的は、エラーマークを付くことである。

ステップ４０３：エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了する。

ステップ４０２に基づいて、本ステップの目的は、上記実行体により、エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了することで、その後の無効なアクションの実行を回避する。

図５を参照すると、図５は本開示の実施例に係る別の音声応答速度確定方法のフローチャートであり、フロー５００、次のステップを含む。

ステップ５０１：音声指示情報を含む複数のテストオーディオファイルを取得する。

ステップ５０２：各テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻を対応するテストオーディオファイルのインタラクション開始時刻として確定する。

ステップ５０３：完全なデータストリームにおける音声信号をセマンティック認識し、対応するテストオーディオファイルの実際セマンティック情報を取得する。

ステップ５０４：実際セマンティック情報に対応する音声指示情報を確定する。

ステップ５０３－ステップ５０４の目的は、上記実行体により、セマンティック認識の方法を通じて、対応するテストオーディオファイルの実際セマンティック情報を取得し、更に実際セマンティック情報に基づいて音声指示情報を確定することでる。

セマンティック認識効果とセマンティクス認識される実際のセマンティック情報の精度を可能な限り向上させるために、機械学習と深層学習に基づいて訓練されたセマンティック認識モデルを使用することもできるが、認識にかかる時間を同時に比較検討するために、音声信号の複雑さに合わせて包括的な処理方法を策定することもできる。以下の方法を含むがこれに限定されない。当該方法は、
完全なデータストリームから音声信号を抽出することと、
音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、音声信号を入力して、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出すことであって、当該セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであることと、
セマンティック認識モデルによって返される実際セマンティック情報を受信することとを含む。

つまり、上記実施例は、複雑さが事前設定された複雑さを超えた音声信号のみに対してセマンティック認識モデルを呼び出して実際セマンティック情報を確定し、逆に、複雑さが事前設定された複雑さを超えていない音声情報に対して、かかる時間が短い従来のセマンティック認識方法によって実際セマンティック情報を確定することができ、これにより、認識精度と認識速度のバランスをより良くする。

ステップ５０５：音声指示情報によって指示されるアクションの実行時刻を対応するテストオーディオファイルのインタラクション終了時刻として確定する。

ステップ５０６：各テストオーディオファイルのインタラクション開始時刻とインタラクション終了時刻との時間差を対応するテストオーディオファイルの音声応答速度として確定する。

ステップ５０７：各テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出する。

ステップ５０８：音声応答速度平均値を目標音声応答速度として確定する。
上記各実施例とは異なり、本実施例は、主に複数のテストオーディオファイルが存在する状況をオブジェクトとし、各テストオーディオファイルそれぞれの音声応答速度を個別に取得することで平均値を算出し、最終的に平均値をより正確な目標音声応答速度とする。

ただし、上記ステップ５０３～ステップ５０４で提供されるセマンティック認識によって音声指示情報を確定する方法は、この例の他のステップと必ずしも組み合わせて存在するわけではなく、フロー２００におけるステップ２０２での音声指示情報の確定部分を直接置き換えることもできる。

理解を深めるために、本開示はまた、具体的な応用シーンを組み合わせ、以下のいくつかのステップで完了する具体的な実現解決策を提供する。

ステップ１：オーディオテストセットを取得する。

テストセットは事前に用意されたオーディオファイルであり、オーディオフォーマットは音声インタラクションシステムで処理できる符号化フォーマットであり、例えばＰＣＭフォーマットが挙げられる。車載のシーンを例にとると、例示的な音声テストセットは、世界の窓へナビゲーション．ｐｃｍ、中国移動に電話．ｐｃｍ、ポップミュージックを聴きたい．ｐｃｍ等であってもよい。

ステップ２：テストデバイスで音声認識をオンにすると、音声認識モジュールは、録音されたオーディオデータの解析を開始し、テストセットにおけるオーディオファイルバイナリデータを規則正しく読み取り、バイナリオーディオデータを音声認識モジュールに送信する。

従来の解決策は、ハードウェア機器のマイク（ＭＩＣ）を介して外部サウンドを収集し、次に収集したオーディオデータを認識モジュールに送信する必要がある。ここで、テストセットにおけるオーディオファイルをバイナリストリームとして読み取り、次に認識モジュールに送信すればよい。認識モジュールは、ネットワーキング認識を実行する必要があるかに応じて、対応する認識操作を行い、次にセマンティックの解析結果を返す。

ステップ３：テストオーディオファイルがファイルの最後まで読み取られた後、音声インタラクションの開始時間を記録する。オーディオデータがすべて読み取られることは、認識の終了に相当し、セマンティック解析の過程が開始され、セマンティック結果が返されるのを待つ。

ステップ４：ログに記録されたデータから、セマンティック結果が取得される時間を確定し、これをインタラクション終了時間とする。

ステップ５：上記インタラクション開始時間及び上記インタラクション終了時間に基づいて音声インタラクション応答速度を計算する。

従来の方法と比較して、本実施例に係る技術的解決策は、需要テストセットオーディオファイルを一度準備するだけで再利用でき、上記テストステップを実行できる端末機器が１つだけ必要であり、他の再生ソース機器は必要なく、これにより、環境ノイズの干渉によって引き起こされる不正確な計算結果の問題を回避できる。他の再生ソースは必要なく、手動による介入も必要ないため、テスト結果を自動的に出力できる。異なる被測テスト端末機器の性能の違いは、結果にほとんど影響しない。ＵＩ（インターフェース）レンダリング、ＣＰＵによる合成音声（ＴＴＳ音声）の生成にかかる時間を考慮する必要がないため、音声応答の開始時間と終了時間を打点計算するだけで済む。

更に図６を参照すると、上記各図に示す方法に対する実現として、本開示は音声応答速度確定装置の１つ実施例を提供し、当該装置実施例は図２示す方法の実施例と対応し、当該装置は具体的に様々な電子機器に適用することができる。

図６に示すように、本実施例の音声応答速度確定装置６００は、データストリーム読み取り／開始時刻確定ユニット６０１、指示情報確定／終了時刻確定ユニット６０２、音声応答速度確定ユニット６０３を含んでもよい。データストリーム読み取り／開始時刻確定ユニット６０１は、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するように配置され、指示情報確定／終了時刻確定ユニット６０２は、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置され、音声応答速度確定ユニット６０３は、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するように配置される。

本実施例では、音声応答速度確定装置６００において、データストリーム読み取り／開始時刻確定ユニット６０１、指示情報確定／終了時刻確定ユニット６０２、音声応答速度確定ユニット６０３の具体的な処理及びそれらによってもたらされる技術的効果は、図２の対応する実施例のステップ２０１－２０３の関連する説明を参照することができ、ここでは繰り返しない。

本実施例のいくつかのオプションの実現形態では、指示情報確定／終了時刻確定ユニット６０２は、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される終了時刻確定サブユニットを含んでもよく、終了時刻確定サブユニットは、
音声指示情報によって指示されるアクションの実行オブジェクトを確定し、実行オブジェクトはローカルオブジェクトと非ローカルオブジェクトを含み、
実行オブジェクトが非ローカルオブジェクトであることに応答して、音声指示情報を転送非ローカルオブジェクトに転送し、
非ローカルオブジェクトが音声指示情報によって指示されるアクションを実行するように制御し、非ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを返すように制御し、
タイムスタンプによって記録された時刻をインタラクション終了時刻として確定するように配置される。

本実施例のいくつかのオプションの実現形態では、音声応答速度確定装置６００は、
音声指示情報及び／又は音声指示情報によって指示されるアクションをブロードキャストするように配置されるブロードキャストユニットと、
ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、エラーフィードバックに対応する音声指示情報及び／又は音声指示情報によって指示されるアクションにエラーマークを付くように配置されるエラーマークユニットと
エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了するように配置されるフォローアップアクション実行終了ユニットとをさらに含んでもよい。

本実施例のいくつかのオプションの実現形態では、指示情報確定／終了時刻確定ユニット６０２は、完全なデータストリームに含まれる音声指示情報を確定するように配置される指示情報確定サブユニットを含み、指示情報確定サブユニットは、
完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得するように配置されるセマンティック認識モジュールと、
実際セマンティック情報に対応する音声指示情報を確定するように配置される音声指示情報確定モジュールとを含んでもよい。

本実施例のいくつかのオプションの実現形態では、セマンティック認識モジュールは、さらに
完全なデータストリームから音声信号を抽出し、
音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、音声信号を入力して、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出し、セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであり、
セマンティック認識モデルによって返される実際セマンティック情報を受信するように配置されてもよい。

本実施例のいくつかのオプションの実現形態では、複数のテストオーディオファイルが存在することに応答して、
各テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出するように配置される平均値計算ユニットと、
音声応答速度平均値を目標音声応答速度として確定するように配置される目標音声応答速度確定ユニットとをさらに含んでもよい。

本実施例のいくつかのオプションの実現形態では、音声応答速度確定装置６００は、
テストオーディオファイルを構成するデータストリームを読み取る前に、音声指示情報を含むテストオーディオファイルを取得するように配置されるテストオーディオファイル取得ユニットを更に含んでもよい。

本実施例は、上記方法実施例に対応する装置実施例として存在し、本実施例に係る音声応答速度確定装置は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために１つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。

本開示の実施例によれば、本開示は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも１つのプロセッサによって実行されて、少なくとも１つのプロセッサに実行されると、上記いずれかの実施例に説明される音声応答速度確定方法が実現される電子機器を更に提供する。

本開示の実施例によれば、本開示は、コンピュータに実行させると、上記いずれかの実施例に説明される音声応答速度確定方法を実現するためのコンピュータ命令が記憶されている読み取り可能な記憶媒体を更に提供する。

本開示の実施例は、コンピュータプログラムがプロセッサによって実行されると、上記いずれかの実施例に説明される音声応答速度確定方法を実現するコンピュータプログラム製品を更に提供する。

図７は、本開示の実施例を実施可能な例示的な電子機器７００の模式ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び／又は要求される本開示の実現を制限することを意図はしない。

図７に示すように、機器７００は、読み取り専用（ＲＯＭ）７０２に記憶されたコンピュータプログラム又は記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット７０１を含む。ＲＡＭ７０３には、機器７００の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

機器７００の複数の部材はＩ／Ｏインターフェース７０５に接続され、マウス、キーボード等の入力ユニット７０６、たとえば、様々なタイプのディスプレイ、スピーカー等の出力ユニット７０７、磁気ディスク、光ディスク等の記憶ユニット７０８、及びネットワークカード、モデム、無線通信トランシーバ等の通信ユニット７０９を含む。通信ユニット７０９は、機器７００が例えばインターネットのコンピュータネットワーク及び／又は各種の電信ネットワークを介して他の機器と情報／データを交換することを可能とする。

計算ユニット７０１は、処理能力及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット７０１のいくつかの例には、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。計算ユニット７０１は、上述した様々な方法及び処理、例えば、音声応答速度確定を実行する。例えば、いくつかの実施例では、音声応答速度確定は、記憶ユニット７０８などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ＲＯＭ７０２及び／又は通信ユニット７０９を介して機器７００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ７０３にロードされ、計算ユニット７０１によって実行されると、上述した音声応答速度確定の１つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット７０１は、他の任意の適切な方法で（例えば、ファームウェアによって）、音声応答速度確定を実行するように構成されてもよい。

本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジック機器（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置に送信することができる。

本開示の方法を実施するためのプログラムコードは１つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び／又はブロック図に規定された機能／動作が実施される。プログラムコードは機械で完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。

ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置（例えば、マウスやトラックボール）を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であってもよく、そして、ユーザからの入力は、任意の形式（音響入力、音声入力、又は触覚入力を含む）で受信できる。

ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はネットワークブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのネットワークブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、これは、従来の物理ホストと仮想プライベートサーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおいて管理が難しく、ビジネスのスケーラビリティが弱いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品である。

本開示の実施例は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために１つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。

なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者にとって自明なように、設計要件及び他の要因に従って様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置き換え及び改善等は、本開示の保護範囲に含まれるものとする。

Claims

テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定することと、
前記完全なデータストリームに含まれる音声指示情報を確定し、前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定することと、
前記インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定することとを含む音声応答速度確定方法。
前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定することは、
前記音声指示情報によって指示されるアクションの実行オブジェクトを確定することであって、前記実行オブジェクトはローカルオブジェクトと非ローカルオブジェクトを含むことと、
前記実行オブジェクトが前記非ローカルオブジェクトであることに応答して、前記音声指示情報を前記非ローカルオブジェクトに転送することと、
前記非ローカルオブジェクトが前記音声指示情報によって指示されるアクションを実行するように制御し、前記非ローカルオブジェクトが前記指示されるアクションを実行するタイムスタンプを返すように制御することと、
前記タイムスタンプによって記録された時刻を前記インタラクション終了時刻として確定することとを含む請求項１に記載の方法。
前記音声指示情報及び／又は前記音声指示情報によって指示されるアクションをブロードキャストすることと、
ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、前記エラーフィードバックに対応する音声指示情報及び／又は音声指示情報によって指示されるアクションにエラーマークを付くことと、
前記エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了することとをさらに含む請求項１に記載の方法。
前記完全なデータストリームに含まれる音声指示情報を確定することは、
前記完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得することと、
前記実際セマンティック情報に対応する音声指示情報を確定することとを含む請求項１に記載の方法。
前記完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得することとは、
前記完全なデータストリームから前記音声信号を抽出することと、
前記音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、前記音声信号を入力して、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出すことであって、前記セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであることと、
前記セマンティック認識モデルによって返される実際セマンティック情報を受信することとを含む請求項４に記載の方法。
複数の前記テストオーディオファイルが存在することに応答して、
各前記テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出することと、
前記音声応答速度平均値を目標音声応答速度として確定することとをさらに含む請求項１に記載の方法。
テストオーディオファイルを構成するデータストリームを読み取る前に、
前記音声指示情報を含むテストオーディオファイルを取得することをさらに含む請求項１－６のいずれか１項に記載の方法。
テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するように配置されるデータストリーム読み取り／開始時刻確定ユニットと、
前記完全なデータストリームに含まれる音声指示情報を確定し、前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される指示情報確定／終了時刻確定ユニットと、
前記インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するように配置される音声応答速度確定ユニットとを含む音声応答速度確定装置。
前記指示情報確定／終了時刻確定ユニットは、前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される終了時刻確定サブユニットを含み、前記終了時刻確定サブユニットは、さらに、
前記音声指示情報によって指示されるアクションの実行オブジェクトを確定し、前記実行オブジェクトはローカルオブジェクトと非ローカルオブジェクトを含み、
前記実行オブジェクトが前記非ローカルオブジェクトであることに応答して、前記音声指示情報を前記非ローカルオブジェクトに転送し、
前記非ローカルオブジェクトが前記音声指示情報によって指示されるアクションを実行するように制御し、前記非ローカルオブジェクトが前記指示されるアクションを実行するタイムスタンプを返すように制御し、
前記タイムスタンプによって記録された時刻を前記インタラクション終了時刻として確定するように配置される請求項８に記載の装置。
前記音声指示情報及び／又は前記音声指示情報によって指示されるアクションをブロードキャストするように配置されるブロードキャストユニットと、
ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、前記エラーフィードバックに対応する音声指示情報及び／又は音声指示情報によって指示されるアクションにエラーマークを付くように配置されるエラーマークユニットと、
前記エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了するように配置されるフォローアップアクション実行終了ユニットとをさらに含む請求項８に記載の装置。
前記指示情報確定／終了時刻確定ユニットは、前記完全なデータストリームに含まれる音声指示情報を確定するように配置される指示情報確定サブユニットを含み、前記指示情報確定サブユニットは、
前記完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得するように配置されるセマンティック認識モジュールと、
前記実際セマンティック情報に対応する音声指示情報を確定するように配置される音声指示情報確定モジュールとを含む請求項８に記載の装置。
前記セマンティック認識モジュールは、さらに、
前記完全なデータストリームから前記音声信号を抽出し、
前記音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、前記音声信号を入力し、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出し、前記セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであり、
前記セマンティック認識モデルによって返される実際セマンティック情報を受信するように配置される請求項１１に記載の装置。
複数の前記テストオーディオファイルが存在することに応答して、
各前記テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出するように配置される平均値計算ユニットと、
前記音声応答速度平均値を目標音声応答速度として確定するように配置される目標音声応答速度確定ユニットとをさらに含む請求項８に記載の装置。
テストオーディオファイルを構成するデータストリームを読み取る前に、前記音声指示情報を含むテストオーディオファイルを取得するように配置されるテストオーディオファイル取得ユニットをさらに含む請求項８－１３のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも１つのプロセッサによって実行されて、請求項１－７のいずれか１項に記載の音声応答速度確定方法を前記少なくとも１つのプロセッサに実行させる電子機器。
請求項１－７のいずれか１項に記載の音声応答速度確定方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行されると、請求項１－７のいずれか１項に記載の音声応答速度確定方法を実現するコンピュータプログラム。