JP2022091933A - 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム - Google Patents

音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022091933A
JP2022091933A JP2022059733A JP2022059733A JP2022091933A JP 2022091933 A JP2022091933 A JP 2022091933A JP 2022059733 A JP2022059733 A JP 2022059733A JP 2022059733 A JP2022059733 A JP 2022059733A JP 2022091933 A JP2022091933 A JP 2022091933A
Authority
JP
Japan
Prior art keywords
instruction information
voice
response speed
voice instruction
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022059733A
Other languages
English (en)
Other versions
JP7375089B2 (ja
Inventor
フーユー ジャン
Fuyu Zhang
ロン リュウ
Rong Liu
クン ワン
Kun Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022091933A publication Critical patent/JP2022091933A/ja
Application granted granted Critical
Publication of JP7375089B2 publication Critical patent/JP7375089B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】音声応答速度確定方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、テストオーディオファイルを構成するデータストリームを読み取り完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するステップと、完全なデータストリームに含まれる音声指示情報を確定して音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するステップと、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するステップと、を含む。【選択図】図2

Description

本開示はデータ処理技術分野に関し、具体的には音声認識、自然言語処理、深層学習などの人工知能技術分野に関し、特に音声応答速度確定方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。
エンドツーエンドの音声応答速度は、通常、機械が外界から停止音声入力を受信してから、機械がユーザの意図を実行するまでの時間を指す。この指標は、音声認識の効果を評価するための重要な指標であり、応答速度はユーザエクスペリエンスに直接影響する。
現在、エンドツーエンドの音声応答速度の統計的手法は、ほとんどの場合、テストビデオ全体の開始時間と終了時間を手動で選択することによって確定される。これには、少なくとも2つのデバイスが連携することで実現する必要がある。
本開示の実施例は、音声応答速度確定方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。
第1の形態では、本開示の実施例は、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定することと、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定することと、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定することとを含む音声応答速度確定方法を提供する。
第2の形態では、本開示の実施例は、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するように配置されるデータストリーム読み取り/開始時刻確定ユニットと、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される指示情報確定/終了時刻確定ユニットと、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するように配置される音声応答速度確定ユニットとを含む音声応答速度確定装置を提供する。
第3の形態では、本開示の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも1つのプロセッサによって実行され、少なくとも1つのプロセッサによって実行されると、第1の形態のいずれかの実現形態に説明される音声応答速度確定方法が実行される電子機器を提供する。
第4の形態では、本開示の実施例は、コンピュータによって実行されると、第1の形態のいずれかの実現形態に説明される音声応答速度確定方法を実現するコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
第5の形態では、本開示の実施例は、プロセッサによって実行されると、第1の形態のいずれかの実現形態に説明される音声応答速度確定方法を実現するコンピュータプログラムを提供する。
本開示の実施例に係る音声応答速度確定方法は、まず、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定し、次に、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定し、最後に、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定する。
当該方法は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために1つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。
理解できるように、この部分に記載の内容は本開示の実施例の肝心又は重要な特徴を特定することを意図するものでもなく、本開示の範囲を限定するものではない。本開示のほかの特徴は以下の明細書によって容易に理解されるようになる。
以下の図面を参照して非限定的な実施例の詳細な説明を読むことにより、本開示の他の特徴、目的、および利点がより明らかになる。
本開示を適用できる例示的なシステムアーキテクチャ図である。 本開示の実施例に係る音声応答速度確定方法のフローチャートである。 本開示の実施例に係るインタラクション終了時刻の確定方法のフローチャートである。 本開示の実施例に係るエラーフィードバックをブロードキャストして受信しオブジェクト的処理を行う方法のフローチャートである。 本開示の実施例に係る別の音声応答速度確定方法のフローチャートである。 本開示の実施例に係る音声応答速度確定装置の構造ブロック図である。 本開示の実施例に係る音声応答速度確定方法を実行するのに適した電子機器の構造模式図である。
以下、図面を参照しながら本開示の例示的な実施例を説明し、理解を助けるように本開示の実施例の様々な細部が含まれているが、単なる例示的なものであると考えられる。従って、当業者が理解できるように、本開示の範囲及び趣旨を逸脱せずに、ここで説明される実施例に対して種々の変更や修正を行うことができる。同様に、明確化及び簡明化のために、以下の説明では公知の機能及び構造についての説明は省略される。ただし、本開示における実施例及び実施例における特徴は、矛盾がない場合、互いに組み合わせることができる。
本開示の技術的解決策では、関連するユーザの個人情報の取得、保存、および適用は、関連する法律および規制に準拠し、必要な機密保持措置が講じられており、公序良俗に違反していない。
図1は、本開示の音声応答速度確定方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体が適応可能な実施例の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、テストオーディオ提供端末101、102、103、ネットワーク104及びセマンティック応答速度確定端末105を含んでもよい。ネットワーク104は、テストオーディオ提供端末101、102、103と音声応答速度確定端末105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、例えば、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプを含んでもよい。
テストオーディオ提供端末101、102、103は、テストオーディオファイルが記憶されている異なるキャリアであり、テストオーディオファイルはネットワーク104を介して音声応答速度確定端末105に伝送することができる。テストオーディオ提供端末101、102、103及び音声応答速度確定端末105には、両者間の情報通信を実現するための様々なアプリケーションをインストールすることができ、例えばオーディオファイル伝送アプリケーション、応答速度分析アプリケーション、エラー報告およびフィードバックアプリケーション等が挙げられる。
テストオーディオ提供端末101、102、103及び音声応答速度確定端末105はハードウェアであってもよく、ソフトウェアであってもよい。テストオーディオ提供端末101、102、103がハードウェアである場合、オーディオファイルの記憶及び伝送機能を有する様々な電子機器であってもよく、スマートフォン、タブレット、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。テストオーディオ提供端末101、102、103がソフトウェアである場合、以上に挙げられる電子機器にインストールすることができ、複数のソフトウェア又はソフトウェアモジュールとして実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよく、ここでは特に限定されない。音声応答速度確定端末105がハードウェアである場合、複数の音声応答速度確定端末からなる分散型音声応答速度確定端末クラスタとして実現されてもよく、単一の音声応答速度確定端末として実現されてもよく、音声応答速度確定端末がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュールとして実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよく、ここでは特に限定されない。
音声応答速度確定端末105は、様々な組み込みアプリケーションを通じて様々なサービスを提供することができる。確定音声応答速度サービスを提供することができる応答速度分析アプリケーションを例にとると、音声応答速度確定端末105は、当該応答速度分析アプリケーションを実行する時に以下の効果を達成することができる。まず、ネットワーク104を介してテストオーディオ提供端末101、102、103からテストオーディオファイルを取得し、次に、当該テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定し、さらに、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定し、最後に、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定する。さらに、確定された音声応答速度を結果として事前設定された位置に出力する。
ただし、テストオーディオファイルは、ネットワーク104を介してテストオーディオ提供端末101、102、103から取得することができる以外、様々な方法音声応答速度確定端末105にローカルに事前に記憶されてもよい(例えば、テストオーディオファイルはSDカードに記憶されてから音声応答速度確定端末105のSDカードスロットに挿入される)。従って、当音声応答速度確定端末105は、これらのデータ(例えば処理を開始する前に保存された処理すべきテストオーディオファイル)がローカルに記憶されていることを検出した場合、ローカルからこれらのデータを直接取得することができ、この場合、例示的なシステムアーキテクチャ100はテストオーディオ提供端末101、102、103及びネットワーク104を含まなくてもよい。
本開示の後続の実施例に係る音声応答速度確定方法は、一般に、音声応答速度確定端末105によって実行される。それに対応して、音声応答速度確定装置も、一般に、音声応答速度確定端末105に設置される。テストオーディオ提供端末101、102、103及びネットワーク104は、音声応答速度確定端末105がテストオーディオファイルを取得するためのものに過ぎず、即ち、テストオーディオファイルを保持した後、上記のステップで実行できる任意の装置を音声応答速度確定装置として使用することができることを強調すべきである。例えばテストオーディオ提供端末101、102、103は同時に音声応答速度確定端末105として機能することもできる。
図1におけるテストオーディオ提供端末、ネットワーク及び音声応答速度確定端末の数は、単なる例示であることを理解される。実現の必要性に応じて、任意の数のテストオーディオ提供端末、ネットワーク及び音声応答速度確定端末が存在し得る。
図2を参照すると、図2は、本開示の実施例に係る音声応答速度確定方法のフローチャートであり、フロー200は、次のステップを含む。
ステップ201:テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定する。
バイナリの目的は、音声応答速度確定方法の実行体(例えば図1に示すサーバ105)により、読み取り操作によってテストオーディオファイルのデータストリームを取得し、完全なデータストリームが読み取られた時刻を音声応答過程のインタラクション開始時刻として確定することである。
通常、テストオーディオファイルはバイナリデータで構成されており、読み取り操作も、当該テストオーディオファイルを構成するバイナリデータストリームを読み取って取得する操作であり、読み取りにかかる時間は、テストオーディオファイルのサイズに正比例し、ある程度は読み取り方法に依存する。完全なデータストリームが読み取られた後、テストオーディオファイルに含まれる有効な情報を確定する必要がないため、完全なデータストリームが読み取られることは、本質的に、従来技術においてテストデバイスがユーザから送信された完全な音声データを受信したことと確認したことと本質的に同等であるため、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定する。
従来の方法で完全な音声データが受信されるかを確定するために使用される検証期間(すなわち、検証期間内に新しい音声データが受信されていない)と比較して、本実施例は、他の主体からの音声信号を受信する方法を採用せず、テストオーディオファイルを自体で直接読み取る方法を採用しているため、テストオーディオファイルを読み取った後、検証期間を設定せずにインタラクションの開始時刻をタイムリーに確定することができる。
ステップ202:完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定する。
ステップ201に基づいて、本ステップの目的は、上記実行体により、まず、読み取られた完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定する。
そのうち、音声指示情報が「エアコンの電源を入れる」、「XX曲を再生する」、「今日の天気を確認する」などの操作指示であってもよく、それに対応して、対応すする指示されるアクションは、「エアコンを制御して電源を入れるための制御指示を発する」、「プレーヤーをオンにして、XXという名前の曲を検索して再生する」、「天気予報アプリケーションを開いて、その日の天気情報をブロードキャストする」であってもよく、インタラクション終了時刻は即ち上記アクションの実行体が上記アクションを実行する時刻であり、ただし、上記アクションの実行体は上記実行体であってもよく、別の実行体であってもよい。
音声指示情報を確定する方法は、例えばテキスト認識、音声コンテンツ認識、セマンティック分析等様々ある。
ステップ203:インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定する。
ステップ201及びステップ202に基づいて、本ステップの目的は、インタラクション開始時刻及びインタラクション終了時刻に基づいて、当該テストオーディオファイルに対応する音声応答速度を確定することである。インタラクション終了時刻とインタラクション開始時刻との時間差を計算することにより、当該時間差を音声応答速度として確定する。一部のシナリオでは、当該音声応答速度がユーザの実際のエクスペリエンスとより一致するように、時間差に基づいて、一部の偏差値を修正する必要がある。
本開示の実施例に係る音声応答速度確定方法は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために1つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。
図3を参照すると、図3は本開示の実施例に係るインタラクション終了時刻の確定方法のフローチャートであり、即ち、図2に示すフロー200におけるステップ202でのインタラクション終了時刻確定部分に対して、具体的な実現形態を提供する。フロー200における他のステップを調整せず、本実施例に係る具体的な実現形態で、ステップ202でのインタラクション終了時刻確定部分を置き換えることで、新しい完全な実施例を得る。フロー300は、次のステップを含む。
ステップ301:音声指示情報によって指示されるアクションの実行オブジェクトを確定する。
本ステップの目的は、上記実行体により、確定された音声指示情報に基づいて、指示されるアクションの実行オブジェクトを確定することであり、当該音声指示情報が「エアコンの電源を入れる」であると仮定すると、「エアコンの電源を入れる」アクションを実行するオブジェクトは、少なくともエアコンを制御できる、「エアコンのリモコン」、「ホームコントロール端末」等の関連機器である必要がある。
ステップ302:実行オブジェクトが非ローカルオブジェクトであるかどうかを判断し、非ローカルオブジェクトである場合、ステップ304を実行し、そうでない場合、ステップ305を実行する。
ステップ301に基づいて、本ステップの目的は、上記実行体により、確定された実行オブジェクトが非ローカルオブジェクトであるかどうかを判断することである。
上記実行体が指示されるアクションの実行を直接制御するかどうかによって、指定オブジェクトは、ローカルオブジェクトと非ローカルオブジェクトの2つのカテゴリに分類でき、ローカルオブジェクトは、上記実行体が指示されるアクションの実行を直接制御できるオブジェクトであり、非ローカルオブジェクトは、上記実行体が指示されるアクションの実行を直接制御できないが間接制御できるオブジェクトである。
依然として「エアコンの電源を入れる」を例にとると、上記実行体自体はエアコンの電源を入れるように制御する能力を持っていると、実行オブジェクトはローカルオブジェクトであり、上記実行体自体はエアコンの電源を入れるように制御する能力を持っておらず、間接的にエアコンの電源を入れるために他の機器を制御する必要があると、実行オブジェクトはエアコンの電源を入れるように制御する能力を持っている機器であり、従って、非ローカルオブジェクトである。
ステップ303:音声指示情報を非ローカルオブジェクトに転送する。
ステップ304:非ローカルオブジェクトが音声指示情報によって指示されるアクションを実行するように制御し、非ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを返すように制御する。
ステップ303-ステップ304は、ステップ302の判断結果は実行オブジェクトが非ローカルオブジェクトであることであることに基づくものであり、その目的は、上記主体によって音声指示情報を当該非ローカルオブジェクトに転送し、且つ、当該非ローカル機器が受信した音声指示情報に基づいて対応する指示されるアクションを実行するように制御し、当該非ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを返すように制御することにより、上記実行体が当該タイムスタンプに基づいて実際のインタラクション終了時間を確定することである。
ステップ305:ローカルオブジェクトが音声指示情報によって指示されるアクションを実行するように制御する。
ステップ306:ローカルの実行ログから、ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを取得する。
ステップ305-ステップ306は、ステップ302の判断結果は実行オブジェクトがローカルオブジェクトであることであることに基づくものであり、その目的は、上記主体によって、当該ローカル機器が音声指示情報で指示されるアクションを実行するように直接制御し、且つ、ローカルの実行ログを読み取ることによって、指示されるアクションを実行するタイムスタンプを取得することにより、上記実行体が当該タイムスタンプに基づいて実際のインタラクション終了時間を確定することである。
ステップ307:タイムスタンプによって記録された時刻をインタラクション終了時刻として確定する。
本実施例は、より包括的な状況に対応するように、音声指示情報によって指示されるアクションの実行オブジェクトがローカルオブジェクトであるか非ローカルオブジェクトであるかを判別することにより、インタラクション終了時刻を確定する異なる実現解決策を提供する。
図4を参照すると、図4は本開示の実施例に係るエラーフィードバックをブロードキャストして受信しオブジェクト的処理を行う方法のフローチャートであり、図2に示すフロー200におけるステップ202で確定された音声指示情報及びその指示されるアクションに対して、追加の処理方法を提供し、当該処理方法により、音声指示情報の確定及び指示されるアクションの確定にエラーがあるかどうかを確定し、更にその後の無効なアクションの実行を回避する。フロー200における他のステップを調整せず、本実施例に係る具体的な実現形態をフロー200の対応する部分に追加する方法で、新しい完全な実施例を得る。フロー400は、次のステップを含む。
ステップ401:音声指示情報及び/又は音声指示情報によって指示されるアクションをブロードキャストする。
本ステップの目的は、上記実行体により、音声ブロードキャストの方法を通じて、現在確定された音声指示情報及び/又は音声指示情報によって指示されるアクションをテスターに通知し、これにより、音声ブロードキャストを通じて、確定された音声指示情報及び/又は音声指示情報によって指示されるアクションが正しいかどうかをテスターに知らせる。もちろん、音声ブロードキャストの方法に加えて、表示画面に画面投影する又は出力するなどの方法を用いて、上記情報をテスターに知らせることもでき、実際の状況に応じて柔軟に選択できる。本実施例は実施形態の例に過ぎない。
ステップ402:ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、エラーフィードバックに対応する音声指示情報及び/又は音声指示情報によって指示されるアクションにエラーマークを付く。
ステップ401に基づいて、本ステップの目的は、上記実行体により、ブロードキャストコンテンツに対するエラーフィードバックを受信した場合、エラーフィードバックに対応する音声指示情報及び/又は音声指示情報によって指示されるアクションにエラーマークを付くことである。
例えば、現在ブロードキャストされている音声指示情報が「ブラウザを確認する」であるが、テスターは、当該テストオーディオファイルに含まれる実際の音声指示情報が「天気を確認する」であることを事前に知っているので、音声指示情報を確定する際に上記の実行体が誤りを犯したことが容易に判断できる。ソース情報に誤りがある場合、その後に確定された指示されるアクション、実行及び音声応答速度はいずれも無効である。従って、その後の無効なアクションの実行を回避するために、本ステップの目的は、エラーマークを付くことである。
ステップ403:エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了する。
ステップ402に基づいて、本ステップの目的は、上記実行体により、エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了することで、その後の無効なアクションの実行を回避する。
図5を参照すると、図5は本開示の実施例に係る別の音声応答速度確定方法のフローチャートであり、フロー500、次のステップを含む。
ステップ501:音声指示情報を含む複数のテストオーディオファイルを取得する。
ステップ502:各テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻を対応するテストオーディオファイルのインタラクション開始時刻として確定する。
ステップ503:完全なデータストリームにおける音声信号をセマンティック認識し、対応するテストオーディオファイルの実際セマンティック情報を取得する。
ステップ504:実際セマンティック情報に対応する音声指示情報を確定する。
ステップ503-ステップ504の目的は、上記実行体により、セマンティック認識の方法を通じて、対応するテストオーディオファイルの実際セマンティック情報を取得し、更に実際セマンティック情報に基づいて音声指示情報を確定することでる。
セマンティック認識効果とセマンティクス認識される実際のセマンティック情報の精度を可能な限り向上させるために、機械学習と深層学習に基づいて訓練されたセマンティック認識モデルを使用することもできるが、認識にかかる時間を同時に比較検討するために、音声信号の複雑さに合わせて包括的な処理方法を策定することもできる。以下の方法を含むがこれに限定されない。当該方法は、
完全なデータストリームから音声信号を抽出することと、
音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、音声信号を入力して、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出すことであって、当該セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであることと、
セマンティック認識モデルによって返される実際セマンティック情報を受信することとを含む。
つまり、上記実施例は、複雑さが事前設定された複雑さを超えた音声信号のみに対してセマンティック認識モデルを呼び出して実際セマンティック情報を確定し、逆に、複雑さが事前設定された複雑さを超えていない音声情報に対して、かかる時間が短い従来のセマンティック認識方法によって実際セマンティック情報を確定することができ、これにより、認識精度と認識速度のバランスをより良くする。
ステップ505:音声指示情報によって指示されるアクションの実行時刻を対応するテストオーディオファイルのインタラクション終了時刻として確定する。
ステップ506:各テストオーディオファイルのインタラクション開始時刻とインタラクション終了時刻との時間差を対応するテストオーディオファイルの音声応答速度として確定する。
ステップ507:各テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出する。
ステップ508:音声応答速度平均値を目標音声応答速度として確定する。
上記各実施例とは異なり、本実施例は、主に複数のテストオーディオファイルが存在する状況をオブジェクトとし、各テストオーディオファイルそれぞれの音声応答速度を個別に取得することで平均値を算出し、最終的に平均値をより正確な目標音声応答速度とする。
ただし、上記ステップ503~ステップ504で提供されるセマンティック認識によって音声指示情報を確定する方法は、この例の他のステップと必ずしも組み合わせて存在するわけではなく、フロー200におけるステップ202での音声指示情報の確定部分を直接置き換えることもできる。
理解を深めるために、本開示はまた、具体的な応用シーンを組み合わせ、以下のいくつかのステップで完了する具体的な実現解決策を提供する。
ステップ1:オーディオテストセットを取得する。
テストセットは事前に用意されたオーディオファイルであり、オーディオフォーマットは音声インタラクションシステムで処理できる符号化フォーマットであり、例えばPCMフォーマットが挙げられる。車載のシーンを例にとると、例示的な音声テストセットは、世界の窓へナビゲーション.pcm、中国移動に電話.pcm、ポップミュージックを聴きたい.pcm等であってもよい。
ステップ2:テストデバイスで音声認識をオンにすると、音声認識モジュールは、録音されたオーディオデータの解析を開始し、テストセットにおけるオーディオファイルバイナリデータを規則正しく読み取り、バイナリオーディオデータを音声認識モジュールに送信する。
従来の解決策は、ハードウェア機器のマイク(MIC)を介して外部サウンドを収集し、次に収集したオーディオデータを認識モジュールに送信する必要がある。ここで、テストセットにおけるオーディオファイルをバイナリストリームとして読み取り、次に認識モジュールに送信すればよい。認識モジュールは、ネットワーキング認識を実行する必要があるかに応じて、対応する認識操作を行い、次にセマンティックの解析結果を返す。
ステップ3:テストオーディオファイルがファイルの最後まで読み取られた後、音声インタラクションの開始時間を記録する。オーディオデータがすべて読み取られることは、認識の終了に相当し、セマンティック解析の過程が開始され、セマンティック結果が返されるのを待つ。
ステップ4:ログに記録されたデータから、セマンティック結果が取得される時間を確定し、これをインタラクション終了時間とする。
ステップ5:上記インタラクション開始時間及び上記インタラクション終了時間に基づいて音声インタラクション応答速度を計算する。
従来の方法と比較して、本実施例に係る技術的解決策は、需要テストセットオーディオファイルを一度準備するだけで再利用でき、上記テストステップを実行できる端末機器が1つだけ必要であり、他の再生ソース機器は必要なく、これにより、環境ノイズの干渉によって引き起こされる不正確な計算結果の問題を回避できる。他の再生ソースは必要なく、手動による介入も必要ないため、テスト結果を自動的に出力できる。異なる被測テスト端末機器の性能の違いは、結果にほとんど影響しない。UI(インターフェース)レンダリング、CPUによる合成音声(TTS音声)の生成にかかる時間を考慮する必要がないため、音声応答の開始時間と終了時間を打点計算するだけで済む。
更に図6を参照すると、上記各図に示す方法に対する実現として、本開示は音声応答速度確定装置の1つ実施例を提供し、当該装置実施例は図2示す方法の実施例と対応し、当該装置は具体的に様々な電子機器に適用することができる。
図6に示すように、本実施例の音声応答速度確定装置600は、データストリーム読み取り/開始時刻確定ユニット601、指示情報確定/終了時刻確定ユニット602、音声応答速度確定ユニット603を含んでもよい。データストリーム読み取り/開始時刻確定ユニット601は、テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するように配置され、指示情報確定/終了時刻確定ユニット602は、完全なデータストリームに含まれる音声指示情報を確定し、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置され、音声応答速度確定ユニット603は、インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するように配置される。
本実施例では、音声応答速度確定装置600において、データストリーム読み取り/開始時刻確定ユニット601、指示情報確定/終了時刻確定ユニット602、音声応答速度確定ユニット603の具体的な処理及びそれらによってもたらされる技術的効果は、図2の対応する実施例のステップ201-203の関連する説明を参照することができ、ここでは繰り返しない。
本実施例のいくつかのオプションの実現形態では、指示情報確定/終了時刻確定ユニット602は、音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される終了時刻確定サブユニットを含んでもよく、終了時刻確定サブユニットは、
音声指示情報によって指示されるアクションの実行オブジェクトを確定し、実行オブジェクトはローカルオブジェクトと非ローカルオブジェクトを含み、
実行オブジェクトが非ローカルオブジェクトであることに応答して、音声指示情報を転送非ローカルオブジェクトに転送し、
非ローカルオブジェクトが音声指示情報によって指示されるアクションを実行するように制御し、非ローカルオブジェクトが指示されるアクションを実行するタイムスタンプを返すように制御し、
タイムスタンプによって記録された時刻をインタラクション終了時刻として確定するように配置される。
本実施例のいくつかのオプションの実現形態では、音声応答速度確定装置600は、
音声指示情報及び/又は音声指示情報によって指示されるアクションをブロードキャストするように配置されるブロードキャストユニットと、
ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、エラーフィードバックに対応する音声指示情報及び/又は音声指示情報によって指示されるアクションにエラーマークを付くように配置されるエラーマークユニットと
エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了するように配置されるフォローアップアクション実行終了ユニットとをさらに含んでもよい。
本実施例のいくつかのオプションの実現形態では、指示情報確定/終了時刻確定ユニット602は、完全なデータストリームに含まれる音声指示情報を確定するように配置される指示情報確定サブユニットを含み、指示情報確定サブユニットは、
完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得するように配置されるセマンティック認識モジュールと、
実際セマンティック情報に対応する音声指示情報を確定するように配置される音声指示情報確定モジュールとを含んでもよい。
本実施例のいくつかのオプションの実現形態では、セマンティック認識モジュールは、さらに
完全なデータストリームから音声信号を抽出し、
音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、音声信号を入力して、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出し、セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであり、
セマンティック認識モデルによって返される実際セマンティック情報を受信するように配置されてもよい。
本実施例のいくつかのオプションの実現形態では、複数のテストオーディオファイルが存在することに応答して、
各テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出するように配置される平均値計算ユニットと、
音声応答速度平均値を目標音声応答速度として確定するように配置される目標音声応答速度確定ユニットとをさらに含んでもよい。
本実施例のいくつかのオプションの実現形態では、音声応答速度確定装置600は、
テストオーディオファイルを構成するデータストリームを読み取る前に、音声指示情報を含むテストオーディオファイルを取得するように配置されるテストオーディオファイル取得ユニットを更に含んでもよい。
本実施例は、上記方法実施例に対応する装置実施例として存在し、本実施例に係る音声応答速度確定装置は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために1つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。
本開示の実施例によれば、本開示は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに実行されると、上記いずれかの実施例に説明される音声応答速度確定方法が実現される電子機器を更に提供する。
本開示の実施例によれば、本開示は、コンピュータに実行させると、上記いずれかの実施例に説明される音声応答速度確定方法を実現するためのコンピュータ命令が記憶されている読み取り可能な記憶媒体を更に提供する。
本開示の実施例は、コンピュータプログラムがプロセッサによって実行されると、上記いずれかの実施例に説明される音声応答速度確定方法を実現するコンピュータプログラム製品を更に提供する。
図7は、本開示の実施例を実施可能な例示的な電子機器700の模式ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本開示の実現を制限することを意図はしない。
図7に示すように、機器700は、読み取り専用(ROM)702に記憶されたコンピュータプログラム又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット701を含む。RAM703には、機器700の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット701、ROM702及びRAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
機器700の複数の部材はI/Oインターフェース705に接続され、マウス、キーボード等の入力ユニット706、たとえば、様々なタイプのディスプレイ、スピーカー等の出力ユニット707、磁気ディスク、光ディスク等の記憶ユニット708、及びネットワークカード、モデム、無線通信トランシーバ等の通信ユニット709を含む。通信ユニット709は、機器700が例えばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能とする。
計算ユニット701は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例には、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。計算ユニット701は、上述した様々な方法及び処理、例えば、音声応答速度確定を実行する。例えば、いくつかの実施例では、音声応答速度確定は、記憶ユニット708などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ROM 702及び/又は通信ユニット709を介して機器700にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 703にロードされ、計算ユニット701によって実行されると、上述した音声応答速度確定の1つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット701は、他の任意の適切な方法で(例えば、ファームウェアによって)、音声応答速度確定を実行するように構成されてもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは機械で完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(例えば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はネットワークブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのネットワークブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、これは、従来の物理ホストと仮想プライベートサーバ(VPS、Virtual Private Server)サービスにおいて管理が難しく、ビジネスのスケーラビリティが弱いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品である。
本開示の実施例は、従来技術ではテストデバイスによりテスターによって話された音声信号を収集するか、または別の再生機器によって声音データを再生する方法の代わりに、音声指示情報を含むテストオーディオファイルのデータストリームを直接読み取り、且つ、データストリームを直接読み取ることで、検証時間を待たずに、インタラクション開始時刻をタイムリーに確定することができ、自動化確定手順のセット全体を完了するために1つのテストデバイスのみが必要であり、テストデバイスが削減され、検証時間を待つことが回避され、音声応答速度を確定する効率とコストが改善される。
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者にとって自明なように、設計要件及び他の要因に従って様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置き換え及び改善等は、本開示の保護範囲に含まれるものとする。

Claims (17)

  1. テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定することと、
    前記完全なデータストリームに含まれる音声指示情報を確定し、前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定することと、
    前記インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定することとを含む音声応答速度確定方法。
  2. 前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定することは、
    前記音声指示情報によって指示されるアクションの実行オブジェクトを確定することであって、前記実行オブジェクトはローカルオブジェクトと非ローカルオブジェクトを含むことと、
    前記実行オブジェクトが前記非ローカルオブジェクトであることに応答して、前記音声指示情報を前記非ローカルオブジェクトに転送することと、
    前記非ローカルオブジェクトが前記音声指示情報によって指示されるアクションを実行するように制御し、前記非ローカルオブジェクトが前記指示されるアクションを実行するタイムスタンプを返すように制御することと、
    前記タイムスタンプによって記録された時刻を前記インタラクション終了時刻として確定することとを含む請求項1に記載の方法。
  3. 前記音声指示情報及び/又は前記音声指示情報によって指示されるアクションをブロードキャストすることと、
    ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、前記エラーフィードバックに対応する音声指示情報及び/又は音声指示情報によって指示されるアクションにエラーマークを付くことと、
    前記エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了することとをさらに含む請求項1に記載の方法。
  4. 前記完全なデータストリームに含まれる音声指示情報を確定することは、
    前記完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得することと、
    前記実際セマンティック情報に対応する音声指示情報を確定することとを含む請求項1に記載の方法。
  5. 前記完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得することとは、
    前記完全なデータストリームから前記音声信号を抽出することと、
    前記音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、前記音声信号を入力して、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出すことであって、前記セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであることと、
    前記セマンティック認識モデルによって返される実際セマンティック情報を受信することとを含む請求項4に記載の方法。
  6. 複数の前記テストオーディオファイルが存在することに応答して、
    各前記テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出することと、
    前記音声応答速度平均値を目標音声応答速度として確定することとをさらに含む請求項1に記載の方法。
  7. テストオーディオファイルを構成するデータストリームを読み取る前に、
    前記音声指示情報を含むテストオーディオファイルを取得することをさらに含む請求項1-6のいずれか1項に記載の方法。
  8. テストオーディオファイルを構成するデータストリームを読み取り、完全なデータストリームが読み取られる時刻をインタラクション開始時刻として確定するように配置されるデータストリーム読み取り/開始時刻確定ユニットと、
    前記完全なデータストリームに含まれる音声指示情報を確定し、前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される指示情報確定/終了時刻確定ユニットと、
    前記インタラクション開始時刻及びインタラクション終了時刻に基づいて音声応答速度を確定するように配置される音声応答速度確定ユニットとを含む音声応答速度確定装置。
  9. 前記指示情報確定/終了時刻確定ユニットは、前記音声指示情報によって指示されるアクションの実行時刻をインタラクション終了時刻として確定するように配置される終了時刻確定サブユニットを含み、前記終了時刻確定サブユニットは、さらに、
    前記音声指示情報によって指示されるアクションの実行オブジェクトを確定し、前記実行オブジェクトはローカルオブジェクトと非ローカルオブジェクトを含み、
    前記実行オブジェクトが前記非ローカルオブジェクトであることに応答して、前記音声指示情報を前記非ローカルオブジェクトに転送し、
    前記非ローカルオブジェクトが前記音声指示情報によって指示されるアクションを実行するように制御し、前記非ローカルオブジェクトが前記指示されるアクションを実行するタイムスタンプを返すように制御し、
    前記タイムスタンプによって記録された時刻を前記インタラクション終了時刻として確定するように配置される請求項8に記載の装置。
  10. 前記音声指示情報及び/又は前記音声指示情報によって指示されるアクションをブロードキャストするように配置されるブロードキャストユニットと、
    ブロードキャストコンテンツに対するエラーフィードバックを受信したことに応答して、前記エラーフィードバックに対応する音声指示情報及び/又は音声指示情報によって指示されるアクションにエラーマークを付くように配置されるエラーマークユニットと、
    前記エラーマークが付かれた情報又は指示されるフォローアップアクションの実行を終了するように配置されるフォローアップアクション実行終了ユニットとをさらに含む請求項8に記載の装置。
  11. 前記指示情報確定/終了時刻確定ユニットは、前記完全なデータストリームに含まれる音声指示情報を確定するように配置される指示情報確定サブユニットを含み、前記指示情報確定サブユニットは、
    前記完全なデータストリームにおける音声信号をセマンティック認識し、実際セマンティック情報を取得するように配置されるセマンティック認識モジュールと、
    前記実際セマンティック情報に対応する音声指示情報を確定するように配置される音声指示情報確定モジュールとを含む請求項8に記載の装置。
  12. 前記セマンティック認識モジュールは、さらに、
    前記完全なデータストリームから前記音声信号を抽出し、
    前記音声信号の実際の複雑さが事前設定された複雑さを超えたことに応答して、前記音声信号を入力し、クラウドサーバ上に構成された事前訓練済みのセマンティック認識モデルを呼び出し、前記セマンティック認識モデルは音声信号とセマンティック情報との間の対応関係を表現するためのものであり、
    前記セマンティック認識モデルによって返される実際セマンティック情報を受信するように配置される請求項11に記載の装置。
  13. 複数の前記テストオーディオファイルが存在することに応答して、
    各前記テストオーディオファイルのそれぞれの音声応答速度に基づいて、音声応答速度平均値を算出するように配置される平均値計算ユニットと、
    前記音声応答速度平均値を目標音声応答速度として確定するように配置される目標音声応答速度確定ユニットとをさらに含む請求項8に記載の装置。
  14. テストオーディオファイルを構成するデータストリームを読み取る前に、前記音声指示情報を含むテストオーディオファイルを取得するように配置されるテストオーディオファイル取得ユニットをさらに含む請求項8-13のいずれか1項に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサによって実行されて、請求項1-7のいずれか1項に記載の音声応答速度確定方法を前記少なくとも1つのプロセッサに実行させる電子機器。
  16. 請求項1-7のいずれか1項に記載の音声応答速度確定方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  17. プロセッサによって実行されると、請求項1-7のいずれか1項に記載の音声応答速度確定方法を実現するコンピュータプログラム。
JP2022059733A 2021-06-08 2022-03-31 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム Active JP7375089B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110636622.3 2021-06-08
CN202110636622.3A CN113380229B (zh) 2021-06-08 2021-06-08 语音响应速度确定方法、相关装置及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2022091933A true JP2022091933A (ja) 2022-06-21
JP7375089B2 JP7375089B2 (ja) 2023-11-07

Family

ID=77576581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022059733A Active JP7375089B2 (ja) 2021-06-08 2022-03-31 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220215839A1 (ja)
EP (1) EP4102498A1 (ja)
JP (1) JP7375089B2 (ja)
KR (1) KR20220056836A (ja)
CN (1) CN113380229B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973740B (zh) * 2022-06-06 2023-09-12 北京百度网讯科技有限公司 语音播报时机的确定方法、装置及电子设备
CN115188368A (zh) * 2022-06-30 2022-10-14 北京百度网讯科技有限公司 语音测试方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007165A (ja) * 2000-06-20 2002-01-11 Seiko Epson Corp 音声による情報提供システムおよびその誤動作原因報知方法
US20130183944A1 (en) * 2012-01-12 2013-07-18 Sensory, Incorporated Information Access and Device Control Using Mobile Phones and Audio in the Home Environment
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
CN110417589A (zh) * 2019-07-23 2019-11-05 徐州工程学院 一种车载语音云用户体验质量路测方法
CN111785268A (zh) * 2020-06-30 2020-10-16 北京声智科技有限公司 语音交互响应速度的测试方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8582727B2 (en) * 2010-04-21 2013-11-12 Angel.Com Communication of information during a call
CN110379410A (zh) * 2019-07-22 2019-10-25 苏州思必驰信息科技有限公司 语音响应速度自动分析方法及系统
CN110556127B (zh) * 2019-09-24 2021-01-01 北京声智科技有限公司 语音识别结果的检测方法、装置、设备及介质
WO2021112642A1 (en) * 2019-12-04 2021-06-10 Samsung Electronics Co., Ltd. Voice user interface
CN112908297B (zh) * 2020-12-22 2022-07-08 北京百度网讯科技有限公司 车载设备的响应速度测试方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007165A (ja) * 2000-06-20 2002-01-11 Seiko Epson Corp 音声による情報提供システムおよびその誤動作原因報知方法
US20130183944A1 (en) * 2012-01-12 2013-07-18 Sensory, Incorporated Information Access and Device Control Using Mobile Phones and Audio in the Home Environment
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
CN110417589A (zh) * 2019-07-23 2019-11-05 徐州工程学院 一种车载语音云用户体验质量路测方法
CN111785268A (zh) * 2020-06-30 2020-10-16 北京声智科技有限公司 语音交互响应速度的测试方法、装置及电子设备

Also Published As

Publication number Publication date
KR20220056836A (ko) 2022-05-06
EP4102498A1 (en) 2022-12-14
US20220215839A1 (en) 2022-07-07
CN113380229B (zh) 2023-04-28
CN113380229A (zh) 2021-09-10
JP7375089B2 (ja) 2023-11-07

Similar Documents

Publication Publication Date Title
US10489112B1 (en) Method for user training of information dialogue system
CN110457256A (zh) 数据存储方法、装置、计算机设备及存储介质
US11321535B2 (en) Hierarchical annotation of dialog acts
CN108564966B (zh) 语音测试的方法及其设备、具有存储功能的装置
JP2022091933A (ja) 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
CN110417641B (zh) 一种发送会话消息的方法与设备
US11457061B2 (en) Creating a cinematic storytelling experience using network-addressable devices
JP6783339B2 (ja) 音声を処理する方法及び装置
CN113672748B (zh) 多媒体信息播放方法及装置
CN103514882A (zh) 一种语音识别方法及系统
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
JP2020009440A (ja) 情報を生成するための方法と装置
WO2024051823A1 (zh) 管理接待信息的方法以及后端设备
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
US8868419B2 (en) Generalizing text content summary from speech content
JP2024073501A (ja) キュー内で待機する呼に関する最適化
CN114244821A (zh) 数据处理方法、装置、设备、电子设备和存储介质
CN112562688A (zh) 语音转写方法、装置、录音笔和存储介质
CN111401566B (zh) 机器学习训练方法及系统
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN113689854A (zh) 语音会话方法、装置、计算机设备和存储介质
CN111770236A (zh) 一种对话处理方法、装置、系统、服务器和存储介质
CN118520851A (zh) 音频内容添加笔记的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231025

R150 Certificate of patent or registration of utility model

Ref document number: 7375089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150