JP7308335B2 - 車載音声機器のテスト方法、装置、電子機器及び記憶媒体 - Google Patents

車載音声機器のテスト方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7308335B2
JP7308335B2 JP2022091743A JP2022091743A JP7308335B2 JP 7308335 B2 JP7308335 B2 JP 7308335B2 JP 2022091743 A JP2022091743 A JP 2022091743A JP 2022091743 A JP2022091743 A JP 2022091743A JP 7308335 B2 JP7308335 B2 JP 7308335B2
Authority
JP
Japan
Prior art keywords
data
vehicle
audio
test
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022091743A
Other languages
English (en)
Other versions
JP2022116320A (ja
Inventor
シュウ,イ
チェン,ツェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022116320A publication Critical patent/JP2022116320A/ja
Application granted granted Critical
Publication of JP7308335B2 publication Critical patent/JP7308335B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Navigation (AREA)

Description

本願は、コンピュータ技術の分野に関し、特に音声技術、自然言語処理などの人工知能の分野に関し、具体的に、車載音声機器のテスト方法、装置、電子機器及び記憶媒体に関する。
科学技術の発展に伴い、音声認識機能が車両に広く使用されている。車両を発売する前に、車載音声認識機器をテストする必要がある。車載音声機器のテストプロセスでは、通常、様々なテストシナリオがある。
したがって、如何に車載音声機器のテスト効率を改善するかは、解決すべき緊急の課題である。
本願は、車載音声機器のテスト方法、装置、電子機器及び記憶媒体を提供する。
本願の一態様によれば、テストコーパス及び前記テストコーパスに対応するデータラベルを取得するステップと、前記テストコーパスに対応するデータラベルに基づいて、前記テストコーパスを解析して、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得するステップと、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、前記テストコーパスに対応するオーディオデータを再生するステップと、前記車載音声機器の認識結果を取得するステップと、前記認識結果及び前記データラベルに基づいて、前記車載音声機器の性能を決定するステップと、を含む車載音声機器のテスト方法を提供する。
本願の別の態様によれば、テストコーパス及び前記テストコーパスに対応するデータラベルを取得する第1の取得モジュールと、前記テストコーパスに対応するデータラベルに基づいて、前記テストコーパスを解析して、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する解析モジュールと、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、前記テストコーパスに対応するオーディオデータを再生する調整モジュールと、前記車載音声機器の認識結果を取得する第2の取得モジュールと、前記認識結果及び前記データラベルに基づいて、前記車載音声機器の性能を決定する決定モジュールと、を含む車載音声機器のテスト装置を提供する。
本願の別の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記実施例に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の実施例に記載の方法を実行させる。
本願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、上記の実施例に記載の方法が実現される。
なお、ここで記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本願の他の特徴は下記の明細書の記載によって理解しやすくなる。
図面は、本願をより良く理解するために使用され、本願を限定するものではない。
本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。 本願の実施例によって提供される別の車載音声機器のテスト方法の概略フローチャートである。 本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。 本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。 本願の実施例によって提供される車載音声機器のテストプロセスの概略図である。 本願の実施例によって提供される車載音声機器のテスト装置の概略構成図である。 本願の実施例に係る車載音声機器のテスト方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載の実施例に様々な変更および修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能および構造の説明を省略する。
本願の実施例に係る車載音声機器のテスト方法、装置、電子機器及び記憶媒体について、図面を参照して以下に説明する。
人工知能は、コンピュータに人間の思惟過程と知能行為(例えば学習、推論、考え、計画など)を模擬するように研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能のハードウェア技術は、一般的に、例えばセンサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習 /深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの面を含む。
NLP(Natural Language Processing、自然言語処理)は、コンピュータサイエンスの分野と人工知能の分野における重要な方向である。NLP研究の内容には、テキスト分類、情報抽出、自動要約、インテリジェントな質問応答、トピックの推奨、機械翻訳、テーマ語認識、知識ベース構築、深いテキスト表現、名前付きエンティティの認識、テキスト生成、テキスト分析(字句、構文、文法など)、音声認識と合成などのサブフィールドが含まれるが、これらに限定されない。
音声技術とは、コンピュータ分野の重要な技術として、自動音声認識技術と音声合成技術があることを意味する。
図1は、本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。
本願の実施例に係る車載音声機器のテスト方法は、本願の実施例によって提供される車載音声機器のテスト装置によって実行することができ、マルチチャンネルの特性を使用して、複数のシナリオ要件を異なるチャンネルに配置することにより、チャンネルを使用して、テストシナリオを動的に切り替え、テスト効率が向上する。
図1に示すように、この車載音声機器のテスト方法は、以下のステップ101~105を含む。
ステップ101では、テストコーパス及びテストコーパスに対応するデータラベルを取得する。
本願では、さまざまなテスト対象のシナリオに応じて、対応するテストコーパスを事前に録音することができ、このテストコーパスは、複数のチャンネルのオーディオデータを含むことができる。
例えば、特定の音量で音楽を再生するとともに、ウェイクアップ音声を録音して、テストコーパスを生成し、このテストコーパスには、ウェイクアップ音声データと音楽のオーディオデータが含まれる。又は、特定の音量の音楽、特定の風量レベルでのエアコンのノイズ、及び特定の車速でのノイズを再生するとともに、ウェイクアップ音声を録音してテストコーパスを生成する。
本願では、複数のテストコーパスを1つのオーディオファイルに配置することができ、テスト中に、各テストコーパスおよびテストコーパスに対応するデータラベルを順次に取得することができる。このオーディオファイルは、wav形式のデジタルオーディオファイルであってもよいし、他の形式のオーディオファイルであってもよく、本願はこれを限定しない。
ここで、データラベルは、テストコーパスのタイプ、テストコーパスに含まれるオーディオデータのタイプなどを示すことができる。ここで、テストコーパスのタイプは、ウェイクアップコーパス、車載機器を制御するコーパスなどであってもよい。テストコーパスに含まれるオーディオデータのタイプは、例えば、人間の声、音楽の音、エアコンの音、車両運転中のノイズなどであってもよい。
例えば、データラベルに対応するバイト数は、含まれるオーディオデータの数と同じにすることができ、各バイトに対応するデータタイプを指定することができ、例えば4バイトあり、人間の声、音楽の音、エアコンの音、車両運転中のノイズに順次対応する。また、各バイトの異なる値は異なる意味に対応することができる。例えば、車両運転中のノイズに対応するバイトの値が0の場合、テストコーパスに車両運転中のノイズが含まれていないと見なすことができる。値が1の場合、ノイズは速度が20kM /hのときのノイズと見なすことができる。値が2の場合、速度が40kM /hのときのノイズと見なすことができる。
ステップ102では、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する。
テストコーパスとテストコーパスに対応するデータラベルが取得された後、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得することができる。これにより、テストコーパスを解析することにより、個々のチャンネルに対応するオーディオデータを取得することができる。
例えば、特定のテストコーパスをデインターリーブすることにより、このテストコーパスに含まれる4つのチャンネルにそれぞれ対応するオーディオデータを取得することができ、たとえば、チャンネル0はテスト音声のオーディオデータであり、チャンネル1は音楽のオーディオデータであり、チャンネル2はエアコンのオーディオデータであり、チャンネル3は特定の速度での車両運転中のノイズである。
ステップ103では、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、テストコーパスに対応するオーディオデータを再生する。
本願では、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、オーディオ再生機器の各再生チャンネルの動作モードを調整することができ、例えば、テスト音声データのチャンネルを再生し、テスト音声に基づいて、動作モードを調整して、テスト音声データを再生し、音楽のオーディオデータのチャンネルを再生し、音量を調整して音楽などを再生することにより、音声再生機器にテストコーパスに対応するオーディオデータを再生させることができる。
つまり、音声再生機器は、各再生チャンネルを介して、対応するチャンネルのオーディオデータを再生することができるため、テストシナリオを実際のテストシナリオに近づけることができる。
音声再生機器が各チャンネルに対応するオーディオデータを再生する場合、車載音声機器は、オーディオデータを収集し、このオーディオデータを認識し、認識結果に基づいて対応する制御命令を実行することができる。
ステップ104では、車載音声機器の認識結果を取得する。
本願では、車載音声機器の出力側の車両音声機器のログファイルから、ログファイルを解析して、現在の期間内の車載音声機器の認識結果を取得することができる。
例えば、テストコーパスのテスト音声データは、「今日の天気はどうですか」であり、車載音声機器のログファイルから、車載音声機器の認識結果が「今日の天気はどうですか」であると解析される。
ステップ105では、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定する。
本願では、データラベルは、テストコーパスのタイプ、実行される制御操作などを示すことができ、車載音声機器の認識結果が取得された後、認識結果とデータラベルとの一致度に基づいて、車載音声機器の性能を決定することができる。
例えば、データラベルは、テストコーパスがウェイクアップコーパスであることを示し、車載音声機器の認識結果は認識に失敗してウェイクアップしないというものであり、認識結果とデータラベルの一致度が低いことが分かり、今回テストでは、車載音声機器の性能が要件を満たしていない。
また例えば、データラベルは、テストコーパスが車載再生機器を制御して音楽Aを再生することであることを示し、認識結果が、車載再生機器が音楽Aを再生することである場合、車載音声機器の認識結果とデータラベルが一致することが分かり、今回のテストシナリオでは、車載音声機器の性能が要件を満たしている。
本願では、複数のテストコーパスを使用して、最後のテストコーパスのテストが完了するまで、車載音声機器を順次にテストすることができ、各回のテスト結果に基づいて、車載音声機器の認識率を決定して、車載音声機器の性能を決定することができる。
本願の実施例では、テストコーパス及びテストコーパスに対応するデータラベルを取得し、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得し、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、テストコーパスに対応するオーディオデータを再生し、車載音声機器の認識結果を取得し、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定する。これにより、マルチチャンネルの特性を使用して、複数のシナリオ要件を異なるチャンネルに配置することにより、チャンネルを使用してテストシナリオを動的に切り替え、テスト効率が向上するだけでなく、人が異なる車速でテストを行う必要がないため、人件費を節約し、安全性が高い。
テストコーパスが車載エアコンを制御するコーパスである場合、テストコーパスにおける車載機器に対する制御命令が実行されたか否かに基づいて、車載音声機器の認識結果を取得することもできる。例えば、テストコーパスのテスト音声データが「エアコンの風量を2段に調整する」ことであれば、エアコンが実際に2段に調整されている場合、車載音声機器の認識結果は、正しく認識されると決定することができる。本願の一実施例では、テストコーパスに対応するデータラベルは、テストコーパスが車載エアコンを制御するコーパスであることを示すことができ、エアコンによるノイズと基準ノイズとの一致度に基づいて、車載音声機器の認識結果を決定することができる。以下、図2と組み合わせて説明し、図2は、本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。
図2に示すように、この車載音声機器のテスト方法は、以下のステップ201~208を含む。
ステップ201では、テストコーパス及びテストコーパスに対応するデータラベルを取得し、データラベルは、テストコーパスが車載エアコンを制御するコーパスであることを示す。
ステップ202では、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する。
ステップ203では、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、テストコーパスに対応するオーディオデータを再生する。
本願では、ステップ201からステップ203は、上記のステップ101からステップ103に類似するため、ここでは説明を省略する。
ステップ204では、データラベルに基づいて、基準ノイズデータを決定する。
本願では、データラベルは、テストコーパスが車載エアコンを制御するコーパスであることを示すため、データラベルに基づいて、基準ノイズデータを決定することができる。ここでの基準ノイズデータは、エアコンが対応する動作を実行するときのノイズデータとして理解することができ、対応する動作とは、テストコーパスに含まれる、車載エアコンを制御して実行する動作を指す。
例えば、テストコーパスのテスト音声データは、「エアコンの風量を中等の風量に調整する」であり、データラベルに基づいて、エアコンの風量が中等の風量である場合のノイズデータ、即ち基準ノイズデータを決定することができる。
ステップ205では、車内の第1の音声データを収集する。
本願では、車載音声機器は、音声再生機器によって再生されたテストコーパスに対応するオーディオデータを収集し、収集されたオーディオデータに基づいて認識を行うことができる。例えば、テストコーパスには、エアコンを制御するためのテスト音声データ、音楽の音などが含まれ、マイクロなどの集音機器によって、車内の第1の音声データを収集することができ、この時、車内の第1の音声データには音楽の音とエアコンのノイズが含まれている。
ステップ206では、データラベルに基づいて、第1の音声データからノイズデータを抽出する。
本願では、データラベルに基づいて、第1の音声データに含まれるオーディオデータのタイプを決定し、オーディオデータのタイプに基づいて、第1の音声データからノイズデータを抽出することができる。
例えば、テストコーパスには、エアコンを制御するためのテスト音声データと音楽の音などが含まれる場合、第1の音声データを解析し、第1の音声データからノイズデータを抽出することができる。
実際の応用では、エアコンタイプによって、ノイズの周波数が異なる可能性があり、エアコンが異なるモードで動作する場合、ノイズの周波数も異なる可能性がある。これに基づいて、データラベルに基づいて、車載エアコンの動作モードを決定し、そして、車載エアコンのタイプと動作モードに基づいて、収集対象のノイズデータのターゲット周波数範囲を決定し、その後第1の音声データから、ターゲット周波数範囲内のノイズデータを収集することもできる。これにより、エアコンのタイプと動作モードに基づいて、ノイズデータが抽出され、精度が向上する。
例えば、データラベルがエアコンを制御してスリープモードにすることを示す場合、エアコンのタイプとスリープモードに基づいて、収集対象のノイズデータのターゲット周波数範囲を決定し、このターゲット周波数範囲に基づいて、第1の音声データからエアコンに対応するノイズデータを抽出することができる。
ステップ207では、ノイズデータと基準ノイズデータとの一致度に基づいて、車載音声機器の認識結果を決定する。
本願では、ノイズデータと基準ノイズデータとの一致度に基づいて、車載音声機器の認識結果を決定することができる。例えば、テストコーパスのテスト音声データが「エアコンの風量を中等の風量に調整する」であり、抽出されたノイズデータとエアコンの風量が中等の風量であるときのノイズデータとが一致する場合、エアコンの風量が中等の風量に調整され、即ちテストコーパスのテスト音声データが正しく認識され、かつ認識された制御命令が実行されることを意味し、抽出されたノイズデータとエアコンの風量が中等の風量であるときのノイズデータとの一致度が対応する閾値よりも小さい場合、車載音声機器が正しく認識していないと決定することができる。
ステップ208では、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定する。
本願では、ステップ208は、上記のステップ105に類似するため、ここでは説明を省略する。
本願の実施例では、データラベルが、テストコーパスが車載エアコンを制御するコーパスであることを示す場合、車載音声機器の認識結果を取得するとき、データラベルに基づいて、基準ノイズデータを決定し、車内の第1の音声データを収集し、且つ、データラベルに基づいて、第1の音声データからノイズデータを抽出し、ノイズデータと基準ノイズデータとの一致度に基づいて、車載音声機器の認識結果を決定し、認識結果が取得された後、認識結果とデータラベルに基づいて、車載音声機器の性能を決定することができる。これにより、テストコーパスが車載エアコンを制御するコーパスである場合、収集されたエアコンのノイズデータと基準ノイズデータとの一致度に基づいて、車載音声機器の認識結果を決定することができ、テストの自動化を実現し、テスト效率を向上させる。
テストコーパスが車載再生機器を制御するコーパスである場合、テストコーパスにおける車載機器に対する制御命令が実行されたか否かに基づいて、車載音声機器の認識結果を取得することもできる。例えば、テストコーパスのテスト音声データが「音楽Bを再生する」ことであれば、実際に音楽Bを再生している場合、車載音声機器の認識結果が正しく認識されると決定することができる。本願の一実施例では、テストコーパスに対応するデータラベルは、テストコーパスが車載再生機器を制御するコーパスであることを示すことができ、音楽に対応するオーディオデータと基準オーディオデータとの一致度に基づいて、車載音声機器の認識結果を決定することができる。以下、図3と組み合わせて説明し、図3は、本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。
図3に示すように、この車載音声機器のテスト方法は、以下のステップ301~308を含む。
ステップ301では、テストコーパス及びテストコーパスに対応するデータラベルを取得する。
ステップ302では、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する。
ステップ303では、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、テストコーパスに対応するオーディオデータを再生する。
本実施例では、ステップ301からステップ303は、上記のステップ101からステップ103に類似するため、ここでは説明を省略する。
ステップ304では、データラベルに基づいて、基準オーディオデータを決定する。
本願では、データラベルは、テストコーパスが車載再生機器を制御するコーパスであることを示すため、データラベルに基づいて、基準オーディオデータを決定することができる。
例えば、データラベルは、テストコーパスが車載再生機器を制御して特定の音量に調整することであることを示す場合、データラベルに基づいて、この音量に対応するオーディオデータ、即ち基準オーディオデータを決定することができる。
また例えば、データラベルは、テストコーパスが車載再生機器を制御して特定の音楽を再生することであることを示す場合、データラベルに基づいて、この音楽に対応するオーディオデータ、即ち基準オーディオデータを決定することができる。
実際の応用では、音声命令が頻繁に入力される状況があり、例えば、「音楽Aを再生する」の音声データを入力し、数分後に、「漫才Mを再生する」の音声データを入力し、このとき、2つの音声データをそれぞれ異なるテストコーパスに入れてテストし、かつ、2つのテストコーパスが順次にテストされ、テストコーパスに1つの制御命令を含めて、データラベルに基づいて、基準オーディオデータを決定することができる。
ステップ305では、車内の第2の音声データを収集する。
本願では、車載音声機器は、音声再生機器によって再生されたテストコーパスに対応するオーディオデータを収集し、収集されたオーディオデータに基づいて認識を行うことができる。例えば、テストコーパスには、再生機器を制御するためのテスト音声データ、音楽の音、エアコンの音などが含まれ、マイクロなどの集音機器によって、車内の第2の音声データを収集することができ、この時、車内の第2の音声データには音楽の音とエアコンのノイズが含まれる可能性がある。
ステップ306では、第2の音声データから車載再生機器に対応するオーディオデータを抽出する。
データラベルは、テストコーパスが再生機器を制御するコーパスであることを示し、テストコーパスに含まれるオーディオデータのタイプも示すことができるため、データラベルに基づいて、第2の音声データに含まれ得るオーディオデータのタイプを決定することができ、これに基づいて第2の音声データから車載再生機器に対応するオーディオデータを抽出することができる。
ステップ307では、車載再生機器に対応するオーディオデータと基準オーディオデータとの一致度に基づいて、車載音声機器の認識結果を決定する。
本願では、車載再生機器に対応するオーディオデータと基準オーディオデータとの一致度に基づいて、車載音声機器の認識結果を決定することができる。例えば、テストコーパスのテスト音声データが「音楽Aを再生する」であり、車載再生機器に対応するオーディオデータと音楽Aのオーディオデータと一致する場合、車載再生機器が音楽Aを再生しており、即ちテストコーパスのテスト音声データが正しく認識され、かつ認識された制御命令が実行されることを意味し、車載再生機器に対応するオーディオデータと音楽Aのオーディオデータとの一致度が対応する閾値よりも小さい場合、車載音声機器が正しく認識していないと決定することができる。
ステップ308では、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定する。
本願では、ステップ308は、上記のステップ105に類似するため、ここでは説明を省略する。
本願の実施例では、データラベルが、テストコーパスが車載再生機器を制御するコーパスであることを示す場合、車載音声機器の認識結果を取得するとき、データラベルに基づいて、基準オーディオデータを決定し、車内の第2の音声データを収集し、第2の音声データから車載再生機器に対応するオーディオデータを抽出し、車載再生機器に対応するオーディオデータと基準オーディオデータとの一致度に基づいて、車載音声機器の認識結果を決定することができ、認識結果が取得された後、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定することができる。これにより、テストコーパスが車載再生機器を制御するコーパスである場合、抽出された車載再生機器に対応するオーディオデータと基準オーディオデータとの一致度に基づいて、車載音声機器の認識結果を決定することができ、テストの自動化を実現し、テスト效率を向上させる。
実際の応用では、テストコーパスはウェイクアップコーパスであってもよく、本願の一実施例では、データラベルが、テストコーパスがウェイクアップコーパスであることを示す場合、収集された音声データとウェイクアップ応答音声データとの一致度に基づいて、車載音声機器の認識結果を決定することができる。以下、図4と組み合わせて説明し、図4は、本願の実施例によって提供される車載音声機器のテスト方法の概略フローチャートである。
図4に示すように、この車載音声機器のテスト方法は、以下のステップ401~406を含む。
ステップ401では、テストコーパス及びテストコーパスに対応するデータラベルを取得する。
ステップ402では、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する。
ステップ403では、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、テストコーパスに対応するオーディオデータを再生する。
本実施例では、ステップ401からステップ403は、上記のステップ101からステップ103に類似するため、ここでは説明を省略する。
ステップ404では、車内の第3の音声データを収集する。
本願では、車載音声機器は、音声再生機器によって再生されたテストコーパスに対応するオーディオデータを収集し、収集されたオーディオデータに基づいて認識を行うことができる。例えば、テストコーパスには、車載音声機器をウェイクアップするためのテスト音声データ、音楽の音、エアコンの音などが含まれ、マイクロなどの集音機器によって、車内の第3の音声データを収集することができ、この時、車内の第3の音声データには、車載音声機器の出力音声、音楽の音及びエアコンのノイズが含まれる可能性がある。
ステップ405では、第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、車載音声機器の認識結果を決定する。
本願では、第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、車載音声機器の認識結果を決定することができる。例えば、テストコーパスのテスト音声データが「小度、小度」であり、第3の音声データに予め設定されたウェイクアップ応答音声データである「はい」が含まれる場合、車載音声機器がウェイクアップされ、即ち車載音声機器が正しく認識されると見なすことができる。
ステップ406では、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定する。
本願では、ステップ406は、上記のステップ105に類似するため、ここでは説明を省略する。
本願の実施例では、テストコーパスがウェイクアップコーパスである場合、車載音声機器の認識結果を取得するとき、車内の第3の音声データを収集して、第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、車載音声機器の認識結果を決定し、認識結果が取得された後、認識結果とデータラベルに基づいて、車載音声機器の性能を決定することができる。これにより、テストコーパスがウェイクアップコーパスである場合、収集された車内の第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、車載音声機器の認識結果を決定することができ、テストの自動化を実現し、テスト效率を向上させる。
テスト中に、テストコーパスに人間の声、音楽の音、エアコンの音、及び車両運転中のノイズなどが含まれている場合、テストコーパスの音楽の音の大きさに基づいて、車載再生機器を制御し、エアコンの音に対応するレベルに基づいて、車載エアコンを制御し、車内のオーディオデータを収集し、収集されたオーディオデータ、テストコーパスのテスト音声データ及び車両運転中のノイズを重畳し、混合されたオーディオデータを車載音声機器に入力することで、車載音声機器が、混合されたオーディオデータを認識することもできる。以下、図5と組み合わせて説明し、図5は、本願の実施例によって提供される車載音声機器のテストプロセスの概略図である。
図5に示すように、テストコーパスに対応するwav形式のファイルは、複数のチャンネルch0、ch1、ch2などを含んでもよく、wavファイルをデインターリーブしてモノラルに分解し、例えば環境(音楽、エアコンなど)制御に対応するモノラル、ノイズフロアに対応するモノラルなどである。ここで、wavファイルのファイルヘッダーにはチャンネル数の情報が含まれ、ノイズフロアとは、車両運転中のノイズを指す。
音の大きさなど、解析された音楽のオーディオデータに基づいて、車載再生機器を制御し、解析されたエアコンに対応するオーディオデータに基づいて、エアコンを制御した後、収集された車内オーディオデータ、テスト音声データ及びノイズフロアをカーオーディオシステムに入力して重畳し、混合されたオーディオを車載音声機器に入力して認識してから、テスト結果を統計することができる。
なお、音楽とエアコンは異なるチャンネルに対応する。
実際のテストでは、テスト音声データとノイズフロアをカーオーディオシステムに直接入力して重畳することができ、2台の非カープレーヤー再生装置を介してテスト音声データとノイズフロアを再生することもできる。例えば、人工の口を使用して、テスト音声データを再生することができる。
上記実施例を実現するために、本願の実施例は、車載音声機器のテスト装置をさらに提供する。図6は、本願の実施例によって提供される車載音声機器のテスト装置の概略構成図である。
図6に示すように、この車載音声機器のテスト装置600は、テストコーパス及び前記テストコーパスに対応するデータラベルを取得する第1の取得モジュール610と、前記テストコーパスに対応するデータラベルに基づいて、前記テストコーパスを解析して、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する解析モジュール620と、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、前記テストコーパスに対応するオーディオデータを再生する調整モジュール630と、前記車載音声機器の認識結果を取得する第2の取得モジュール640と、前記認識結果及び前記データラベルに基づいて、前記車載音声機器の性能を決定する決定モジュール650と、を含む。
本願の実施例の可能な一実施形態では、前記データラベルは、前記テストコーパスが車載エアコンを制御するコーパスであることを示し、前記第2の取得モジュール640は、前記データラベルに基づいて、基準ノイズデータを決定する第1の決定ユニットと、車内の第1の音声データを収集する収集ユニットと、前記データラベルに基づいて、前記第1の音声データからノイズデータを抽出する抽出ユニットと、前記ノイズデータと前記基準ノイズデータとの一致度に基づいて、前記車載音声機器の認識結果を決定する第2の決定ユニットと、を含む。
本願の実施例の可能な一実施形態では、前記抽出ユニットは、前記データラベルに基づいて、前記車載エアコンの動作モードを決定し、前記車載エアコンのタイプ及び動作モードに基づいて、収集対象のノイズデータのターゲット周波数範囲を決定し、前記第1の音声データから、前記ターゲット周波数範囲内のノイズデータを収集する。
本願の実施例の可能な一実施形態では、前記データラベルは、前記テストコーパスが車載再生機器を制御するコーパスであることを示し、前記第2の取得モジュール640は、前記データラベルに基づいて、基準オーディオデータを決定し、車内の第2の音声データを収集し、前記第2の音声データから前記車載再生機器に対応するオーディオデータを抽出し、前記車載再生機器に対応するオーディオデータと前記基準オーディオデータとの一致度に基づいて、前記車載音声機器の認識結果を決定する。
本願の実施例の可能な一実施形態では、前記データラベルは、前記テストコーパスがウェイクアップコーパスであることを示し、前記第2の取得モジュール640は、車内の第3の音声データを収集し、前記第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、前記車載音声機器の認識結果を決定する。
なお、上記車載音声機器のテスト方法の実施例の説明は、この実施例の車載音声機器のテスト装置にも適用可能であるため、ここでは説明を省略する。
本願の実施例では、テストコーパス及びテストコーパスに対応するデータラベルを取得し、テストコーパスに対応するデータラベルに基づいて、テストコーパスを解析して、テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得し、テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、テストコーパスに対応するオーディオデータを再生し、車載音声機器の認識結果を取得し、認識結果及びデータラベルに基づいて、車載音声機器の性能を決定する。これにより、マルチチャンネルの特性を使用して、複数のシナリオ要件を異なるチャンネルに配置することにより、チャンネルを使用してテストシナリオを動的に切り替え、テスト効率が向上するだけでなく、人間が異なる車速でテストを行う必要がないため、人件費を節約し、安全性が高い。
本願の実施例によれば、本願は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムをさらに提供する。
図7は、本願の実施例を実現するための例示的電子機器700のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置などの様々な形態のモバイルデバイスを表すこともできる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本明細書の説明及び/又は求められる本願の実現を制限するものではない。
図7に示すように、デバイス700は、ROM(Read-Only Memory、リードオンリーメモリ)702に記憶されたコンピュータプログラム命令、又は記憶ユニット708からRAM(Random Access Memory、ランダムアクセス /アクセスメモリ)703にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット701を含む。RAM 703には、デバイス700の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット701と、ROM 702と、RAM 703とは、バス704を介して互いに接続されている。I/O(Input/Output、入力/出力)インターフェース705もバス704に接続されている。
デバイス700における複数のコンポーネントは、I/Oインターフェース705に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット706と、種々なディスプレイやスピーカなどの出力ユニット707と、磁気ディスクや光学ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット709と、を備える。通信ユニット709は、デバイス700がインターネットのようなコンピュータネット及び /又は種々なキャリアネットワークを介して他の機器と情報 /データを交換することを可能にする。
計算ユニット701は、処理及び計算能力を有する様々な汎用及び /又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例としては、CPU(Central Processing Unit、中央処理ユニット)、GPU(Central Processing Unit、グラフィックス処理ユニット)、様々な専用のAI(Artificial Intelligence、人工知能)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、DSP(Digital Signal Processor、デジタ信号プロセッサ)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット701は、上述で説明された各方法及び処理、例えば車載音声機器のテスト方法を実行する。例えば、いくつかの実施形態では、車載音声機器のテスト方法は、記憶ユニット708のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部又は全ては、ROM 702及び /又は通信ユニット709を介して、デバイス700にロード及び /又はインストールすることができる。コンピュータプログラムがRAM 703にロードされて計算ユニット701によって実行される場合に、前述した車載音声機器のテスト方法の一つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット701は、車載音声機器のテスト方法を実行するように他の任意の適当な形態(例えば、ファームウェア)で構成されてもよい。
ここで記載されているシステムまたは技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、ASIC(Application-Specific Integrated Circuit、専用集積回路)、ASSP(Application Specific Standard Product、専用標準品)、SOC(System On Chip、システムオンチップ)、CPLD(Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び /またはこれらの組み合わせによって実現することができる。これらの様々な実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムで実行されてもよく、当該プログラマブルプロセッサは、専用及び/又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる。
本願の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されてもよいし、機械上で部分的に実行されてもよいし、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されてもよいし、リモートマシンまたはサーバ上で完全に実行されてもよい。
本願の文脈では、機械読み取り可能な媒体は、命令実行システム、装置又はデバイスによって使用されるために、又は命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含むが、又は記憶することが可能な有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、1又は複数のワイヤによる電気的接続、可搬型コンピュータディスク、ハードディスク、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory、消去及び書換可能なリードオンリメモリ)又はフラッシュメモリ、光ファイバ、CD-ROM(Compact Disc Read-Only Memory、コンパクトディスク読み取り専用メモリ)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(Cathode-Ray Tube、陰極線管)又はLCD(Liquid Crystal Display、液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、LAN(Local Area Network、ローカルエリアネットワーク)と、WAN(Wide Area Network、ワイドエリアネットワークと、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとVPS(Virtual Private Server、仮想プライベートサーバ)サービスでは、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバーは、分散システムのサーバー、又はブロックチェーンを組み合わせたサーバーであってもよい。
本願の実施例によれば、本願は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本願の上記実施例で提案される車載音声機器のテスト方法が実行される。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、および代替を行うことができる。本願の精神および原理内で行われる任意の修正、同等の置換および改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (13)

  1. 車載音声機器のテスト方法であって、
    テストコーパス及び前記テストコーパスに対応するデータラベルを取得するステップと、
    前記テストコーパスに対応するデータラベルに基づいて、前記テストコーパスを解析して、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得するステップと、
    前記テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、前記テストコーパスに対応するオーディオデータを再生するステップと、
    前記車載音声機器の認識結果を取得するステップと、
    前記認識結果及び前記データラベルに基づいて、前記車載音声機器の性能を決定するステップと、を含む、
    ことを特徴とする車載音声機器のテスト方法。
  2. 前記データラベルは、前記テストコーパスが車載エアコンを制御するコーパスであることを示し、
    前記車載音声機器の認識結果を取得するステップは、
    前記データラベルに基づいて、基準ノイズデータを決定するステップと、
    車内の第1の音声データを収集するステップと、
    前記データラベルに基づいて、前記第1の音声データからノイズデータを抽出するステップと、
    前記ノイズデータと前記基準ノイズデータとの一致度に基づいて、前記車載音声機器の認識結果を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記データラベルに基づいて、前記第1の音声データからノイズデータを抽出するステップは、
    前記データラベルに基づいて、前記車載エアコンの動作モードを決定するステップと、
    前記車載エアコンのタイプ及び動作モードに基づいて、収集対象のノイズデータのターゲット周波数範囲を決定するステップと、
    前記第1の音声データから、前記ターゲット周波数範囲内のノイズデータを収集するステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記データラベルは、前記テストコーパスが車載再生機器を制御するコーパスであることを示し、
    前記車載音声機器の認識結果を取得するステップは、
    前記データラベルに基づいて、基準オーディオデータを決定するステップと、
    車内の第2の音声データを収集するステップと、
    前記第2の音声データから前記車載再生機器に対応するオーディオデータを抽出するステップと、
    前記車載再生機器に対応するオーディオデータと前記基準オーディオデータとの一致度に基づいて、前記車載音声機器の認識結果を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記データラベルは、前記テストコーパスがウェイクアップコーパスであることを示し、
    前記車載音声機器の認識結果を取得するステップは、
    車内の第3の音声データを収集するステップと、
    前記第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、前記車載音声機器の認識結果を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. 車載音声機器のテスト装置であって、
    テストコーパス及び前記テストコーパスに対応するデータラベルを取得する第1の取得モジュールと、
    前記テストコーパスに対応するデータラベルに基づいて、前記テストコーパスを解析して、前記テストコーパスに含まれる各チャンネルに対応するオーディオデータを取得する解析モジュールと、
    前記テストコーパスに含まれる各チャンネルに対応するオーディオデータに基づいて、音声再生機器の各再生チャンネルの動作モードを調整して、前記テストコーパスに対応するオーディオデータを再生する調整モジュールと、
    前記車載音声機器の認識結果を取得する第2の取得モジュールと、
    前記認識結果及び前記データラベルに基づいて、前記車載音声機器の性能を決定する決定モジュールと、を含む、
    ことを特徴とする車載音声機器のテスト装置。
  7. 前記データラベルは、前記テストコーパスが車載エアコンを制御するコーパスであることを示し、
    前記第2の取得モジュールは、
    前記データラベルに基づいて、基準ノイズデータを決定する第1の決定ユニットと、
    車内の第1の音声データを収集する収集ユニットと、
    前記データラベルに基づいて、前記第1の音声データからノイズデータを抽出する抽出ユニットと、
    前記ノイズデータと前記基準ノイズデータとの一致度に基づいて、前記車載音声機器の認識結果を決定する第2の決定ユニットと、を含む、
    ことを特徴とする請求項6に記載の装置。
  8. 前記抽出ユニットは、
    前記データラベルに基づいて、前記車載エアコンの動作モードを決定し、
    前記車載エアコンのタイプ及び動作モードに基づいて、収集対象のノイズデータのターゲット周波数範囲を決定し、
    前記第1の音声データから、前記ターゲット周波数範囲内のノイズデータを収集する、
    ことを特徴とする請求項7に記載の装置。
  9. 前記データラベルは、前記テストコーパスが車載再生機器を制御するコーパスであることを示し、
    前記第2の取得モジュールは、
    前記データラベルに基づいて、基準オーディオデータを決定し、
    車内の第2の音声データを収集し、
    前記第2の音声データから前記車載再生機器に対応するオーディオデータを抽出し、
    前記車載再生機器に対応するオーディオデータと前記基準オーディオデータとの一致度に基づいて、前記車載音声機器の認識結果を決定する、
    ことを特徴とする請求項6に記載の装置。
  10. 前記データラベルは、前記テストコーパスがウェイクアップコーパスであることを示し、
    前記第2の取得モジュールは、
    車内の第3の音声データを収集し、
    前記第3の音声データと予め設定されたウェイクアップ応答音声データとの一致度に基づいて、前記車載音声機器の認識結果を決定する、
    ことを特徴とする請求項6に記載の装置。
  11. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載の方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~5のいずれかに記載の方法が実現される、
    ことを特徴とするコンピュータプログラム。
JP2022091743A 2021-06-11 2022-06-06 車載音声機器のテスト方法、装置、電子機器及び記憶媒体 Active JP7308335B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110654584.4A CN113436611B (zh) 2021-06-11 2021-06-11 车载语音设备的测试方法、装置、电子设备和存储介质
CN202110654584.4 2021-06-11

Publications (2)

Publication Number Publication Date
JP2022116320A JP2022116320A (ja) 2022-08-09
JP7308335B2 true JP7308335B2 (ja) 2023-07-13

Family

ID=77755797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022091743A Active JP7308335B2 (ja) 2021-06-11 2022-06-06 車載音声機器のテスト方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20220301546A1 (ja)
EP (1) EP4033483B1 (ja)
JP (1) JP7308335B2 (ja)
KR (1) KR20220044446A (ja)
CN (1) CN113436611B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN114220447B (zh) * 2021-12-13 2023-03-17 北京百度网讯科技有限公司 音频信号处理方法、装置、电子设备以及存储介质
CN115237815B (zh) * 2022-09-21 2022-12-09 江苏际弘芯片科技有限公司 一种用于车载多媒体音频的测试系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029215A (ja) 2002-06-24 2004-01-29 Auto Network Gijutsu Kenkyusho:Kk 音声認識装置の音声認識精度評価方法
JP2012163692A (ja) 2011-02-04 2012-08-30 Nec Corp 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
CN103745731A (zh) 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法
CN111402875A (zh) 2020-03-06 2020-07-10 斑马网络技术有限公司 用于车机的语音测试用音频的合成方法、装置及电子设备
CN111798852A (zh) 2019-06-27 2020-10-20 深圳市豪恩声学股份有限公司 语音唤醒识别性能测试方法、装置、系统及终端设备
CN112712821A (zh) 2020-12-24 2021-04-27 北京百度网讯科技有限公司 基于仿真的语音测试方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
KR101605848B1 (ko) * 2014-11-24 2016-04-01 하동경 음성인식 성능 평가 방법 및 그 장치
CN110675857A (zh) * 2019-09-23 2020-01-10 湖北亿咖通科技有限公司 一种语音识别自动化测试系统及方法
CN110808029A (zh) * 2019-11-20 2020-02-18 斑马网络技术有限公司 车机语音测试系统及方法
CN111326174A (zh) * 2019-12-31 2020-06-23 四川长虹电器股份有限公司 一种远场语音干扰场景测试语料自动化合成的方法
CN111724782B (zh) * 2020-06-18 2022-09-13 中汽院智能网联科技有限公司 一种车载语音交互系统的响应时间测试系统、方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029215A (ja) 2002-06-24 2004-01-29 Auto Network Gijutsu Kenkyusho:Kk 音声認識装置の音声認識精度評価方法
JP2012163692A (ja) 2011-02-04 2012-08-30 Nec Corp 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
CN103745731A (zh) 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法
CN111798852A (zh) 2019-06-27 2020-10-20 深圳市豪恩声学股份有限公司 语音唤醒识别性能测试方法、装置、系统及终端设备
CN111402875A (zh) 2020-03-06 2020-07-10 斑马网络技术有限公司 用于车机的语音测试用音频的合成方法、装置及电子设备
CN112712821A (zh) 2020-12-24 2021-04-27 北京百度网讯科技有限公司 基于仿真的语音测试方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113436611B (zh) 2022-10-14
EP4033483A2 (en) 2022-07-27
CN113436611A (zh) 2021-09-24
JP2022116320A (ja) 2022-08-09
EP4033483B1 (en) 2023-10-18
US20220301546A1 (en) 2022-09-22
KR20220044446A (ko) 2022-04-08
EP4033483A3 (en) 2022-11-30

Similar Documents

Publication Publication Date Title
JP7308335B2 (ja) 車載音声機器のテスト方法、装置、電子機器及び記憶媒体
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
EP3057093B1 (en) Operating method for voice function and electronic device supporting the same
CN108133707B (zh) 一种内容分享方法及系统
CN108564966B (zh) 语音测试的方法及其设备、具有存储功能的装置
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN107622770A (zh) 语音唤醒方法及装置
CN108470034A (zh) 一种智能设备服务提供方法及系统
CN107147618A (zh) 一种用户注册方法、装置及电子设备
CN110060685A (zh) 语音唤醒方法和装置
WO2020233363A1 (zh) 语音识别的方法、装置、电子设备和存储介质
CN109087670A (zh) 情绪分析方法、系统、服务器及存储介质
JP6814871B2 (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
JP2022037100A (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
CN110808029A (zh) 车机语音测试系统及方法
JP2019015951A (ja) 電子機器のウェイクアップ方法、装置、デバイス及びコンピュータ可読記憶媒体
CN111798833A (zh) 一种语音测试方法、装置、设备和存储介质
CN112466302A (zh) 语音交互的方法、装置、电子设备和存储介质
CN113470618A (zh) 唤醒测试的方法、装置、电子设备和可读存储介质
CN113672748A (zh) 多媒体信息播放方法及装置
CN108829370B (zh) 有声资源播放方法、装置、计算机设备及存储介质
CN113643704A (zh) 车机语音系统的测试方法、上位机、系统和存储介质
CN112712799A (zh) 一种误触发语音信息的获取方法、装置、设备及存储介质
JP2022095689A (ja) 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230703

R150 Certificate of patent or registration of utility model

Ref document number: 7308335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150