JP2022003388A - 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体 - Google Patents

車載機器の応答速度を試験する方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP2022003388A
JP2022003388A JP2021109692A JP2021109692A JP2022003388A JP 2022003388 A JP2022003388 A JP 2022003388A JP 2021109692 A JP2021109692 A JP 2021109692A JP 2021109692 A JP2021109692 A JP 2021109692A JP 2022003388 A JP2022003388 A JP 2022003388A
Authority
JP
Japan
Prior art keywords
image
voice
preset
time
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021109692A
Other languages
English (en)
Other versions
JP7346496B2 (ja
Inventor
真真 劉
zhen zhen Liu
書青 宋
Shu Qing Song
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022003388A publication Critical patent/JP2022003388A/ja
Application granted granted Critical
Publication of JP7346496B2 publication Critical patent/JP7346496B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】車載機器の応答速度の試験結果の精度を向上させる方法、装置、機器及び記憶媒体を提供する。【解決手段】方法は、予め設定された音声命令と車載機器による予め設定された音声命令に対する応答情報とを含むマルチメディア情報を取得し、マルチメディア情報を解析して、予め設定された音声命令の終了時間及び応答情報に対応する時間を決定し、予め設定された音声命令の終了時間及び応答情報に対応する時間に基づいて、車載機器の応答速度を決定する。【選択図】図2

Description

本願の実施例は人工知能技術に関し、特に、車載機器の応答速度を試験する方法、装置、機器及び記憶媒体に関し、無人運転分野、及び車のインターネット分野に利用できる。
車のインターネットとスマート車の台頭に伴い、スマート車載機器の普及度がますます高くなり、ユーザーが直接車載機器の音声機能を通じて車両の各種機能を使用することが主流になってきている。
このような音声シーンでは、車載機器の音声指令に対する応答速度が遅すぎると、音声機能の体験が悪くなるため、車載機器の試験を行う際には、機能試験だけでなく、車載機器の音声命令応答速度を試験して、音声機能の反復最適化を容易にする必要がある。
応答速度試験を行う場合、通常はログ管理で車載機器の音声命令に対する応答速度を決定するが、ログ管理記録の時間と車載機器の実際の応答効果に偏差があり、試験結果は正確ではない。
本願は、精度を向上させる、車載機器の応答速度を試験する方法、装置、機器及び記憶媒体を提供する。
本願の一態様によれば、車載機器の応答速度を試験する方法を提供し、前記方法は、予め設定された音声命令と、車載機器による前記予め設定された音声命令に対する応答情報とを含むマルチメディア情報を取得することと、前記マルチメディア情報を解析して、前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間を決定することと、前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定することと、を含む。
本願の他の態様によれば、車載機器の応答速度を試験する装置を提供し、前記装置は、予め設定された音声命令と、車載機器による前記予め設定された音声命令に対する応答情報とを含むマルチメディア情報を取得するための取得モジュールと、前記マルチメディア情報を解析して、前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間を決定するための解析モジュールと、前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定するための決定モジュールと、を含む。
本願の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサと通信可能に接続されるメモリを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、上記車載機器の応答速度を試験する方法を実行させることができる。
本願の別の態様によれば、コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の車載機器の応答速度を試験する方法を実行させるためのものである。
本願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、プロセッサによって実行される場合、上記の車載機器の応答速度を試験する方法を実現する。
本願の技術的解決手段によれば、予め設定された音声命令と、車載機器による前記予め設定された音声命令に対する応答情報とを含むマルチメディア情報を解析することにより、車載機器の応答速度の試験結果の精度を向上させる。
理解すべきものとして、本部分に記載された内容は、本願の実施例のキー又は重要な特徴を特定することを意図しているわけではなく、本願の範囲を制限するためにも使用されない。本願の他の特徴は、以下の説明書によって容易に理解される。
図面は、本解決手段をよりよく理解するためのものであり、本願に対する限定を構成しない。
本願の実施例によって提供される車載機器の音声機能の概略図である。 本願の実施例によって提供される車載機器の応答速度を試験する方法のフローチャートである。 本願の実施例によって提供される車載機器の応答速度を試験する装置の構造模式図である。 本願の実施例の車載機器の応答速度を試験する方法を実現するための電子機器の概略ブロック図である。
以下、図面に関連して本願の例示的な実施例を説明するが、本願の実施例の様々な詳細が理解を容易にするために含まれており、それらは単なる例示的なものと考えられるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができると認識すべきである。同様に、以下の説明では、公知機能及び構造についての説明は、明瞭かつ簡明のために省略される。
図1は、本願の実施例によって提供される車載機器の音声機能の概略図である。図1に示すように、ユーザーは起動命令、例えば「Xちゃん、Xちゃん」を発声し、車載機器の画面に起動画像を表示するとともに、車載機器は起動応答を音声で放送してもよい。その後、ユーザーは、クエリ命令、例えば「今日の天気はどうですか」を発声し、車載機器の画面には、まず、ユーザーのクエリ命令である「今日の天気はどうですか」が表示される。その後、クエリ処理を行い、画面上に「気温25度」というクエリ結果が表示される。なお、車載機器は、クエリ結果である「気温25度」を音声で放送してもよい。
上記の例のように、車載機器は、ユーザの音声を画面表示及び/又は音声放送によって応答してもよい。ユーザーが音声機能を使用する場合、一般的に車載機器と一回又は数回のインタラクションを行うことがあり、それぞれのインタラクション段階において、車載機器の画面表示及び/又は音声放送の応答速度が遅すぎると、ユーザーの体験が悪くなる。したがって、車載機器の音声機能を試験する時、継続的な応答の最適化を容易にするために、応答速度を試験する必要がある。
一例としては、音声応答速度試験を行う場合、通常はログ管理で車載機器の音声命令に対する応答時間を記録するが、ログ管理記録の時間と車載機器の実際の応答効果には偏差があり、試験結果は正確ではない。
別の例では、ビデオを録画することによって、ユーザの音声及び車載機器の応答を記録し、車載機器の応答速度を人工的にビデオを視聴することによって記録してもよいが、このような人工記録の形態は効率が低く、精度が悪い。
上記の問題を解決するために、本出願は、車載機器の応答速度を試験する方法を提供し、人工知能分野における無人運転領域、車のネットワーク領域などに適用されてもよい。この方法は、ユーザが発声した音声命令及び車載機器の応答を記録することにより、対応するビデオ又はオーディオを取得し、このビデオ又はオーディオを解析し、ユーザが発声した音声命令に対応する時間と車載機器が応答する時間を抽出し、更に車載機器の応答速度の試験結果を正確に取得する。
以下、本出願が提供する車載機器の応答速度を試験する方法を具体的な実施形態により詳細に説明する。以下のいくつかの具体的な実施例は、互いにくみあわせられてもよく、同じ又は同様の概念又はプロセスは、いくつかの実施例ではもはや説明しなくてもよいことが理解できる。
図2は、本願の実施例によって提供される車載機器の応答速度を試験する方法のフローチャートである。図2に示すように、この方法は以下のステップを含む。
S201において、マルチメディア情報を取得する。
マルチメディア情報は、予め設定された音声命令と、車載機器による前記予め設定された音声命令に対する応答情報とを含む。
予め設定された音声命令は、ユーザが車載機器の音声機能を使用するときに発声することができる音声命令であり、予め設定された音声命令は1つ又は複数の音声命令であってもよく、応答情報には1つ又は複数の命令に対する応答が含まれている。マルチメディア情報は、該予め設定された音声命令及び車載機器の対応する応答を記録することによって得られたビデオ又はオーディオである。例えば、車載機器の音声応答の放送速度を試験するだけであれば、オーディオを取得するだけでよい。車載機器の画面表示応答速度を試験する必要がある場合には、ビデオを取得する必要がある。
試験を行うとき、予め設定された音声命令はテスターで発声されてもよいし、電子機器で放送されてもよい。車載機器は予め設定された音声命令に対して対応する応答を行う。上記の試験プロセスでは、予め設定された音声命令、車載機器の画面表示応答、及び/又は音声放送応答をいずれも記録してもよい。例えば、予め設定された音声命令及び車載機器の音声放送応答をオーディオとして記録するか、又は、予め設定された音声命令、車載機器の表示画面応答、及び音声放送応答をビデオとして記録する。
S202において、マルチメディア情報を解析して、予め設定された音声命令の終了時間及び応答情報に対応する時間を決定する。
マルチメディア情報の解析は、マルチメディア情報におけるオーディオ及び/又はマルチメディア情報におけるビデオの解析を含んでもよい。例えば、マルチメディア情報におけるオーディオを抽出して、予め設定された音声命令に対応する時間と、音声放送の応答情報に対応する時間とを決定することができる。また、マルチメディア情報におけるビデオを解析し、車載機器の画面を介して表示される応答情報に対応する時間を決定してもよい。
S203において、予め設定された音声命令の終了時間及び応答情報に対応する時間に基づいて、車載機器の応答速度を決定する。
予め設定された音声命令の終了時間と対応する応答情報に対応する時間を取得した後、応答情報に対応する時間と予め設定された音声命令の終了時間との差により、車載機器の応答速度を決定することができる。応答情報に対応する時間と予め設定された音声命令の終了時間との差が小さいほど、車載機器の応答速度が速いことを示し、応答情報に対応する時間と予測音声命令の終了時間との差が大きいほど、車載機器の応答速度が遅いことを示す。
本実施例で提供する車載機器の応答速度を試験する方法は、ユーザが発声した音声命令及び車載機器の応答を記録することにより、対応するビデオ又はオーディオを取得し、このビデオ又はオーディオを解析し、ユーザが発声した音声命令に対応する時間及び車載機器の応答する時間を正確に抽出することができる。更に車載機器の応答速度の試験結果を取得し、試験結果の精度を確保する。
上述した実施例に基づいて、S202において予め設定された音声命令の終了時間をどのように決定するかを説明し、これに基づいて、S203における車載機器の応答速度をどのように決定するかを説明する。
マルチメディア情報からオーディオファイルを抽出する。オーディオファイルにおけるオーディオデシベル値が予め設定されたデシベル値の以上である少なくとも1つの音声セグメントの開始時間と終了時間を決定する。少なくとも1つの音声セグメントの開始時間と終了時間に基づいて、予め設定された音声命令の終了時間が少なくとも1つの音声セグメントから決定される。
まず説明すべきものとして、車載機器の音声応答の放送速度のみを試験する必要があれば、取得されたマルチメディア情報はオーディオであってもよく、この場合にはマルチメディア情報からオーディオファイルを抽出する必要はなく、マルチメディア情報をオーディオファイルとして直接処理する。
予め設定されたデシベル値は、予め設定された最低サイレントデシベル値であり、オーディオファイルのオーディオデシベル値が予め設定されたデシベル値より小さい時点は、サイレント状態にある時点、すなわち、予め設定された音声命令が発声されておらず、車載機器も音声放送を行っていない時点と考えられてもよい。オーディオファイルにおけるオーディオデシベル値が予め設定されたデシベル値の以上である期間が、予め設定された音声命令を発声する期間又は車載機器が音声放送を行う期間と考えられてもよい。オーディオファイルをトラバースすることにより、デシベル値に基づいて音声セグメントを決定し、抽出された音声命令又は応答情報の時間の精度を確保する。
具体的には、オーディオファイルをトラバースして、オーディオファイルの第1の時点のオーディオデシベル値が予め設定されたデシベル値以上であれば、第1の時点を第1の音声セグメントの開始時間として決定し、第1の時点以降に、オーディオファイルの第2の時点のオーディオデシベル値が予め設定されたデシベル値以下であるとともに、第2の時点以降の予め設定された時間内のオーディオデシベル値が予め設定されたデシベル値以下である場合、第2の時点を第1の音声セグメントの終了時間として決定する。
例えば、オーディオファイルの開始時点からトラバースし、t1時点のオーディオデシベル値が予め設定されたデシベル値以上であれば、該t1時点を第1の音声セグメントの開始時間として記録し、トラバースし続ける。t2時点のオーディオデシベル値が予め設定されたデシベル値以下であるとともに、t2時点以降の予め設定された時間内のオーディオデシベル値はいずれも予め設定されたデシベル値以下であれば、t2時点を、第1の音声セグメントの終了時間として記録する。その後、オーディオファイルをトラバースし続けて上記のプロセスを繰り返し、最終的に少なくとも1つの音声セグメントの開始時間と終了時間を得る。各音声セグメントは、1つの予め設定された音声命令を発声する時間又は車載機器で音声応答を放送する時間に対応する。オーディオファイルへの遍歴と、開始時間と終了時間のデシベル値の比較によって、抽出された音声命令又は応答情報の時間の精度が確保される。
予め設定された音声命令にはどのような命令が含まれているかが既知されたものであるので、車載機器の応答情報に音声情報が含まれているなら、車載機器は、予め設定された音声命令毎に音声応答があるかどうかも既知されたものであり、これにより上記で取得された少なくとも1つの音声セグメントについては、予め設定された音声命令の順序と車載機器の音声応答の順序に従って、各音声セグメントが対応するのは、どの予め設定された音声命令か、又はどの予め設定された音声命令に対応する音声応答かを決定することができる。これにより、該少なくとも1つの音声セグメントにおける各音声セグメントの開始時間及び終了時間に応じて、予め設定された音声命令の開始時間及び終了時間を少なくとも1つの音声セグメントから決定することができる。予め設定された音声命令の終了時間を決定した後、車載機器の応答情報に対応する時間を決定し、更に車載機器の応答速度を決定する必要がある。以下、サブシーンについて説明する。
シーン1
車載機器の応答情報が音声情報を含む場合、すなわち車載機器は音声放送により予め設定された音声命令に応答する。この場合には、上述した実施例における少なくとも1つの音声セグメントの開始時間及び終了時間は、車載機器が音声応答を行う音声情報の開始時間及び終了時間を少なくとも1つの音声セグメントから決定することもできる。これにより、予め設定された音声命令の終了時間と音声情報の開始時間に基づいて、車載機器の予め設定された音声命令に対する応答音声の放送速度を決定することができる。
図1の音声命令を例にとって、上記の方法でオーディオファイルから予め設定された音声命令である「今日の天気はどうですか」の終了時間、及び車載機器の音声放送のクエリ結果である「気温25度」の開始時間を決定する。車載機器の音声放送のクエリ結果である「気温25度」の開始時間から、予め設定された音声命令である「今日の天気はどうですか」の終了時間を減算することにより、車載機器による予め設定された音声命令である「今日の天気はどうですか」に対する応答音声の放送速度を決定することができる。
このシーンでは応答情報が音声情報である場合について説明したが、オーディオファイルを解析することにより、予め設定された音声命令と応答の音声情報に対応する時間を正確に得ることができ、これにより車載機器の応答音声の放送速度に対する試験の精度が確保される。
車載機器の応答情報は音声情報に加えて、画像情報であってもよいし、又は音声情報と画像情報を同時に含んでもよい。画像情報として、車載機器は、予め設定された音声命令に対する応答を画面上に表示し、応答情報が画像情報を含む場合には、前のステップで取得したマルチメディアファイルはビデオであるべきである。このようなシーンでは、上記実施例の方法に従って、予め設定された音声命令の終了時間を決定する以外に、車載機器が画面に応答情報を表示する時間、即ち画像情報に対応する時間を決定することにより、応答速度を決定する必要がある。具体的には、マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、画像情報に対応する時間を決定し、画像認識などによって画像の類似度や文字マッチングを行い、試験結果の精度を向上させる。以下に説明する。
シーン2
予め設定された音声命令は、起動命令を含み、応答情報は、起動応答画像を含む。
起動命令は、車載機器の音声機能を起動するために使用され、例えば、起動命令は「Xちゃん、Xちゃん」であり、車載機器の起動応答画像は、表示画面に表示された予め設定された起動画像であってもよい。マルチメディア情報には、車載機器の表示画面の表示ビデオが含まれているので、ビデオ内のマルチフレーム画像をマッチングすることにより、起動応答画像を決定することができ、これにより起動応答画像に対応する時間を決定する。
マルチメディア情報におけるマルチフレームの画像のうちの1枚目の画像と予め設定された起動画像とに対して類似度のマッチングを行い、類似度が予め設定された値よりも小さい場合、続いて次の画像と起動画像とに対して類似度のマッチングを行い、第1の画像と起動画像の類似度が予め設定された値の以上であるまで、第1の画像に対応する時間を、起動応答画像に対応する時間として決定する。
1枚目の画像から一つずつ類似度のマッチングを行い、第1の画像は、起動画像との類似度が予め設定された値の以上である1枚目の画像であり、第1の画像の対応する時間は、起動応答画像に対応する時間である。
それに応じて、起動応答画像に対応する時間と起動命令の終了時間に応じて、車載機器の起動速度を決定することができる。具体的には、起動応答画像に対応する時間から起動命令の終了時間を減算すると、車載機器の起動速度が得られることができる。フレーム毎の画像マッチングの方法により、起動応答画像に対応する時間を正確に取得することができ、これにより車載機器の起動速度の試験結果がより正確になる。
シーン3
予め設定された音声命令は、音声クエリ命令を含み、応答情報は、クエリ命令表示画像を含む。
例えば、音声クエリ命令は「今日の天気はどうですか」であり、車載機器が音声クエリ命令を取得した後、まず、画面にクエリ命令を表示し、即ち文字で「今日の天気はどうですか」を表示し、ここでは車載機器にクエリ命令が表示されている画像は、クエリ命令表示画像と呼ばれる。
マルチメディア情報におけるマルチフレームの画像のうちの第2の画像を文字認識し、第2の画像から識別された文字が音声クエリ命令に対応する文字とマッチングしない場合、続いて第2の画像の次の画像を文字認識し、第3の画像から識別された文字が音声クエリ命令に対応する文字とマッチングするまで、第3の画像に対応する時間を、クエリ命令表示画像の対応する時間と決定する。
まず、上記の第2の画像について説明する。1つの場合には、試験を行う際には、マルチ起動プロセスとその後のクエリプロセスの両方が試験される必要があり、予め設定された音声命令は、起動命令と複数の音声クエリ命令を含み、起動命令は、上記のシーン2の例の命令であり、この場合、第2の画像は、上記の例における第1の画像の後の画像、すなわち、起動応答画像の後の画像である。別の場合には、起動プロセスを試験する必要がない場合、音声クエリ命令に対する応答だけを試験すると、前述のステップで記録されたマルチメディア情報は、起動プロセスのビデオを含まなくて、音声クエリ命令及びその後の応答ビデオのみを含んでもよく、この場合、第2の画像はマルチメディア情報のマルチフレーム画像のうちの1枚目の画像であってもよい。
第2の画像からフレームごとに文字認識を行い、画像に表示されている文字が音声クエリ命令に対応する文字とマッチングするかどうかを決定し、音声クエリ命令が「今日の天気はどうですか」であることを例とし、第3の画像から識別された文字が「今日の天気はどうですか」であると、第3の画像には既に音声クエリ命令が表示されると示し、このため、第3の画像に対応する時間を、クエリ命令表示画像の対応する時間と決定する。
それに応じて、クエリ命令表示画像の対応する時間と音声クエリ命令の対応する終了時間に基づいて、車載機器の音声クエリ命令に対応する文字の表示速度を決定する。具体的には、クエリ命令表示画像に対応する時間から音声クエリ命令の終了時間を減算すると、車載機器の音声クエリ命令に対応する文字の表示速度を得ることができ、スクリーン表示速度とも呼ばれる。フレームごとの画像マッチングの方法により、文字表示速度を正確に得ることができ、これにより車載機器の応答速度の試験結果をより正確にすることができる。
シーン4
予め設定された音声命令は、音声クエリ命令を含み、応答情報は、クエリ命令表示画像、及び、クエリ結果表示画像を含む。
上記のシーン3の例を参照すると、音声クエリ命令は「今日の天気はどうですか」であり、車載機器の応答情報は、クエリ命令表示画像を含み、即ち「今日の天気はどうですか」を画面に表示し、その後、画面上にクエリ結果を表示すること、例えば「気温25度」を表示することを更に含む。
したがって、上記のシーン3の方法で文字表示速度を決定する以外に、その後のクエリ結果の表示速度を決定する必要がある。シーン3の方法によって第3の画像、つまりクエリ命令表示画像を決定した後、第3の画像の次の画像と第3の画像とに対して類似度のマッチングを行って、類似度が予め設定された値の以上である場合、次の画像と第3の画像の類似度を計算し続けて、第4の画像と第3の画像の類似度が予め設定された値より小さいまで、第4の画像を基準画像に設定する。
この過程では、第3の画像の後の画像と第3の画像との類似度の比較を決定することにより、第3の画像とは大きく異なる第4の画像を決定し、車載機器は第4の画像を表示すると、車載機器の表示画面がジャンプしたことを示す。すなわち車載機器は、音声クエリ命令である「今日の天気はどうですか」を表示することからジャンプをオンにしてクエリ結果を表示し、ただし、第4の画像は必ずしもクエリ結果を完全に表示しているわけではなく、画面がまだ変化している可能性があり、したがって、更にマッチングして決定する必要があり、後の画像が変化しないと、クエリ結果が完全に表示されていることを確認することができる。
基準画像の後の1枚目の画像から順に基準画像と類似度のマッチングを行い、基準画像の後の5枚目の画像と基準画像の類似度が予め設定された値より小さい場合、5枚目の画像を新たな基準画像に設定し、本ステップを繰り返し実行し、基準画像の後の予め設定された数の画像と基準画像の類似度がいずれも予め設定された値の以上であるまで、基準画像に対応する時間を、クエリ結果表示画像に対応する時間として決定する。
基準画像の後の画像と基準画像とに対して類似度のマッチングを行うとき、類似度が予め設定された値よりも小さいと、車載機器の表示画面が依然として変化していること、すなわち応答結果がまだ完全に表示されていないことを示すので、新たな基準画像を設定し、新たな基準画像に基づいて類似度のマッチングを継続する。基準画像の後の画像と基準画像の類似度が予め設定された値の以上であれば、車載機器の表示画面が変化していない可能性があることを示し、この際、続いてその後の複数の画像に対して類似度のマッチングを継続する必要がある。具体的には、基準画像の次の画像と基準画像の類似度が予め設定された値の以上である場合、空の候補配列を設定し、基準画像の次の画像の番号を配列に加え、候補配列長が予め設定された数に達していない場合には、続いて次の画像と基準画像に対して類似度のマッチングを行い、類似度が予め設定された値の以上である場合、該画像も候補データに追加して、次の画像のマッチングを続けて、類似度が予め設定された値より小さい場合には、該画像を新たな基準画像に設定し、候補データを空にし、再び新たな基準画像に基づいて類似度のマッチングを継続する。上記マッチング手順に従って、候補配列の長さが予め設定された数に達するまで、基準画像の後の予め設定された数の画像と基準画像の類似度がいずれも予め設定された値以上であること、つまり、基準画像の後の予め設定された数の画像は変化しないことを示し、このため、基準画像はクエリ結果が完全に表示されているクエリ結果表示画像であることを決定することができる。
それに応じて、クエリ結果表示画像の対応する時間と音声クエリ命令の終了時間に基づいて、車載機器のクエリ結果の表示速度を決定する。具体的には、クエリ結果表示画像に対応する時間から音声クエリ命令の終了時間を減算すると、車載機器のクエリ結果の表示速度が得られる。フレームごとの画像マッチングの方法により、クエリ結果を完全に表示するクエリ結果表示画像の時間を正確に得ることができ、これにより車載機器の応答速度の試験結果がより正確になる。
図3は、本願の実施例によって提供される車載機器の応答速度を試験する装置の構造模式図である。図3に示すように、応答速度を試験する装置300は、予め設定された音声命令と、車載機器による予め設定された音声命令に対する応答情報とを含むマルチメディア情報を取得するための取得モジュール301と、マルチメディア情報を解析して、予め設定された音声命令の終了時間及び応答情報に対応する時間を決定するための解析モジュール302と、予め設定された音声命令の終了時間及び応答情報に対応する時間に基づいて、車載機器の応答速度を決定するための決定モジュール303と、を含む。
一可能な実施形態では、解析モジュール302は、マルチメディア情報からオーディオファイルを抽出するための抽出ユニットと、オーディオファイルにおけるオーディオデシベル値が予め設定されたデシベル値の以上である少なくとも1つの音声セグメントの開始時間及び終了時間を決定するための第1の決定ユニットと、少なくとも1つの音声セグメントの開始時間及び終了時間に基づいて、少なくとも1つの音声セグメントから、予め設定された音声命令の終了時間を決定するための第2の決定ユニットと、を含む。
一可能な実施形態では、応答情報は、音声情報を含み、解析モジュール302は、少なくとも1つの音声セグメントの開始時間及び終了時間に基づいて、少なくとも1つの音声セグメントから、音声情報の開始時間を決定するための第3の決定ユニットを含む。決定モジュール303は、予め設定された音声命令の終了時間と音声情報の開始時間に基づいて、車載機器による予め設定された音声命令に対する応答音声の放送速度を決定するための第4の決定ユニットを含む。
一可能な実施形態では、第1の決定ユニットは、オーディオファイルをトラバースして、オーディオファイルの第1の時点のオーディオデシベル値が予め設定されたデシベル値の以上である場合、第1の時点を第1の音声セグメントの開始時間として決定し、且つ第1の時点の後、オーディオファイルの第2の時点のオーディオデシベル値が予め設定されたデシベル値の以下であるとともに、第2の時点の後の予め設定された時間内のオーディオデシベル値がいずれも予め設定されたデシベル値の以下である場合、第2の時点を第1の音声セグメントの終了時間として決定すること、に用いられる。
一可能な実施形態では、応答情報は、画像情報を含み、解析モジュール302は、マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、画像情報に対応する時間を決定するための第5の決定ユニット、を含む。
一可能な実施形態では、予め設定された音声命令は、起動命令を含み、応答情報は、起動応答画像を含み、第5の決定ユニットは、マルチメディア情報におけるマルチフレーム画像のうちの1枚目の画像と予め設定された起動画像とに対して類似度のマッチングを行って、類似度が予め設定された値より小さい場合、次の画像と起動画像とに対して類似度のマッチングを続けて、第1の画像と起動画像の類似度が予め設定された値の以上であるまで、第1の画像に対応する時間を、起動応答画像に対応する時間として決定するための第1の決定サブユニットを含み、決定モジュール303は、起動応答画像に対応する時間と、起動命令の終了時間とに基づいて、車載機器の起動速度を決定するための第6の決定ユニット、を含む。
一可能な実施形態では、予め設定された音声命令は、音声クエリ命令を含み、応答情報は、クエリ命令表示画像を含み、第5の決定ユニットは、マルチメディア情報におけるマルチフレーム画像のうちの第2の画像を文字認識し、第2の画像から識別された文字が音声クエリ命令に対応する文字とマッチングしない場合、第2の画像の次の画像を文字認識し続けて、第3の画像から識別された文字が音声クエリ命令に対応する文字とマッチングするまで、第3の画像に対応する時間を、クエリ命令表示画像に対応する時間として決定するための第2の決定サブユニットを含み、決定モジュール303は、クエリ命令表示画像に対応する時間と音声クエリ命令に対応する終了時間に基づいて、車載機器による音声クエリ命令に対応する文字の表示速度を決定するための第7の決定ユニット、を含む。
一可能な実施形態では、応答情報は、クエリ結果表示画像を含み、第5の決定ユニットは、第3の画像の次の画像と第3の画像とに対して類似度のマッチングを行って、類似度が予め設定された値の以上である場合、次の画像と第3の画像の類似度を計算し続けて、第4の画像と第3の画像の類似度が予め設定された値より小さいまで、第4の画像を基準画像に設定するための第3の決定サブユニットと、基準画像の後の1枚目の画像から順に基準画像と類似度のマッチングを行って、基準画像の後の第5の画像と基準画像の類似度が予め設定された値より小さいと、第5の画像を新たな基準画像として設定し、本ステップを繰り返し、基準画像の後の予め設定された数の画像と基準画像の類似度がいずれも予め設定された値の以上であるまで、基準画像に対応する時間をクエリ結果表示画像に対応する時間として決定するための第4の決定サブユニットと、を含み、決定モジュール303は、クエリ結果表示画像に対応する時間と音声クエリ命令の終了時間に基づいて、車載機器のクエリ結果の表示速度を決定するための第8の決定ユニット、を含む。
本願の実施例で提供される車載機器の応答速度を試験する装置は、上記のいずれかの実施例における車載機器の応答速度を試験する方法の技術的解決手段を実行してもよく、その実現原理及び有益な効果は、車載機器の応答速度を試験する方法の実現原理及び有益な効果と同様であり、車載機器の応答速度を試験する方法の実現原理及び有益な効果を参照することができ、ここでは再び説明を省略する。
本願の実施例によって、本願は電子機器と可読記憶媒体を更に提供する。
本発明の実施例によって、本願はコンピュータプログラムを更に提供し、コンピュータプログラムはコンピュータ可読記憶媒体に格納され、電子機器の少なくとも1つのプロセッサは、読み取り可能な記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサは、コンピュータプログラムを実行して、電子機器に上記のいずれかの実施例で提供される技術的手段を実行させる。
図4は、本願の実施例の車載機器の応答速度を試験する方法を実現するための電子機器の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、パーソナルデジタルアシスタント、携帯電話、スマートフォン、装着可能機器、及び他の類似のコンピューティング装置などの様々な形態のモバイル装置を表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は一例としてだけであり、本明細書で説明されたもの及び/又は要求される本明細書の実施を制限することは意図されない。
図8に示すように、電子機器400は、リードオンリーメモリ(ROM)402に記憶されているコンピュータプログラム又は記憶ユニット408からランダムアクセスメモリ(RAM)403にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行するコンピューティングユニット401を含む。RAM403には、機器400が動作するために必要な各種プログラム及びデータも記憶されてもよい。コンピューティングユニット401、ROM402、及びRAM403は、バス404を介して互いに接続されている。バス404には、入出力(I/O)インターフェース405も接続されている。
機器400における複数の構成要素は、キーボード、マウスなどの入力ユニット406と、各種のタイプのディスプレイ、スピーカなどである出力ユニット407と、磁気ディスク、光ディスクなどの記憶ユニット408と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット409と、を備えるI/Oインターフェース405と接続されている。通信ユニット409は、機器400が、インターネットなどのコンピュータネットワーク及び/又は様々な通信ネットワークによって他の機器と情報/データを交換することを可能にする。
コンピューティングユニット401は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。コンピューティングユニット401のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種の運転マシン学習モデルアルゴリズムのコンピューティングユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット401は、上述した様々な方法及び処理、例えば車載機器の応答速度を試験する方法を実行する。例えば、一部の実施例では、車載機器の応答速度を試験する方法は、記憶ユニット408などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装することができる。幾つかの実施例では、コンピュータプログラムの一部又は全部はROM402及び/又は通信ユニット409を介して機器400にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM403にロードされ、コンピューティングユニット401によって実行される場合、上述した車載機器の応答速度を試験する方法の1つ以上のステップが実行されてもよい。代替的に、他の実施例では、コンピューティングユニット401は、他の任意の適切な方法(例えばファームウェアを介して)によって、車載機器の応答速度を試験する方法を実行するように構成されてもよい。
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップのシステム(SOC)、複雑プログラマブル論理機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実装される。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実装されて、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能システム上で実行されてもよく、及び/又は解釈されてもよく、このプログラマブルプロセッサは、記憶システム、少なくとも1つの入力機器、及び少なくとも1つの出力装置から、データ及び命令を受信し、該記憶システム、該少なくとも1つの入力装置、及び少なくとも1つの出力装置にデータ及び命令を送信する専用又は汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せを用いて作成することができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実行されるように、汎用コンピュータ、専用コンピュータ又は他のプログラム可能データ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは完全にマシン上で実行され、部分的にマシン上で実行され、独立したソフトウェアパッケージとして部分的にマシン上で実行されるとともに部分的にリモートマシン上で実行されたり、リモートマシン又はサーバ上で完全に実行されたりすることができる。
本開示の文脈では、機械可読媒体は、命令実行システム、装置又は装置の使用又は命令実行システム、装置又は装置と関連して使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又は機器、又は上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ以上の線に基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記の内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、ここで説明するシステム及び技術をコンピュータに実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びユーザがコンピュータに入力を提供できるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を有する。他のタイプの装置は、さらにユーザとの対話を提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックが、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力、音声入力、又は触覚入力を含む)を使用して、ユーザからの入力を受信してもよい。
本明細書で説明するシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとして)、又はミドルウェア部品を含む計算システム(例えば、応用サーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカルユーザインターフェース又はWebブラウザを備えたユーザコンピュータ、ユーザが、当該グラフィカルユーザインターフェース又は当該Webブラウザを通じて本明細書で説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組合せを含む計算システムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を通じて、システムの部品を相互に接続してもよい。通信ネットワークの例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。通常、クライアント及びサーバは、互いに離れており、通信ネットワークを介して相互作用する。クライアントとサーバ間の関係は、対応するコンピュータで実行され、互いにクライアント−サーバ関係を持つコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウド計算サーバ又はクラウドホストとも呼ばれ、クラウド計算サービスシステムにおける1つのホスト製品であり、従来の物理ホストと仮想専用サーバ(Virtual Private Serve、VPSと略称する)に存在する管理困難度が高く、サービス拡張性が弱いなどの欠陥を解決するために使用される。サーバは、分散システムのサーバ、又はブロックチェーンを組み込んだサーバであってもよい。
理解すべきこととして、上記のさまざまな形式のフローを使用して、ステップの順序を変更、追加、又は削除してもよい。例えば、本願に記載された各ステップは、本願に開示された技術的解決策の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。
上記の具体的な実施形態は、本願の保護範囲に対する制限を構造しない。当業者は、設計要件と他の要素によって、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の精神と原則の範囲内で行われた修正、同等の代替、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims (19)

  1. 車載機器の応答速度を試験する方法であって、
    予め設定された音声命令と車載機器による前記予め設定された音声命令に対する応答情報とを含むマルチメディア情報を取得することと、
    前記マルチメディア情報を解析して、前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間を決定することと、
    前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定することと、を含む車載機器の応答速度を試験する方法。
  2. 前記マルチメディア情報を解析して、前記予め設定された音声命令の終了時間を決定することは、
    前記マルチメディア情報からオーディオファイルを抽出することと、
    前記オーディオファイルにおけるオーディオデシベル値が予め設定されたデシベル値の以上である少なくとも1つの音声セグメントの開始時間及び終了時間を決定することと、
    前記少なくとも1つの音声セグメントの開始時間及び終了時間に基づいて、前記少なくとも1つの音声セグメントから、前記予め設定された音声命令の終了時間を決定することと、を含む請求項1に記載の方法。
  3. 前記応答情報は、音声情報を含み、前記応答情報に対応する時間を決定することは、
    前記少なくとも1つの音声セグメントの開始時間及び終了時間に基づいて、前記少なくとも1つの音声セグメントから、前記音声情報の開始時間を決定すること、を含み、
    前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定することは、
    前記予め設定された音声命令の終了時間と前記音声情報の開始時間に基づいて、前記車載機器による前記予め設定された音声命令に対する応答音声の放送速度を決定すること、を含む請求項2に記載の方法。
  4. 前記オーディオファイルにおけるオーディオデシベル値が予め設定されたデシベル値の以上である少なくとも1つの音声セグメントの開始時間及び終了時間を決定することは、
    前記オーディオファイルをトラバースして、前記オーディオファイルの第1の時点のオーディオデシベル値が予め設定されたデシベル値の以上である場合、前記第1の時点を第1の音声セグメントの開始時間として決定し、且つ、前記第1の時点の後、前記オーディオファイルの第2の時点のオーディオデシベル値が予め設定されたデシベル値の以下であるとともに、第2の時点の後の予め設定された時間内のオーディオデシベル値がいずれも予め設定されたデシベル値の以下である場合、前記第2の時点を前記第1の音声セグメントの終了時間として決定すること、を含む請求項2に記載の方法。
  5. 前記応答情報は、画像情報を含み、前記応答情報に対応する時間を決定することは、
    前記マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、前記画像情報に対応する時間を決定すること、を含む請求項1〜4のいずれか1項に記載の方法。
  6. 前記予め設定された音声命令は、起動命令を含み、前記応答情報は、起動応答画像を含み、
    前記マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、前記画像情報に対応する時間を決定することは、
    前記マルチメディア情報におけるマルチフレーム画像のうちの1枚目の画像と予め設定された起動画像とに対して類似度のマッチングを行って、類似度が予め設定された値より小さい場合、次の画像と前記起動画像とに対して類似度のマッチングを行い続けて、第1の画像と前記起動画像との類似度が予め設定された値の以上であるまで、前記第1の画像に対応する時間を、前記起動応答画像に対応する時間として決定すること、を含み、
    前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定することは、
    前記起動応答画像に対応する時間と、前記起動命令の終了時間とに基づいて、前記車載機器の起動速度を決定すること、を含む請求項5に記載の方法。
  7. 前記予め設定された音声命令は、音声クエリ命令を含み、前記応答情報は、クエリ命令表示画像を含み、
    前記マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、前記画像情報に対応する時間を決定することは、
    前記マルチメディア情報におけるマルチフレーム画像のうちの第2の画像を文字認識し、前記第2の画像から識別された文字が前記音声クエリ命令に対応する文字と一致しない場合、前記第2の画像の次の画像を文字認識し続けて、第3の画像から識別された文字が前記音声クエリ命令に対応する文字と一致するまで、前記第3の画像に対応する時間を、前記クエリ命令表示画像に対応する時間として決定すること、を含み、
    前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定することは、
    前記クエリ命令表示画像に対応する時間と前記音声クエリ命令に対応する終了時間に基づいて、前記車載機器による前記音声クエリ命令に対応する文字の表示速度を決定すること、を含む請求項5に記載の方法。
  8. 前記応答情報は、クエリ結果表示画像を含み、
    前記マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、前記画像情報に対応する時間を決定することは、
    前記第3の画像の次の画像と前記第3の画像とに対して類似度のマッチングを行って、類似度が予め設定された値の以上である場合、次の画像と前記第3の画像との類似度を計算し続けて、第4の画像と前記第3の画像との類似度が予め設定された値より小さいまで、前記第4の画像を基準画像として設定することと、
    前記基準画像の後の1枚目の画像から順に前記基準画像と類似度のマッチングを行って、前記基準画像の後の第5の画像と前記基準画像との類似度が予め設定された値より小さいと、前記第5の画像を新たな基準画像として設定し、本ステップを繰り返し、前記基準画像の後の予め設定された数の画像と前記基準画像との類似度がいずれも予め設定された値の以上であるまで、前記基準画像に対応する時間を前記クエリ結果表示画像に対応する時間として決定することと、を含み、
    前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定することは、
    前記クエリ結果表示画像に対応する時間と前記音声クエリ命令の終了時間に基づいて、前記車載機器のクエリ結果の表示速度を決定すること、を含む請求項7に記載の方法。
  9. 車載機器の応答速度を試験する装置であって、
    予め設定された音声命令と車載機器による前記予め設定された音声命令に対する応答情報とを含むマルチメディア情報を取得するための取得モジュールと、
    前記マルチメディア情報を解析して、前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間を決定するための解析モジュールと、
    前記予め設定された音声命令の終了時間及び前記応答情報に対応する時間に基づいて、前記車載機器の応答速度を決定するための決定モジュールと、を含む車載機器の応答速度を試験する装置。
  10. 前記解析モジュールは、
    前記マルチメディア情報からオーディオファイルを抽出するための抽出ユニットと、
    前記オーディオファイルにおけるオーディオデシベル値が予め設定されたデシベル値の以上である少なくとも1つの音声セグメントの開始時間及び終了時間を決定するための第1の決定ユニットと、
    前記少なくとも1つの音声セグメントの開始時間及び終了時間に基づいて、前記少なくとも1つの音声セグメントから、前記予め設定された音声命令の終了時間を決定するための第2の決定ユニットと、を含む請求項9に記載の装置。
  11. 前記応答情報は、音声情報を含み、前記解析モジュールは、
    前記少なくとも1つの音声セグメントの開始時間及び終了時間に基づいて、前記少なくとも1つの音声セグメントから、前記音声情報の開始時間を決定するための第3の決定ユニットを含み、
    前記決定モジュールは、
    前記予め設定された音声命令の終了時間と前記音声情報の開始時間に基づいて、前記車載機器による前記予め設定された音声命令に対する応答音声の放送速度を決定するための第4の決定ユニット、を含む請求項10に記載の装置。
  12. 前記第1の決定ユニットは、
    前記オーディオファイルをトラバースして、前記オーディオファイルの第1の時点のオーディオデシベル値が予め設定されたデシベル値の以上である場合、前記第1の時点を第1の音声セグメントの開始時間として決定し、且つ、前記第1の時点の後、前記オーディオファイルの第2の時点のオーディオデシベル値が予め設定されたデシベル値の以下であるとともに、第2の時点の後の予め設定された時間内のオーディオデシベル値がいずれも予め設定されたデシベル値の以下である場合、前記第2の時点を前記第1の音声セグメントの終了時間として決定すること、に用いられる請求項10に記載の装置。
  13. 前記応答情報は、画像情報を含み、前記解析モジュールは、
    前記マルチメディア情報におけるマルチフレーム画像の類似度マッチング結果及び/又は文字認識結果に基づいて、前記画像情報に対応する時間を決定するための第5の決定ユニット、を含む請求項9〜12のいずれか1項に記載の装置。
  14. 前記予め設定された音声命令は、起動命令を含み、前記応答情報は、起動応答画像を含み、前記第5の決定ユニットは、
    前記マルチメディア情報におけるマルチフレーム画像のうちの1枚目の画像と予め設定された起動画像とに対して類似度のマッチングを行って、類似度が予め設定された値より小さい場合、次の画像と前記起動画像とに対して類似度のマッチングを行い続けて、第1の画像と前記起動画像との類似度が予め設定された値の以上であるまで、前記第1の画像に対応する時間を、前記起動応答画像に対応する時間として決定するための第1の決定サブユニットを含み、
    前記決定モジュールは、
    前記起動応答画像に対応する時間と前記起動命令の終了時間に基づいて、前記車載機器の起動速度を決定するための第6の決定ユニット、を含む請求項13に記載の装置。
  15. 前記予め設定された音声命令は、音声クエリ命令を含み、前記応答情報は、クエリ命令表示画像を含み、
    前記第5の決定ユニットは、
    前記マルチメディア情報におけるマルチフレーム画像のうちの第2の画像を文字認識し、前記第2の画像から識別された文字が前記音声クエリ命令に対応する文字と一致しない場合、前記第2の画像の次の画像を文字認識し続けて、第3の画像から識別された文字が前記音声クエリ命令に対応する文字と一致するまで、前記第3の画像に対応する時間を、前記クエリ命令表示画像に対応する時間として決定するための第2の決定サブユニットを含み、
    前記決定モジュールは、
    前記クエリ命令表示画像に対応する時間と前記音声クエリ命令に対応する終了時間に基づいて、前記車載機器による前記音声クエリ命令に対応する文字の表示速度を決定するための第7の決定ユニット、を含む請求項13に記載の装置。
  16. 前記応答情報は、クエリ結果表示画像を含み、
    前記第5の決定ユニットは、
    前記第3の画像の次の画像と前記第3の画像とに対して類似度のマッチングを行って、類似度が予め設定された値の以上である場合、次の画像と前記第3の画像との類似度を計算し続けて、第4の画像と前記第3の画像との類似度が予め設定された値より小さいまで、前記第4の画像を基準画像として設定するための第3の決定サブユニットと、
    前記基準画像の後の1枚目の画像から順に前記基準画像と類似度のマッチングを行って、前記基準画像の後の第5の画像と前記基準画像との類似度が予め設定された値より小さい場合、前記第5の画像を新たな基準画像として設定し、本ステップを繰り返し、前記基準画像の後の予め設定された数の画像と前記基準画像との類似度がいずれも予め設定された値の以上であるまで、前記基準画像に対応する時間を前記クエリ結果表示画像に対応する時間として決定するための第4の決定サブユニットと、を含み、
    前記決定モジュールは、
    前記クエリ結果表示画像に対応する時間と前記音声クエリ命令の終了時間に基づいて、前記車載機器のクエリ結果の表示速度を決定するための第8の決定ユニット、を含む請求項15に記載の装置。
  17. 電子機器であって、
    少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサと通信的に接続されるメモリを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、請求項1〜8のいずれか1項に記載の方法を実行させることができる電子機器。
  18. コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1〜8のいずれか1項に記載の方法を実行させるためのものである非一時的なコンピュータ可読記憶媒体。
  19. コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサによって実行される場合、請求項1〜8のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2021109692A 2020-12-22 2021-06-30 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体 Active JP7346496B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011530702.2A CN112908297B (zh) 2020-12-22 2020-12-22 车载设备的响应速度测试方法、装置、设备及存储介质
CN202011530702.2 2020-12-22

Publications (2)

Publication Number Publication Date
JP2022003388A true JP2022003388A (ja) 2022-01-11
JP7346496B2 JP7346496B2 (ja) 2023-09-19

Family

ID=76111550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021109692A Active JP7346496B2 (ja) 2020-12-22 2021-06-30 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20210327427A1 (ja)
EP (1) EP3865996A3 (ja)
JP (1) JP7346496B2 (ja)
KR (1) KR20210098397A (ja)
CN (1) CN112908297B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380229B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 语音响应速度确定方法、相关装置及计算机程序产品
CN113721582B (zh) * 2021-08-03 2023-05-16 安徽江淮汽车集团股份有限公司 座舱系统响应效率测试方法、设备、存储介质及装置
CN113643704A (zh) * 2021-08-18 2021-11-12 中国第一汽车股份有限公司 车机语音系统的测试方法、上位机、系统和存储介质
CN114360530A (zh) * 2021-11-30 2022-04-15 北京罗克维尔斯科技有限公司 语音测试方法、装置、计算机设备和存储介质
CN114639373A (zh) * 2022-03-16 2022-06-17 北京德风运科技有限公司 一种智能语音测评方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356936A (ja) * 2000-04-11 2001-12-26 Fujitsu Ltd Gui系プログラムのテスト支援装置および支援方法
JP2006091912A (ja) * 2005-11-10 2006-04-06 Seiko Epson Corp 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
JP2014199323A (ja) * 2013-03-29 2014-10-23 富士通株式会社 音声対話装置及び対話制御方法
JP2019523918A (ja) * 2016-05-10 2019-08-29 グーグル エルエルシー デバイス上の音声アシスタントの実装
CN111724782A (zh) * 2020-06-18 2020-09-29 中汽院智能网联科技有限公司 一种车载语音交互系统的响应时间测试系统、方法及设备
JP2020166448A (ja) * 2019-03-28 2020-10-08 メタウォーター株式会社 情報処理装置、情報処理システム、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363161B2 (en) * 2006-05-26 2013-01-29 Broadcom Corporation Systems, methods, and apparatus for synchronization of audio and video signals
WO2008085201A2 (en) * 2006-12-29 2008-07-17 Prodea Systems, Inc. Managed file backup and restore at remote storage locations through multi-services gateway device at user premises
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
US9817634B2 (en) * 2014-07-21 2017-11-14 Intel Corporation Distinguishing speech from multiple users in a computer interaction
US20200118456A1 (en) * 2014-08-22 2020-04-16 Intelligent Technologies International, Inc. Secure Testing Device With Combiner
EP3291080A4 (en) * 2015-04-28 2019-01-02 Clarion Co., Ltd. Information processing device and information processing method
CN112585674A (zh) * 2018-08-31 2021-03-30 三菱电机株式会社 信息处理装置、信息处理方法和程序
JP7225770B2 (ja) * 2018-12-19 2023-02-21 トヨタ自動車株式会社 車載機器操作システム
CN111242455A (zh) * 2020-01-07 2020-06-05 北京百度网讯科技有限公司 电子地图语音功能的评测方法、装置、电子设备及存储介质
CN111785268A (zh) * 2020-06-30 2020-10-16 北京声智科技有限公司 语音交互响应速度的测试方法、装置及电子设备
CN111986706A (zh) * 2020-07-31 2020-11-24 广州市凯泽利科技有限公司 一种基于音频分析的语音响应时间测试方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356936A (ja) * 2000-04-11 2001-12-26 Fujitsu Ltd Gui系プログラムのテスト支援装置および支援方法
JP2006091912A (ja) * 2005-11-10 2006-04-06 Seiko Epson Corp 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
JP2014199323A (ja) * 2013-03-29 2014-10-23 富士通株式会社 音声対話装置及び対話制御方法
JP2019523918A (ja) * 2016-05-10 2019-08-29 グーグル エルエルシー デバイス上の音声アシスタントの実装
JP2020166448A (ja) * 2019-03-28 2020-10-08 メタウォーター株式会社 情報処理装置、情報処理システム、及びプログラム
CN111724782A (zh) * 2020-06-18 2020-09-29 中汽院智能网联科技有限公司 一种车载语音交互系统的响应时间测试系统、方法及设备

Also Published As

Publication number Publication date
KR20210098397A (ko) 2021-08-10
EP3865996A3 (en) 2022-01-12
EP3865996A2 (en) 2021-08-18
US20210327427A1 (en) 2021-10-21
CN112908297B (zh) 2022-07-08
JP7346496B2 (ja) 2023-09-19
CN112908297A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
JP2022003388A (ja) 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体
US10831345B2 (en) Establishing user specified interaction modes in a question answering dialogue
US10997222B2 (en) Conversational agent dialog flow user interface
US11164574B2 (en) Conversational agent generation
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
US10108602B2 (en) Dynamic portmanteau word semantic identification
CN111309962B (zh) 提取音频片段的方法、装置以及电子设备
EP3593346B1 (en) Graphical data selection and presentation of digital content
US11511200B2 (en) Game playing method and system based on a multimedia file
JP2022518645A (ja) 映像配信時効の決定方法及び装置
JP2023015215A (ja) テキスト情報の抽出方法、装置、電子機器及び記憶媒体
JP2022120024A (ja) オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN113824899B (zh) 视频处理方法、装置、电子设备及介质
CN116601648A (zh) 备选软标签生成
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
US9747891B1 (en) Name pronunciation recommendation
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
US20220189475A1 (en) Dynamic virtual assistant speech modulation
US11741715B2 (en) Automatic creation and annotation of software-related instructional videos
CN109857838B (zh) 用于生成信息的方法和装置
CN112951274A (zh) 语音相似度确定方法及设备、程序产品
CN113420227B (zh) 点击率预估模型的训练方法、预估点击率的方法、装置
CN115942005A (zh) 用于生成解说视频的方法、装置、设备和存储介质
JP2024095787A (ja) 動画処理方法と装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230906

R150 Certificate of patent or registration of utility model

Ref document number: 7346496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150