JP2022116285A - 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022116285A
JP2022116285A JP2022090504A JP2022090504A JP2022116285A JP 2022116285 A JP2022116285 A JP 2022116285A JP 2022090504 A JP2022090504 A JP 2022090504A JP 2022090504 A JP2022090504 A JP 2022090504A JP 2022116285 A JP2022116285 A JP 2022116285A
Authority
JP
Japan
Prior art keywords
data
sub
audio
voice
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022090504A
Other languages
English (en)
Other versions
JP7383761B2 (ja
Inventor
ジョウ,イー
Yi Zhou
ズオ,ションヨン
Shengyong Zuo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022116285A publication Critical patent/JP2022116285A/ja
Application granted granted Critical
Publication of JP7383761B2 publication Critical patent/JP7383761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/021Introducing corrections for particular conditions exterior to the engine
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/60Input parameters for engine control said parameters being related to the driver demands or status
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • General Engineering & Computer Science (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】コストを低減できる、車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、複数の音声サブデータに基づいて、車両の音声動作モードを特定することと、を含む。【選択図】図2

Description

本開示は、コンピュータ技術分野に関し、特に音声認識分野に関し、より具体的に、車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
関連技術の車両は、音声認識能力を有し、車両には、通常、音声受信器と音声プロセッサとが配置されている。音声受信器は、音声データを受信するためのものであり、音声プロセッサは、受信した音声データを認識するためのものである。しかしながら、関連技術では、車両に音声受信器を配置するコストが高い。
本開示は、車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供している。
本開示の1つの局面によれば、車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することとを含む、車両に対する音声処理方法を提供している。
本開示の別の局面によれば、車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定するための特定モジュールとを含む、車両に対する音声処理装置を提供している。
本開示の別の局面によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサが上述した車両に対する音声処理方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される電子機器を提供している。
本開示の別の局面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに上述した車両に対する音声処理方法を実行させる記憶媒体を提供している。
本開示の別の局面によれば、プロセッサにより実行された場合に、上述した車両に対する音声処理方法を実現するコンピュータプログラムを提供している。
理解されるべくこととして、本部分に記載されたコンテンツは、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の一実施例による車両に対する音声処理方法及び装置の適用シーンを模式的に示している。 図2は、本開示の一実施例による車両に対する音声処理方法のフローチャートを模式的に示している。 図3は、本開示の別の実施例による車両に対する音声処理方法のフローチャートを模式的に示している。 図4は、本開示の一実施例による車両に対する音声処理方法の原理図を模式的に示している。 図5は、本開示の一実施例による車両に対する音声処理装置のブロック図を模式的に示している。 図6は、本開示の実施例の音声処理を実行するための電子機器を実現するためのブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
ここで使用した術語は、具体的な実施例を説明するためのものに過ぎず、本開示を限定することを意図しない。ここで使用した「含む」、「含まれる」などの術語は、前記特徴、ステップ、操作及び/又は部品の存在を表すが、1つ又は複数の他の特徴、ステップ、操作又は部品の存在や、追加を除外しない。
ここで使用したすべての術語(技術及び科学術語を含む)は、別途定義しない限り、当業者が通常に理解する意味を持つ。ここで使用した術語は、本明細書のコンテキストと一致する意味を持つと解釈すべきであり、理想化又は硬すぎる方式で解釈すべきではないことに注意すべきである。
「Aと、Bと、Cなどの少なくとも1つ」といった表現を使用する場合、一般的に当業者が通常に理解するこの表現の意味で解釈すべきである(例えば、「Aと、Bと、Cとの少なくとも1つを有するシステム」は、単にAを有する、単にBを有する、単にCを有する、AとBとを有する、AとCとを有する、BとCとを有する、及び/又はAと、Bと、Cとを有するシステムなどを含むが、これらに限られない)。
図1は、本開示の一実施例による車両に対する音声処理方法及び装置の適用シーンを模式的に示している。当業者が本開示の技術内容を理解することに役立つように、図1に示すのは単に本開示の実施例を適用可能な適用シーンの例示であるが、本開示の実施例が他の機器、システム、環境又はシーンに適用できないことを意味しないことに注意すべきである。
図1に示すように、この実施例による適用シーンは、車両100を含んでよい。車両100の内部は、例えば複数の領域を含み、複数の領域は、例えば運転席領域111と助手席領域112とを含む。複数の領域は、後席領域などをさらに含んでもよい。
車両100の内部には、例えば複数の音声受信器を設置して音声データを受信する。例えば、音声受信器121は、運転席領域111からの音声データを受信するためのものであり、音声受信器122は、例えば助手席領域112からの音声データを受信するためのものである。車両100は、異なる領域からの音声データに対して異なる操作を実行してもよい。
例えば、運転席領域111からの音声データを受信したら、音声データに基づいて、窓開け、エアコンつけ、ナビゲイトなどの操作を実行する。助手席領域112からの音声データを受信したら、音声データに基づいて、音楽再生、天気予報閲覧などの操作を実行する。
しかしながら、車両100に複数の音声受信器を配置することは、コストが高い問題がある。
これに鑑みて、本開示の実施例は、車両に対する音声処理方法を提供している。車両に対する音声処理方法は、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報を取得する。続いて、複数の音声サブデータに基づいて、車両の音声動作モードを特定する。
以下、図1の適用シーンに合わせて、図2~図4を参照して本開示の例示的実施形態による車両に対する音声処理方法を説明する。
図2は、本開示の一実施例による車両に対する音声処理方法のフローチャートを模式的に示している。
図2に示すように、本開示の実施例の車両に対する音声処理方法200は、例えば操作S210~操作S220を含んでよい。
操作S210において、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の音声サブデータと各音声サブデータに対する説明情報とを取得する。
操作S220において、複数の音声サブデータに基づいて、車両の音声動作モードを特定する。
例示的に、車両には、例えば音声受信器と音声プロセッサとを配置しており、音声受信器は、マイクを含んでよい。車両は、音声受信器によって複数の領域からの初期音声データを受信することができる。初期音声データを受信した後、音声プロセッサを利用して初期音声データを分離処理して、初期音声データを複数の音声サブデータと各音声サブデータに対する説明情報とに分離する。複数の音声サブデータは、複数の領域と一対一で対応しており、各音声サブデータに対する説明情報は、複数の領域のうち音声サブデータに対応する領域を示す。
分離処理して複数の音声サブデータを取得した後、車両は、複数の音声サブデータのそれぞれに基づいて車両の音声動作モードを特定することができる。音声動作モードは、例えば、車両が後で関連する音声データを受信したら、受信した音声を如何に処理するか、及び音声に基づいて関連操作を実行するかを示す。
本開示の実施例によれば、車両は、1つの音声受信器によって複数の領域からの初期音声データを受信し、初期音声データを分離処理して複数の領域と一対一で対応する複数の音声サブデータを取得することができる。車両は、複数の領域のそれぞれに対して音声受信器を配置する必要がなく、音声受信器の数を減らすことで、車両のコストを低減した。なお、複数の音声受信器によって複数の領域からの音声データをそれぞれ受信する構成に比べて、本開示の実施例は、1つの音声受信器によって音声データを受信し、受信した音声データのデータ量を低減することで、車両が音声処理を行う時の計算量を低減し、車両の音声処理性能を向上した。
図3は、本開示の別の実施例による車両に対する音声処理方法のフローチャートを模式的に示している。
図3に示すように、本開示の実施例の車両に対する音声処理方法300は、例えば操作S310~操作S390を含んでよい。
操作S310において、車両内部における複数の領域からの初期音声データを受信する。
操作S320において、初期音声データを分離処理して、複数の音声サブデータと各音声サブデータに対する説明情報とを取得する。
例えば、ブラインドソース分離アルゴリズム(Blind Source Separation Algorithm)で初期音声データを分離処理して、初期音声データを複数の領域と一対一で対応する複数の音声サブデータに分離する。複数の領域は、例えば運転席領域と助手席領域とを含む。複数の音声サブデータは、第1の音声サブデータと第2の音声サブデータとを含み、第1の音声サブデータに対する説明情報は、第1の音声サブデータが運転席領域に由来することを示し、第2の音声サブデータに対する説明情報は、第2の音声サブデータが助手席領域に由来することを示す。
操作S330において、複数の音声サブデータをそれぞれ音声認識して、複数の音声サブデータと一対一で対応する複数の音声認識結果を取得する。
例示的に、複数の音声認識結果に基づいて、車両の音声動作モードを特定する。例えば、第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれるかを判断し、且つ第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれるかを判断する。
ある例示において、複数の音声サブデータに対応する複数の音声認識結果を取得した後、第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれるか、及び第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれるかを同時に判断してもよい。
別の例示において、複数の音声サブデータに対応する複数の音声認識結果を取得した後、まず第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれるかを判断し、その後、第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれるかを判断してもよい。具体的なプロセスは、操作S340~操作S390の通りである。
操作S340において、第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれるかを判断する。「YES」であれば、操作S350を実行し、「NO」であれば、操作S370を実行する。第1のウェイクアップコンテンツは、例えば特定のウェイクアップワードを含む。
操作S350において、第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第1の音声動作モードとして特定する。
操作S360において、車両を第1の音声動作モードに基づいて操作を実行するように制御する。
車両を第1の音声動作モードに基づいて操作を実行するように制御することは、受信した第1の目標音声データから、運転席領域からの第3の音声サブデータを抽出し、第3の音声サブデータを音声認識して、第1の操作コマンドを取得し、第1の操作コマンドに基づいて操作を実行することを含む。
例えば、第1のウェイクアップコンテンツが認識されたら、車両の音声受信器は、引き続き第1の目標音声データを受信することができる。第1の目標音声データは、例えば、運転席領域及び助手席領域に由来する。なお、ユーザが運転席領域のみで音声を発しても、音声の発散及び反射に起因して、運転席領域の音声が助手席領域に伝わったり、助手席領域で他の雑音も存在したりすることで、第1の目標音声データは、通常、運転席領域からの音声と助手席領域からの音声とを含む。
車両は、受信した第1の目標音声データから、運転席領域からの第3の音声サブデータを抽出してよい。例えば、ブラインドソース分離アルゴリズムによって第1の目標音声データを複数の音声サブデータに分離し、複数の音声サブデータは、運転席領域に対応する音声サブデータ及び助手席領域に対応する音声サブデータを含む。そして、複数の音声サブデータから、運転席領域からの第3の音声サブデータを抽出する。
続いて、車両は、第3の音声サブデータを音声認識して、運転席領域に関連する第1の操作コマンドを取得し、第1の操作コマンドに基づいて操作を実行する。第3の音声サブデータを音声認識して得られた第1の操作コマンドは、例えば「窓開け」、「エアコンつけ」、「ナビゲイト」などの重要なコマンドを含む。
操作S370において、第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれるかを判断する。「YES」であれば、操作S380を実行し、「NO」であれば、終了する。第2のウェイクアップコンテンツは、例えば、特定のウェイクアップワードを含む。
操作S380において、第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第2の音声動作モードとして特定する。
操作S390において、車両を第2の音声動作モードに基づいて操作を実行するように制御する。
車両を第2の音声動作モードに基づいて操作を実行するように制御することは、受信した第2の目標音声データから、助手席領域からの第4の音声サブデータを抽出し、第4の音声サブデータを音声認識して、第2の操作コマンドを取得し、第2の操作コマンドに基づいて操作を実行することを含む。
例えば、第2のウェイクアップコンテンツが認識されたら、車両の音声受信器は、引き続き第2の目標音声データを受信することができる。第2の目標音声データは、例えば、運転席領域及び助手席領域に由来する。なお、ユーザが助手席領域のみで音声を発しても、音声の発散及び反射に起因して、助手席領域の音声が運転席領域に伝わったり、運転席領域で他の雑音も存在したりすることで、第2の目標音声データは、通常、運転席領域からの音声と助手席領域からの音声とを含む。
車両は、受信した第2の目標音声データから、助手席領域からの第4の音声サブデータを抽出してよい。例えば、ブラインドソース分離アルゴリズムによって第2の目標音声データを複数の音声サブデータに分離し、複数の音声サブデータは、運転席領域に対応する音声サブデータ及び助手席領域に対応する音声サブデータを含む。そして、複数の音声サブデータから、助手席領域からの第4の音声サブデータを抽出する。
続いて、車両は、第4の音声サブデータを音声認識して、助手席領域に関連する第2の操作コマンドを取得し、第2の操作コマンドに基づいて操作を実行する。第4の音声サブデータを音声認識して得られた第2の操作コマンドは、例えば「音楽再生」、「天気予報閲覧」などの重要ではないコマンドを含む。
本開示の実施例において、同じ時点で、通常、第1の音声動作モードと第2の音声動作モードとのいずれか一方がウェイクアップ状態にある。初期音声データには第1のウェイクアップコンテンツと第2のウェイクアップコンテンツとが同時に含まれる場合、運転席領域に対応する第1の音声動作モードを優先してウェイクアップする。初期音声データには、第1のウェイクアップコンテンツが含まれずに、第2のウェイクアップコンテンツが含まれる場合、第2の音声動作モードをウェイクアップする。
本開示の実施例によれば、車両は、1つの音声受信器によって複数の領域からの初期音声データを受信し、初期音声データを分離処理して複数の領域と一対一で対応する複数の音声サブデータを取得し、その後、複数の音声サブデータをそれぞれ認識して音声認識結果を取得し、音声認識結果に基づいて処理する音声動作モードを特定することができる。運転席領域に対する第1の音声動作モードと助手席領域に対する第2の音声動作モードとが異なることで、車両が音声認識の多種モードを実現した。
図4は、本開示の一実施例による車両に対する音声処理方法の原理図を模式的に示している。
図4に示すように、本開示の実施例の車両400は、音声受信器410と、音声プロセッサ420と、アクチュエータ430とを含んでよい。音声プロセッサ420は、例えば、ブラインドソース分離モジュール421と、メインウェイクアップエンジン422と、サブウェイクアップエンジン423と、音声認識エンジン424と、語意理解モジュール425とを含む。
音声受信器410は、例えば1つのマイクを含み、このマイクは、例えば運転席領域及び助手席領域からの音声データを受信するためのものである。
音声受信器410は、初期音声データAを受信したら、初期音声データAをブラインドソース分離モジュール421に送信して分離処理し、複数の音声サブデータと各音声サブデータに対する説明情報とを取得する。複数の音声サブデータは、例えば第1の音声サブデータa1と第2の音声サブデータa2とを含み、第1の音声サブデータa1に対する説明情報は、例えば第1の音声サブデータa1が運転席領域に由来することを示し、第2の音声サブデータa2に対する説明情報は、例えば第2の音声サブデータa2が助手席領域に由来することを示す。
ある例示において、ブラインドソース分離モジュール421は、ブラインドソース分離アルゴリズムで音声を分離し、分離結果は、音声サブデータとこの音声サブデータの由来を説明するための説明情報とを含む。説明情報は、角度情報を含んでよく、角度情報は、例えば第1の角度区間と第2の角度区間とを含み、第1の角度区間は、例えば[0°90°)であり、第2の角度区間は、例えば[90°180°]である。運転席領域からの第1の音声サブデータa1の説明情報中の角度は、例えば[0°90°)内にあり、自助手席領域からの第2の音声サブデータa2の説明情報中の角度は、例えば[90°180°]内にある。ブラインドソース分離アルゴリズムで音声データを分離処理する際に、例えば、音声の到来方向(Direction of Arrival、 DOA)を算出することで各音声サブデータの由来を特定することができる。
続いて、第1の音声サブデータa1をメインウェイクアップエンジン422に送信して認識することで、第1の音声サブデータa1に対する音声認識結果を取得する。音声認識結果に第1のウェイクアップコンテンツが含まれる場合、車両の音声動作モードを第1の音声動作モードとして特定する。
第2の音声サブデータa2をサブウェイクアップエンジン423に送信して第2の音声サブデータa2に対する音声認識結果を取得する。音声認識結果に第2のウェイクアップコンテンツが含まれる場合、車両の音声動作モードを第2の音声動作モードとして特定する。
車両の音声動作モードが第1の音声動作モードであることを例とする。第1の音声動作モードで、車両の音声受信器410は、引き続き第1の目標音声データBを受信することができる。第1の目標音声データBには、例えば運転席領域からのユーザ音声が含まれる。ブラインドソース分離モジュール421は、第1の目標音声データBを分離し、運転席領域からの第3の音声サブデータbを抽出することができる。
その後、ブラインドソース分離モジュール421は、抽出した第3の音声サブデータbを音声認識エンジン424に送信して音声認識することで、音声認識結果b1を取得し、音声認識結果b1は、例えば、「窓開け」、「エアコンつけ」、「ナビゲイト」などの文字を含む。音声認識エンジン424は、音声認識結果b1を語意理解モジュール425に送信して語意理解することで、文字に対応する第1の操作コマンドb2を特定する。例えば、「窓開け」という文字に対応する第1の操作コマンドb2は、窓開けコマンドである。
続いて、第1の操作コマンドb2をアクチュエータ430に送信して、アクチュエータ430は、第1の操作コマンドb2に基づいて関連操作を実行する。例えば、アクチュエータ430は、窓開けコマンドに基づいて車窓を開ける。
本開示の実施例の車両は、1つの音声受信器によって複数の領域からの初期音声データを受信し、初期音声データを分離処理して複数の領域と一対一で対応する複数の音声サブデータを取得することができ、車両のコストを低減したと考えられる。なお、1つの音声受信器によって音声データを受信し、受信した音声データのデータ量を低減することで、車両が音声処理を行う時の計算量を低減し、車両の音声処理性能を向上した。
図5は、本開示の一実施例による車両に対する音声処理装置のブロック図を模式的に示している。
図5に示すように、本開示の実施例の車両に対する音声処理装置500は、例えば処理モジュール510及び特定モジュール520を含む。
処理モジュール510は、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するために用いられる。本開示の実施例によれば、処理モジュール510は、例えば、前文で図2を参照して説明した操作S210を実行してよく、ここでその説明を繰り返さない。
特定モジュール520は、複数の音声サブデータに基づいて、車両の音声動作モードを特定することに用いられる。本開示の実施例によれば、特定モジュール520は、例えば、前文で図2を参照して説明した操作S220を実行してよく、ここでその説明を繰り返さない。
本開示の実施例によれば、特定モジュール520は、例えば、第1の認識サブモジュールと特定サブモジュールとを含む。第1の認識サブモジュールは、複数の音声サブデータをそれぞれ音声認識して、複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するためのものである。特定サブモジュールは、複数の音声認識結果に基づいて、車両の音声動作モードを特定するためのものである。
本開示の実施例によれば、複数の領域は、運転席領域と助手席領域とを含み、複数の音声サブデータは、第1の音声サブデータと第2の音声サブデータとを含み、第1の音声サブデータに対する説明情報は、第1の音声サブデータが運転席領域に由来することを示し、第2の音声サブデータに対する説明情報は、第2の音声サブデータが助手席領域に由来することを示す。ここで、特定サブモジュールは、第1の特定手段と第2の特定手段との少なくとも1つを含む。第1の特定手段は、第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第1の音声動作モードとして特定するためのものである。第2の特定手段は、第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第2の音声動作モードとして特定するためのものである。
本開示の実施例によれば、装置500は、車両を第1の音声動作モードに基づいて操作を実行するように制御するための第1の制御モジュールをさらに含んでもよい。ここで、第1の制御モジュールは、第1の抽出サブモジュールと、第2の認識サブモジュールと、第1の実行サブモジュールとを含む。第1の抽出サブモジュールは、受信した第1の目標音声データから、運転席領域からの第3の音声サブデータを抽出するためのものである。第2の認識サブモジュールは、第3の音声サブデータを音声認識して、運転席領域に関連する第1の操作コマンドを取得するためのものである。第1の実行サブモジュールは、第1の操作コマンドに基づいて操作を実行するためのものである。
本開示の実施例によれば、装置500は、車両を第2の音声動作モードに基づいて操作を実行するように制御するための第2の制御モジュールをさらに含んでもよい。ここで、第2の制御モジュールは、第2の抽出サブモジュールと、第3の認識サブモジュールと、第2の実行サブモジュールとを含む。第2の抽出サブモジュールは、受信した第2の目標音声データから、助手席領域からの第4の音声サブデータを抽出するためのものである。第3の認識サブモジュールは、第4の音声サブデータを音声認識して、助手席領域に関連する第2の操作コマンドを取得するためのものである。第2の実行サブモジュールは、第2の操作コマンドに基づいて操作を実行するためのものである。
本開示の実施例によれば、車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、ここで、第1の認識サブモジュールは、第1の認識手段と第2の認識手段とを含む。第1の認識手段は、メインウェイクアップエンジンを利用して第1の音声サブデータを認識して、第1の音声サブデータに対する音声認識結果を取得するためのものである。第2の認識手段は、サブウェイクアップエンジンを利用して第2の音声サブデータを認識して、第2の音声サブデータに対する音声認識結果を取得するためのものである。
本開示の実施例によれば、処理モジュール510は、ブラインドソース分離アルゴリズムで初期音声データを分離処理するために用いられてもよい。
本開示の技術案では、係られたユーザ個人情報の取得、記憶、加工、伝送、提供、公開及び応用などは、いずれも関連法律や法規の規定に合致しており、必要なセキュリティ対策を採用し、かつ公序良俗に反していない。本開示の技術案では、ユーザの個人情報を取得する、又は収集する前に、いずれもユーザの許可又は同意を得た。
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。
図6は、本開示の実施例の音声処理を実行するための電子機器を実現するためのブロック図である。
図6は、本開示の実施例を実行することが可能な例示的電子機器600の模式的ブロック図を示している。電子機器600は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
図6に示すように、機器600は、計算手段601を含み、計算手段601は、リードオンリーメモリ(ROM)602に記憶されたコンピュータプログラム又は記憶手段608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM 603には、さらに機器600の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段601、ROM 602、及びRAM 603は、バス604を介して相互に接続される。入出力(I/O)インターフェース605も、バス604に接続される。
機器600における複数の部品は、I/Oインターフェース605に接続され、例えばキーボード、マウス等の入力手段606と、例えば様々な種類のディスプレイ、スピーカ等の出力手段607と、例えば磁気ディスク、光ディスク等の記憶手段608と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段609とを含む。通信手段609は、機器600がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
計算手段601は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段601の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段601は、前文で記載された各方法及び処理、例えば車両に対する音声処理方法を実行する。例えば、幾つかの実施例において、車両に対する音声処理方法は、例えば記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 602及び/又は通信手段609を介して機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算手段601により実行された場合、前文に記載の車両に対する音声処理方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段601は、他の任意の適切な方式(例えば、ファームウェアを介する)により車両に対する音声処理方法を実行するように構成されてもよい。
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス (CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント―サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。
理解されるべくこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
以上説明した車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムは、以下のように表現することができる。
第1態様の車両に対する音声処理方法は、
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、
前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することとを含む。
第2態様の車両に対する音声処理方法は、
第1態様の音声処理方法において、
前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することは、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得することと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することとを含む。
第3態様の車両に対する音声処理方法は、
第2態様の音声処理方法において、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第1の音声サブデータと第2の音声サブデータとを含み、第1の音声サブデータに対する説明情報は、前記第1の音声サブデータが前記運転席領域に由来することを示し、第2の音声サブデータに対する説明情報は、前記第2の音声サブデータが前記助手席領域に由来することを示し、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することは、
前記第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第1の音声動作モードとして特定することと、
前記第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第2の音声動作モードとして特定することとの少なくとも1つを含む。
第4態様の車両に対する音声処理方法は、
第3態様の音声処理方法において、
前記車両を第1の音声動作モードに基づいて操作を実行するように制御することをさらに含み、
前記車両を第1の音声動作モードに基づいて操作を実行するように制御することは、
受信した第1の目標音声データから、前記運転席領域からの第3の音声サブデータを抽出することと、
前記第3の音声サブデータを音声認識して、前記運転席領域に関連する第1の操作コマンドを取得することと、
前記第1の操作コマンドに基づいて操作を実行することとを含む。
第5態様の車両に対する音声処理方法は、
第3態様の音声処理方法において、
前記車両を第2の音声動作モードに基づいて操作を実行するように制御することをさらに含み、
前記車両を第2の音声動作モードに基づいて操作を実行するように制御することは、
受信した第2の目標音声データから、前記助手席領域からの第4の音声サブデータを抽出することと、
前記第4の音声サブデータを音声認識して、前記助手席領域に関連する第2の操作コマンドを取得することと、
前記第2の操作コマンドに基づいて操作を実行することとを含む。
第6態様の車両に対する音声処理方法は、
第3態様の音声処理方法において、
前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
前記複数の音声サブデータをそれぞれ音声認識して、複数の音声認識結果を取得することは、
前記メインウェイクアップエンジンを利用して前記第1の音声サブデータを認識して、前記第1の音声サブデータに対する音声認識結果を取得することと、
前記サブウェイクアップエンジンを利用して前記第2の音声サブデータを認識して、前記第2の音声サブデータに対する音声認識結果を取得することとを含む。
第7態様の車両に対する音声処理方法は、
第1態様から第6態様のいずれか1つの音声処理方法において、
前記音声データを分離処理することは、
ブラインドソース分離アルゴリズムで前記初期音声データを分離処理することを含む。
第8態様の車両に対する音声処理装置は、
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、
前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定するための特定モジュールとを含む。
第9態様の車両に対する音声処理装置は、
第8態様の音声処理装置において、
前記特定モジュールは、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するための第1の認識サブモジュールと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定するための特定サブモジュールとを含む。
第10態様の車両に対する音声処理装置は、
第9態様の音声処理装置において、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第1の音声サブデータと第2の音声サブデータとを含み、第1の音声サブデータに対する説明情報は、前記第1の音声サブデータが前記運転席領域に由来することを示し、第2の音声サブデータに対する説明情報は、前記第2の音声サブデータが前記助手席領域に由来することを示し、
前記特定サブモジュールは、
前記第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第1の音声動作モードとして特定するための第1の特定手段と、
前記第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第2の音声動作モードとして特定するための第2の特定手段との少なくとも1つを含む。
第11態様の車両に対する音声処理装置は、
第10態様の音声処理装置において、
前記車両を第1の音声動作モードに基づいて操作を実行するように制御するための第1の制御モジュールをさらに含み、
前記第1の制御モジュールは、
受信した第1の目標音声データから、前記運転席領域からの第3の音声サブデータを抽出するための第1の抽出サブモジュールと、
前記第3の音声サブデータを音声認識して、前記運転席領域に関連する第1の操作コマンドを取得するための第2の認識サブモジュールと、
前記第1の操作コマンドに基づいて操作を実行するための第1の実行サブモジュールとを含む。
第12態様の車両に対する音声処理装置は、
第10態様の音声処理装置において、
前記車両を第2の音声動作モードに基づいて操作を実行するように制御するための第2の制御モジュールをさらに含み、
前記第2の制御モジュールは、
受信した第2の目標音声データから、前記助手席領域からの第4の音声サブデータを抽出するための第2の抽出サブモジュールと、
前記第4の音声サブデータを音声認識して、前記助手席領域に関連する第2の操作コマンドを取得するための第3の認識サブモジュールと、
前記第2の操作コマンドに基づいて操作を実行するための第2の実行サブモジュールとを含む。
第13態様の車両に対する音声処理装置は、
第10態様の音声処理装置において、
前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
前記第1の認識サブモジュールは、
前記メインウェイクアップエンジンを利用して前記第1の音声サブデータを認識して、前記第1の音声サブデータに対する音声認識結果を取得するための第1の認識手段と、
前記サブウェイクアップエンジンを利用して前記第2の音声サブデータを認識して、前記第2の音声サブデータに対する音声認識結果を取得するための第2の認識手段とを含む。
第14態様の車両に対する音声処理装置は、
第8態様から第13態様のいずれか1つの音声処理装置において、
前記処理モジュールは、さらに、
ブラインドソース分離アルゴリズムで前記初期音声データを分離処理するために用いられる。
第15態様の電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、
前記命令は、前記少なくとも1つのプロセッサが第1態様から第7態様のいずれか1つに記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される。
第16態様の記憶媒体は、
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに第1態様から第7態様のいずれか1つに記載の方法を実行させる。
第17態様のコンピュータプログラムは、
プロセッサにより実行された場合に、第1態様から第7態様のいずれか1つに記載の方法を実現する。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. 車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、
    前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することとを含む、
    車両に対する音声処理方法。
  2. 前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することは、
    前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得することと、
    前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することとを含む、
    請求項1に記載の方法。
  3. 前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第1の音声サブデータと第2の音声サブデータとを含み、第1の音声サブデータに対する説明情報は、前記第1の音声サブデータが前記運転席領域に由来することを示し、第2の音声サブデータに対する説明情報は、前記第2の音声サブデータが前記助手席領域に由来することを示し、
    前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することは、
    前記第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第1の音声動作モードとして特定することと、
    前記第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第2の音声動作モードとして特定することとの少なくとも1つを含む、
    請求項2に記載の方法。
  4. 前記車両を第1の音声動作モードに基づいて操作を実行するように制御することをさらに含み、
    前記車両を第1の音声動作モードに基づいて操作を実行するように制御することは、
    受信した第1の目標音声データから、前記運転席領域からの第3の音声サブデータを抽出することと、
    前記第3の音声サブデータを音声認識して、前記運転席領域に関連する第1の操作コマンドを取得することと、
    前記第1の操作コマンドに基づいて操作を実行することとを含む、
    請求項3に記載の方法。
  5. 前記車両を第2の音声動作モードに基づいて操作を実行するように制御することをさらに含み、
    前記車両を第2の音声動作モードに基づいて操作を実行するように制御することは、
    受信した第2の目標音声データから、前記助手席領域からの第4の音声サブデータを抽出することと、
    前記第4の音声サブデータを音声認識して、前記助手席領域に関連する第2の操作コマンドを取得することと、
    前記第2の操作コマンドに基づいて操作を実行することとを含む、
    請求項3に記載の方法。
  6. 前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
    前記複数の音声サブデータをそれぞれ音声認識して、複数の音声認識結果を取得することは、
    前記メインウェイクアップエンジンを利用して前記第1の音声サブデータを認識して、前記第1の音声サブデータに対する音声認識結果を取得することと、
    前記サブウェイクアップエンジンを利用して前記第2の音声サブデータを認識して、前記第2の音声サブデータに対する音声認識結果を取得することとを含む
    請求項3に記載の方法。
  7. 前記音声データを分離処理することは、
    ブラインドソース分離アルゴリズムで前記初期音声データを分離処理することを含む、
    請求項1に記載の方法。
  8. 車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、
    前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定するための特定モジュールとを含む、
    車両に対する音声処理装置。
  9. 前記特定モジュールは、
    前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するための第1の認識サブモジュールと、
    前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定するための特定サブモジュールとを含む、
    請求項8に記載の装置。
  10. 前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第1の音声サブデータと第2の音声サブデータとを含み、第1の音声サブデータに対する説明情報は、前記第1の音声サブデータが前記運転席領域に由来することを示し、第2の音声サブデータに対する説明情報は、前記第2の音声サブデータが前記助手席領域に由来することを示し、
    前記特定サブモジュールは、
    前記第1の音声サブデータに対応する音声認識結果に第1のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第1の音声動作モードとして特定するための第1の特定手段と、
    前記第2の音声サブデータに対応する音声認識結果に第2のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第2の音声動作モードとして特定するための第2の特定手段との少なくとも1つを含む、
    請求項9に記載の装置。
  11. 前記車両を第1の音声動作モードに基づいて操作を実行するように制御するための第1の制御モジュールをさらに含み、
    前記第1の制御モジュールは、
    受信した第1の目標音声データから、前記運転席領域からの第3の音声サブデータを抽出するための第1の抽出サブモジュールと、
    前記第3の音声サブデータを音声認識して、前記運転席領域に関連する第1の操作コマンドを取得するための第2の認識サブモジュールと、
    前記第1の操作コマンドに基づいて操作を実行するための第1の実行サブモジュールとを含む、
    請求項10に記載の装置。
  12. 前記車両を第2の音声動作モードに基づいて操作を実行するように制御するための第2の制御モジュールをさらに含み、
    前記第2の制御モジュールは、
    受信した第2の目標音声データから、前記助手席領域からの第4の音声サブデータを抽出するための第2の抽出サブモジュールと、
    前記第4の音声サブデータを音声認識して、前記助手席領域に関連する第2の操作コマンドを取得するための第3の認識サブモジュールと、
    前記第2の操作コマンドに基づいて操作を実行するための第2の実行サブモジュールとを含む、
    請求項10に記載の装置。
  13. 前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
    前記第1の認識サブモジュールは、
    前記メインウェイクアップエンジンを利用して前記第1の音声サブデータを認識して、前記第1の音声サブデータに対する音声認識結果を取得するための第1の認識手段と、
    前記サブウェイクアップエンジンを利用して前記第2の音声サブデータを認識して、前記第2の音声サブデータに対する音声認識結果を取得するための第2の認識手段とを含む、
    請求項10に記載の装置。
  14. 前記処理モジュールは、さらに、
    ブラインドソース分離アルゴリズムで前記初期音声データを分離処理するために用いられる、
    請求項8~13のいずれか一項に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、
    前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される電子機器。
  16. コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~7のいずれか一項に記載の方法を実行させる記憶媒体。
  17. プロセッサにより実行された場合に、請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022090504A 2021-06-03 2022-06-02 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム Active JP7383761B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110621889.5A CN113327608B (zh) 2021-06-03 2021-06-03 针对车辆的语音处理方法、装置、电子设备和介质
CN202110621889.5 2021-06-03

Publications (2)

Publication Number Publication Date
JP2022116285A true JP2022116285A (ja) 2022-08-09
JP7383761B2 JP7383761B2 (ja) 2023-11-20

Family

ID=77419608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022090504A Active JP7383761B2 (ja) 2021-06-03 2022-06-02 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220293103A1 (ja)
EP (1) EP4030424B1 (ja)
JP (1) JP7383761B2 (ja)
KR (1) KR20220082789A (ja)
CN (1) CN113327608B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7186375B2 (ja) * 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006082764A1 (en) * 2005-02-01 2006-08-10 Matsushita Electric Industrial Co., Ltd. Method and system for controlling a vehicle using voice commands
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2017009701A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音声認識装置、および音声認識方法
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
WO2020240789A1 (ja) * 2019-05-30 2020-12-03 三菱電機株式会社 音声対話制御装置及び音声対話制御方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509465B (zh) * 2017-09-15 2023-07-25 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
US20190237067A1 (en) * 2018-01-31 2019-08-01 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-channel voice recognition for a vehicle environment
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
US10917717B2 (en) * 2019-05-30 2021-02-09 Nuance Communications, Inc. Multi-channel microphone signal gain equalization based on evaluation of cross talk components
US11170790B2 (en) * 2019-06-27 2021-11-09 Bose Corporation User authentication with audio reply
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质
CN111402877B (zh) * 2020-03-17 2023-08-11 阿波罗智联(北京)科技有限公司 基于车载多音区的降噪方法、装置、设备和介质
CN111599357A (zh) * 2020-04-07 2020-08-28 宁波吉利汽车研究开发有限公司 一种车内多音区拾音方法、装置、电子设备及存储介质
CN112017659A (zh) * 2020-09-01 2020-12-01 北京百度网讯科技有限公司 多音区语音信号的处理方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006082764A1 (en) * 2005-02-01 2006-08-10 Matsushita Electric Industrial Co., Ltd. Method and system for controlling a vehicle using voice commands
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2017009701A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音声認識装置、および音声認識方法
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
WO2020240789A1 (ja) * 2019-05-30 2020-12-03 三菱電機株式会社 音声対話制御装置及び音声対話制御方法

Also Published As

Publication number Publication date
EP4030424B1 (en) 2024-02-07
KR20220082789A (ko) 2022-06-17
CN113327608A (zh) 2021-08-31
JP7383761B2 (ja) 2023-11-20
CN113327608B (zh) 2022-12-09
EP4030424A2 (en) 2022-07-20
EP4030424A3 (en) 2022-11-02
US20220293103A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
JP2016520879A (ja) 地方なまりを区別する音声データ認識方法、装置及びサーバ
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
CN107943834B (zh) 人机对话的实现方法、装置、设备及存储介质
CN107240396B (zh) 说话人自适应方法、装置、设备及存储介质
JP2022120020A (ja) マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN113053368A (zh) 语音增强方法、电子设备和存储介质
JP7383761B2 (ja) 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR102599948B1 (ko) 전자 장치 및 그의 와이파이 연결 방법
CN113658586A (zh) 语音识别模型的训练方法、语音交互方法及装置
JP7352680B2 (ja) 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114399992B (zh) 语音指令响应方法、装置及存储介质
JP2024537258A (ja) 音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN112669839B (zh) 语音交互方法、装置、设备及存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN114882879A (zh) 音频降噪方法、确定映射信息的方法、装置及电子设备
CN113744726A (zh) 语音识别方法、装置、电子设备和存储介质
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN115312042A (zh) 用于处理音频的方法、装置、设备以及存储介质
CN109036379B (zh) 语音识别方法、设备及存储介质
US20220343400A1 (en) Method and apparatus for providing state information of taxi service order, and storage medium
EP4123639A2 (en) Wake-up control for a speech controlled device
CN114495923A (zh) 智能控制系统实现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231108

R150 Certificate of patent or registration of utility model

Ref document number: 7383761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150