JP7383761B2

JP7383761B2 - 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP7383761B2
Application number: JP2022090504A
Authority: JP
Inventors: ジョウ，イー; ズオ，ションヨン
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2022-06-02
Publication date: 2023-11-20
Anticipated expiration: 2042-06-02
Also published as: EP4030424B1; US20220293103A1; JP2022116285A; EP4030424A2; CN113327608A; KR20220082789A; EP4030424A3; CN113327608B

Description

本開示は、コンピュータ技術分野に関し、特に音声認識分野に関し、より具体的に、車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。

関連技術の車両は、音声認識能力を有し、車両には、通常、音声受信器と音声プロセッサとが配置されている。音声受信器は、音声データを受信するためのものであり、音声プロセッサは、受信した音声データを認識するためのものである。しかしながら、関連技術では、車両に音声受信器を配置するコストが高い。

本開示は、車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供している。

本開示の１つの局面によれば、車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することとを含む、車両に対する音声処理方法を提供している。

本開示の別の局面によれば、車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定するための特定モジュールとを含む、車両に対する音声処理装置を提供している。

本開示の別の局面によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令を記憶しており、前記命令は、前記少なくとも１つのプロセッサが上述した車両に対する音声処理方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される電子機器を提供している。

本開示の別の局面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに上述した車両に対する音声処理方法を実行させる記憶媒体を提供している。

本開示の別の局面によれば、プロセッサにより実行された場合に、上述した車両に対する音声処理方法を実現するコンピュータプログラムを提供している。

理解されるべくこととして、本部分に記載されたコンテンツは、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
図１は、本開示の一実施例による車両に対する音声処理方法及び装置の適用シーンを模式的に示している。図２は、本開示の一実施例による車両に対する音声処理方法のフローチャートを模式的に示している。図３は、本開示の別の実施例による車両に対する音声処理方法のフローチャートを模式的に示している。図４は、本開示の一実施例による車両に対する音声処理方法の原理図を模式的に示している。図５は、本開示の一実施例による車両に対する音声処理装置のブロック図を模式的に示している。図６は、本開示の実施例の音声処理を実行するための電子機器を実現するためのブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

ここで使用した術語は、具体的な実施例を説明するためのものに過ぎず、本開示を限定することを意図しない。ここで使用した「含む」、「含まれる」などの術語は、前記特徴、ステップ、操作及び／又は部品の存在を表すが、１つ又は複数の他の特徴、ステップ、操作又は部品の存在や、追加を除外しない。

ここで使用したすべての術語（技術及び科学術語を含む）は、別途定義しない限り、当業者が通常に理解する意味を持つ。ここで使用した術語は、本明細書のコンテキストと一致する意味を持つと解釈すべきであり、理想化又は硬すぎる方式で解釈すべきではないことに注意すべきである。

「Ａと、Ｂと、Ｃなどの少なくとも１つ」といった表現を使用する場合、一般的に当業者が通常に理解するこの表現の意味で解釈すべきである（例えば、「Ａと、Ｂと、Ｃとの少なくとも１つを有するシステム」は、単にＡを有する、単にＢを有する、単にＣを有する、ＡとＢとを有する、ＡとＣとを有する、ＢとＣとを有する、及び／又はＡと、Ｂと、Ｃとを有するシステムなどを含むが、これらに限られない）。

図１は、本開示の一実施例による車両に対する音声処理方法及び装置の適用シーンを模式的に示している。当業者が本開示の技術内容を理解することに役立つように、図１に示すのは単に本開示の実施例を適用可能な適用シーンの例示であるが、本開示の実施例が他の機器、システム、環境又はシーンに適用できないことを意味しないことに注意すべきである。

図１に示すように、この実施例による適用シーンは、車両１００を含んでよい。車両１００の内部は、例えば複数の領域を含み、複数の領域は、例えば運転席領域１１１と助手席領域１１２とを含む。複数の領域は、後席領域などをさらに含んでもよい。

車両１００の内部には、例えば複数の音声受信器を設置して音声データを受信する。例えば、音声受信器１２１は、運転席領域１１１からの音声データを受信するためのものであり、音声受信器１２２は、例えば助手席領域１１２からの音声データを受信するためのものである。車両１００は、異なる領域からの音声データに対して異なる操作を実行してもよい。

例えば、運転席領域１１１からの音声データを受信したら、音声データに基づいて、窓開け、エアコンつけ、ナビゲイトなどの操作を実行する。助手席領域１１２からの音声データを受信したら、音声データに基づいて、音楽再生、天気予報閲覧などの操作を実行する。

しかしながら、車両１００に複数の音声受信器を配置することは、コストが高い問題がある。

これに鑑みて、本開示の実施例は、車両に対する音声処理方法を提供している。車両に対する音声処理方法は、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報を取得する。続いて、複数の音声サブデータに基づいて、車両の音声動作モードを特定する。

以下、図１の適用シーンに合わせて、図２～図４を参照して本開示の例示的実施形態による車両に対する音声処理方法を説明する。

図２は、本開示の一実施例による車両に対する音声処理方法のフローチャートを模式的に示している。

図２に示すように、本開示の実施例の車両に対する音声処理方法２００は、例えば操作Ｓ２１０～操作Ｓ２２０を含んでよい。

操作Ｓ２１０において、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の音声サブデータと各音声サブデータに対する説明情報とを取得する。

操作Ｓ２２０において、複数の音声サブデータに基づいて、車両の音声動作モードを特定する。

例示的に、車両には、例えば音声受信器と音声プロセッサとを配置しており、音声受信器は、マイクを含んでよい。車両は、音声受信器によって複数の領域からの初期音声データを受信することができる。初期音声データを受信した後、音声プロセッサを利用して初期音声データを分離処理して、初期音声データを複数の音声サブデータと各音声サブデータに対する説明情報とに分離する。複数の音声サブデータは、複数の領域と一対一で対応しており、各音声サブデータに対する説明情報は、複数の領域のうち音声サブデータに対応する領域を示す。

分離処理して複数の音声サブデータを取得した後、車両は、複数の音声サブデータのそれぞれに基づいて車両の音声動作モードを特定することができる。音声動作モードは、例えば、車両が後で関連する音声データを受信したら、受信した音声を如何に処理するか、及び音声に基づいて関連操作を実行するかを示す。

本開示の実施例によれば、車両は、１つの音声受信器によって複数の領域からの初期音声データを受信し、初期音声データを分離処理して複数の領域と一対一で対応する複数の音声サブデータを取得することができる。車両は、複数の領域のそれぞれに対して音声受信器を配置する必要がなく、音声受信器の数を減らすことで、車両のコストを低減した。なお、複数の音声受信器によって複数の領域からの音声データをそれぞれ受信する構成に比べて、本開示の実施例は、１つの音声受信器によって音声データを受信し、受信した音声データのデータ量を低減することで、車両が音声処理を行う時の計算量を低減し、車両の音声処理性能を向上した。

図３は、本開示の別の実施例による車両に対する音声処理方法のフローチャートを模式的に示している。

図３に示すように、本開示の実施例の車両に対する音声処理方法３００は、例えば操作Ｓ３１０～操作Ｓ３９０を含んでよい。

操作Ｓ３１０において、車両内部における複数の領域からの初期音声データを受信する。

操作Ｓ３２０において、初期音声データを分離処理して、複数の音声サブデータと各音声サブデータに対する説明情報とを取得する。

例えば、ブラインドソース分離アルゴリズム（Blind Source Separation Algorithm）で初期音声データを分離処理して、初期音声データを複数の領域と一対一で対応する複数の音声サブデータに分離する。複数の領域は、例えば運転席領域と助手席領域とを含む。複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、第１の音声サブデータが運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、第２の音声サブデータが助手席領域に由来することを示す。

操作Ｓ３３０において、複数の音声サブデータをそれぞれ音声認識して、複数の音声サブデータと一対一で対応する複数の音声認識結果を取得する。

例示的に、複数の音声認識結果に基づいて、車両の音声動作モードを特定する。例えば、第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれるかを判断し、且つ第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれるかを判断する。

ある例示において、複数の音声サブデータに対応する複数の音声認識結果を取得した後、第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれるか、及び第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれるかを同時に判断してもよい。

別の例示において、複数の音声サブデータに対応する複数の音声認識結果を取得した後、まず第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれるかを判断し、その後、第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれるかを判断してもよい。具体的なプロセスは、操作Ｓ３４０～操作Ｓ３９０の通りである。

操作Ｓ３４０において、第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれるかを判断する。「ＹＥＳ」であれば、操作Ｓ３５０を実行し、「ＮＯ」であれば、操作Ｓ３７０を実行する。第１のウェイクアップコンテンツは、例えば特定のウェイクアップワードを含む。

操作Ｓ３５０において、第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第１の音声動作モードとして特定する。

操作Ｓ３６０において、車両を第１の音声動作モードに基づいて操作を実行するように制御する。

車両を第１の音声動作モードに基づいて操作を実行するように制御することは、受信した第１の目標音声データから、運転席領域からの第３の音声サブデータを抽出し、第３の音声サブデータを音声認識して、第１の操作コマンドを取得し、第１の操作コマンドに基づいて操作を実行することを含む。

例えば、第１のウェイクアップコンテンツが認識されたら、車両の音声受信器は、引き続き第１の目標音声データを受信することができる。第１の目標音声データは、例えば、運転席領域及び助手席領域に由来する。なお、ユーザが運転席領域のみで音声を発しても、音声の発散及び反射に起因して、運転席領域の音声が助手席領域に伝わったり、助手席領域で他の雑音も存在したりすることで、第１の目標音声データは、通常、運転席領域からの音声と助手席領域からの音声とを含む。

車両は、受信した第１の目標音声データから、運転席領域からの第３の音声サブデータを抽出してよい。例えば、ブラインドソース分離アルゴリズムによって第１の目標音声データを複数の音声サブデータに分離し、複数の音声サブデータは、運転席領域に対応する音声サブデータ及び助手席領域に対応する音声サブデータを含む。そして、複数の音声サブデータから、運転席領域からの第３の音声サブデータを抽出する。

続いて、車両は、第３の音声サブデータを音声認識して、運転席領域に関連する第１の操作コマンドを取得し、第１の操作コマンドに基づいて操作を実行する。第３の音声サブデータを音声認識して得られた第１の操作コマンドは、例えば「窓開け」、「エアコンつけ」、「ナビゲイト」などの重要なコマンドを含む。

操作Ｓ３７０において、第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれるかを判断する。「ＹＥＳ」であれば、操作Ｓ３８０を実行し、「ＮＯ」であれば、終了する。第２のウェイクアップコンテンツは、例えば、特定のウェイクアップワードを含む。

操作Ｓ３８０において、第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第２の音声動作モードとして特定する。

操作Ｓ３９０において、車両を第２の音声動作モードに基づいて操作を実行するように制御する。

車両を第２の音声動作モードに基づいて操作を実行するように制御することは、受信した第２の目標音声データから、助手席領域からの第４の音声サブデータを抽出し、第４の音声サブデータを音声認識して、第２の操作コマンドを取得し、第２の操作コマンドに基づいて操作を実行することを含む。

例えば、第２のウェイクアップコンテンツが認識されたら、車両の音声受信器は、引き続き第２の目標音声データを受信することができる。第２の目標音声データは、例えば、運転席領域及び助手席領域に由来する。なお、ユーザが助手席領域のみで音声を発しても、音声の発散及び反射に起因して、助手席領域の音声が運転席領域に伝わったり、運転席領域で他の雑音も存在したりすることで、第２の目標音声データは、通常、運転席領域からの音声と助手席領域からの音声とを含む。

車両は、受信した第２の目標音声データから、助手席領域からの第４の音声サブデータを抽出してよい。例えば、ブラインドソース分離アルゴリズムによって第２の目標音声データを複数の音声サブデータに分離し、複数の音声サブデータは、運転席領域に対応する音声サブデータ及び助手席領域に対応する音声サブデータを含む。そして、複数の音声サブデータから、助手席領域からの第４の音声サブデータを抽出する。

続いて、車両は、第４の音声サブデータを音声認識して、助手席領域に関連する第２の操作コマンドを取得し、第２の操作コマンドに基づいて操作を実行する。第４の音声サブデータを音声認識して得られた第２の操作コマンドは、例えば「音楽再生」、「天気予報閲覧」などの重要ではないコマンドを含む。

本開示の実施例において、同じ時点で、通常、第１の音声動作モードと第２の音声動作モードとのいずれか一方がウェイクアップ状態にある。初期音声データには第１のウェイクアップコンテンツと第２のウェイクアップコンテンツとが同時に含まれる場合、運転席領域に対応する第１の音声動作モードを優先してウェイクアップする。初期音声データには、第１のウェイクアップコンテンツが含まれずに、第２のウェイクアップコンテンツが含まれる場合、第２の音声動作モードをウェイクアップする。

本開示の実施例によれば、車両は、１つの音声受信器によって複数の領域からの初期音声データを受信し、初期音声データを分離処理して複数の領域と一対一で対応する複数の音声サブデータを取得し、その後、複数の音声サブデータをそれぞれ認識して音声認識結果を取得し、音声認識結果に基づいて処理する音声動作モードを特定することができる。運転席領域に対する第１の音声動作モードと助手席領域に対する第２の音声動作モードとが異なることで、車両が音声認識の多種モードを実現した。

図４は、本開示の一実施例による車両に対する音声処理方法の原理図を模式的に示している。

図４に示すように、本開示の実施例の車両４００は、音声受信器４１０と、音声プロセッサ４２０と、アクチュエータ４３０とを含んでよい。音声プロセッサ４２０は、例えば、ブラインドソース分離モジュール４２１と、メインウェイクアップエンジン４２２と、サブウェイクアップエンジン４２３と、音声認識エンジン４２４と、語意理解モジュール４２５とを含む。

音声受信器４１０は、例えば１つのマイクを含み、このマイクは、例えば運転席領域及び助手席領域からの音声データを受信するためのものである。

音声受信器４１０は、初期音声データＡを受信したら、初期音声データＡをブラインドソース分離モジュール４２１に送信して分離処理し、複数の音声サブデータと各音声サブデータに対する説明情報とを取得する。複数の音声サブデータは、例えば第１の音声サブデータａ１と第２の音声サブデータａ２とを含み、第１の音声サブデータａ１に対する説明情報は、例えば第１の音声サブデータａ１が運転席領域に由来することを示し、第２の音声サブデータａ２に対する説明情報は、例えば第２の音声サブデータａ２が助手席領域に由来することを示す。

ある例示において、ブラインドソース分離モジュール４２１は、ブラインドソース分離アルゴリズムで音声を分離し、分離結果は、音声サブデータとこの音声サブデータの由来を説明するための説明情報とを含む。説明情報は、角度情報を含んでよく、角度情報は、例えば第１の角度区間と第２の角度区間とを含み、第１の角度区間は、例えば[０°９０°)であり、第２の角度区間は、例えば[９０°１８０°]である。運転席領域からの第１の音声サブデータａ１の説明情報中の角度は、例えば[０°９０°)内にあり、自助手席領域からの第２の音声サブデータａ２の説明情報中の角度は、例えば[９０°１８０°]内にある。ブラインドソース分離アルゴリズムで音声データを分離処理する際に、例えば、音声の到来方向（ＤｉｒｅｃｔｉｏｎｏｆＡｒｒｉｖａｌ、ＤＯＡ）を算出することで各音声サブデータの由来を特定することができる。

続いて、第１の音声サブデータａ１をメインウェイクアップエンジン４２２に送信して認識することで、第１の音声サブデータａ１に対する音声認識結果を取得する。音声認識結果に第１のウェイクアップコンテンツが含まれる場合、車両の音声動作モードを第１の音声動作モードとして特定する。

第２の音声サブデータａ２をサブウェイクアップエンジン４２３に送信して第２の音声サブデータａ２に対する音声認識結果を取得する。音声認識結果に第２のウェイクアップコンテンツが含まれる場合、車両の音声動作モードを第２の音声動作モードとして特定する。

車両の音声動作モードが第１の音声動作モードであることを例とする。第１の音声動作モードで、車両の音声受信器４１０は、引き続き第１の目標音声データＢを受信することができる。第１の目標音声データＢには、例えば運転席領域からのユーザ音声が含まれる。ブラインドソース分離モジュール４２１は、第１の目標音声データＢを分離し、運転席領域からの第３の音声サブデータｂを抽出することができる。

その後、ブラインドソース分離モジュール４２１は、抽出した第３の音声サブデータｂを音声認識エンジン４２４に送信して音声認識することで、音声認識結果ｂ１を取得し、音声認識結果ｂ１は、例えば、「窓開け」、「エアコンつけ」、「ナビゲイト」などの文字を含む。音声認識エンジン４２４は、音声認識結果ｂ１を語意理解モジュール４２５に送信して語意理解することで、文字に対応する第１の操作コマンドｂ２を特定する。例えば、「窓開け」という文字に対応する第１の操作コマンドｂ２は、窓開けコマンドである。

続いて、第１の操作コマンドｂ２をアクチュエータ４３０に送信して、アクチュエータ４３０は、第１の操作コマンドｂ２に基づいて関連操作を実行する。例えば、アクチュエータ４３０は、窓開けコマンドに基づいて車窓を開ける。

本開示の実施例の車両は、１つの音声受信器によって複数の領域からの初期音声データを受信し、初期音声データを分離処理して複数の領域と一対一で対応する複数の音声サブデータを取得することができ、車両のコストを低減したと考えられる。なお、１つの音声受信器によって音声データを受信し、受信した音声データのデータ量を低減することで、車両が音声処理を行う時の計算量を低減し、車両の音声処理性能を向上した。

図５は、本開示の一実施例による車両に対する音声処理装置のブロック図を模式的に示している。

図５に示すように、本開示の実施例の車両に対する音声処理装置５００は、例えば処理モジュール５１０及び特定モジュール５２０を含む。

処理モジュール５１０は、車両内部における複数の領域からの初期音声データを受信したことに応じて、初期音声データを分離処理して、複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するために用いられる。本開示の実施例によれば、処理モジュール５１０は、例えば、前文で図２を参照して説明した操作Ｓ２１０を実行してよく、ここでその説明を繰り返さない。

特定モジュール５２０は、複数の音声サブデータに基づいて、車両の音声動作モードを特定することに用いられる。本開示の実施例によれば、特定モジュール５２０は、例えば、前文で図２を参照して説明した操作Ｓ２２０を実行してよく、ここでその説明を繰り返さない。

本開示の実施例によれば、特定モジュール５２０は、例えば、第１の認識サブモジュールと特定サブモジュールとを含む。第１の認識サブモジュールは、複数の音声サブデータをそれぞれ音声認識して、複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するためのものである。特定サブモジュールは、複数の音声認識結果に基づいて、車両の音声動作モードを特定するためのものである。

本開示の実施例によれば、複数の領域は、運転席領域と助手席領域とを含み、複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、第１の音声サブデータが運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、第２の音声サブデータが助手席領域に由来することを示す。ここで、特定サブモジュールは、第１の特定手段と第２の特定手段との少なくとも１つを含む。第１の特定手段は、第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第１の音声動作モードとして特定するためのものである。第２の特定手段は、第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、車両の音声動作モードを第２の音声動作モードとして特定するためのものである。

本開示の実施例によれば、装置５００は、車両を第１の音声動作モードに基づいて操作を実行するように制御するための第１の制御モジュールをさらに含んでもよい。ここで、第１の制御モジュールは、第１の抽出サブモジュールと、第２の認識サブモジュールと、第１の実行サブモジュールとを含む。第１の抽出サブモジュールは、受信した第１の目標音声データから、運転席領域からの第３の音声サブデータを抽出するためのものである。第２の認識サブモジュールは、第３の音声サブデータを音声認識して、運転席領域に関連する第１の操作コマンドを取得するためのものである。第１の実行サブモジュールは、第１の操作コマンドに基づいて操作を実行するためのものである。

本開示の実施例によれば、装置５００は、車両を第２の音声動作モードに基づいて操作を実行するように制御するための第２の制御モジュールをさらに含んでもよい。ここで、第２の制御モジュールは、第２の抽出サブモジュールと、第３の認識サブモジュールと、第２の実行サブモジュールとを含む。第２の抽出サブモジュールは、受信した第２の目標音声データから、助手席領域からの第４の音声サブデータを抽出するためのものである。第３の認識サブモジュールは、第４の音声サブデータを音声認識して、助手席領域に関連する第２の操作コマンドを取得するためのものである。第２の実行サブモジュールは、第２の操作コマンドに基づいて操作を実行するためのものである。

本開示の実施例によれば、車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、ここで、第１の認識サブモジュールは、第１の認識手段と第２の認識手段とを含む。第１の認識手段は、メインウェイクアップエンジンを利用して第１の音声サブデータを認識して、第１の音声サブデータに対する音声認識結果を取得するためのものである。第２の認識手段は、サブウェイクアップエンジンを利用して第２の音声サブデータを認識して、第２の音声サブデータに対する音声認識結果を取得するためのものである。

本開示の実施例によれば、処理モジュール５１０は、ブラインドソース分離アルゴリズムで初期音声データを分離処理するために用いられてもよい。

本開示の技術案では、係られたユーザ個人情報の取得、記憶、加工、伝送、提供、公開及び応用などは、いずれも関連法律や法規の規定に合致しており、必要なセキュリティ対策を採用し、かつ公序良俗に反していない。本開示の技術案では、ユーザの個人情報を取得する、又は収集する前に、いずれもユーザの許可又は同意を得た。

本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。

図６は、本開示の実施例の音声処理を実行するための電子機器を実現するためのブロック図である。

図６は、本開示の実施例を実行することが可能な例示的電子機器６００の模式的ブロック図を示している。電子機器６００は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定しない。

図６に示すように、機器６００は、計算手段６０１を含み、計算手段６０１は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラム又は記憶手段６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ６０３には、さらに機器６００の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段６０１、ＲＯＭ６０２、及びＲＡＭ６０３は、バス６０４を介して相互に接続される。入出力（Ｉ／Ｏ）インターフェース６０５も、バス６０４に接続される。

機器６００における複数の部品は、Ｉ／Ｏインターフェース６０５に接続され、例えばキーボード、マウス等の入力手段６０６と、例えば様々な種類のディスプレイ、スピーカ等の出力手段６０７と、例えば磁気ディスク、光ディスク等の記憶手段６０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段６０９とを含む。通信手段６０９は、機器６００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。

計算手段６０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算手段６０１の幾つかの例として、中央処理ユニット（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段６０１は、前文で記載された各方法及び処理、例えば車両に対する音声処理方法を実行する。例えば、幾つかの実施例において、車両に対する音声処理方法は、例えば記憶ユニット６０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信手段６０９を介して機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされて計算手段６０１により実行された場合、前文に記載の車両に対する音声処理方法の１つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段６０１は、他の任意の適切な方式（例えば、ファームウェアを介する）により車両に対する音声処理方法を実行するように構成されてもよい。

本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び／又は解釈されることが可能であり、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ-ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント―サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。

理解されるべくこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。

以上説明した車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムは、以下のように表現することができる。

第１態様の車両に対する音声処理方法は、
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、
前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することとを含む。

第２態様の車両に対する音声処理方法は、
第１態様の音声処理方法において、
前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定することは、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得することと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することとを含む。

第３態様の車両に対する音声処理方法は、
第２態様の音声処理方法において、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、前記第１の音声サブデータが前記運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、前記第２の音声サブデータが前記助手席領域に由来することを示し、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することは、
前記第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第１の音声動作モードとして特定することと、
前記第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第２の音声動作モードとして特定することとの少なくとも１つを含む。

第４態様の車両に対する音声処理方法は、
第３態様の音声処理方法において、
前記車両を第１の音声動作モードに基づいて操作を実行するように制御することをさらに含み、
前記車両を第１の音声動作モードに基づいて操作を実行するように制御することは、
受信した第１の目標音声データから、前記運転席領域からの第３の音声サブデータを抽出することと、
前記第３の音声サブデータを音声認識して、前記運転席領域に関連する第１の操作コマンドを取得することと、
前記第１の操作コマンドに基づいて操作を実行することとを含む。

第５態様の車両に対する音声処理方法は、
第３態様の音声処理方法において、
前記車両を第２の音声動作モードに基づいて操作を実行するように制御することをさらに含み、
前記車両を第２の音声動作モードに基づいて操作を実行するように制御することは、
受信した第２の目標音声データから、前記助手席領域からの第４の音声サブデータを抽出することと、
前記第４の音声サブデータを音声認識して、前記助手席領域に関連する第２の操作コマンドを取得することと、
前記第２の操作コマンドに基づいて操作を実行することとを含む。

第６態様の車両に対する音声処理方法は、
第３態様の音声処理方法において、
前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
前記複数の音声サブデータをそれぞれ音声認識して、複数の音声認識結果を取得することは、
前記メインウェイクアップエンジンを利用して前記第１の音声サブデータを認識して、前記第１の音声サブデータに対する音声認識結果を取得することと、
前記サブウェイクアップエンジンを利用して前記第２の音声サブデータを認識して、前記第２の音声サブデータに対する音声認識結果を取得することとを含む。

第７態様の車両に対する音声処理方法は、
第１態様から第６態様のいずれか１つの音声処理方法において、
前記音声データを分離処理することは、
ブラインドソース分離アルゴリズムで前記初期音声データを分離処理することを含む。

第８態様の車両に対する音声処理装置は、
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、
前記複数の音声サブデータに基づいて、前記車両の音声動作モードを特定するための特定モジュールとを含む。

第９態様の車両に対する音声処理装置は、
第８態様の音声処理装置において、
前記特定モジュールは、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するための第１の認識サブモジュールと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定するための特定サブモジュールとを含む。

第１０態様の車両に対する音声処理装置は、
第９態様の音声処理装置において、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、前記第１の音声サブデータが前記運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、前記第２の音声サブデータが前記助手席領域に由来することを示し、
前記特定サブモジュールは、
前記第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第１の音声動作モードとして特定するための第１の特定手段と、
前記第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第２の音声動作モードとして特定するための第２の特定手段との少なくとも１つを含む。

第１１態様の車両に対する音声処理装置は、
第１０態様の音声処理装置において、
前記車両を第１の音声動作モードに基づいて操作を実行するように制御するための第１の制御モジュールをさらに含み、
前記第１の制御モジュールは、
受信した第１の目標音声データから、前記運転席領域からの第３の音声サブデータを抽出するための第１の抽出サブモジュールと、
前記第３の音声サブデータを音声認識して、前記運転席領域に関連する第１の操作コマンドを取得するための第２の認識サブモジュールと、
前記第１の操作コマンドに基づいて操作を実行するための第１の実行サブモジュールとを含む。

第１２態様の車両に対する音声処理装置は、
第１０態様の音声処理装置において、
前記車両を第２の音声動作モードに基づいて操作を実行するように制御するための第２の制御モジュールをさらに含み、
前記第２の制御モジュールは、
受信した第２の目標音声データから、前記助手席領域からの第４の音声サブデータを抽出するための第２の抽出サブモジュールと、
前記第４の音声サブデータを音声認識して、前記助手席領域に関連する第２の操作コマンドを取得するための第３の認識サブモジュールと、
前記第２の操作コマンドに基づいて操作を実行するための第２の実行サブモジュールとを含む。

第１３態様の車両に対する音声処理装置は、
第１０態様の音声処理装置において、
前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
前記第１の認識サブモジュールは、
前記メインウェイクアップエンジンを利用して前記第１の音声サブデータを認識して、前記第１の音声サブデータに対する音声認識結果を取得するための第１の認識手段と、
前記サブウェイクアップエンジンを利用して前記第２の音声サブデータを認識して、前記第２の音声サブデータに対する音声認識結果を取得するための第２の認識手段とを含む。

第１４態様の車両に対する音声処理装置は、
第８態様から第１３態様のいずれか１つの音声処理装置において、
前記処理モジュールは、さらに、
ブラインドソース分離アルゴリズムで前記初期音声データを分離処理するために用いられる。

第１５態様の電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令を記憶しており、
前記命令は、前記少なくとも１つのプロセッサが第１態様から第７態様のいずれか１つに記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される。

第１６態様の記憶媒体は、
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに第１態様から第７態様のいずれか１つに記載の方法を実行させる。

第１７態様のコンピュータプログラムは、
プロセッサにより実行された場合に、第１態様から第７態様のいずれか１つに記載の方法を実現する。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得することと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することとを含み、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、前記第１の音声サブデータが前記運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、前記第２の音声サブデータが前記助手席領域に由来することを示し、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することは、
前記第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第１の音声動作モードとして特定することと、
前記第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第２の音声動作モードとして特定することとの少なくとも１つを含み、
前記車両の音声動作モードを第１の音声動作モードとして特定した場合、前記車両を第１の音声動作モードに基づいて操作を実行するように制御し、
前記車両を第１の音声動作モードに基づいて操作を実行するように制御することは、
受信した第１の目標音声データから、前記運転席領域からの第３の音声サブデータを抽出することと、
前記第３の音声サブデータを音声認識して、前記運転席領域に関連する第１の操作コマンドを取得することと、
前記第１の操作コマンドに基づいて操作を実行することとを含む、
音声処理方法。
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得することと、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得することと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することとを含み、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、前記第１の音声サブデータが前記運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、前記第２の音声サブデータが前記助手席領域に由来することを示し、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定することは、
前記第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第１の音声動作モードとして特定することと、
前記第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第２の音声動作モードとして特定することとの少なくとも１つを含み、
前記車両の音声動作モードを第２の音声動作モードとして特定した場合、前記車両を第２の音声動作モードに基づいて操作を実行するように制御し、
前記車両を第２の音声動作モードに基づいて操作を実行するように制御することは、
受信した第２の目標音声データから、前記助手席領域からの第４の音声サブデータを抽出することと、
前記第４の音声サブデータを音声認識して、前記助手席領域に関連する第２の操作コマンドを取得することと、
前記第２の操作コマンドに基づいて操作を実行することとを含む、
音声処理方法。
前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
前記複数の音声サブデータをそれぞれ音声認識して、複数の音声認識結果を取得することは、
前記メインウェイクアップエンジンを利用して前記第１の音声サブデータを認識して、前記第１の音声サブデータに対する音声認識結果を取得することと、
前記サブウェイクアップエンジンを利用して前記第２の音声サブデータを認識して、前記第２の音声サブデータに対する音声認識結果を取得することとを含む
請求項１または２に記載の方法。
前記音声データを分離処理することは、
ブラインドソース分離アルゴリズムで前記初期音声データを分離処理することを含む、
請求項１または２に記載の方法。
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するための第１の認識サブモジュールと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定するための特定サブモジュールとを含み、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、前記第１の音声サブデータが前記運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、前記第２の音声サブデータが前記助手席領域に由来することを示し、
前記特定サブモジュールは、
前記第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第１の音声動作モードとして特定するための第１の特定手段と、
前記第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第２の音声動作モードとして特定するための第２の特定手段との少なくとも１つを含み、
前記車両の音声動作モードを第１の音声動作モードとして特定した場合、前記車両を第１の音声動作モードに基づいて操作を実行するように制御するための第１の制御モジュールをさらに含み、
前記第１の制御モジュールは、
受信した第１の目標音声データから、前記運転席領域からの第３の音声サブデータを抽出するための第１の抽出サブモジュールと、
前記第３の音声サブデータを音声認識して、前記運転席領域に関連する第１の操作コマンドを取得するための第２の認識サブモジュールと、
前記第１の操作コマンドに基づいて操作を実行するための第１の実行サブモジュールとを含む、
音声処理装置。
車両内部における複数の領域からの初期音声データを受信したことに応じて、前記初期音声データを分離処理して、前記複数の領域と一対一で対応する複数の音声サブデータと、複数の領域のうち前記音声サブデータに対応する領域を示す、各音声サブデータに対する説明情報とを取得するための処理モジュールと、
前記複数の音声サブデータをそれぞれ音声認識して、前記複数の音声サブデータと一対一で対応する複数の音声認識結果を取得するための第１の認識サブモジュールと、
前記複数の音声認識結果に基づいて、前記車両の音声動作モードを特定するための特定サブモジュールとを含み、
前記複数の領域は、運転席領域と助手席領域とを含み、前記複数の音声サブデータは、第１の音声サブデータと第２の音声サブデータとを含み、第１の音声サブデータに対する説明情報は、前記第１の音声サブデータが前記運転席領域に由来することを示し、第２の音声サブデータに対する説明情報は、前記第２の音声サブデータが前記助手席領域に由来することを示し、
前記特定サブモジュールは、
前記第１の音声サブデータに対応する音声認識結果に第１のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第１の音声動作モードとして特定するための第１の特定手段と、
前記第２の音声サブデータに対応する音声認識結果に第２のウェイクアップコンテンツが含まれることに応じて、前記車両の音声動作モードを第２の音声動作モードとして特定するための第２の特定手段との少なくとも１つを含み、
前記車両の音声動作モードを第２の音声動作モードとして特定した場合、前記車両を第２の音声動作モードに基づいて操作を実行するように制御するための第２の制御モジュールをさらに含み、
前記第２の制御モジュールは、
受信した第２の目標音声データから、前記助手席領域からの第４の音声サブデータを抽出するための第２の抽出サブモジュールと、
前記第４の音声サブデータを音声認識して、前記助手席領域に関連する第２の操作コマンドを取得するための第３の認識サブモジュールと、
前記第２の操作コマンドに基づいて操作を実行するための第２の実行サブモジュールとを含む、
音声処理装置。
前記車両は、メインウェイクアップエンジンとサブウェイクアップエンジンとを含み、
前記第１の認識サブモジュールは、
前記メインウェイクアップエンジンを利用して前記第１の音声サブデータを認識して、前記第１の音声サブデータに対する音声認識結果を取得するための第１の認識手段と、
前記サブウェイクアップエンジンを利用して前記第２の音声サブデータを認識して、前記第２の音声サブデータに対する音声認識結果を取得するための第２の認識手段とを含む、
請求項５または６に記載の装置。
前記処理モジュールは、さらに、
ブラインドソース分離アルゴリズムで前記初期音声データを分離処理するために用いられる、
請求項５または６に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令を記憶しており、
前記命令は、前記少なくとも１つのプロセッサが請求項１または２に記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１または２に記載の方法を実行させる記憶媒体。
プロセッサにより実行された場合に、請求項１または２に記載の方法を実現するコンピュータプログラム。