JP2022120020A - マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム - Google Patents

マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム Download PDF

Info

Publication number
JP2022120020A
JP2022120020A JP2022092444A JP2022092444A JP2022120020A JP 2022120020 A JP2022120020 A JP 2022120020A JP 2022092444 A JP2022092444 A JP 2022092444A JP 2022092444 A JP2022092444 A JP 2022092444A JP 2022120020 A JP2022120020 A JP 2022120020A
Authority
JP
Japan
Prior art keywords
sound zone
sound
audio
wakeup
zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022092444A
Other languages
English (en)
Inventor
ジョウ,イー
Yi Zhou
ズオ,ションヨン
Shengyong Zuo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022120020A publication Critical patent/JP2022120020A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

【課題】特定のサウンドゾーン内のユーザに音声認識を行うマルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】マルチサウンドゾーン音声ウェイクアップ・認識方法は、各チャンネルのオーディオ信号が、N個のサウンドゾーンのうち1つのサウンドゾーンに対応するNチャンネルのオーディオ信号を取得し、Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を1つの対応するオーディオ処理スレッドに入力し、N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。【選択図】図2

Description

本開示は、人工知能分野に関し、特に、音声技術、自然言語処理、音声インタラクションなどの分野に関し、自動車ネットワーク、自動運転などのシーンに用いられる。具体的に、マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラムに関する。
音声技術の発展に伴い、車載音響システムにマルチチャンネルピックアップ(例えばマルチチャンネルマイク)、複数のサウンドゾーンの音声ウェイクアップ・認識技術が現れている。ここで、車内空間が複数のサブ空間に分割されてよく、各サブ空間が1つのサウンドゾーンとなる。例えば、車両は、2つのサウンドゾーン、又は4つのサウンドゾーン、又は6つのサウンドゾーン等を含んでよい。
本開示は、マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体及びコンピュータプログラムを提供することを目的とする。
本開示の一態様によれば、マルチサウンドゾーン音声ウェイクアップ方法を提供し、当該マルチサウンドゾーン音声ウェイクアップ方法は、Nチャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号は、N個のサウンドゾーンのうち1つのサウンドゾーンに対応することと、前記Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を1つの対応するオーディオ処理スレッドに入力することと、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することとを含む。
本開示の別の態様によれば、マルチサウンドゾーン音声認識方法を提供し、当該マルチサウンドゾーン音声認識方法は、本開示の実施例に記載のマルチサウンドゾーン音声ウェイクアップ方法に基づいて、N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定することと、前記第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得することと、前記オーディオ信号を音声認識エンジンに伝送して音声認識を行うこととを含む。
本開示の別の態様によれば、マルチサウンドゾーン音声ウェイクアップ装置を提供し、当該マルチサウンドゾーン音声ウェイクアップ装置は、Nチャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号が、N個のサウンドゾーンのうち1つのサウンドゾーンに対応する第1取得モジュールと、前記Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各オーディオ信号を1つの対応するオーディオ処理スレッドに入力する入力モジュールと、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する第1特定モジュールとを含む。
本開示の別の態様によれば、マルチサウンドゾーン音声認識装置を提供し、当該マルチサウンドゾーン音声認識装置は、本開示の実施例に記載のマルチサウンドゾーン音声ウェイクアップ装置に基づいて、N個のサウンドゾーンうち第1ウェイクアップ済みサウンドゾーンを特定する第4特定モジュールと、前記第1ウェイクアップサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する第2取得モジュールと、前記オーディオ信号を音声認識エンジンに伝送して、音声認識を行う第1音声認識モジュールとを含む。
本開示の別の態様によれば、電子機器を提供し、当該電子機器は、N個の同期オーディオ処理スレッドを含むウェイクアップエンジンを備え、各音声処理スレッドは、1つのサウンドゾーンに対応し、対応するサウンドゾーン内に設置されたピックアップが収集した1つのオーディオ信号を処理し、前記ウェイクアップエンジンは、前記N個の同期オーディオ処理スレッドの処理結果を監視し、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
本開示の別の態様によれば、車載端末を提供し、当該車載端末は、N個の同期オーディオ処理スレッドを含むウェイクアップエンジンを備え、各オーディオ処理スレッドは、1つの車載サウンドゾーンに対応し、対応する車載サウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理し、前記ウェイクアップエンジンは、前記N個の同期オーディオ処理スレッドの処理結果を監視し、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応する車載サウンドゾーンを、N個の車載サウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
本開示の別の態様によれば、車両を提供し、当該車両は、本開示の実施例に記載のマルチサウンドゾーン音声ウェイクアップ装置と、本開示の実施例に記載のマルチサウンドゾーン音声認識装置とを含む。
本開示の別の態様によれば、別の車両を提供し、当該別の車両は、本開示の実施例に記載の車載端末を含む。
本開示の別の態様によれば、電子機器を提供し、当該電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されるメモリとを備え、前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されることによって、前記少なくとも1つのプロセッサは本開示の実施例に記載の方法を実行することができる。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、当該記憶媒体は、前記コンピュータ命令が前記コンピュータに本開示の実施例に記載の方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムを提供し、当該コンピュータプログラムは、プロセッサにより実行される場合に、本開示の実施例に記載の方法の操作を実現する。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
ここで、図面は、本開示の発明をよりよく理解するために用いられ、本開示を限定するものではない。
本開示の実施例に係るシステムアーキテクチャを例示的に示す図である。 本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ方法を例示的に示すフローチャートである。 本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップの原理図である。 本開示の実施例に係るマルチサウンドゾーン音声認識方法を例示的に示すフローチャートである。 本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ装置のブロック図である。 本開示の実施例に係るマルチサウンドゾーン音声認識装置を例示的に示すブロック図である。 本開示の実施例を実現するための電子機器を例示的に示すブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
理解されるべきこととして、マルチサウンドゾーンの出現に伴い、異なるサウンドゾーンに存在するユーザは、いずれも車載ホスト(車載機と略称する)をウェイクアップしてよく、さらに、特定のサウンドゾーン内のユーザに音声認識を行うという目的を実現する。
現在、マルチサウンドゾーン音声ウェイクシステムは、一般的に複数のウェイクアップエンジンを必要とする。例えば、4サウンドゾーン音声ウェイクアップシステムは4つのウェイクアップエンジンを必要とし、6サウンドゾーン音声ウェイクアップシステムは、6つのウェイクアップエンジンを必要とする。
理解されるべきこととして、マルチサウンドゾーン音声ウェイクシステムに含まれるウェイクアップエンジンの数が多いほど、システムが占有する中央処理装置(Central Processing Unit、CPUと略称する)リソース及びメモリリソースも多い。マルチサウンドゾーン音声ウェイクアップシステムが占有する上記リソースが多いほど、車載システムにおける他のアプリケーションへの影響が深刻であり、さらに他のアプリケーションの正常な動作に影響を与える。
これに基づいて、本開示の実施例は、マルチサウンドゾーン単一ウェイクアップエンジンの音声ウェイクアップの手段を提供し、マルチサウンドゾーンの音声ウェイクアップをサポートできるだけでなく、車載ホストにおけるCPU及びメモリ等のリソースのオーバーヘッドを減少させることもでき、それによって、車載ホストの性能を保証する。
以下、図面及び具体的な実施例を参照しながら本開示を詳細に説明する。
本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ・認識方法及び装置のシステムアーキテクチャの説明は、以下のとおりである。
図1は、本開示の実施例に係るシステムアーキテクチャを例示的に示す図である。留意されるべきこととして、図1に示すのは、当業者が本開示の技術内容を理解するように本開示の実施例のシステムアーキテクチャを適用可能な例示に過ぎず、本開示の実施例が他の環境又はシーンに適用されないと意味するものではない。
図1に示すように、システムアーキテクチャ100は、車両101、ネットワーク102及びサーバ103を含んでよい。
説明すべきこととして、本システムアーキテクチャにおいて、車両101の車内空間は、4つのサブ空間に分割されてよく、各サブ空間は1つのサウンドゾーンと呼ばれる。即ち、車両101の車内空間は、サウンドゾーン1011、1012、1013、1014共に4つのサウンドゾーンを含んでよい。例えば、サウンドゾーン1011は運転席サウンドゾーンであって、サウンドゾーン1012は助手席サウンドゾーンであって、サウンドゾーン1013は助手席の後ろの後部座席サウンドゾーンであって、サウンドゾーン1014は運転席の後ろの後部座席サウンドゾーンであってよい。各サウンドゾーン内に1つのピックアップ(例えば、マイク)が設置されてよい。したがって、本システムアーキテクチャにおいて、運転手、助手席の乗客、並び運転席と助手席の後ろの後部座席の乗客には、いずれも対応するサウンドゾーン内に車両の車載ホストをウェイクアップし、ウェイクアップされた車載ホストと音声インタラクションを行うことができる。
説明すべきこととして、本開示の実施例において、車両101の車載ホストは、1つのウェイクアップエンジンのみを含んでよい。該ウェイクアップエンジンは、複数の同期オーディオ処理スレッド(例えば、本システムアーキテクチャにおいて、車両101の車載ホストのウェイクアップエンジンは、4つの同期オーディオ処理スレッドを含んでよい)を含み、各オーディオ処理スレッドは、一つの対応するサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を処理する。同じ時点で、どのオーディオ処理スレッドにウェイクアップ結果があったかに関わらず、すなわち、どのオーディオ処理スレッドにおけるオーディオ信号が、対応するウェイクアップワードモデルをトリガしたかに関わらず、いずれも車載ホストがウェイクアップ済みであることを示す。しかしながら、理解されるべきこととして、どのオーディオ処理スレッドにウェイクアップ結果があった場合、該音声処理スレッドに対応するサウンドゾーンが、ウェイクアップ済みであり、後続として該サウンドゾーンからのオーディオ信号に対して音声認識を行う必要があることを示す。
例示的に、例えば、ウェイクワードは、「こんにちは」、「hi」、「hello」、「XXさん、こんにちは」等を含んでよい。仮に、サウンドゾーン1011内の運転手が「hi」を話すと、車両101の車載ホストのウェイクアップエンジンにおいて、サウンドゾーン1011に一対一に対応するオーディオ処理スレッド(例えば、スレッド1)に理論的にウェイクアップ結果があるべきであり、すなわち、ウェイクアップエンジンがスレッド1のために呼び出したウェイクワードモデルは、理論的に「hi」を表すオーディオ信号によってトリガされ、この時、サウンドゾーン1011がウェイクアップ済みであり、後続としてサウンドゾーン1011内に設置されたピックアップが収集したオーディオ信号を音声認識モジュールに伝送して音声認識を行ってよく、すなわち、後続としてサウンドゾーン1011内の運転手は、車載ホストと音声インタラクションを行ってよいことを示す。
説明すべきこととして、本開示のいくつかの実施例において、音声認識を行う場合、オーディオ信号をクラウドサーバ103に送信して音声認識を行ってよい。又は、本開示の他の実施例において、音声認識を行う場合、車両自体の車載ホストによってオーディオ信号に対して音声認識を行ってよい。
換言すれば、本開示のいくつかの実施例において、車両101の音声認識モジュール(音声認識エンジンを含む)をクラウドサーバ103に設置してよい。このような手段は、車両自体の負担を軽減することができる。又は、本開示の他の実施例において、車両101の音声認識モジュール(音声認識エンジンを含む)を車両自体の車載ホストに設置してよい。このような手段は、車両の負担を増大させる可能性がある。
本システムアーキテクチャにより提供されたマルチサウンドゾーン単一ウェイクアップエンジンによれば、マルチサウンドゾーンの音声ウェイクアップをサポートできるだけでなく、車載ホストにおけるCPU及びメモリ等のリソースのオーバーヘッドを減少させることもでき、それによって、車載ホストの性能を保証し、すなわち車両の他のアプリケーションが正常に動作できることを保証する。
理解されるべきこととして、図1の車両101内に含まれるサウンドゾーンの数は模式的なものだけである。必要に応じて、車両101内において任意の数のサウンドゾーンに分けられてよい。
本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ・認識方法及び装置の応用シーンの説明は、以下のとおりである。
説明すべきこととして、本開示の実施例が提供するマルチサウンドゾーン音声ウェイクアップ・認識の手段は、車のネットワーキング、自動運転などの複数のサウンドゾーンを有する音声ウェイクアップ・認識のシーンに適用することができる。また、本開示の実施例が提供するマルチサウンドゾーン音声ウェイクアップ・認識の手段は、モノのネットワーキング、スーパーマーケット・ホームなどの複数のサウンドゾーンを有する音声ウェイクアップ・認識のシーンに適用することができ、本開示は、ここで重複して説明しない。
本開示の実施例によれば、本開示は、マルチサウンドゾーン音声ウェイクアップ方法を提供する。
図2は、本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ方法を例示的に示すフローチャートである。
図2に示すように、マルチサウンドゾーン音声ウェイクアップ方法200は、操作S210~S230を含んでよい。
操作S210では、Nチャンネルのオーディオ信号を取得し、ここで、各チャンネルのオーディオ信号は、N個のサウンドゾーンのうち1つのサウンドゾーンに対応する。
操作S220では、Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を、1つの対応するオーディオ処理スレッドに入力する。
操作S230では、N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
説明すべきこととして、本開示の実施例において、操作S210で取得されたNチャンネルのオーディオ信号は、同時にN個のサウンドゾーンに対して音声収集して得られたNチャンネルのオーディオ信号である。
本開示の1つの実施例において、方法200は、車載端末に適用することができる。該車載端末は、1つのウェイクアップエンジンのみを含んでよい。該ウェイクアップエンジンは、N個の同期オーディオ処理スレッドを含んでよい。ここで、各オーディオ処理スレッドは、1つの車載サウンドゾーンに対応し、対応する車載サウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理する。ウェイクアップエンジンは、N個の同期オーディオ処理スレッドの処理結果を監視し、N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応する車載サウンドゾーンを、N個の車載サウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
例示的に、例えば、ある車両内に4つのサウンドゾーンを有し、それぞれサウンドゾーン1~サウンドゾーン4である。この4つのサウンドゾーン内に、それぞれ1つのマイクが設置され、例えば、サウンドゾーン1~サウンドゾーン4内に、マイク1~マイク4がそれぞれ設置される。車両の車載端末にウェイクアップエンジンのみがあり、該ウェイクアップエンジンは、それぞれスレッド1~スレッド4である4つのオーディオ処理スレッドを含む。ここで、スレッド1は、サウンドゾーン1に対応し、マイク1が収集したオーディオ信号ストリームを処理し、スレッド2は、サウンドゾーン2に対応し、マイク2が収集したオーディオ信号ストリームを処理し、スレッド3は、サウンドゾーン3に対応し、マイク3が収集したオーディオ信号ストリームを処理し、スレッド4は、サウンドゾーン4に対応し、マイク4が収集したオーディオ信号ストリームを処理する。同じ時点に対して、マイク1~マイク4によりそれぞれ収集された4チャンネルのオーディオ信号は、上記対応関係に応じてそれぞれスレッド1~スレッド4に入力されて処理された後、スレッド1~スレッド4のうちのいずれか1つのスレッドにウェイクアップ結果があれば、サウンドゾーン1~サウンドゾーン4のうちサウンドゾーンがウェイクアップ済みであることを示す。例えば、スレッド1にウェイクアップ結果があれば、サウンドゾーン1がウェイクアップされたことを示す。本開示の実施例において、ユーザは、車内の各サウンドゾーンにおいて車載ホストをウェイクアップし、それと音声インタラクションを行うことができる。
又は、本開示の1つの実施例において、方法200は、電子機器に適用することができる。該電子機器(端末装置であってもよい)は、1つのウェイクアップエンジン(音声ウェイクアップエンジンとも呼ばれる)のみを含んでよい。該ウェイクアップエンジンは、N個の同期オーディオ処理スレッドを含んでよい。ここで、各オーディオ処理スレッドは、1つのサウンドゾーンに対応し、対応するサウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理する。ウェイクアップエンジンは、N個の同期オーディオ処理スレッドの処理結果を監視し、N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
例示的には、例えば、あるマンション内に、1つのマスターベッドルーム、2つのゲストベッドルーム、1つのリビングルーム、1つのキッチン及び1つのトイレ、合計6個のサブ空間を有する。ここで、各サブ空間内に1つのマイクが設置されて、1つのサウンドゾーンとしてよい。6つのサブ空間に対応する6つのサウンドゾーンは、それぞれサウンドゾーン1~サウンドゾーン6である。この6つのサウンドゾーン内に設置された6つのマイクは、それぞれマイク1~マイク6である。該マンション内に適用される電子機器(例えば、スマートスピーカ)は、1つのウェイクアップエンジンのみを有し、該ウェイクアップエンジンは、それぞれスレッド1~スレッド6である6つのオーディオ処理スレッドを含む。ここで、スレッド1は、サウンドゾーン1に対応し、マイク1が収集したオーディオ信号ストリームを処理し、スレッド2は、サウンドゾーン2に対応し、マイク2が収集したオーディオ信号ストリームを処理し、スレッド3は、サウンドゾーン3に対応し、マイク3が収集したオーディオ信号ストリームを処理し、スレッド4は、サウンドゾーン4に対応し、マイク4が収集したオーディオ信号ストリームを処理し、スレッド5は、サウンドゾーン5に対応し、マイク5が収集したオーディオ信号ストリームを処理し、スレッド6は、サウンドゾーン6に対応し、マイク6が収集したオーディオ信号ストリームを処理する。同じ時点に対して、マイク1~マイク6によりそれぞれ収集された6チャンネルのオーディオ信号は、上記対応関係に応じてそれぞれスレッド1~スレッド6に入力されて処理された後、スレッド1~スレッド6のうちのいずれか1つのスレッドにウェイクアップ結果があれば、サウンドゾーン1~サウンドゾーン6のうちサウンドゾーンがウェイクアップ済みであることを示す。例えば、スレッド1にウェイクアップ結果があれば、サウンドゾーン1がウェイクアップされたことを示す。本開示の実施例において、ユーザは、マンション内の各サブ空間においてスマートスピーカをウェイクアップし、それと音声インタラクションを行うことができる。
説明すべきこととして、本開示の実施例において、Nは、1より大きい整数である。
本開示の実施例が提供するマルチサウンドゾーン単一ウェイクアップエンジンの手段によれば、マルチサウンドゾーンの音声ウェイクアップをサポートできるだけでなく、車載ホスト又はスマートスピーカにおけるCPU及びメモリ等のリソースのオーバーヘッドを減少させることもでき、それによって、車載ホスト又はスマートスピーカの性能を保証し、すなわち車両又はスマートスピーカの他のアプリケーションが正常に動作できることを保証する。
また、関連技術において、マルチサウンドゾーンマルチウェイクアップエンジンの音声ウェイクアップの手段の採用は、コールバックが複雑となることに繋がる可能性があり、業務ロジックが制御されにくいという問題を招く。例えば、マルチサウンドゾーンマルチウェイクアップエンジンの手段において、車載ホストに複数のウェイクアップエンジンが設置される必要があり、一方、各ウェイクアップエンジンは、一般的に複数のエンジン状態を有し、複数のウェイクアップエンジンは、必然として複数のエンジン状態に直面し、車載ホストのエンジン状態が非常に複雑で管理されにくい。
一方、本開示の実施例において、マルチサウンドゾーン単一ウェイクアップエンジンの音声ウェイクアップの手段を採用しており、したがって、コールバックがマルチサウンドゾーンマルチウェイクアップエンジンの手段よりも簡単であり、業務ロジックもより制御されやすい。
また、本開示の実施例によれば、さらに製品(例えば、スマートスピーカなどの電子機器や車載端末など)の能力境界を拡張することができ、それによって、音声ウェイクアップの手段は、ローエンド製品に対してよりフレンドリーである。
選択可能な実施例として、該方法は、さらに以下の操作を含んでよい。
N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったか否かを特定する。
N個の同期オーディオ処理スレッドのうち同時に複数のスレッドのウェイクアップ結果があったことを特定したことに応じて、同時にウェイクアップ結果があった複数のスレッドのうち入力オーディオ信号が最も強い1つの目標スレッドを特定する。
ここで、ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することは、目標スレッドに対応する1つの目標サウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することを含んでよい。
本開示の実施例において、ユーザが1つのサウンドゾーン内で発話しても、複数のサウンドゾーン内におけるピックアップが同時に対応するオーディオ信号を収集できる状況が発生する可能性がある。このような状況で、複数のスレッドが呼び出したウェイクワードモデルが全てウェイクアップされることによりシステムの混乱が生ずることを防止するために、先に、ユーザの位置情報を特定し、次に、ユーザの位置情報に基づいてユーザが位置するサウンドゾーンをウェイクアップしてよく、それによって、後続としてユーザが位置するサウンドゾーン内におけるピックアップにより収集されたオーディオ信号に対して音声認識を行う。
理解されるべきこととして、本開示の実施例において、先に、各チャンネルのオーディオ信号に含まれるエネルギーに基づいて、各チャンネルのオーディオ信号の強度を特定し、次に、その中からオーディオ信号が最も強いチャンネルを探し出し、該チャンネルのオーディオ信号が入力したオーディオ処理スレッドが呼び出したウェイクワードモデルをウェイクアップ状態にトリガし、同時に、該オーディオ信号を収集するピックアップの位置するサウンドゾーンを、ユーザが実際に位置するサウンドゾーンとしてよい。後続としてユーザが実際に所在するサウンドゾーン内におけるピックアップが収集したオーディオ信号を音声認識モジュールに送信して、音声処理を行ってよい。
換言すれば、本開示の実施例において、同じ時点で、複数の音声処理スレッドは、いずれもウェイクアップ結果があれば、各チャンネルのオーディオ信号の強弱度合いに基づいて、信号が最も強い1チャンネルのオーディオ信号を入力したスレッドを、実際にウェイクアップされた1つに特定し、後続として音声認識を行う時に、該オーディオ信号を収集するピックアップが収集したオーディオ信号ストリームを音声認識モジュールに送信して、音声認識を行ってよい。
例示的に、例えば、ある車両内に4つのサウンドゾーンを有し、それぞれサウンドゾーン1~サウンドゾーン4である。この4つのサウンドゾーン内にそれぞれ1つのマイクが設置されており、例えば、サウンドゾーン1~サウンドゾーン4内にマイク1~マイク4がそれぞれ設置されている。車両の車載端末に1つのウェイクアップエンジンのみがあり、該ウェイクアップエンジンは、4つのオーディオ処理スレッドを含み、それぞれスレッド1~スレッド4である。ここで、スレッド1は、サウンドゾーン1に対応し、マイク1が収集したオーディオ信号ストリームを処理し、スレッド2は、サウンドゾーン2に対応し、マイク2が収集したオーディオ信号ストリームを処理し、スレッド3は、サウンドゾーン3に対応し、マイク3が収集したオーディオ信号ストリームを処理し、スレッド4は、サウンドゾーン4に対応し、マイク4が収集したオーディオ信号ストリームを処理する。同じ時点に対して、マイク1~マイク4によりそれぞれ収集された4チャンネルのオーディオ信号は、上記対応関係に応じてそれぞれスレッド1~スレッド4に入力されて処理された後、スレッド1及びスレッド2にいずれもウェイクアップ結果があったことを発見し、但し、この時にスレッド1に入力された1チャンネルのオーディオ信号強度がより強いだけであり、したがって、このような場合に、実際にウェイクアップされたのはサウンドゾーン1であると考えられ、サウンドゾーン1がウェイクアップされた後、サウンドゾーン1内のユーザと車載ホストとの間の音声インタラクションを実現するように、マイク1が収集したオーディオ信号ストリームを取得し続け、それを音声認識モジュールに送信して音声認識を行ってよい。
本開示の実施例によれば、ウェイクアップエンジンにおける複数の音声処理スレッドにいずれもウェイクアップ結果があった場合、ユーザは車載ホストとよりスムーズに音声インタラクションを行うことができるように、信号が最も強い1チャンネルを選択してウェイクアップしてよい。
選択可能な実施例として、Nチャンネルのオーディオ信号を取得することは、以下の操作を含んでよい。
N個のピックアップを利用して、同時にNチャンネルのオーディオ信号を収集し、ここで、各ピックアップは、N個のサウンドゾーンのうち1つのサウンドゾーン内に設置される。
N個のピックアップが同時に収集したNチャンネルのオーディオ信号を1フレームのオーディオデータとして組み合わせてウェイクアップエンジンに伝送する。
ウェイクアップエンジンにより、オーディオデータから、対応するNチャンネルのオーディオ信号を抽出することによって、対応関係に応じて、それぞれ一つの対応するオーディオ処理スレッドを入力して処理する。
本開示の実施例において、先に、同時に取得されたマルチチャンネルのオーディオ信号を1フレームのオーディオデータ(オーディオ配列とも呼ばれる)として組み合わせて、次に、1フレームずつでオーディオデータに含まれるマルチチャンネルのオーディオ信号(すなわち、複数のオーディオデータ成分)を同時に同一のウェイクアップエンジンに伝送し、その後、ウェイクアップエンジン内で各フレームのオーディオデータを、前の約束された組立ルールに従って、対応するマルチチャンネルのオーディオ信号に分割し、各チャンネルのオーディオ信号を、予め設定された対応関係に応じて、対応するオーディオ処理スレッドに入力して音声処理を行ってよい。
例示的に、図3に示すように、例えば、ある車両内に4つのサウンドゾーンを有し、それぞれサウンドゾーン1~サウンドゾーン4である。この4つのサウンドゾーン内にそれぞれ1つのマイクが設置されており、例えば、サウンドゾーン1~サウンドゾーン4内にマイク1~マイク4がそれぞれ設置されている。この4つのマイクは、任意の同一時点で収集された4チャンネルのオーディオ信号(例えば、T1時点で収集された4チャンネルのオーディオ信号は、それぞれオーディオ信号1~オーディオ信号4である)は、いずれも図に示すような順序に応じて1フレームのオーディオデータとして組み立てられてもよい。このようにして、全てのサウンドゾーンに対して同時に収集されたマルチチャンネルのオーディオ信号を、同時に車載ホストにおけるウェイクアップエンジンに入力できることを保証することができる。
引き続き図3を参照し、ウェイクアップエンジンは、4つのスレッドを含み、それぞれスレッド1~スレッド4であり、ここで、スレッド1は、サウンドゾーン1に対応し、マイク1が収集したオーディオ信号ストリームを処理し、スレッド2は、サウンドゾーン2に対応し、マイク2が収集したオーディオ信号ストリームを処理し、スレッド3は、サウンドゾーン3に対応し、マイク3が収集したオーディオ信号ストリームを処理し、スレッド4は、サウンドゾーン4に対応し、マイク4が収集したオーディオ信号ストリームを処理する。
引き続き図3を参照し、オーディオ信号1~オーディオ信号4により組み立てられたオーディオデータがウェイクアップエンジンに入力された後、ウェイクアップエンジンは、該音声データからオーディオ信号1~オーディオ信号4のように分割し、オーディオ信号1をスレッド1に入力して音声処理を行い、オーディオ信号2をスレッド2に入力して音声処理を行い、オーディオ信号3をスレッド3に入力して音声処理を行い、オーディオ信号4をスレッド4に入力して音声処理を行ってよい。
理解されるべきこととして、本開示の実施例において、T1時点で収集された4チャンネルのオーディオ信号に対して、スレッド1のみにウェイクアップ結果があれば、ウェイクアップされたのはサウンドゾーン1であることを意味し、スレッド1及びスレッド2にいずれもウェイクアップ結果があり、かつオーディオ信号1がオーディオ信号2よりも強ければ、実際にウェイクアップされたのはサウンドゾーン1であることを意味する。サウンドゾーン1がウェイクアップされた後、後続としてマイク1により収集されたオーディオ信号ストリームを、対応する音声認識モジュールに送信して音声認識を行ってよく、それによって、サウンドゾーン1内におけるユーザと車載ホストとの間の音声インタラクションを実現する。
本開示の実施例において、特定のデータフォーマットに従い、各チャンネルのオーディオ信号を組み立ててよく、例えば、同時に収集されたNチャンネルのオーディオ信号に対して、オーディオ信号1からオーディオ信号Nまでの順序に従い、順次1つのN次元のオーディオ配列に組み立ててよく、該N次元のオーディオ配列は、1フレームのオーディオデータとしてウェイクアップエンジンに伝送されてよい。
本開示の実施例によれば、特殊なデータ伝送方式(すなわち、各時点で収集されたマルチチャンネルのオーディオ信号を1フレームずつのオーディオデータとして伝送すること)を採用し、単一ウェイクアップエンジンが複数のサウンドゾーンを同時に監視できることを保証することができる。
また、関連技術において、マルチサウンドゾーンマルチウェイクアップエンジンの音声ウェイクアップの手段の採用は、コールバックが複雑となることに繋がる可能性があり、業務ロジックが制御されにくいという問題を招く。例えば、マルチサウンドゾーンマルチウェイクアップエンジンの手段において、車載ホストに複数のウェイクアップエンジンが設置される必要があり、各ウェイクアップエンジンに対して、1つのデータ伝送線が設置される必要があり、それにより、車載ホストのデータ伝送線が非常に複雑となりかつ管理されにくい。さらに、例えば、マルチサウンドゾーンマルチウェイクアップエンジンの手段において、車載ホストにおける複数のウェイクアップエンジンは、複数のデータ線の方式で、対応するオーディオデータを取得し、それにより、複数のウェイクアップエンジンは、同一時点で収集されたマルチチャンネルのオーディオデータを同時に取得しにくい。
本開示の実施例において、マルチサウンドゾーン単一ウェイクアップエンジンの音声ウェイクアップの手段を採用しており、したがって、コールバックはマルチサウンドゾーンマルチウェイクアップエンジンの手段よりも簡単であり、かつ業務ロジックもより制御されやすい。例えば、上記の特殊なデータ伝送方式を採用するため、単一ウェイクアップエンジンが同時に複数のサウンドゾーンを監視できることを保証することができ、すなわち、ウェイクアップエンジンが同一時点で収集された多重オーディオデータを同時に取得することを保証することができる。
本開示の実施例によれば、本開示はマルチサウンドゾーン音声認識方法を提供する。
図4は、本開示の実施例に係るマルチサウンドゾーン音声認識方法を例示的に示すフローチャートである。
図4に示すように、マルチサウンドゾーン音声認識方法400は、操作S410~S430を含んでよい。
操作S410では、N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定する。
操作S420では、第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する。
操作S430では、オーディオ信号を音声認識エンジンに伝送して音声認識を行う。
説明すべきこととして、本開示の実施例において、上記任意の1つ又は複数の実施例が提供するマルチサウンドゾーン音声ウェイクアップ方法を採用して、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーン(第1ウェイクアップ済みサウンドゾーン)を特定してよく、ここでは説明を省略する。
ウェイクアップ済みサウンドゾーンを特定した後、後続として該サウンドゾーンに収集されたオーディオ信号ストリームを音声認識モジュールに送信して音声処理を行ってよく、具体的な方法は、上記実施例における説明を参照してよく、本開示はここで説明を省略する。
本開示の実施例が提供するマルチサウンドゾーン単一ウェイクアップエンジンの手段によれば、マルチサウンドゾーンの音声ウェイクアップをサポートできるだけでなく、さらに車載ホスト又はスマートスピーカにおけるCPU及びメモリ等のリソースのオーバーヘッドを減少させることもでき、それによって、車載ホスト又はスマートスピーカの性能を保証し、すなわち車両又はスマートスピーカの他のアプリケーションが正常に動作できることを保証する。
また、関連技術において、マルチサウンドゾーンマルチウェイクアップエンジンの音声ウェイクアップの手段の採用は、コールバックが複雑となることに繋がる可能性があり、業務ロジックが制御しにくいという問題を招く。例えば、マルチサウンドゾーンマルチウェイクアップエンジンの手段において、車載ホストに複数のウェイクアップエンジンが設置される必要があり、各ウェイクアップエンジンは、一般的に複数のエンジン状態を有し、複数のウェイクアップエンジンは、必然として複数のエンジン状態に直面し、車載ホストのエンジン状態が非常に複雑で管理されにくい。
一方、本開示の実施例において、マルチサウンドゾーン単一ウェイクアップエンジンの音声ウェイクアップの手段を採用し、したがって、コールバックがマルチサウンドゾーンマルチウェイクアップエンジンの手段よりも簡単であり、かつ業務ロジックもより制御されやすい。
また、本開示の実施例によれば、さらに製品(例えば、スマートスピーカなどの電子機器や車載端末など)の能力境界を拡張してよく、それによって、音声ウェイクアップの手段は、ローエンド製品に対してよりフレンドリーである。
選択可能な実施例として、該方法は、さらにN個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定した後、以下の操作を実行することを含んでよい。
ピックアップが予め設定された時間帯内にずっとオーディオ信号を収集していないことに応じて、第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖する。
上記のいずれか1つ又は複数の実施例で提供されたマルチサウンドゾーン音声ウェイクアップ方法を改めて実行し、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定する。
本開示の実施例において、あるサウンドゾーンがウェイクアップされた後、指定された所定の時間帯内にユーザが装置とずっと音声インタラクションを行うことがなければ、現在のウェイクアップ済みサウンドゾーンを閉鎖してよく、同時に、上記実施例が提供する複数のサウンドゾーンの音声ウェイクアップ方法を利用し、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定した後、さらに音声認識を行う。
説明すべきこととして、本開示の実施例において、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定することは、上記の任意の1つ又は複数の実施例が提供するマルチサウンドゾーン音声ウェイクアップ方法を採用してもよく、ここでは説明を省略する。
本開示の実施例によれば、予め設定されたポリシーに基づいて、機器の音声認識システムを柔軟に起動/停止することができる。
選択可能な実施例として、該方法は、音声認識を行うプロセスにおいて、以下の操作を実行することをさらに含んでよい。
N個のサウンドゾーンのうち第2ウェイクアップ済みサウンドゾーンが現れたことに応じて、第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖し、ここで、第2ウェイクアップ済みサウンドゾーンの権限は、第1ウェイクアップ済みサウンドゾーンの権限より高い。
第2ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する。
該オーディオ信号を音声認識エンジンに送信して音声認識を行う。
本開示の実施例において、あるサウンドゾーンに対して音声認識を行うプロセスにおいて、他のサウンドゾーン内にウェイクアップ信号が発生しており、かつ該他のサウンドゾーンの権限が現在音声認識を行っているサウンドゾーンの権限より高いと、現在音声認識を行っているサウンドゾーンの音声認識チャンネルを閉鎖してよく、同時に、該他のサウンドゾーンに対してオーディオ信号ストリームを収集し続けて音声認識モジュールに伝送することによって、音声認識を行う。
本開示の実施例によれば、各サウンドゾーンを柔軟に制御し、権限がより高いサウンドゾーンから送信された音声コマンドを優先処理する目的を実現することができ、それによって、緊急事情がタイムリーに処理できないことを回避することができる。
本開示の実施例によれば、本開示は、さらにマルチサウンドゾーン音声ウェイクアップ装置を提供する。
図5は、本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ装置を例示的示すブロック図である。
図5に示すように、マルチサウンドゾーン音声ウェイクアップ装置500は、第1取得モジュール510、入力モジュール520及び第1特定モジュール530を含む。
第1取得モジュール510は、Nチャンネルのオーディオ信号を取得し、ここで、各チャンネルのオーディオ信号は、N個のサウンドゾーンのうち1つのサウンドゾーンに対応する。
入力モジュール520は、該Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を、1つの対応するオーディオ処理スレッドに入力する。
第1特定モジュール530は、該N個の同期オーディオ処理スレッドのうち、ウェイクアップ結果が発生したスレッドに応じて、該ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、該N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
選択可能な実施例として、装置は、該N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、該N個の同期オーディオ処理スレッドに複数のスレッドのウェイクアップ結果が同時にあったか否かを特定する第2特定モジュールと、該N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったことを特定し、同時にウェイクアップ結果があった複数のスレッドのうち、入力オーディオ信号が最も強い1つの目標スレッドを特定する第3特定モジュールとを含んでよい。ここで、該第1特定モジュールは、さらに、該目標スレッドに対応する1つの目標サウンドゾーンを、該N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
選択可能な実施例として、該第1取得モジュールは、N個のピックアップを利用して同時にNチャンネルのオーディオ信号を収集し、ここで、各ピックアップが該N個のサウンドゾーンのうち1つのサウンドゾーン内に設置される収集ユニットと、該N個のピックアップが同時に収集したNチャンネルのオーディオ信号を1フレームのオーディオデータとして組み合わせて該ウェイクアップエンジンに伝送する伝送ユニットと、該ウェイクアップエンジンにより、該オーディオデータから対応するNチャンネルのオーディオ信号を抽出することによって、該入力モジュールが該対応関係に応じて、抽出されたNチャンネルのオーディオ信号をそれぞれ一つの対応するオーディオ処理スレッドに入力して処理する抽出ユニットとを含む。
理解されるべきこととして、本開示のマルチサウンドゾーン音声ウェイクアップ装置部分の実施例は、本開示のマルチサウンドゾーン音声ウェイクアップ方法部分の実施例に対応して同じ又は類似であり、解決しようとする課題と達成された効果も対応して同じ又は類似であり、ここでは説明を省略する。
本開示の実施例によれば、本開示は、さらにマルチサウンドゾーン音声認識装置を提供する。
図6は、本開示の実施例に係るマルチサウンドゾーン音声認識装置を例示的に示すブロック図である。
図6に示すように、マルチサウンドゾーン音声認識装置600は、第4特定モジュール610、第2取得モジュール620及び第1音声認識モジュール630を含む。
第4特定モジュール610は、本開示の実施例に係るマルチサウンドゾーン音声ウェイクアップ装置に基づいて、N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定する。
第2取得モジュール620は、該第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する。
第1音声認識モジュール630は、該オーディオ信号を音声認識エンジンに伝送して音声認識を行う。
選択可能な実施例として、装置は、該N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定した後、該ピックアップが所定の時間帯内にずっとオーディオ信号を収集していないことに応じて、該第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖する第1サウンドゾーン閉鎖モジュールと、本開示の実施例のマルチサウンドゾーン音声ウェイクアップ装置に基づいて、該N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定する第5の特定モジュールとをさらに含む。
選択可能な実施例として、装置は、該音声認識モジュールが音声認識を行うプロセスにおいて、該N個のサウンドゾーンのうち第2ウェイクアップ済みサウンドゾーンが現れたことに応じて、該第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖し、ここで、該第2ウェイクアップ済みサウンドゾーンの権限が該第1ウェイクアップ済みサウンドゾーンの権限より高い第2サウンドゾーン閉鎖モジュールと、該第2ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する第3取得モジュールと、該オーディオ信号を該音声認識エンジンに伝送して音声認識を行う第2音声認識モジュールとをさらに含む。
理解されるべきこととして、本開示のマルチサウンドゾーン音声認識装置部分の実施例は、本開示のマルチサウンドゾーン音声認識方法部分の実施例に対応して同じ又は類似であり、解決しようとする課題と達成された効果も同じ又は類似であり、ここでは説明を省略する。
本開示の実施例によれば、本開示は、さらに車両を提供する。
該車両は、本開示の上記のいずれかの実施例におけるマルチサウンドゾーン音声ウェイクアップ装置と、本開示の上記のいずれかの実施例におけるマルチサウンドゾーン音声認識装置とを含んでよい。
説明すべきこととして、本開示の実施例におけるマルチサウンドゾーン音声ウェイクアップ装置及びマルチサウンドゾーン音声認識装置は、上記の任意の1つ又は複数の実施例が提供するマルチサウンドゾーン音声ウェイクアップ装置及びマルチサウンドゾーン音声認識装置の説明及び対応する方法の説明を参照してよく、ここでは説明を省略する。
本開示の実施例によれば、本開示は、さらに別の車両を提供する。
該車両は、本開示の上記のいずれかの実施例における車載端末を含んでよい。
説明すべきこととして、本開示の実施例における車載端末は、上記の任意の1つ又は複数の実施例が提供する車載端末の説明を参照しよく、ここで説明を省略する。
本開示の実施例によれば、本開示は、さらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。
図7は、本開示の実施の形態を実施することが可能な電子機器700の一例を例示的に示すブロック図である。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してよく、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
図7に示すように、電子機器700は、計算ユニット701を含み、計算ユニット701は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM 703には、さらに電子機器700の操作に必要な様々なプログラム及びデータを記憶してもよい。計算ユニット701、ROM 702およびRAM 703は、バス704に介して相互に接続される。入出力インタフェース705も、バス704に接続される。
電子機器700における複数の部品は、I/Oインタフェース705に接続され、例えばキーボード、マウス等の入力ユニット706と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット707と、例えば磁気ディスク、光ディスク等の記憶ユニット708と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット709とを含む。通信ユニット709は、電子機器700がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報/データをやり取りすることを可能にする。
演算ユニット701は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。演算ユニット701の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。演算ユニット701は、例えばマルチサウンドゾーン音声ウェイクアップ・認識方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施例において、マルチサウンドゾーン音声ウェイクアップ・認識方法は、例えば記憶ユニット708のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信ユニット709を介して電子機器700にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM703にロードされて演算ユニット701により実行される場合、上記に記載のマルチサウンドゾーン音声ウェイクアップ・認識方法の1つ又は複数の操作を実行してもよい。代替的に、他の実施例において、演算ユニット701は、他の任意の適切な方式(例えば、ファームウェアを介する)によりマルチサウンドゾーン音声ウェイクアップ・認識方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数の言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストと呼ばれ、クラウドコンピューティング業務システムにおける1つのホスト製品であり、それによって、従来の物理ホストとVPS業務(“Virtual Private Server”、又は“VPS”と略称する)に存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決している。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせしたサーバであってもよい。
本開示の技術的手段において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供開示及び応用等の処理は、いずれも相関法規則の規定に適合し、必要なセキュリティ対策を取り、かつ公序良俗に反するものではない。
本開示の技術的手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。
理解されるべきこととして、以上に示した様々な形式のフローを使用してもよく、操作を改めてソーティングし、追加するか又は削除する操作であってもよい。例えば、本発明に記載の各操作は並列的に実行されてもよいし異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書はここで限定されない。
以上説明した情報表示方法、装置、電子機器、記憶媒体およびコンピュータプログラムは、以下のように表現することができる。
第1態様のマルチサウンドゾーン音声ウェイクアップ方法は、
Nチャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号は、N個のサウンドゾーンのうち1つのサウンドゾーンに対応することと、
前記Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を1つの対応するオーディオ処理スレッドに入力することと、
前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することとを含む。
第2態様のマルチサウンドゾーン音声ウェイクアップ方法は、
第1態様に記載の方法であって、
前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったか否かを特定することと、
前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったことを特定することに応じて、同時にウェイクアップ結果があった複数のスレッドのうち入力されたオーディオ信号が最も強い1つの目標スレッドを特定することとをさらに含み、
前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することは、前記目標スレッドに対応する1つの目標サウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することを含む。
第3態様のマルチサウンドゾーン音声ウェイクアップ方法は、
第1態様に記載の方法であって、
前記Nチャンネルのオーディオ信号を取得することは、
N個のピックアップを利用して同時にNチャンネルのオーディオ信号を収集し、各ピックアップは、前記N個のサウンドゾーンのうち1つのサウンドゾーン内に設置されることと、
前記N個のピックアップが同時に収集したNチャンネルのオーディオ信号を、1フレームのオーディオデータとして組み合わせて、前記ウェイクアップエンジンに伝送することと、
前記ウェイクアップエンジンにより、対応するNチャンネルのオーディオ信号を、前記オーディオデータから抽出することによって、前記対応関係に応じてそれぞれ1つの対応するオーディオ処理スレッドに入力して処理することとを含む。
第4態様のマルチサウンドゾーン音声認識方法は、
第1~3態様のいずれか一つに記載のマルチサウンドゾーン音声ウェイクアップ方法に基づいて、N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定することと、
前記第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得することと、
前記オーディオ信号を音声認識エンジンに伝送して音声認識を行うこととを含む。
第5態様のマルチサウンドゾーン音声認識方法は、
第4態様に記載の方法であって、
前記N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定した後、
前記ピックアップが予め設定された時間帯内にオーディオ信号を収集していないことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖することと、
請求項1~3のいずれか一項に記載のマルチサウンドゾーン音声ウェイクアップ方法に基づいて、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定することとをさらに含む。
第6態様のマルチサウンドゾーン音声認識方法は、
第4態様に記載の方法であって、
音声認識を行うプロセスにおいて、
前記N個のサウンドゾーンのうち第2ウェイクアップ済みサウンドゾーンが現れたことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖し、前記第2ウェイクアップ済みサウンドゾーンの権限は、前記第1ウェイクアップ済みサウンドゾーンの権限より高いこと、
前記第2ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得することと、
該オーディオ信号を前記音声認識エンジンに伝送して音声認識を行うこととをさらに含む。
第7態様のマルチサウンドゾーン音声ウェイクアップ装置は、
Nチャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号が、N個のサウンドゾーンのうち1つのサウンドゾーンに対応する第1取得モジュールと、
前記Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を1つの対応するオーディオ処理スレッドに入力する入力モジュールと、
前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する第1特定モジュールとを含む。
第8態様のマルチサウンドゾーン音声ウェイクアップ装置は、
第7態様に記載の装置であって、
前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったか否かを特定する第2特定モジュールと、
前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったことを特定することに応じて、同時にウェイクアップ結果があった複数のスレッドのうち入力されたオーディオ信号が最も強い1つの目標スレッドを特定する第3特定モジュールとをさらに含み、
前記第1特定モジュールは、さらに、前記目標スレッドに対応する1つの目標サウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンとして特定する。
第9態様のマルチサウンドゾーン音声ウェイクアップ装置は、
第7態様に記載の装置であって、
前記第1取得モジュールは、
N個のピックアップを利用して、同時にNチャンネルのオーディオ信号を収集し、各ピックアップが前記N個のサウンドゾーンのうち1つのサウンドゾーン内に設置される収集ユニットと、
前記N個のピックアップが同時に収集したNチャンネルのオーディオ信号を、1フレームのオーディオデータとして組み合わせて、前記ウェイクアップエンジンに伝送する伝送ユニットと、
前記ウェイクアップエンジンにより、対応するNチャンネルのオーディオ信号を、前記オーディオデータから抽出することによって、前記入力モジュールが前記対応関係に応じて、抽出されたNチャンネルのオーディオ信号をそれぞれ1つの対応するオーディオ処理スレッドに入力して処理する抽出ユニットとを含む。
第10態様のマルチサウンドゾーン音声認識装置は、
第7~9態様のいずれか一つに記載のマルチサウンドゾーン音声ウェイクアップ装置に基づいて、N個のサウンドゾーンうち第1ウェイクアップ済みサウンドゾーンを特定する第4特定モジュールと、
前記第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する第2取得モジュールと、
前記オーディオ信号を音声認識エンジンに伝送して、音声認識を行う第1音声認識モジュールとを含む。
第11態様のマルチサウンドゾーン音声認識装置は、
第10態様に記載の装置であって、
前記N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定した後、前記ピックアップが所定の時間帯内にオーディオ信号を収集していないことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖する第1音声サウンドゾーン閉鎖モジュールと、
請求項7~9のいずれか一項に記載のマルチサウンドゾーン音声ウェイクアップ装置に基づいて、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定する第5特定モジュールとをさらに含む。
第12態様のマルチサウンドゾーン音声認識装置は、
第10態様に記載の装置であって、
前記第1音声認識モジュールが音声認識を行うプロセスにおいて、前記N個のサウンドゾーンのうち第2ウェイクアップ済みサウンドゾーンが現れたことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖し、前記第2ウェイクアップ済みサウンドゾーンの権限が、前記第1ウェイクアップ済みサウンドゾーンの権限より高い第2サウンドゾーン閉鎖モジュールと、
前記第2ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する第3取得モジュールと、
該オーディオ信号を前記音声認識エンジンに伝送して、音声認識を行う第2音声認識モジュールとをさらに含む。
第13態様の電子機器は、
N個の同期オーディオ処理スレッドを含むウェイクアップエンジンを備え、
各音声処理スレッドは、1つのサウンドゾーンに対応し、対応するサウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理し、
前記ウェイクアップエンジンは、前記N個の同期オーディオ処理スレッドの処理結果を監視し、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
第14態様の車載端末は、
N個の同期オーディオ処理スレッドを含むウェイクアップエンジンを備え、
各オーディオ処理スレッドは、1つの車載サウンドゾーンに対応し、対応する車載サウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理し、
前記ウェイクアップエンジンは、前記N個の同期オーディオ処理スレッドの処理結果を監視し、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応する車載サウンドゾーンを、N個の車載サウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する。
第15態様の車両は、
第7~9態様のいずれか一つに記載のマルチサウンドゾーン音声ウェイクアップ装置と、
第10~12態様のいずれか一つに記載のマルチサウンドゾーン音声認識装置とを含む。
第16態様の車両は、
第14態様に記載の車載端末を備える。
第17態様の電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、
前記命令が前記少なくとも1つのプロセッサにより実行されることによって、前記少なくとも1つのプロセッサは第1~6態様のいずれか一つに記載の方法を実行することができる。
第18態様の記憶媒体は、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに第1~6態様のいずれか一つに記載の方法を実行させる。
第19態様のコンピュータプログラムは、
プロセッサにより実行される場合に、第1~6態様のいずれか一つに記載の方法の操作を実現する。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきことは、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (19)

  1. Nチャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号は、N個のサウンドゾーンのうち1つのサウンドゾーンに対応することと、
    前記Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を1つの対応するオーディオ処理スレッドに入力することと、
    前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することとを含むマルチサウンドゾーン音声ウェイクアップ方法。
  2. 請求項1に記載の方法であって、
    前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったか否かを特定することと、
    前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったことを特定することに応じて、同時にウェイクアップ結果があった複数のスレッドのうち入力されたオーディオ信号が最も強い1つの目標スレッドを特定することとをさらに含み、
    前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することは、前記目標スレッドに対応する1つの目標サウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定することを含むマルチサウンドゾーン音声ウェイクアップ方法。
  3. 請求項1に記載の方法であって、
    前記Nチャンネルのオーディオ信号を取得することは、
    N個のピックアップを利用して同時にNチャンネルのオーディオ信号を収集し、各ピックアップは、前記N個のサウンドゾーンのうち1つのサウンドゾーン内に設置されることと、
    前記N個のピックアップが同時に収集したNチャンネルのオーディオ信号を、1フレームのオーディオデータとして組み合わせて、前記ウェイクアップエンジンに伝送することと、
    前記ウェイクアップエンジンにより、対応するNチャンネルのオーディオ信号を、前記オーディオデータから抽出することによって、前記対応関係に応じてそれぞれ1つの対応するオーディオ処理スレッドに入力して処理することとを含むマルチサウンドゾーン音声ウェイクアップ方法。
  4. 請求項1~3のいずれか一項に記載のマルチサウンドゾーン音声ウェイクアップ方法に基づいて、N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定することと、
    前記第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得することと、
    前記オーディオ信号を音声認識エンジンに伝送して音声認識を行うこととを含むマルチサウンドゾーン音声認識方法。
  5. 請求項4に記載の方法であって、
    前記N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定した後、
    前記ピックアップが予め設定された時間帯内にオーディオ信号を収集していないことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖することと、
    請求項1~3のいずれか一項に記載のマルチサウンドゾーン音声ウェイクアップ方法に基づいて、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定することとをさらに含むマルチサウンドゾーン音声認識方法。
  6. 請求項4に記載の方法であって、
    音声認識を行うプロセスにおいて、
    前記N個のサウンドゾーンのうち第2ウェイクアップ済みサウンドゾーンが現れたことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖し、前記第2ウェイクアップ済みサウンドゾーンの権限は、前記第1ウェイクアップ済みサウンドゾーンの権限より高いこと、
    前記第2ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得することと、
    該オーディオ信号を前記音声認識エンジンに伝送して音声認識を行うこととをさらに含むマルチサウンドゾーン音声認識方法。
  7. Nチャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号が、N個のサウンドゾーンのうち1つのサウンドゾーンに対応する第1取得モジュールと、
    前記Nチャンネルのオーディオ信号とウェイクアップエンジンにおけるN個の同期オーディオ処理スレッドとの間の対応関係に基づいて、各チャンネルのオーディオ信号を1つの対応するオーディオ処理スレッドに入力する入力モジュールと、
    前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記ウェイクアップ結果があったスレッドに対応するサウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する第1特定モジュールとを含むマルチサウンドゾーン音声ウェイクアップ装置。
  8. 請求項7に記載の装置であって、
    前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果が現れたスレッドに応じて、前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったか否かを特定する第2特定モジュールと、
    前記N個の同期オーディオ処理スレッドのうち同時に複数のスレッドにウェイクアップ結果があったことを特定することに応じて、同時にウェイクアップ結果があった複数のスレッドのうち入力されたオーディオ信号が最も強い1つの目標スレッドを特定する第3特定モジュールとをさらに含み、
    前記第1特定モジュールは、さらに、前記目標スレッドに対応する1つの目標サウンドゾーンを、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンとして特定するマルチサウンドゾーン音声ウェイクアップ装置。
  9. 請求項7に記載の装置であって、
    前記第1取得モジュールは、
    N個のピックアップを利用して、同時にNチャンネルのオーディオ信号を収集し、各ピックアップが前記N個のサウンドゾーンのうち1つのサウンドゾーン内に設置される収集ユニットと、
    前記N個のピックアップが同時に収集したNチャンネルのオーディオ信号を、1フレームのオーディオデータとして組み合わせて、前記ウェイクアップエンジンに伝送する伝送ユニットと、
    前記ウェイクアップエンジンにより、対応するNチャンネルのオーディオ信号を、前記オーディオデータから抽出することによって、前記入力モジュールが前記対応関係に応じて、抽出されたNチャンネルのオーディオ信号をそれぞれ1つの対応するオーディオ処理スレッドに入力して処理する抽出ユニットとを含むマルチサウンドゾーン音声ウェイクアップ装置。
  10. 請求項7~9のいずれか一項に記載のマルチサウンドゾーン音声ウェイクアップ装置に基づいて、N個のサウンドゾーンうち第1ウェイクアップ済みサウンドゾーンを特定する第4特定モジュールと、
    前記第1ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する第2取得モジュールと、
    前記オーディオ信号を音声認識エンジンに伝送して、音声認識を行う第1音声認識モジュールとを含むマルチサウンドゾーン音声認識装置。
  11. 請求項10に記載の装置であって、
    前記N個のサウンドゾーンのうち第1ウェイクアップ済みサウンドゾーンを特定した後、前記ピックアップが所定の時間帯内にオーディオ信号を収集していないことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖する第1音声サウンドゾーン閉鎖モジュールと、
    請求項7~9のいずれか一項に記載のマルチサウンドゾーン音声ウェイクアップ装置に基づいて、前記N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンを改めて特定する第5特定モジュールとをさらに含むマルチサウンドゾーン音声認識装置。
  12. 請求項10に記載の装置であって、
    前記第1音声認識モジュールが音声認識を行うプロセスにおいて、前記N個のサウンドゾーンのうち第2ウェイクアップ済みサウンドゾーンが現れたことに応じて、前記第1ウェイクアップ済みサウンドゾーンの音声認識チャンネルを閉鎖し、前記第2ウェイクアップ済みサウンドゾーンの権限が、前記第1ウェイクアップ済みサウンドゾーンの権限より高い第2サウンドゾーン閉鎖モジュールと、
    前記第2ウェイクアップ済みサウンドゾーン内に設置されたピックアップが収集したオーディオ信号を取得する第3取得モジュールと、
    該オーディオ信号を前記音声認識エンジンに伝送して、音声認識を行う第2音声認識モジュールとをさらに含むマルチサウンドゾーン音声認識装置。
  13. N個の同期オーディオ処理スレッドを含むウェイクアップエンジンを備え、
    各音声処理スレッドは、1つのサウンドゾーンに対応し、対応するサウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理し、
    前記ウェイクアップエンジンは、前記N個の同期オーディオ処理スレッドの処理結果を監視し、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応するサウンドゾーンを、N個のサウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する電子機器。
  14. N個の同期オーディオ処理スレッドを含むウェイクアップエンジンを備え、
    各オーディオ処理スレッドは、1つの車載サウンドゾーンに対応し、対応する車載サウンドゾーン内に設置されたピックアップが収集した1チャンネルのオーディオ信号を処理し、
    前記ウェイクアップエンジンは、前記N個の同期オーディオ処理スレッドの処理結果を監視し、前記N個の同期オーディオ処理スレッドのうちウェイクアップ結果があったスレッドに対応する車載サウンドゾーンを、N個の車載サウンドゾーンのうちウェイクアップ済みサウンドゾーンに特定する車載端末。
  15. 請求項7に記載のマルチサウンドゾーン音声ウェイクアップ装置と、
    請求項10に記載のマルチサウンドゾーン音声認識装置とを含む車両。
  16. 請求項14に記載の車載端末を備える車両。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
    前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、
    前記命令が前記少なくとも1つのプロセッサにより実行されることによって、前記少なくとも1つのプロセッサは請求項1~3のいずれか一項に記載の方法を実行することができる電子機器。
  18. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~3のいずれか一項に記載の方法を実行させる記憶媒体。
  19. プロセッサにより実行される場合に、請求項1~3のいずれか一項に記載の方法の操作を実現するコンピュータプログラム。
JP2022092444A 2021-06-08 2022-06-07 マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム Pending JP2022120020A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110639837.0 2021-06-08
CN202110639837.0A CN113380247A (zh) 2021-06-08 2021-06-08 多音区语音唤醒、识别方法和装置、设备、存储介质

Publications (1)

Publication Number Publication Date
JP2022120020A true JP2022120020A (ja) 2022-08-17

Family

ID=77573150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022092444A Pending JP2022120020A (ja) 2021-06-08 2022-06-07 マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム

Country Status (5)

Country Link
US (1) US20220301552A1 (ja)
EP (1) EP4044178A3 (ja)
JP (1) JP2022120020A (ja)
KR (1) KR20220083990A (ja)
CN (1) CN113380247A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN114063969A (zh) * 2021-11-15 2022-02-18 阿波罗智联(北京)科技有限公司 音频数据处理方法、装置、设备、存储介质及程序产品
CN114678026B (zh) * 2022-05-27 2022-10-14 广州小鹏汽车科技有限公司 语音交互方法、车机终端、车辆及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0998145A (ja) * 1995-09-29 1997-04-08 Toa Corp 多重伝送装置及びその伝送方法
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
JP2017083600A (ja) * 2015-10-27 2017-05-18 パナソニックIpマネジメント株式会社 車載収音装置及び収音方法
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019133156A (ja) * 2018-01-31 2019-08-08 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 車両環境のためのマルチチャネル音声認識

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
US10630751B2 (en) * 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
CN106502938B (zh) * 2015-09-08 2020-03-10 北京百度网讯科技有限公司 用于实现图像和语音交互的方法和装置
CN107026931A (zh) * 2016-02-02 2017-08-08 中兴通讯股份有限公司 一种音频数据处理方法和终端
EP3414759B1 (en) * 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10916252B2 (en) * 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
CN113380280B (zh) * 2018-12-29 2022-11-22 百度在线网络技术(北京)有限公司 数据处理方法、装置和存储介质
CN110310633B (zh) * 2019-05-23 2022-05-20 阿波罗智联(北京)科技有限公司 多音区语音识别方法、终端设备和存储介质
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质
CN110992946A (zh) * 2019-11-01 2020-04-10 上海博泰悦臻电子设备制造有限公司 一种语音控制方法、终端及计算机可读存储介质
CN111599357A (zh) * 2020-04-07 2020-08-28 宁波吉利汽车研究开发有限公司 一种车内多音区拾音方法、装置、电子设备及存储介质
CN112201235B (zh) * 2020-09-16 2022-12-27 华人运通(上海)云计算科技有限公司 游戏终端的控制方法、装置、车载系统和车辆

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0998145A (ja) * 1995-09-29 1997-04-08 Toa Corp 多重伝送装置及びその伝送方法
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
JP2017083600A (ja) * 2015-10-27 2017-05-18 パナソニックIpマネジメント株式会社 車載収音装置及び収音方法
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019133156A (ja) * 2018-01-31 2019-08-08 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 車両環境のためのマルチチャネル音声認識

Also Published As

Publication number Publication date
KR20220083990A (ko) 2022-06-21
EP4044178A2 (en) 2022-08-17
EP4044178A3 (en) 2023-01-18
CN113380247A (zh) 2021-09-10
US20220301552A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
JP2022120020A (ja) マルチサウンドゾーン音声ウェイクアップ・認識方法及び装置、電子機器、記憶媒体、コンピュータプログラム
US11295760B2 (en) Method, apparatus, system and storage medium for implementing a far-field speech function
US10748531B2 (en) Management layer for multiple intelligent personal assistant services
US20190196779A1 (en) Intelligent personal assistant interface system
WO2020078300A1 (zh) 一种终端投屏的控制方法和终端
KR20230018534A (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
CN107545029A (zh) 智能设备的语音反馈方法、设备及可读介质
JP2021144248A (ja) 音声データ処理方法、装置及びスマート車両
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
CN109462546A (zh) 一种语音对话历史消息记录方法、装置及系统
JP2023546703A (ja) マルチチャネル音声アクティビティ検出
CN111312243B (zh) 设备交互方法和装置
EP3745252B1 (en) Voice control method and apparatus of electronic device, computer device and storage medium
JP2022116285A (ja) 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
WO2022193892A1 (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
KR102389602B1 (ko) 음성인식 기반의 ai 에이전트 프로그램을 실행하는 단말장치 및 이의 동작방법
CN114333017A (zh) 一种动态拾音方法、装置、电子设备及存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN114694661A (zh) 一种第一终端设备、第二终端设备和语音唤醒方法
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
US20230298580A1 (en) Emotionally Intelligent Responses to Information Seeking Questions
CN114495923A (zh) 智能控制系统实现方法、装置、电子设备及存储介质
EP3502868A1 (en) Intelligent personal assistant interface system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240220