JP2021144248A

JP2021144248A - 音声データ処理方法、装置及びスマート車両

Info

Publication number: JP2021144248A
Application number: JP2021097317A
Authority: JP
Inventors: イーチョウ; Yi Zhou; シェンヨンツオ; Shengyong Zuo; チエイン; Qie Yin; チェンチェン; Chen Chen
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2021-06-10
Publication date: 2021-09-24
Also published as: KR102553234B1; KR20210040854A; CN111968642A

Abstract

【課題】命令を間違って認識する状況を防止し、認識する正確性を向上させる音声データ処理方法及び装置を提供する。【解決手段】音声データ処理方法であって、複数のマイクによって収集された複数チャネルの音声データに、いずれもウェイクワードが含まれると、複数チャネルの音声データでエネルギーが最も大きい音声データに対応するマイクをターゲットマイクとして、後続の時間帯に、ターゲットマイクによって収集された音声データによって、その中の命令を認識する。【選択図】図２

Description

本願は、データ処理技術における音声データ処理技術分野、自然言語処理技術分野、音声対話技術分野および自動運転技術分野などに関し、特に、音声データ処理方法、装置及びスマート車両に関する。

現在、音声認識技術の発展に伴い、いくつかのスマート車両に設定された車載端末は、マイクによって収集された車内の人が話したときの音声データを受信して、音声データにおける人の命令を音声認識技術をもって確定して、該命令を実行し、これにより、車内の人が音声方式で車載端末を制御することは、実現され、車両のインテリジェントの程度を向上させる。

従来技術において、音声データにおける命令を認識するアルゴリズムの複雑さが高いため、車載端末は、リソース浪費を免れるために、マイクによって収集された音声データを受信した後に、まず、音声データにおけるウェイクワードを認識し、音声データにウェイクワードが含まれると認識した状況だけに、ウェイクワードの後の音声データにおける命令を認識し、これにより、車載端末の作業効率を向上させるようになる。

しかし、車内に複数のマイクが設置されたとき、複数のマイクがいずれも音声データを受信してウェイクワードを認識する可能性があり、ウェイクワードを認識するアルゴリズムの精度が低いため、後続に、どのマイクの音声データにおける命令を認識すべきであるかを正確に確定できず、さらに、音声データにおける命令を正確に認識できないようになり、ひいては、命令を間違って認識し、音声データ処理の正確性を低下させるようになる。

本願は、従来技術において、音声データ処理のときに正確性が劣っている技術的課題を解決するために、音声データ処理方法、装置及びスマート車両を提供する。

第１の態様では、本願は、音声データ処理方法を提供し、第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するステップであって、前記複数チャネルの第１の音声データが、前記第１の時間帯に車内に設置された複数のマイクによって収集されるステップと、前記ターゲットマイクが第２の時間帯に収集した第２の音声データを取得するステップであって、前記第２の時間帯が前記第１の時間帯の後にあるステップと、前記第２の音声データに含まれた命令を認識するステップと、を含む。

以上のようにして、本実施例に係る音声データ処理方法により、車載端末が第１の音声データ内のウェイクワードによってウェイクされた後に、エネルギーが最も大きい音声データに対応するターゲットマイクの第２の音声データを選択し、命令を認識することができ、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された第２の音声データによって、ユーザが話した命令をより正確に認識することができ、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させることができる。

本願の第１の態様の一実施例において、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、前記複数チャネルの第１の音声データから、前記ターゲット語彙を含む１つのチャネル又は複数チャネルの候補第１の音声データを確定するステップと、前記１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含む。

具体的に、本実施例に係る音声データ処理方法において、ターゲット語彙が複数チャネルの第１の音声データで検出され、すべての第１の音声データにターゲット語彙が含まれるわけではない可能性があるため、車載端末は、複数チャネルの第１の音声データにターゲット語彙が含まれた後に、すべての第１の音声データのエネルギーを比較するのではなく、実際にターゲット語彙を含む１つのチャネル又は複数チャネルの第１の音声データのエネルギーを比較し、これにより、車載端末が音声データを処理し、ターゲットマイクを確定するときに必要な計算量を減らし、車載端末が音声データを処理する効率をさらに向上させる。

本願の第１の態様の一実施例において、前記１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、記憶モジュールから、前記第１の時間帯内の前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーを取得するステップであって、前記記憶モジュールが、前記複数のマイクによって収集された音声データのエネルギーを記憶するためのものであるステップと、前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーに基づいて、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含む。

具体的に、本実施例に係る音声データ処理方法において、車載端末は、第１の音声データを受信した後にいずれも記憶するため、車載端末は、複数チャネルの第１の音声データにターゲット語彙が含まれると確定した後に、バックトラックの方式により、記憶機器から記憶されたエネルギーを直接に読み取り、これにより、複数チャネルの第１の音声データのエネルギー値をより速く比較し、さらに、車載端末が音声データを処理する効率を向上させることができる。

本願の第１の態様の一実施例において、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する前記ステップの前に、前記複数のマイクが前記第１の時間帯に収集した複数チャネルの第１の音声データを取得するステップと、前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを計算するステップと、前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを記憶モジュールに記憶するステップと、をさらに含む。

具体的に、本実施例に係る音声データ処理方法において、車載端末は、マイクによってリアルタイムに収集された第１の時間帯内の複数チャネルの第１の音声データに対して、まず、エネルギーを計算し、計算して得られたエネルギー値を記憶機器に記憶し、これにより、後続に、ウィクアップモデルによって、複数チャネルの第１の音声データにターゲット語彙が含まれると認識した場合、同様に、記憶機器から、記憶されたエネルギーを直接に読み取ることができ、これにより、複数チャネルの第１の音声データのエネルギー値をより速く比較することができ、車載端末が音声データを処理する効率を向上させることもできる。

本願の第１の態様の一実施例において、いずれか１つの第１の音声データに対し、前記第１の時間帯内の前記第１の音声データのエネルギーを計算する前記ステップは、プリセット時間窓に従って、前記第１の時間帯内に前記第１の音声データに対してウィンドウフレーミング処理を行い、前記第１の時間帯内の前記第１の音声データの複数の周波数ドメイン特徴を得るステップと、前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第１の時間帯内の前記第１の音声データのエネルギーとするステップと、を含む。

具体的に、本実施例に係る音声データ処理方法において、ウィンドウフレーミングの処理方式により、第１の音声データのエネルギーを表し、周波数ドメイン特徴が信号での異なる成分、特に人から発した音声データの特徴をより体現化することができるため、音声データのエネルギーをよりよく表し、さらに、ターゲットマイクを確定するときの正確性を向上させ、さらに、音声データを認識するときの正確性を向上させることができる。

本願の第１の態様の一実施例において、実行主体としての音声データ処理装置は、第２の音声データを取得した後に、第２の音声データにおける命令を直接に認識してもよいし、または、第２のデータをネットワーク機器に送信し、ネットワーク機器により、第２の音声データにおける命令を認識した後に、音声データ処理装置は、ネットワーク機器によって送信された第２の音声データにおける命令を直接に受信してもよい。これにより、本実施例は、異なる認識シーンに応用されることができ、演算能力が足りないとき、ネットワーク機器による認識に依存して音声データに対する処理効率を向上させることができる。音声データ処理装置の演算能力によってサポートされる状況で、自身が第２の音声データにおける命令を認識することに依存して、ネットワーク機器とのデータ対話を減少させることもできる。

第２の態様では、本願は、音声データ処理装置を提供し、該装置は、本願の第１の態様の音声データ処理方法を実行するために使用されることができ、該装置は、第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される確定モジュールであって、前記複数チャネルの第１の音声データが、前記第１の時間帯に車内に設置された複数のマイクによって収集される確定モジュールと、前記ターゲットマイクが第２の時間帯に収集した第２の音声データを取得するために使用される取得モジュールであって、前記第２の時間帯が前記第１の時間帯の後にある取得モジュールと、前記第２の音声データに含まれた命令を認識するために使用される認識モジュールと、を含む。

本願の第２の態様の一実施例において、前記確定モジュールは、具体的に、前記複数チャネルの第１の音声データから、前記ターゲット語彙を含む１つのチャネル又は複数チャネルの候補第１の音声データを確定し、前記１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される。

本願の第２の態様の一実施例において、前記確定モジュールは、具体的に、前記複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、前記第１の時間帯内の前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーを取得し、前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーに基づいて、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される。

本願の第２の態様の一実施例において、前記音声データ処理装置はさらに、計算モジュール及び記憶モジュールを含み、前記取得モジュールはさらに、前記複数のマイクが前記第１の時間帯に収集した複数チャネルの第１の音声データを取得するために使用され、前記計算モジュールは、前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを計算して、前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを前記記憶モジュールに記憶するために使用される。

本願の第２の態様の一実施例において、前記計算モジュールは、具体的に、プリセット時間窓に従って、前記第１の時間帯内に前記第１の音声データに対してウィンドウフレーミング処理を行い、前記第１の時間帯内の前記第１の音声データの複数の周波数ドメイン特徴を得、前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第１の時間帯内の前記第１の音声データのエネルギーとするために使用される。

本願の第２の態様の一実施例において、認識モジュールは、第２の音声データにおける命令を認識してもよいし、または、認識モジュールは、第２のデータをネットワーク機器に送信し、ネットワーク機器により、第２の音声データにおける命令を認識した後に、ネットワーク機器によって送信された第２の音声データにおける命令を直接に受信してもよい。

第３の態様では、本願は、スマート車両を提供し、複数のマイクとプロセッサを含み、複数のマイクは、スマート車両内部の音声データを収集するためのものであり、プロセッサは、第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定し、この後、ターゲットマイクが第２の時間帯に収集した第２の音声データを取得して、第２の音声データに含まれた命令を認識するためのものであり、複数チャネルの第１の音声データが複数のマイクによって第１の時間帯に収集され、第２の時間帯が第１の時間帯の後にある。

本願の第３の態様の一実施例において、プロセッサは、具体的に、複数チャネルの第１の音声データから、ターゲット語彙を含む１つのチャネル又は複数チャネルの候補第１の音声データを確定し、１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される。

本願の第３の態様の一実施例において、プロセッサは、具体的に、複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、第１の時間帯内の１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーを取得し、１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーに基づいて、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される。

本願の第３の態様の一実施例において、プロセッサはさらに、複数のマイクが第１の時間帯に収集した複数チャネルの第１の音声データを取得し、第１の時間帯内の複数チャネルの第１の音声データのエネルギーを計算し、第１の時間帯内の複数チャネルの第１の音声データのエネルギーを記憶モジュールに記憶するために使用される。

本願の第３の態様の一実施例において、プロセッサは、具体的に、プリセット時間窓に従って、第１の時間帯内に第１の音声データに対してウィンドウフレーミング処理を行い、第１の時間帯内の第１の音声データの複数の周波数ドメイン特徴を得、複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、第１の時間帯内の第１の音声データのエネルギーとするために使用される。

本願の第３の態様の一実施例において、プロセッサは、具体的に、第２の音声データをネットワーク機器へ送信し、ネットワーク機器によって送信された第２の音声データに含まれた命令を受信するために使用される。

第４の態様では、本願は、電子機器を提供し、少なくとも１つのプロセッサ、および前記少なくとも１つのプロセッサと通信するように接続されたメモリを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサは、本願の第１の態様のいずれか１項に記載の方法を実行することができるようになる。

第５の態様では、本願は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本願の第１の態様のいずれか１項に記載の方法を実行させるためのものである。

第６の態様では、本願は、コンピュータ可読記憶媒体に記憶されたコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令は、プロセッサで実行されるとき、本願の第１の態様及び本願の第１の態様の各種の可能な実施例のいずれかに記載の方法を実現するためのものである。

本実施例に係る音声データ処理方法、装置及びスマート車両により、実行主体としての車載端末は、第１の時間帯内の音声データにターゲット語彙が含まれると確定すると、さらに、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定して、この後に、取得されたターゲットマイクによって収集された第２の音声データのみにより、ユーザがウィクアップワードの後に話した命令を認識し、最終的に、認識された命令を実行することができる。よって、本実施例に係る音声データ処理方法により、車載端末が第１の音声データ内のウェイクワードによってウェイクされた後に、エネルギーが最も大きい音声データに対応するターゲットマイクの第２の音声データを選択し、命令を認識することができ、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された第２の音声データによって、ユーザが話した命令をより正確に認識し、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させることができる。

この部分に記述した内容は、本願の実施例の肝心又は重要な特徴を識別することを主旨としているわけではなく、本願の範囲を制限するためにも使用されないと理解すべきである。本願の他の特徴を、以下の明細書によって理解しやすくなる。

図面は、本解決手段をよりよく理解するために使用されるものであり、本願に対する限定を構成しない。

本願が応用するシーンの概略図である。本願に係る音声データ処理方法の一実施例のフローチャートである。本願に係る車載端末が複数チャネルの第１の音声データに基づくエネルギーを確定するロジック概略図である。本実施例に係る音声データ処理方法の他の実施例のフローチャートである。本実施例に係る音声データの時間帯概略図である。本願に係る音声データ方法の一実施例において車載端末の処理ロジック概略図である。本願に係る音声データ処理装置の一実施例の構造概略図である。本願に係る音声データ処理装置の他の実施例の構造概略図である。本願の実施例に基づく音声データ処理方法の電子機器のブロック図を示す。

以下、本願の示範的な実施例を図面に合わせて説明する。理解に寄与するための本願の実施例の様々な詳細が含まれるが、これらは、示範的なものにすぎないと考えるべきである。よって、当業者は、ここに記述した実施例に対する様々な変化や修正が可能であり、本願の範囲や趣旨から逸脱されないと認識するべきである。同様に、明確や簡潔のため、以下の記述では、周知の機能や構造に関するものを省略するようにしている。

以下、本願の実施例を正式的に紹介する前に、まず、本願が応用するシーン、および従来技術に存在する問題について図面に合わせて説明する。

図１は、本願が応用するシーンの概略図であり、図１に示すスマート車両１に車載端末１１が設置されており、車両運転手または乗客は、車載端末１１によって音楽再生、マップナビゲーション、電話の受けと掛けなどの機能を実現することができる。同時に、音声認識技術の発展に伴い、車載端末１１は音声方式で車内の人と対話することもでき、これにより、車内の人が車載端末１１を操作することによるスマート車両１の正常走行対するセキュリティリスクを減少させる。

例えば、スマート車両１内の人は、車載端末１１を制御して関連機能を実現するとき、「音楽再生」を直接に話すことができ、車載端末１１は、マイクによってユーザが話した「音楽再生」という命令を含む音声データを収集した後に、音声認識技術によって、音声データには、ユーザが話した命令は「音楽再生」であると確定し、この後、音楽再生の機能を直接に実行することができ、上記のプロセス全体で、スマート車両１内の人は、命令を話すだけで、車載端末１１に対する制御を実現することができ、これにより、スマート車両１内の人、特に、運転手は、車載端末１１を使用するとき、ホイールから両手を離すことなく、ひいては、車両の前方から目を逸らすことなく、命令を車載端末１１へ発信することができ、スマート車両１内の人、および周囲環境内の他の車両や通行人のセキュリティを確保すると同時に、また、車載端末１１のインテリジェントの程度を高くし、スマート車両１内の人の制御体験を向上させる。

さらに具体的に、車載端末１１がユーザと音声対話を行うことを実現するとき、収集して得られた音声データで、ユーザが話した命令を認識することは１つの重要な技術である。音声データにおける命令を認識するアルゴリズムの複雑さが高く、使用される認識モデルのデータ量が大きいため、車載端末は、リソース浪費を免れるために、通常は、「ウェイクワード」、例えば「ＡＢＡＢ」を設定することがある。このとき、ユーザは、「音楽再生」という命令を車載端末１１へ話す前に、まず、ウェイクワード、例えば「ＡＢＡＢ、音楽再生」を話す必要がある。車載端末１１は、リアルタイムに音声データを収集し、且つ軽量レベルのウィクアップモデルを利用してウェイクワードを認識し、このとき使用されるウィクアップモデルは、音声データにウェイクワードが存在するか否かを比べるだけでよいため、そのアルゴリズムの複雑さが低く、使用されるウィクアップモデルのデータ量も少ない。車載端末１１は、ウィクアップモデルによって、第１の時間帯に収集された音声データにウェイクワード「ＡＢＡＢ」が含まれると確定すると、引き続き認識モデルにより、第１の時間帯の後の第２の時間帯に収集された音声データに対し、その中に含まれる命令の「音楽再生」を認識し、さらに、該命令を実行する。よって、車載端末１１は、大半の時間に、軽量レベルのウィクアップモデルを利用して音声データを処理することができ、ウェイクワードを検出した後にだけ、認識モデルを利用して命令を認識し、これにより、車載端末１１が音声データを処理するときの計算量を低減し、車載端末１１の作業効率を向上させる。

いくつかの実現において、スマート車両内に、通常は、1つ以上のマイクを設置することにより音声データを収集し、例えば、図１に示すスマート車両１内には、車内座席の設置に従って、運転席のそばに、第１のマイク１２１を設置し、助手席のそばに、第２のマイク１２２を設置し、後部座席の左側及び右側に、第３のマイク１２３と第４のマイク１２４をそれぞれ設置し、車載端末１１は、この４つのマイクによって個々の位置にある人の音声データを収集することができ、これにより、個々の位置の人が話すウェイクワードがマイクからの距離が遠いことで認識されないことがないことを確保し、車載端末１１のウィクアップの正確性を向上させる。例えば、スマート車両１内の運転手が「ＡＢＡＢ」というウェイクワードを話した後に、運転手のそばに設置された第１のマイク１２１がウェイクワードを含む音声データを収集し、この後、車載端末１１が第１のマイク１２１の音声データに基づいてウィクアップされると、認識モデルを利用し、第１のマイク１２１によって収集されたウェイクワードの後の音声データを認識し、さらに、運転手が話す「音楽再生」という命令を認識し、第１のマイク１２１が運転手のそばに設置されるため、該マイクを使用する音声データ認識命令により、認識される命令の正確性を向上させることができ、後続に、命令に基づいて関連機能を実行する正確さを確保することもできる。

実際の応用において、このように、車内に複数のマイクを設置してデータを同時に収集してウェイクワードを認識するシーンで、運転手の位置に座った運転手がウェイクワードを話した後に、運転手のそばに設置された第１のマイク１２１のほか、他のマイクがウェイクワードを含む音声データを収集する可能性もある。これにより、車載端末１１は、音声データにおけるウェイクワードを検出するとき、複数のマイクによって収集された複数チャネルの音声データで、いずれもウェイクワードが検出される可能性がある。この後、車載端末１１は、その中のいずれか１つのマイクの後続の音声データを選択して認識モデルによってその中の命令を認識することができる。

運転手は、ウェイクワードを話した後に、運転手のそばに設置された第１のマイク１２１によって収集された音声データ、及び、後部座席に設置された第４のマイク１２４によって収集された音声データを使用して、いずれもウェイクワードを認識したと仮定すると、このとき、車載端末１１が第４のマイク１２４によって収集された後続音声データにより、命令を認識する場合、命令を認識できないか、または間違って命令を認識した問題が存在する可能性があり、車載端末１１が音声データを処理するときに認識する正確性が低下するようになる。

よって、上記の問題を解決すために、車載端末１１が音声データを処理するとき、複数のマイクによって収集された複数チャネルの音声データには、いずれもウェイクワードが含まれると、複数チャネルの音声データでエネルギーが最も大きい音声データに対応するマイクをターゲットマイクとして、後続に、ターゲットマイクによって収集された音声データによって、その中の命令を認識し、最終的に、認識された命令を実行する。これにより、端末機器がウィクアップされた後に、エネルギーが最も大きい音声データに対応するマイクを選択して音声データにおける命令を認識し、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された音声データにより、その中に含まれた命令をより正確に認識することができ、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させる。

以下、本願の技術的解決手段について具体的な実施例をもって詳細に説明する。以下のいくつかの実施例を、相互に組み合わせてもよく、同様又は類似の概念又はプロセスをいくつかの実施例では繰り返して説明しないようにする場合もある。

図２は、本願に係る音声データ処理方法の一実施例のフローチャートであり、図２に示す方法は、図１に示すスマート車両１内の車載端末１１によって実行されてもよく、または、スマート車両１内に設置された、音声データを処理するための他の音声データ処理装置、または、音声データ処理装置におけるプロセッサによって実行されてもよい。かつ、スマート車両１内に複数のマイクが設置されることができ、個々のマイクが異なる位置に設置され、いずれも音声データを収集して、収集された音声データを車載端末１１に送信するためのものである。また、説明する必要があるものとして、図１に示すスマート車両１に４つのマイクが設置されることを例とし、マイク数を制限するわけではなく、スマート車両１内に２つ、６つ、８つまたは他の数の複数のマイクが設置されてもよく、いずれも本願の実施例の保護範囲内にある。

具体的に、図２に示す音声データ処理方法は、以下のステップを含む。

Ｓ１０１において、第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する。

前記複数チャネルの第１の音声データは、車内に設置された複数のマイクが第１の時間帯に収集した音声データであり、前記ターゲット語彙は、車載端末の音声機能のウェイクワードであってもよい。具体的に、図１に示すスマート車両内に、複数のマイクが音声データをリアルタイムに収集して、車載端末に送信して認識し、例えば、図１に示す４つのマイクがｔ１−ｔ２の時間帯内に収集した４チャネルの音声データを車載端末に送信し、車載端末により、この４チャネルの音声データにウェイクワードが含まれるか否かを認識し、この４チャネルの音声データに、いずれもウェイクワードが含まれない場合、車載端末は、４つのマイクがｔ２−ｔ３の時間帯内に収集して車載端末に送信した４チャネルの音声データを続いて認識し、このとき、ｔ２−ｔ３の時間帯内の４チャネルの音声データで、任意の１つのチャネルまたは複数チャネルの音声データにウェイクワードが含まれた場合、Ｓ１０１を実行する。そのうち、ウェイクワードを含むｔ２−ｔ３の時間帯を第１の時間帯と記し、第１の時間帯内に複数のマイクによって収集された音声データをこの複数のマイクによってそれぞれ収集された第１の音声データと記す。

よって、Ｓ１０１で、車載端末は、第１の時間帯内に、複数チャネルの第１の音声データにウェイクワードが含まれる１つのチャネルまたは複数チャネルの第１の音声データが存在すると確定した場合、Ｓ１０１で、複数チャネルの第１の音声データから、エネルギーが最も大きい第１の音声データを確定して、音声データのエネルギーが最も大きい音声データに対応するマイクを確定し、ターゲットマイクとして記す。

Ｓ１０２において、車載端末は、ターゲットマイクが第２の時間帯に収集した第２の音声データを取得する。

車載端末はＳ１０１によってターゲットマイクを確定した後に、車載端末は、後続に、スマート車両内の人が話す音声データにおける命令を認識するとき、ターゲットマイクによって収集された音声データのみを認識する。Ｓ１０２で、車載端末は、ターゲットマイクが第２の時間帯に収集した音声データを取得する。例えば、ウェイクワードが「ＡＢＡＢ」である場合、スマート車両内の人が「ＡＢＡＢ、音楽再生」を話した後に、複数のマイクが第１の時間帯内に収集した音声データにはウェイクワード「ＡＢＡＢ」が含まれる。車載端末は、Ｓ１０１に基づいてターゲットマイクを確定した後に、第１の時間帯の後の第２の時間帯に、複数のマイクが、いずれも音声データを収集しているとしても、車載端末は、ターゲットマイクによって収集された第２の音声データだけ取得して、その中に含まれた「音楽再生」という命令を認識する。このとき、第１の時間帯の後にある隣接する時間帯を第２の時間帯と記して、ターゲットマイクによって収集された「音楽再生」という命令が含まれた音声データを第２の音声データと記し、第２の時間帯は、第１の時間帯の後にある隣接する第１個の時間帯である。

Ｓ１０３において、車載端末は、第２の音声データに含まれた命令を認識する。

具体的に、Ｓ１０３の１つの具体的な実施形態において、端末機器は、Ｓ１０２で取得された第２の音声データを認識し、例えば、スマート車両にいる人が話した「ＡＢＡＢ、音楽再生」における第２の音声データ内の「音楽再生」という命令を認識し、この後、車載端末は、該命令を実行し、音楽再生を開始させる。理解できるものとして、Ｓ１０３で、車載端末は、ターゲットマイク以外の他のマイクによって収集された音声データを認識しない。本実施形態において、実行主体としての音声データ処理装置が演算能力をサポートすると仮定する場合には、自身が第２の音声データにおける命令を識別することに依存して、ネットワーク機器とのデータ対話を減少させることができる。

Ｓ１０３の他の具体的な実施形態において、実行主体としての音声データ処理装置の演算能力が足りないとき、ネットワーク機器による認識に依存して音声データに対する処理効率を向上させることができる。具体的に、音声データ処理装置は、第２のデータをネットワーク機器に送信することができ、ネットワーク機器により、第２の音声データにおける命令を認識した後に、音声データ処理装置は、ネットワーク機器によって送信された第２の音声データにおける命令を直接に受信してもよい。

以上のようにして、本実施例に係る音声データ処理方法により、実行主体としての車載端末は、第１の時間帯内の音声データにターゲット語彙が含まれると確定すると、さらに、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定して、この後に、取得されたターゲットマイクによって収集された第２の音声データのみにより、ユーザがウィクアップワードの後に話した命令を認識し、最終的に、認識された命令を実行することができる。よって、本実施例に係る音声データ処理方法により、車載端末が第１の音声データ内のウェイクワードによってウェイクされた後に、エネルギーが最も大きい音声データに対応するターゲットマイクの第２の音声データを選択し、命令を認識することができ、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された第２の音声データによって、ユーザが話した命令をより正確に認識することができ、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させることができる。

さらに具体的に、図３は、本願に係る車載端末が複数チャネルの第１の音声データに基づくエネルギーを確定するロジック概略図であり、以下、上記の図２に示す音声データ処理方法には、Ｓ１０１で、車載端末は、具体的に、複数チャネルの第１のデータのエネルギーにより、ターゲットマイクを確定する方法について、図３を組み合わせて説明する。

図３に示す例では、同様に、図１に示すスマート車両、およびスマート車両内に４つのマイクを設置することを例とする。スマート車両内に設置された４つのマイクをマイク１、マイク２、マイク３及びマイク４と記し、この４つのマイクが音声データをリアルタイムに収集して、車載端末内に送信し、車載端末により、４つのマイクの音声データを処理する。車載端末は、音声データを処理するとき、音声データにおけるウェイクワードまたは命令を認識するために、時間帯単位に音声データを分割して、一定の時間における音声内のウェイクワードまたは命令を認識する必要があるため、車載端末内に、一定の時間における音声データを記憶するための記憶モジュールが設置されてもよく、この一定の時間が過ぎた後に、バックトラックの方式により、記憶モジュール内から音声データを取り出して認識する。

例えば、図３に示すロジック図で、４つのマイクがｔ１−ｔ２時刻に収集して得られた４チャネルの音声データをそれぞれ車載端末に送信し、車載端末は、４つのキューをもって４つのマイクによって収集された音声データを記憶して、ｔ２時刻の後に、４つのマイクがｔ１−ｔ２の時間帯内に収集した４チャネルの音声データにウェイクワードが含まれるか否かを認識し、理解できるものとして、車載端末は、ｔ２時刻に、ｔ１−ｔ２の時間帯内の音声データに対してウィクアップ認識を行うと同時に、４つのマイクが依然として続いて音声データを収集して車載端末に送信し、車載端末も続いてｔ２時刻の後の４つのマイクによって収集された音声データをキューで記憶する。

選択的に、車載端末は、４チャネルの音声データにウェイクワードが含まれるか否かを認識するために、４チャネルの音声データに1対1で対応するウィクアップエンジンを使用し、それぞれ各チャネルの音声データにウェイクワードが含まれるか否かを認識し、例えば図３において、マイク１によって収集された音声データがウィクアップエンジン１によって認識され、マイク２によって収集された音声データがウィクアップエンジン２によって認識され、マイク３によって収集された音声データがウィクアップエンジン３によって認識され、およびマイク４によって収集された音声データがウィクアップエンジン４によって認識される。車載端末内の複数のウィクアップエンジンは、機械学習モデルによって実現されることができ、個々の機械学習モデルは、具体的に実現されるとき、同じであってもよく、異なってもよく、個々の機械学習モデルは、いずれも音声データにおけるウェイクワードを認識するためのものである。

理解できるものとして、図３に示す例では、４つのウィクアップエンジンにより、４つのマイクがｔ１−ｔ２の時間帯内に収集した４チャネルの音声データを認識した後に、４チャネルの音声データにいずれもウェイクワードが含まれないと確定した場合、車載端末は、続いて、記憶モジュールから、ｔ２−ｔ３の時間帯内に、４つのマイクによって収集された４チャネルの音声データを取得して、且つ４つのウィクアップエンジンによってウェイクワードを認識する。

特に、本実施例において、車載端末内の記憶モジュールはまた、セグメントごとの音声データのエネルギーを記憶し、例えば図３で、エネルギーをキュー型で記憶し、「エネルギーバッファキュー」と命名することができる。そのうち、実際のその時間帯内の個々の音声データに対し、ウィンドウ演算により、該時間帯内のフレームごとの信号の周波数ドメインエネルギーを計算して、平均値を取った後に、時間帯内の該チャネルの音声データのエネルギー値を得る。例えば、図３に示すマイク１によって収集されたｔ１−ｔ２の時間帯内の音声データのエネルギーの計算プロセスを例示的に説明して、車載端末は、マイク１がｔ１−ｔ２の時間帯内の音声データを収集した後に、この時間帯内の音声データを取得し、ウィンドウフレーミング処理により、この一定の時間内に音声データのフレームごとの周波数ドメイン特徴を得る。前記ウィンドウ演算により、音声データをフレームごとに、フレーミングして周波数ドメインに転換することができ、その具体的な実現及び原理は、従来技術を参照することができ、繰り返して説明しないようにする。この後、ウィンドウフレーミング処理により、マイク１によって収集されたｔ１−ｔ２の時間帯内の音声データを１００のフレームに分けたと仮定すると、この１００のフレームの周波数ドメインエネルギーを計算することができ、前記周波数ドメインエネルギーの一実施形態は、スペクトル振幅の二乗値、または他の可能なエネルギー表現方法であってもよく、本実施例により、限定されない。最終的に、車載端末は、上記の１００のフレームの周波数ドメインエネルギーに対して平均値を計算した後に、マイク１によって収集されたｔ１−ｔ２の時間帯内の音声データのエネルギーを得て、エネルギーバッファキューに記憶することができる。車載端末はまた、同じ方式に従って、異なる時間帯内に異なるマイクのエネルギーを計算してそれぞれのバッファキューに記憶することもできる。

図３に示すロジック概略図において、４つのウィクアップエンジンのいずれか１つ又は複数のウィクアップエンジンにより、第１の時間帯内の第１の音声データにウェイクワードが含まれると認識すると、エネルギーキューから、第１の音声データの第１の時間帯内でのエネルギーを取得する。例えば、車載端末は、４つのウィクアップエンジンにより、ｔ２−ｔ３の時間帯内の第１の音声データから、ウィクアップエンジン１により、ｔ２−ｔ３の時間帯内のマイク１の第１の音声データにウェイクワードが含まれると認識し、ｔ２−ｔ３の時間帯内のマイク２の第１の音声データにウェイクワードが含まれると認識した場合、車載端末は、第１の時間帯内の第１の音声データに基づいてターゲットマイクを確定する必要がある。

選択的に、車載端末は、ウェイクワードが検出された音声データのみから、ターゲットマイクを確定することができる。例えば、車載端末は、４つのウィクアップエンジンにより、ｔ２−ｔ３の時間帯内の第１の音声データから、ウィクアップエンジン１により、ｔ２−ｔ３の時間帯内のマイク１の第１の音声データにウェイクワードが含まれると認識し、ｔ２−ｔ３の時間帯内のマイク２の第１の音声データにウェイクワードが含まれると認識した後に、ｔ２−ｔ３の時間帯内のこの２つのマイクの第１の音声データを候補第１の音声データとして、その中から、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する。例えば、車載端末は、エネルギーバッファキューのみから、ｔ２−ｔ３の時間帯内のマイク１の第１の音声データのエネルギーＮ１、及び、ｔ２−ｔ３の時間帯内のマイク２の第１の音声データのエネルギーＮ２を取得して、この２つの第１の音声データのエネルギーＮ１とＮ２のみを比較し、Ｎ１＞Ｎ２の場合、マイク１をターゲットマイクとして、この後に、ターゲットマイクに基づいて後続の処理を行うことができ、例えばターゲットマイクによって収集されたｔ３−ｔ４の第２の時間帯内の第２の音声データに基づいて、第２の音声データにおける命令を認識する。

図４は、本実施例に係る音声データ処理方法の他の実施例のフローチャートであり、図４に示す方法は、図１に示す実施例に基づいて、Ｓ１０１の前に、また、以下のステップを含む。
Ｓ２０１において、車載端末は、複数のマイクによって送信された第１の音声データを受信する。第１の音声データは、マイクによって第１の時間帯に収集されたものである。図３に示すロジック図に合わせて、Ｓ２０１は、４つのマイクが収集された第１の音声データを車載端末に送信することに対応する。
Ｓ２０２において、車載端末は、複数チャネルの第１の音声データのエネルギーを計算し、車載端末は、図３に示す実施例において、音声データに対してウィンドウ演算を行う方式に従って、各チャネルの第１の音声データのエネルギー値を計算することができる。
Ｓ２０３において、車載端末は、計算して得られた複数チャネルの第１の音声データのエネルギー値を記憶モジュールに記憶する。図３に示すものに対応し、具体的に、エネルギーを記憶モジュールのエネルギーバッファキューに記憶することができる。
Ｓ２０４において、第１の音声データにターゲット語彙が含まれると確定する。車載端末は、具体的に、図３に示す、複数チャネルの第１の音声データと1対1で対応するウィクアップエンジンにより、複数チャネルの第１の音声データで１つのチャネルまたは複数チャネルの第１の音声データにウェイクワードが含まれると確定することができる。

この後、Ｓ１０１−Ｓ１０３の関連記述は、図２に示す実施例を参照することができ、その実施形態と原理が同じであり、繰り返して説明しないようにする。

特に、図５は、本実施例に係る音声データの時間帯の概略図であり、複数のマイクのいずれか１つのマイクによって収集された音声データが、図４に示す第１の時間帯と第２の時間帯との間での関係を示す。図５に示すように、車載端末は、マイクによって収集された音声データを時間帯単位に処理し、理解できるものとして、マイクは、不断に音声データを収集して車載端末に送信し、車載端末は、受信された音声データを記憶して、時間帯ｔ１−ｔ２、ｔ２−ｔ３、ｔ３−ｔ４……の順に従って、個々の時間帯内の音声データに対してウェイクワードを認識して、図４のＳ２０１で第１の時間帯がｔ２−ｔ３の第１の音声データを受信して、Ｓ２０４で第１の音声データにウェイクワードが含まれると確定したと仮定すると、この後のＳ１０２で、第２の時間帯がｔ３−ｔ４の第２の音声データに含まれた命令を認識することができる。理解できるものとして、図４に示すＳ２０２−Ｓ１０１は、図５に示す第１の時間帯内の終了時刻ｔ３の後に実行されることができる。

また、本実施例では、また、車載端末が音声データを処理する方法は提供され、車載端末が音声データを収集するときに音声データに対して前処理を行うために使用され得る。即ち、車載端末は、音声データを収集して前処理を行った後に、さらに、本願のいずれか１つの実施例における音声データ処理方法によって処理する。

例えば、図６は、本願に係る音声データ方法の一実施例において車載端末の処理ロジック概略図であり、図１に示すスマート車両の車載端末１１に応用されることができる。図６に示す車載端末は、サウンドカードデジタル信号処理（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ＤＳＰと略称）及び読み取り専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称）を含む。サウンドカードＤＳＰは、複数のマイクと接続して、複数のマイクによって送信された音声データを受信するためのものであり、複数チャネルの音声データを受信した後に、サウンドカードＤＳＰは、信号を時分割多重データフレーム（Ｔｉｍｅ−ＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅｘｉｎｇＳｌｏｔ、ＴＤＭｓｌｏｔと略称）に伝送し、複数チャネルの音声データを処理して、その後の複数チャネルの音声データをＲＯＭに送信する。この後、ＲＯＭにより、オーディオコーデック（ＡｕｄｉｏＣｏｄｅｃ）をもってその後の複数チャネルの音声データを読み取った後に、デインターリーブアルゴリズムをもって、オーディオを複数チャネルの音声データに分けて、複数チャネルの音声データをＳＳＲＣプロトコルによって上位アプリケーションクラスのスレッド（例えばＡｕｄｉｏＲｅｃｏｒｄ）に伝送し、ＡｕｄｉｏＲｅｃｏｒｄスレッドにより、図４に示すロジックにおいて、複数チャネルの音声データを取得してエネルギーをバッファし、および、複数のウィクアップエンジンにより、音声データにおけるウェイクワードをそれぞれ認識するなどの後続の処理を実行する。

前述の実施例において、本願の実施例に係る音声データ処理方法を紹介したが、上記の本願の実施例に係る方法における各機能を実行するために、実行主体としての車載端末は、ハードウェア構造及び／又はソフトウェアモジュールを含み、ハードウェア構造、ソフトウェアモジュール、又はハードウェア構造及びソフトウェアモジュールの形で上記の各機能を実現することができる。上記の各機能における１つの機能がハードウェア構造、ソフトウェアモジュール、またはハードウェア構造とソフトウェアモジュールのいずれで実行されるかは、技術的解決手段の特定応用や設計約束条件によって異なる。

例えば、図７は、本願に係る音声データ処理装置の一実施例の構造概略図であり、図７に示す装置７００には、確定モジュール７０１、取得モジュール７０２及び認識モジュール７０３が含まれている。確定モジュール７０１は、第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用され、複数チャネルの第１の音声データが車内に設置された複数のマイクにより第１の時間帯に収集され、取得モジュール７０２は、ターゲットマイクが第２の時間帯に収集した第２の音声データを取得するために使用され、第２の時間帯が第１の時間帯の後にあり、認識モジュール７０３は、第２の音声データに含まれた命令を認識するために使用される。

選択的に、確定モジュール７０１は、具体的に、複数チャネルの第１の音声データから、ターゲット語彙を含む１つのチャネル又は複数チャネルの候補第１の音声データを確定し、１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される。

選択的に、確定モジュール７０１は、具体的に、複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、第１の時間帯内の１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーを取得し、１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーに基づいて、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される。

図８は、本願に係る音声データ処理装置の他の実施例の構造概略図であり、図８に示す装置は、図７に示す実施例に基づいて、計算モジュール８０１及び記憶モジュール８０２をさらに含む。図８に示す装置において、取得モジュール７０２はさらに、複数のマイクが第１の時間帯に収集した複数チャネルの第１の音声データを取得するために使用され、計算モジュール８０１は、第１の時間帯内の複数チャネルの第１の音声データのエネルギーを計算して、第１の時間帯内の複数チャネルの第１の音声データのエネルギーを記憶モジュール８０２に記憶するために使用される。

選択的に、計算モジュール８０１は、具体的に、プリセット時間窓に従って、第１の時間帯内に第１の音声データに対してウィンドウフレーミング処理を行い、第１の時間帯内の第１の音声データの複数の周波数ドメイン特徴を得、複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、第１の時間帯内の第１の音声データのエネルギーとするために使用される。

説明する必要があるものとして、理解するべきものとして、以上の装置の各モジュールの分割は、あくまでもロジック機能の分割にすぎず、実際に実現するとき、そのすべて又は一部が１つの物理エンティティに集積されてもよく、物理的に分離してもよい。これらのモジュールは、すべてがソフトウェアによって処理コンポーネント呼び出しの形で実現されてもよく、すべてがハードウェアの形で実現されてもよく、モジュールの一部がソフトウェアを処理コンポーネントによって呼び出す形で実現されて、モジュールの一部がハードウェアの形で実現されてもよい。例えば、処理モジュールは、単独に設立された処理コンポーネントであってもよく、上記の装置の１つのチップに集積されて実現されてもよく、また、プログラムコードの形で上記の装置的メモリに記憶され、上記の装置の１つの処理コンポーネントによって上記の確定モジュールの機能を呼び出して実行してもよい。他のモジュールの実現は、それと類似する。また、これらのモジュールは、すべて又は一部が集積されてもよく、独立的に実現されてもよい。ここに記載の処理コンポーネントは、信号処理能力を備えた集積回路であってもよい。実現プロセスで、上記の方法の各ステップ又は上記の各モジュールは、プロセッサコンポーネントにおけるハードウェアの集積ロジック回路またはソフトウェア型の命令によって完了することができる。

例えば、以上のこれらのモジュールは、以上方法を実施するための１つ又は複数の集積回路、例えば、１つ又は複数の特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）、又は、１つ又は複数のマイクロプロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ、ＤＳＰ）、又は、１つまたは複数のフィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）などに構成されてもよい。さらに例えば、上記の１つのモジュールは、処理コンポーネントがプログラムコードをスケジュールする形で実現されるとき、該処理コンポーネントは、汎用プロセッサ、例えば中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）又はプログラムコードを呼び出することができる他のプロセッサであってもよい。さらに例えば、これらのモジュールは、一体に集積され、システムオンチップ（ｓｙｓｔｅｍ−ｏｎ−ａ−ｃｈｉｐ、ＳＯＣ）の形で実現されてもよい。

上記の実施例において、すべて又は一部的に、ソフトウェア、ハードウェア、ファームウェアまたはその任意の組み合わせによって実現されてもよい。ソフトウェアを使用して実現するとき、すべて又は一部的に、コンピュータプログラム製品の形で実現されてもよい。前記コンピュータプログラム製品は、１つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行するとき、すべて又は一部的に、本願の実施例に記載のフロー又は機能が発生する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、または、１つのコンピュータ可読記憶媒体から他のコンピュータ可読記憶媒体に伝送されてもよく、例えば、前記コンピュータ命令は、１つのウェブサイト、コンピュータ、サーバ又はデータセンターから有線（例えば同軸ケーブル、光ファイバー、デジタル加入者線（ＤＳＬ））又は無線（例えば赤外線、無線、マイクロ波など）方式によって他のウェブサイト、コンピュータ、サーバ又はデータセンターへ伝送されてもよい。前記コンピュータ可読記憶媒体は、コンピュータがアクセスできる任意の利用可能な媒体または１つ又は複数の利用可能な媒体が含まれた集積サーバ、データセンターなどのデータ記憶機器であってもよい。前記利用可能な媒体は、磁気媒体（例えば、フロッピーディスク、ハードディスク、テープ）、光メディア(例えば、ＤＶＤ)、または半導体媒体（例えばソリッドステートドライブｓｏｌｉｄｓｔａｔｅｄｉｓｋ (ＳＳＤ)）などであってもよい。

本願の実施例によれば、本願は、さらに、電子機器及び可読記憶媒体を提供する。

図９に示すように、図９は、本願の実施例に基づく音声データ処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを主旨とする。電子機器は、また、パーソナルデジタルアシスタント、セルラーテレフォン、スマートフォーン、ウェアラブルデバイス及びその他の類似するコンピューティングデバイスなど、様々な形のモバイル装置を表すこともできる。本明細書に示したコンポーネント、それらの接続や関係、及び、それらの機能は、あくまで例示的なものにすぎず、本明細書に記載の及び／又は本文が求める本願の実現を制限することを意図しない。

図９に示すように、該電子機器は、１つ又は複数のプロセッサ９０１、メモリ９０２、及び各コンポーネントを接続するためのインタフェースを含み、該インタフェースは、高速インタフェースと低速インタフェースとを含む。個々のコンポーネントは、異なるバスを使用して互いに接続され、パブリックメインボードにインストールされるか、又は、必要に応じて他の方式でインストールされることができる。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は、外部の入力／出力装置（インタフェースにカップリングされたディスプレイデバイスなど）でＧＵＩのグラフィクス情報がディスプレイされるための、メモリ内又はメモリ上に記憶されている命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリとともに使用してもよい。同様に、複数の電子機器を接続して、個々の機器により、一部の必要な操作を提供（例えば、サーバアレイ、一揃いのブレードサーバ、または、マルチプロセッサシステムとする）してもよい。図９において、１つのプロセッサ９０１を例とする。

メモリ９０２は、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されることにより、前記少なくとも１つのプロセッサが本願に係る音声データ処理方法を実行する。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータ命令を記憶しており、該コンピュータ命令は、コンピュータに本願に係る音声データ処理方法を実行させるためのものである。

メモリ９０２は、非一時的なコンピュータ可読記憶媒体として、本願の実施例における音声データ処理方法に対応するプログラム命令／モジュール（例えば、図面７に示す確定モジュール７０１、取得モジュール７０２、及び認識モジュール７０３）などの非一時的なソフトウェアプログラム、非一時的なコンピュータによる実行可能なプログラムおよびモジュールを記憶するために使用されるものであってもよい。プロセッサ９０１は、メモリ９０２に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、即ち、上記の方法の実施例における音声データ処理方法を実現する。

メモリ９０２は、プログラム記憶エリアとデータ記憶エリアとを含むことができ、そのうち、プログラム記憶エリアは、操作システム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、音声データ処理方法の電子機器の使用によって作成されるデータなどを記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを含むことができ、また、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含むこともできる。いくつかの実施例において、メモリ９０２は、プロセッサ９０１に対して遠隔に設置されているメモリを選択的に含むことができ、それらの遠隔メモリは、ネットワークを介し、音声データ処理方法の電子機器に接続されることができる。上記のネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

音声データ処理方法の電子機器は、さらに、入力装置９０３及び出力装置９０４を含むことができる。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４は、バス又はその他の方式によって接続されてもよく、図９では、バスによって接続される方式を例としている。

入力装置９０３は、入力された数字又はキャラクタ情報を受信し、音声データ処理方法の電子機器のユーザ設定、および機能制御に関連する鍵信号の入力が発生することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インディケータロッド、１つ又は複数のマウスボタン、トラックボール、操縦ハンドルなどの入力装置が挙げられる。出力装置９０４は、ディスプレイデバイス、補助照明装置（ＬＥＤなど）や触感フィードバック装置（振動モータなど）などを含むことができる。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイやプラズマディスプレイを含むことができるが、それらに限定されない。いくつかの実施形態では、ディスプレイデバイスはタッチスクリーンであってもよい。

ここに記載のシステムや技術的様々な実施形態は、デジタル電子回路、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現されてよい。それらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施される形態を含むことができ、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈されることができ、該プログラマブルプロセッサは、特定用途向け、または、汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、や少なくとも１つの出力装置から、データや命令を受信し、そして、データや命令を該記憶システム、該少なくとも１つの入力装置や、該少なくとも１つの出力装置に伝送することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、または、コードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムをアドバンスプロセス及び／又はオブジェクト指向型プログラミング言語、及び／又はアセンブリ言語／機械言語を利用して実施することができる。例えば、本明細書に使用される用語「機械可読媒体」や「コンピュータ可読媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ）など）のことを指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。用語「機械可読信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号のことを指す。

ユーザとのインタラクションを提供するために、ここに記載のシステムや技術をコンピュータで実施することができ、該コンピュータは、ユーザへ情報をディスプレイするためのディスプレイ装置（ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニターなど）、及びキーボードやポインティングデバイス（マウス又はトラックボールなど）があり、ユーザは、該キーボードや該ポインティングデバイスを通じ、入力をコンピュータに提供することができる。その他の種類の装置は、ユーザとのインタラクションを提供するために使用されることができ、例えば、ユーザに提供されるフィードバックは、任意の形の感覚フィードバック（視覚フィードバック、聴覚フィードバック、または触感フィードバックなど）であってもよく、ユーザからの入力を任意の形（音入力、音声入力又は触感入力を含む）で受信することができる。

ここに記載のシステムや技術は、バックグランドコンポーネントを含むコンピュータシステム（データサーバとして作用するなど）、または、ミドルウェアコンポーネントを含むコンピューティングシステム（アプリケーションサーバなど）、または、フロントエンドコンポーネントを含むコンピューティングシステム（グラフィカル・ユーザ・インタフェース、またはネットワークブラウザを備えるユーザコンピュータなど、ユーザは、該グラフィカル・ユーザ・インタフェース、または該ネットワークブラウザを通じてここに記載のシステムや技術に係る実施形態とインタラクションをすることができる）、またはこのようなバックグランドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施されてもよい。システムのコンポーネントを、任意の形、または媒体のデジタルデータ通信（通信ネットワークなど）を通じて相互に接続することができる。通信ネットワークは、例示的に、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント端末やサーバを含むことができる。クライアント端末やサーバは、一般的に、互いに遠く離れており、且つ通常は通信ネットワークを通じてインタラクションする。対応するコンピュータで実行されるとともに、互いにクライアント端末-サーバという関係を有するコンピュータプログラムにより、クライアント端末とサーバとの関係を築き上げる。

本願の実施例によれば、本願は、さらに、コンピュータ可読記憶媒体に記憶されたコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令は、プロセッサで実行されるとき、本願の上記方法実施例における音声データ処理方法を実現するためのものである。

上記に示した様々な形のフローを使用し、ステップを改めて並べ替えたり、増加したり、又は削除したりすることができると理解するべきである。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段による所期結果さえ実現されれば、並行して実行されてもよく、順に沿って実行されてもよく、又は順番を乱して実行されてもよいから、本文では、ここで限定されない。

上記の具体的な実施形態は、本願の保護範囲に対する制限を構成しない。当業者であれば、設計要件やその他の要素に基づいた様々な修正、組み合わせ、下位組み合わせや代替が可能であると理解するべきである。本願の精神や原則の範囲内に行われるすべての修正、等価置換や改善は、いずれも本願の保護範囲に含まれるべきである。

Claims

音声データ処理方法であって、
第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するステップであって、前記複数チャネルの第１の音声データが、前記第１の時間帯に車内に設置された複数のマイクによって収集されるステップと、
前記ターゲットマイクが第２の時間帯に収集した第２の音声データを取得するステップであって、前記第２の時間帯が前記第１の時間帯の後にあるステップと、
前記第２の音声データに含まれた命令を認識するステップと、を含むことを特徴とする音声データ処理方法。
複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、
前記複数チャネルの第１の音声データから、前記ターゲット語彙を含む１つのチャネル又は複数チャネルの候補第１の音声データを確定するステップと、
前記１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、
記憶モジュールから、前記第１の時間帯内の前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーを取得するステップであって、前記記憶モジュールが、前記複数のマイクによって収集された音声データのエネルギーを記憶するためのものであるステップと、
前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーに基づいて、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含むことを特徴とする請求項２に記載の方法。
複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定する前記ステップの前に、さらに、
前記複数のマイクが前記第１の時間帯に収集した複数チャネルの第１の音声データを取得するステップと、
前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを計算するステップと、
前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを記憶モジュールに記憶するステップと、を含むことを特徴とする請求項３に記載の方法。
いずれか１つの第１の音声データに対し、前記第１の時間帯内の前記第１の音声データのエネルギーを計算する前記ステップは、
プリセット時間窓に従って、前記第１の時間帯内に前記第１の音声データに対してウィンドウフレーミング処理を行い、前記第１の時間帯内の前記第１の音声データの複数の周波数ドメイン特徴を得るステップと、
前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第１の時間帯内の前記第１の音声データのエネルギーとするステップと、を含むことを特徴とする請求項４に記載の方法。
前記第２の音声データに含まれた命令を認識するステップは、
前記第２の音声データをネットワーク機器へ送信するステップと、
前記ネットワーク機器によって送信された前記第２の音声データに含まれた命令を受信するステップと、を含むことを特徴とする請求項１〜請求項５のいずれか１項に記載の方法。
音声データ処理装置であって、
第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用される確定モジュールであって、前記複数チャネルの第１の音声データが、前記第１の時間帯に車内に設置された複数のマイクによって収集される確定モジュールと、
前記ターゲットマイクが第２の時間帯に収集した第２の音声データを取得するために使用される取得モジュールであって、前記第２の時間帯が前記第１の時間帯の後にある取得モジュールと、
前記第２の音声データに含まれた命令を認識するために使用される認識モジュールと、を含むことを特徴とする音声データ処理装置。
前記確定モジュールは、
前記複数チャネルの第１の音声データから、前記ターゲット語彙を含む１つのチャネル又は複数チャネルの候補第１の音声データを確定し、
前記１つのチャネル又は複数チャネルの候補第１の音声データから、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用されることを特徴とする請求項７に記載の装置。
前記確定モジュールは、
前記複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、前記第１の時間帯内の前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーを取得し、
前記１つのチャネル又は複数チャネルの候補第１の音声データのエネルギーに基づいて、エネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定するために使用されることを特徴とする請求項８に記載の装置。
計算モジュール及び記憶モジュールをさらに含み、
前記取得モジュールはさらに、前記複数のマイクが前記第１の時間帯に収集した複数チャネルの第１の音声データを取得するために使用され、
前記計算モジュールは、前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを計算して、前記第１の時間帯内の前記複数チャネルの第１の音声データのエネルギーを前記記憶モジュールに記憶するために使用されることを特徴とする請求項９に記載の装置。
前記計算モジュールは、
プリセット時間窓に従って、前記第１の時間帯内に前記第１の音声データに対してウィンドウフレーミング処理を行い、前記第１の時間帯内の前記第１の音声データの複数の周波数ドメイン特徴を得、
前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第１の時間帯内の前記第１の音声データのエネルギーとするために使用されることを特徴とする請求項１０に記載の装置。
前記認識モジュールは、
前記第２の音声データをネットワーク機器へ送信し、
前記ネットワーク機器によって送信された前記第２の音声データに含まれた命令を受信するために使用されることを特徴とする請求項７〜請求項１１のいずれか１項に記載の装置。
スマート車両であって、
前記スマート車両の内部の音声データを収集するための複数のマイクと、
第１の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第１の音声データでエネルギーが最も大きい第１の音声データに対応するマイクをターゲットマイクとして確定し、この後、前記ターゲットマイクが第２の時間帯に収集した第２の音声データを取得して、前記第２の音声データに含まれた命令を認識するためのプロセッサであって、前記複数チャネルの第１の音声データが、前記複数のマイクにより、前記第１の時間帯に収集され、前記第２の時間帯が前記第１の時間帯の後にあるプロセッサと、を含むことを特徴とするスマート車両。
電子機器であって、
少なくとも１つのプロセッサ、および
前記少なくとも１つのプロセッサと通信するように接続されたメモリを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサは、請求項１〜請求項６のいずれか１項に記載の方法を実行することができるようにすることを特徴とする電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１〜請求項６のいずれか１項に記載の方法を実行させるためのものであることを特徴とする非一時的なコンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサで実行されるとき、請求項１〜請求項６のいずれか１項に記載の方法を実施することを特徴とするコンピュータプログラム。