JP2021103329A

JP2021103329A - オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラム

Info

Publication number: JP2021103329A
Application number: JP2021053196A
Authority: JP
Inventors: 峻華許; Junhua Xu; 偉向; Wei Xiang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2021-03-26
Publication date: 2021-07-15
Anticipated expiration: 2041-03-26
Also published as: JP7158110B2; CN114203156A; KR20210042851A; KR102488319B1

Abstract

【課題】語音テスト最適化の効率を向上させるオーディオ認識方法、オーディオ認識装置、電子機器及びコンピュータプログラムを提供する。【解決手段】オーディオ認識方法は、録音された第１のオーディオ信号を取得することと、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンスと校正信号の周波数レスポンスとに基づいて算出された第１のフィルタ係数に基づいて、第１のオーディオ信号を処理して、第２のオーディオ信号を取得することと、第１のオーディオ再生機器で第２のオーディオ信号を再生して得られた音声を認識することと、を含む。【選択図】図２

Description

本願は、コンピュータ技術や、語音処理の技術分野に関し、主に語音認識技術、モノのインターネット、スマート交通の分野に関し、特に、オーディオ認識方法、オーディオ認識装置、電子機器及び記憶媒体に関する。

語音処理技術の発展に伴い、語音認識技術の様々な業界への応用が広くなっており、スマートカー、スマートスピーカーへの応用などを含むが、これらに限られない。具体的に、例えば、自動車インテリジェントコネクテッド技術の発展に伴い、語音認識技術の車両への応用が広くなっている。認識率は、車載語音認識性能の評価指標の１つとして、語音認識システム全体の開発過程において非常に重要な作用がある。関連技術では、一般的に作業者が実地にテストする方式で機器の語音認識性能をテストするが、実地にテストする方式が外乱要因に制限されることにより、人力がかかり、テスト効率が低い。

オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラムを提供する。

第１の局面によれば、録音された第１のオーディオ信号を取得することと、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンスと上記校正信号の周波数レスポンスとに基づいて算出された第１のフィルタ係数に基づいて、上記第１のオーディオ信号を処理して、第２のオーディオ信号を取得することと、上記第１のオーディオ再生機器で上記第２のオーディオ信号を再生して得られた音声を認識することと、を含むオーディオ認識方法を提供する。

第２の局面によれば、録音された第１のオーディオ信号を取得するための第１の取得モジュールと、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンスと上記校正信号の周波数レスポンスとに基づいて算出された第１のフィルタ係数に基づいて、上記第１のオーディオ信号を処理して、第２のオーディオ信号を取得するための第１の処理モジュールと、上記第１のオーディオ再生機器で上記第２のオーディオ信号を再生して得られた音声を認識するための認識モジュールと、を含むオーディオ認識装置を提供する。

第３の局面によれば、少なくとも１つのプロセッサと、上記少なくとも１つのプロセッサと通信接続するメモリとを含む電子機器であって、上記メモリに上記少なくとも１つのプロセッサによって実行され得る命令を記憶しており、上記命令が上記少なくとも１つのプロセッサによって実行されることによって、上記少なくとも１つのプロセッサが本願の上記方法を実行することができる、電子機器を提供する。

第４の局面によれば、コンピュータに本願の上述方法を実行させるコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体を提供する。

第５の局面によれば、コンピュータに本願の上述方法を実行させるコンピュータ命令を含むコンピュータプログラムを提供する。

この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもない。本開示の他の特徴は、以下の明細書によって理解し易くなるであろう。

図面は、本方案がよりよく理解されるためのものであり、本願に対する限定を構成しない。

図１は、本開示の実施例によるオーディオ認識方法及び装置と、電子機器と、記憶媒体とを適用できる例示的な適用場面を模式的に示している。図２は、本開示の実施例によるオーディオ認識方法のフローチャートを模式的に示している。図３は、本開示の実施例による第１のオーディオ再生機器で第２のオーディオ信号を再生することで得られた音声を認識するフローチャートを模式的に示している。図４は、本開示の別の実施例によるオーディオ認識方法のフローチャートを模式的に示している。図５は、本開示の実施例によるフィルタ係数処理が行われていない校正信号が、人工口によって再生されたスペクトル模式図を模式的に示している。図６は、本開示の実施例によるフィルタ係数処理が行われた校正信号が、人工口によって再生されたスペクトル模式図を模式的に示している。図７は、本開示の実施例によるオーディオ認識装置のブロック図を模式的に示している。図８は、本開示の実施例によるオーディオ認識方法を実現するのに適したコンピュータシステムのブロック図を模式的に示している。

以下、本願の例示的な実施例について図面を参照しながら説明する。その中に、理解の便宜のため本願の実施例の各詳細を含み、これらはあくまで例示的なものであることを理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることを理解すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。

語音認識技術の発展に伴って、語音認識技術が様々な応用分野で広く応用されており、ユーザの語音認識の性能に対する要求も高くなっている。機器出荷時の語音認識性能を向上するために、続けてテストして語音認識機能を最適化する必要がある。

関連技術には、一般的に、作業者が実地にテストする方式で機器の語音認識性能をテストし、例えば、車載語音を認識する時に、ハイウェイ、アスファルト道路、雨の日などの実地場面で車載語音をテストする必要がある。さらに、例えば、スピーカー語音を認識する時に、リビングルーム、キッチン、会議室などの、スピーカーの使用場所で実地にテストする必要がある。

しかし、本願を実現した過程において、実地にテストする方式が外乱要因に制限され、例えば、道路上にハイウェイ、アスファルト道路、雨などの場面を長い時間にわたってテストすることができず、これによって、人力がかかり、テスト効率が低いことを発見した。そして、最適化結果も信頼できず、例えば、ある場面について、認識率が低く、フロントエンド信号処理及び語音エンジン訓練最適化を行ってから検証する必要がある。しかし、各テスト者の話しは、毎回同じになることが困難であるため、最適化前と最適化後との結果の違いは、最適化による影響であるか、テスト者の話す状態の違いよる影響であるかを確定できない。

これによって、本願は、オーディオ認識方法及び装置と、電子機器と、記憶媒体とを提供して、この方法は、録音された第１のオーディオ信号を取得することと、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンス及び前記校正信号の周波数レスポンスに応じて算出された第１のフィルタ係数に基づいて、上記第１のオーディオ信号を処理して、第２のオーディオ信号を取得することと、前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生して得られた音声を認識することを含む。

図１は、本開示の実施例によるオーディオ認識方法及び装置と、電子機器と、記憶媒体とを適用できる例示的な適用場面を模式的に示している。

図１に示すのは、当業者が本開示の技術内容を理解することに役立つように、本開示の実施例を適用できる適用場面の例示に過ぎず、本開示の実施例が他の機器、システム、環境または場面に適用できないことを意味していないことに注意すべきである。例えば、オーディオ認識方法及び装置と、電子機器と、記憶媒体との例示的な適用場面は、ホーム場面でスマートスピーカーをテストするものであってもよい。

図１に示すように、この適用場面１００において、乗物１１０には電子機器１２０とオーディオ再生機器１３０とがある。

乗物１１０と、電子機器１２０と、オーディオ再生機器１３０との間に、ネットワークを通じて通信リンクしてもよい。ネットワークは、例えば有線及び／又は無線の通信リンクなどの様々な接続タイプを含んでもよい。

本開示の実施例によれば、語音認識システムが、乗物１１０又は電子機器１２０に設けられてもよく、録音されたオーディオファイルが電子機器１２０に記憶されてもよく、電子機器１２０にオーディオ再生プログラムが設けられてもよく、場面に応じてオーディオ再生機器１３０が別々のオーディオファイルを再生するように制御することを定義してもよく、オーディオファイルは、人声、ノイズ等を含んでもよい。語音認識システムは、再生した音声を認識し、認識結果を出力してもよく、電子機器１２０によって認識結果の正確性を検証してもよい。

乗物１１０と、電子機器１２０と、オーディオ再生機器１３０との間に、ネットワークを通じて通信リンクした後、電子機器１２０は、録音されたオーディオ信号をフィルタ処理して得られたオーディオ信号をオーディオ再生機器１３０に送信してもよく、オーディオ再生機器１３０は、放送を送って乗物１１０や電子機器１２０に語音認識システムをターンオンして認識を行うように通知してもよく、語音認識システムがターンオンされた後に、オーディオ再生機器１３０は、対応するテストが必要とする認識単語を再生し始め、認識単語が一定の時間再生された後、また放送で語音認識をターンオフするように通知し、今回の認識の結果を統計してもよい。その後、次のものを再生し、このように繰り返して、すべての必要とする場面を再生するようにガイドする。

本願の実施例によれば、１回の録音につき最適化を複数回検証する効果を実現することができ、乗物１１０が静止している場合、各場面での語音の認識率を検証することができ、かつ出力パワーを安定して制御可能であり、毎回の最適化の結果検証が自動的に完成されて、人力を省き、且つ検証結果の信頼性が高い。

乗物１１０は、語音認識システムを備える様々な乗物であってもよく、自動車、飛行機などを含むが、これらに限られない。

電子機器１２０は、ディスプレイを備える様々な電子機器であってもよく、スマートフォン、タブレット、ラップトップ型携帯コンピュータなどを含むが、これらに限られない。

オーディオ再生機器１３０は、再生機能を備える様々な再生機器であってもよく、人工口、スピーカーなどを含むが、これらに限られない。

なお、本開示の実施例が提供するオーディオ認識方法は、一般的に電子機器１２０によって実行されてもよい。相応的に、本開示の実施例が提供するオーディオ認識装置が電子機器１２０に設けられてもよい。

あるいは、本開示の実施例が提供するオーディオ認識方法は、乗物１１０と電子機器１２０とによって共に実行されてもよい。相応的に、本開示の実施例が提供するオーディオ認識装置は、乗物１１０と電子機器１２０とに設けられてもよい。例えば、電子機器１２０は、録音された第１のオーディオ信号を取得し、第１のフィルタ係数に基づいて第１のオーディオ信号を処理して、第２のオーディオ信号を取得し、乗物１１０は、第１のオーディオ再生機器で第２のオーディオ信号を再生して得られた音声を認識する。

あるいは、本開示の実施例が提供するオーディオ認識方法は、乗物１１０によって実行されてもよい。相応的に、本開示の実施例が提供するオーディオ認識装置は、乗物１１０に設けられてもよい。例えば、乗物１１０は、録音された第１のオーディオ信号を取得し、第１のフィルタ係数に基づいて第１のオーディオ信号を処理して、第２のオーディオ信号を取得し、乗物１１０は、第１のオーディオ再生機器で第２のオーディオ信号を再生して得られた音声を認識する。

図１における乗物１１０と、電子機器１２０と、オーディオ再生機器１３０との数は、例示的なものであることを理解すべきである。実現の必要に応じて、任意の数を有してもよい。

本開示の別の実施例によれば、上述した適用場面に乗物１１０が含まれなくてもよく、語音認識システムをまず電子機器１２０に設置して、テストが完成した後に、また乗物１１０に設置する。本開示の実施例によれば、語音認識システムは、語音で乗物を制御するのに用いられてもよく、ユーザが語音命令によって乗物を制御することができる。例えば、運転手が車両を運転中に、語音命令によってナビゲーションを設定したり、エフエムを変更したりすることができ、センターコンソールを見ながら手動で操作する必要がない。運転手の両手を解放することができ、一方、運転手がセンターコンソールを見ながら手動で操作する必要がなく、運転中に集中力を散らすことがなく、運転安全の向上に役立つ。

図２は、本開示の実施例によるオーディオ認識方法のフローチャートを模式的に示している。

図２に示すように、このオーディオ認識方法は操作Ｓ２１０〜Ｓ２３０を含む。

操作Ｓ２１０において、録音された第１のオーディオ信号を取得する。

操作Ｓ２２０において、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンス及び校正信号の周波数レスポンスに応じて算出された第１のフィルタ係数に基づいて、第１のオーディオ信号を処理して、第２のオーディオ信号を取得する。

操作Ｓ２３０において、第１のオーディオ再生機器で第２のオーディオ信号を再生して得られた音声を認識する。

本願の実施例によれば、ユーザ語音を録音してもよく、例えば周波数レスポンス曲線が平らかな高精度テストマイクを利用して無音ルームで人声を採集して、ユーザ語音の純粋、ノイズなし、エコーなしを確保し、各オーディオファイルが語音内容で命名されてもよい。例えば、１つの語音のオーディオ内容は、「天気はどうですか」である場合、オーディオファイル名が、「天気はどうですか」に命名されてもよい。

本願の実施例によれば、録音された第１のオーディオ信号は、別々のテスト場面において必要とするオーディオ信号であってもよい。本願の実施例によれば、オーディオ認識方法が車載語音テスト場面に適用されることを例として、第１のオーディオ信号が、車両が提供できる操作機能の命令であってもよく、例えば、車両が提供できる操作機能の命令は、地図を探す命令、エアコンをターンオンする命令、音楽を再生する命令、車の窓を開く命令などを含んでもよい。

本願の実施例によれば、第１のオーディオ再生機器の種類が限定されず、人工口、スピーカーなどを含むが、これらに限られない。異なる種類のオーディオ再生機器の周波数レスポンスが異なり、例えば、人工口とスピーカーとの周波数レスポンスが異なり、或いは、同じ種類の異なるオーディオ再生機器の周波数レスポンスも異なる可能性があり、周波数レスポンスは、周波数レスポンス曲線によって説明することができる。

本願の実施例によれば、第１のフィルタ係数は、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンス及び校正信号の周波数レスポンスに基づいて算出されたものである。校正信号は、周波数レスポンス曲線がまっすぐなホワイトノイズを採用することができる。

本願の実施例によれば、ホワイトノイズを校正信号とすることは、例示的な実施例に過ぎず、これに限られなく、本分野で既知の他の校正信号を含んでもよい。

本願の実施例によれば、第１のフィルタ係数に基づいて第１のオーディオ信号を処理することは、第１のフィルタ係数で第１のオーディオ信号の別々の所定周波数帯域における対応オーディオ信号をフィルタリングや増幅をして、得られた第２のオーディオ信号と録音された第１のオーディオ信号とが異なるようにすることであってもよい。オーディオ信号を再生する人工口、スピーカーなどは、各々特定の周波数レスポンス曲線を有し、オーディオ信号がこれらの機器によって再生された後、もともと録音された時のものと異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声が、その録音された時の周波数レスポンス曲線と一致するようになり、オーディオ再現の技術効果を達成する。

本願の実施例によれば、第２のオーディオ信号を取得した後、第２のオーディオ信号を第１のオーディオ再生機器に送信して再生させてもよく、第１のオーディオ再生機器が第２のオーディオ信号を再生している過程において、語音認識システムで再生された音声を認識することができる。

図３は、本開示の実施例による第１のオーディオ再生機器で第２のオーディオ信号を再生して得られた音声を認識するフローチャートを模式的に示している。

図３に示すように、この第１のオーディオ再生機器で第２のオーディオ信号を再生して得られた音声を認識することは、操作Ｓ３１０〜Ｓ３２０を含む。

操作Ｓ３１０において、語音認識機能を起動する。

操作Ｓ３２０において、語音認識機能を基に、第２のオーディオ信号を再生して得られた音声を認識する。

本願の実施例によれば、第２のオーディオ信号を再生して得られた音声を認識した後、認識結果を出力し、認識結果の正確性を検証してもよい。

本願の実施例によれば、バックグラウンドプロセスを起動して語音ログを常にモニタしてもよく、毎回結果が認識された後に、語音認識システムがログをプリントして、ログと再生されたオーディオファイル名とを対比し、一致すると、認識成功とされる。オーディオファイル名は、オーディオ内容であってもよい。

本願の実施例によれば、認識結果の正確性を検証することは、認識結果と第１のオーディオ信号のオーディオ内容とを比較し、認識結果と第１のオーディオ信号のオーディオ内容とが一致する場合、認識結果が正確であることを確定し、認識結果と第１のオーディオ信号のオーディオ内容とが一致しない場合、認識結果が不正確であることを確定する。

本願の実施例によれば、例えば、第２のオーディオ信号を再生して得られた音声を認識した後、出力された認識結果が「空気はどうですか」であり、第１のオーディオ信号に対応するオーディオ内容が「空気はどうですか」であれば、認識結果と第１のオーディオ信号のオーディオ内容と一致し、認識結果が正確であることを確定する。第１のオーディオ信号に対応するオーディオ内容が「天気はどうですか」であれば、認識結果と第１のオーディオ信号のオーディオ内容とが一致せず、認識結果が不正確であることを確定する。

図４は、本開示の別の実施例によるオーディオ認識方法のフローチャートを模式的に示している。

本願の実施例によれば、第１のオーディオ信号が複数含まれてもよく、各第１のオーディオ信号は、第１のフィルタ係数処理が行われた後、第２のオーディオ信号が得られる。

本願の実施例によれば、一言の認識語音が１つの第１のオーディオ信号としてもよい。

図４に示すように、この方法は、操作Ｓ４１０〜Ｓ４３０を含んでいる。

操作Ｓ４１０において、録音された複数の第１のオーディオ信号を取得する。

操作Ｓ４２０において、第１のフィルタ係数に基づいて、各第１のオーディオ信号を処理して、複数の第２のオーディオ信号を取得する。

操作Ｓ４３０において、第１のオーディオ再生機器で所定の時間間隔で各第２のオーディオ信号を再生して得られた音声をそれぞれ認識する。

本願の実施例によれば、所定の時間間隔は、例えば５秒、７秒などであってもよい。語音認識システムをターンオンした後、対応するテストが必要とする認識単語を再生し始めて、再生された後の所定の時間間隔の間に、今回の認識の結果を認識して統計する。その後、また次のものを再生する。このようにして、すべての必要とする場面を再生するまで実行する。

本願の実施例によれば、音声をそれぞれ認識する時、入力された語音信号に対して、プリエンファシス及びフレーミング・ウィンドウ、ブレークポイント検出、ノイズリダクション操作を行ってもよい。その後、特徴抽出を行い、よく見られる特徴パラメータは、時間領域による幅とエネルギー、及び周波数領域による線形予測ケプストラム係数（ＬＰＣＣ）、Ｍｅｌケプストラム係数（ＭＦＣＣ）などを含む。最後に、認識結果と正確結果とをマッチングすることで、検証結果が得られる。

本願の実施例によれば、録音された第１のオーディオ信号は、別々の場面でのテスト語音であってもよいため、実地にテストする必要がなく、外乱要因に制限されることを避けて、テスト効率を向上する。さらに、第１のオーディオ再生機器は、第２のオーディオ信号を繰り返し再生することができるため、語音認識システムの最適化前と最適化後との結果の違いは、最適化の影響によるものであり、テスト者の話す状態の違いによって最適化結果が異なるという問題が存在しないことを確定できる。各場面での語音の認識率を検証し、人声を完全に再現することができ、さらに出力パワーを安定して制御可能であり、毎回の最適化の結果検証が自動的に完成されて、人力を省き、且つ検証結果の信頼性が高い。

語音認識の過程において、通常に、他の音源や、環境ノイズによる語音認識への影響を考慮する必要がある。例えば、車載語音が複数の使用場面を考慮すべき、異なるノイズ源が異なる程度で語音の認識率を干渉し、語音テスト最適化の効率を向上し、人力の投入を低減し、測定結果の信頼性を向上し、最適化結果の信頼性を向上するために、異なるノイズ環境で語音を認識してもよい。

本開示の実施例によれば、録音された第３のオーディオ信号を取得し、第２のオーディオ再生機器が校正信号を再生して得られた音声の第２の周波数レスポンスと校正信号の周波数レスポンスとに応じて算出された第２のフィルタ係数に基づいて、第３のオーディオ信号を処理して、第４のオーディオ信号を取得してもよい。第１のオーディオ再生機器で第２のオーディオ信号を再生するとともに、第２のオーディオ再生機器を利用して第４のオーディオ信号を再生している過程において、第２のオーディオ信号を再生して得られた音声を認識する。

本願の実施例によれば、第３のオーディオ信号は、他のユーザの音声であってもよく、ノイズであってもよい。

本願の実施例によれば、具体的に、第１のオーディオ信号は、人声オーディオ信号を含み、第３のオーディオ信号はノイズオーディオ信号を含む。

本願の実施例によれば、例えば、人工口で人声オーディオ信号を再生している過程において、スピーカーでノイズを再生してもよく、この場合、語音認識システムでノイズが含まれる人声を認識してもよい。

本願の実施例によれば、ノイズの種類が限定されず、さらに、別々の種類のノイズを予め録音してもよい。例えば、周波数レスポンス曲線が平らかな高精度テストマイクを使用して、車両が静止中や、運転中の各場面のノイズ、例えば、窓閉じで低速でエアコンなしや、窓開けて高速でアスファルト道路などのノイズを採集する。

本願の実施例によれば、第１のフィルタ係数に基づいて第１のオーディオ信号を処理して、第２のオーディオ信号を取得することは、第１のフィルタ係数で第１のオーディオ信号のスペクトルを調整して、第２のオーディオ信号を取得することを含む。

本願の実施例によれば、第２のフィルタ係数に基づいて第３のオーディオ信号を処理して、第４のオーディオ信号を取得することは、第２のフィルタ係数で第３のオーディオ信号のスペクトルを調整して、第４のオーディオ信号を取得することを含む。

本願の実施例によれば、フィルタ係数でオーディオ信号のスペクトルを調整することは、例示的な実施例に過ぎず、これに限られず、本分野で既知の他のフィルタ係数でオーディオ信号を処理する方法を含んでもよく、処理後のオーディオ信号がオーディオ再生機器に再生されて得られた音声は、録音された音声であることを実現できればよく、即ち、音声を復元する効果を実現できればよい。

図５は、本開示の実施例によるフィルタ係数処理が行われていない校正信号が人工口によって再生されたスペクトル模式図を模式的に示している。

元の校正信号が、周波数レスポンス曲線がまっすぐなホワイトノイズである場合、図５に示すように、人工口が実際に出力した信号は、人工口自身の周波数レスポンスに影響され、図５から分かるように、人工口によって再生された信号は、中間周波数を強化し、高域を無くしたフィルタを通過したようであり、これによって、このような信号が語音認識システムに与えられた後に、認識率が低く、テストの正確性を保証できない。

本願を実現した過程において、オーディオ信号を再現する人工口や、スピーカーなどは、それぞれの特定の周波数レスポンス曲線を有することを考慮して、オーディオ信号がこれらの機器によって再生された後、もともと録音された時のものと異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声とその録音された時の周波数レスポンス曲線とが一致し、オーディオ再現の技術効果を達成する。

図６は、本開示の実施例によるフィルタ係数処理が行われた校正信号が人工口によって再生されたスペクトル模式図を模式的に示している。

元の校正信号が、周波数レスポンス曲線がまっすぐなホワイトノイズである場合、図６に示すように、処理されたオーディオ信号が人工口によって再生された後、信号曲線がまっすぐに近似し、録音された音声をほぼ完全に復元することができ、認識テストの正確性を保証でき、人の耳でも本当の発音との区別を聞き出すことができない。

本願の実施例によれば、第１のフィルタ係数は、校正信号の周波数レスポンスと第１の周波数レスポンスとの違いに応じて確定でき、第２のフィルタ係数は、校正信号の周波数レスポンスと第２の周波数レスポンスとの違いに応じて確定できる。

本願の実施例によれば、オーディオ信号反転校正の原理は、元信号と人工口再生信号との周波数レスポンスの差を比較することで、フィルタ係数を算出し、元信号が、周波数レスポンス曲線がまっすぐなホワイトノイズを採用してもよいため、フィルタ係数は、人工口再生信号の周波数レスポンス曲線の反転値であってもよい。

本願の実施例によれば、フィルタ係数を確定する時、処理後の信号が人工口によって再度再生され、その信号曲線がまっすぐであるかを確認してもよく、信号曲線がまっすぐではない場合、周波数レスポンス曲線のどこが、補足することやゲインを下げることが必要であるかを確認し、各周波数帯域のゲインを調整し続けることで、最終に人工口によって再生された信号がまっすぐになり、フィルタ係数を保存する。他のまっすぐではない信号、例えば人声について、フィルタ処理が行われてから、人工口によって再生された後、正逆の２回の変化を経て、最終的に元の人声と一致する信号を形成する。

本願の実施例によれば、検証によって、１００文の認識されるコーパスについて、実際に人声で直接にテストする時の認識率が９８％である場合、人工口によって再生されると、校正される前に、人工口によって再生されるテスト認識率は６０％のみであるが、校正された後、認識率は、元声に比べて１％上下に変動し、９７％〜９９％であり、顕著な効果を奏する。

本願の実施例によれば、語音認識システムが一般的に人声の１００ヘルツ以下、１０ｋヘルツ以上の周波数に対して語音認識を行わないため、１００ヘルツ以下、１０ｋヘルツ以上の周波数ではフィルタ係数で調整しなくてもよい。本願の実施例によれば、語音認識システムがレスポンス認識を行う周波数帯域を確定し、レスポンス認識が可能な周波数帯域に対してフィルタ係数を確定することができる。

本願の実施例によれば、第１のフィルタ係数は複数の第１のフィルタサブ係数を含んでもよく、各第１のフィルタサブ係数は、それぞれ第１の所定周波数帯域における対応するオーディオ信号を調整するためのものであり、第２のフィルタ係数は複数の第２のフィルタサブ係数を含み、各第２のフィルタサブ係数は、それぞれ第２の所定周波数帯域における対応するオーディオ信号を調整するためのものである。

本願の実施例によれば、第１の所定周波数帯域に複数の第１のサブ周波数帯域を含んでもよく、各第１のサブ周波数帯域は、対応する第１のフィルタサブ係数を有し、第１のフィルタサブ係数は、対応する第１のサブ周波数帯域におけるオーディオ信号を処理するためのものである。第２の所定周波数帯域に複数の第２のサブ周波数帯域を含んでもよく、各第２のサブ周波数帯域は、対応する第２のフィルタサブ係数を有し、第２のフィルタサブ係数は、対応する第２のサブ周波数帯域におけるオーディオ信号を処理するためのものである。

本願の実施例によれば、異なるフィルタサブ係数で異なるサブ周波数帯域におけるオーディオ信号を処理し、オーディオ信号を指向性を持って処理することができ、オーディオ復元の正確度を向上し、さらに語音認識の正確度を向上する。

図７は、本開示の実施例によるオーディオ認識装置のブロック図を模式的に示している。

図７に示すように、オーディオ認識装置７００は、第１の取得モジュール７１０と、第１の処理モジュール７２０と、認識モジュール７３０とを含む。

第１の取得モジュール７１０は、録音された第１のオーディオ信号を取得するためのものである。

第１の処理モジュール７２０は、第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第１のフィルタ係数に基づいて前記第１のオーディオ信号を処理して、第２のオーディオ信号を取得するためのものである。

認識モジュール７３０は、前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生して得られた音声を認識するためのものである。

録音された第１のオーディオ信号は、別々の場面でのテスト語音であってもよいため、実地にテストする必要がなく、外乱要因に制限されることを避けて、テスト効率を向上する。さらに、第１のオーディオ再生機器は、第２のオーディオ信号を繰り返し再生することができるため、語音認識システムの最適化前と最適化後との結果の違いは、最適化の影響によるものであり、テスト者の話す状態の違いによって最適化結果が異なるという問題が存在しないことを確定できる。オーディオ信号が機器によって再生された後、もともと録音された時のものとは異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声がその録音された時の周波数レスポンス曲線と一致するようになり、オーディオ再現の技術効果を達成する。

本願の実施例によれば、オーディオ認識装置７００は、さらに、第２の取得モジュールと、第２の処理モジュールとを含む。

第２の取得モジュールは、録音された第３のオーディオ信号を取得するためのものである。

第２の処理モジュールは、第２のオーディオ再生機器が前記校正信号を再生して得られた音声の第２の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第２のフィルタ係数に基づいて、前記第３のオーディオ信号を処理して、第４のオーディオ信号を取得するためのものである。

前記認識モジュール７３０は、前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生するとともに、前記第２のオーディオ再生機器で前記第４のオーディオ信号を再生している過程において、前記第２のオーディオ信号を再生して得られた音声を認識するためのものである。

本願の実施例によれば、前記第１のオーディオ信号は、人声オーディオ信号を含み、前記第３のオーディオ信号は、ノイズオーディオ信号を含む。

本願の実施例によれば、前記第１の処理モジュールは、前記第１のフィルタ係数で前記第１のオーディオ信号のスペクトルを調整して、前記第２のオーディオ信号を取得するためのものである。

前記第２の処理モジュールは、前記第２のフィルタ係数で前記第３のオーディオ信号のスペクトルを調整して、前記第４のオーディオ信号を取得するためのものである。

本願の実施例によれば、前記第１のフィルタ係数は、前記校正信号の周波数レスポンスと前記第１の周波数レスポンスとの違いに応じて確定され、前記第２のフィルタ係数は、前記校正信号の周波数レスポンスと前記第２の周波数レスポンスとの違いに応じて確定される。

本願の実施例によれば、前記第１のフィルタ係数は、複数の第１のフィルタサブ係数を含み、各第１のフィルタサブ係数がそれぞれ第１の所定周波数帯域における対応するオーディオ信号を調整するためものであり、前記第２のフィルタ係数は、複数の第２のフィルタサブ係数を含み、各第２のフィルタサブ係数がそれぞれ第２の所定周波数帯域における対応するオーディオ信号を調整するためのものである。

本願の実施例によれば、前記認識モジュールは、起動手段と、認識手段とを含む。

起動手段は、語音認識機能を起動するためのものである。

認識手段は、前記語音認識機能を基に、前記第２のオーディオ信号を再生して得られた音声を認識するためのものである。

本願の実施例によれば、オーディオ認識装置は、さらに、出力モジュールと、検証モジュールとを含む。

出力モジュールは、前記第２のオーディオ信号を再生して得られた音声を認識した後、認識結果を出力するためのものである。

検証モジュールは、前記認識結果の正確性を検証するためのものである。

本願の実施例によれば、前記検証モジュールは、比較手段と、第１の確定手段と、第２の確定手段とを含む。

比較手段は、前記認識結果と前記第１のオーディオ信号のオーディオ内容とを比較するためのものである。

第１の確定手段は、前記認識結果と前記第１のオーディオ信号のオーディオ内容とが一致する場合、前記認識結果が正確であることを確定するためのものである。

第２の確定手段は、前記認識結果と前記第１のオーディオ信号のオーディオ内容とが一致していない場合、前記認識結果が誤りであることを確定するためのものである。

本願の実施例によれば、前記第１のオーディオ信号が複数含まれ、各前記第１のオーディオ信号は、前記第１のフィルタ係数処理が行われて１つの前記第２のオーディオ信号が得られる。

前記認識モジュールは、前記第１のオーディオ再生機器で所定の時間間隔で各前記第２のオーディオ信号を再生して得られた音声をそれぞれ認識するためのものである。

本願の実施例によれば、前記オーディオ認識装置が車載語音テスト場面に適用される。

本願の実施例によれば、前記第１のオーディオ再生機器は、人工口を含む。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体を提供する。

図８は、本開示の実施例によるオーディオ認識方法を実現するのに適したコンピュータシステムのブロック図を模式的に示している。

図８に示すように、本願の実施例の方法を実行する電子機器のブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、パーソナル・デジタル・アシスタントと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを指している。電子機器は、様々な形態の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを指してもよい。本明細書に示す部品と、それらの接続関係と、それらの機能は、単に例示であり、本明細書で説明及び／又は要求した本願の実現を限定することを意図しない。

図８に示すように、この電子機器８００は、１つ又は複数のプロセッサ８０１と、メモリ８０２と、各部品を接続するための、高速インターフェース及び低速インターフェースを含むインターフェースとを含む。各部品は、別々のバスで互いに接続され、共通のマザーボードに実装され、又は、必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、この命令は、メモリ中又はメモリ上に記憶されて、外部の入力・出力装置（例えば、インターフェースに結合された表示機器）にＧＵＩの図形情報を表示する命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び／又は複数のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器を接続して、各機器が一部の必要な操作を提供してもよい（例えば、サーバアレー、一組のブレードサーバ、又はマルチプロセッサシステムとする）。図８は、１つのプロセッサ８０１を例にしている。

メモリ８０２は、本願が提供する不揮発性のコンピュータ読取可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行され得る命令を記憶しており、前記少なくとも１つのプロセッサに本願が提供する方法を実行させる。本願の不揮発性のコンピュータ読取可能な記憶媒体は、コンピュータ命令を記憶し、このコンピュータ命令は、コンピュータに本願が提供する方法を実行させるためのものである。

メモリ８０２は、不揮発性のコンピュータ読取可能な記憶媒体として、本願の実施例における方法に対応するプログラム命令・モジュール（例えば、図７に示す第１の取得モジュール７１０と、第１の処理モジュール７２０と、認識モジュール７３０）のような、不揮発性のソフトウェアプログラムと、不揮発性のコンピュータ実行可能なプログラム及びモジュールとを記憶するためのものである。プロセッサ８０１は、メモリ８０２に記憶される不揮発性のソフトウェアプログラムと、命令と、モジュールとを実行することで、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上述した方法実施例における方法を実現する。

メモリ８０２は、オペレーティング・システム、少なくとも１つの機能が必要とするアプリケーションプログラムを記憶することができるプログラム記憶エリア、及び上述した方法による電子機器の使用によって生成されたデータなどを記憶するデータ記憶エリアを含んでもよい。また、メモリ８０２は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、又は他の不揮発性ソリッドメモリを含んでもよい。一部の実施例において、メモリ８０２は、選択的に、プロセッサ８０１に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを通じて電子機器に接続されてもよい。上述したネットワークの実例は、インターネットと、イントラネットと、ローカルエリアネットワークと、移動通信ネットワークと、それらの組合せとを含むが、それらに限られない。

電子機器は、入力装置８０３と、出力装置８０４とをさらに含んでもよい。プロセッサ８０１と、メモリ８０２と、入力装置８０３と、出力装置８０４とは、バス又は他の方式によって接続されてもよく、図８においてバスによって接続されることを例にしている。

入力装置８０３は、入力されたデジタル又はキャラクター情報を受信し、電子機器のユーザ設定及び機能制御に関わるキー信号入力を発生してもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、１つ又は複数のマウスボタン、トラックボール、レバーなどの入力装置である。出力装置８０４は、表示デバイスと、補助照明装置（例えば、ＬＥＤ）と、触覚フィードバック装置（例えば、振動モーター）などを含んでもよい。この表示デバイスは、液晶ディスプレー（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレー、プラズマディスプレーを含むが、これらに限られない。一部の実施形態において、表示デバイスはタッチスクリーンであってもよい。

ここで説明したシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現されてもよい。これらの各実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含んでもよく、この１つまたは複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されてもよく、このプログラマブルプロセッサは、専用又は共通のプログラマブルプロセッサであってもよく、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とからデータと命令とを受信し、データと命令とをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに伝送してもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称する）は、プログラマブルプロセッサの機械命令を含み、高級プロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ・機械言語によってこれらの計算プログラムを実施してもよい。本明細書で使用した術語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味しており、機械読取可能な信号である機械命令を受ける機械読取可能な媒体を含む。術語「機械読取可能な信号」とは、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を意味している。

ユーザとのインタラクティブを提供するために、コンピュータ上にここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレー）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とインタラクティブすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータ上で実行されるとともに、互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。

本願の実施例の技術案によれば、録音された第１のオーディオ信号は、別々の場面でのテスト語音であってもよいため、実地にテストする必要がなく、外乱要因に制限されることを避けて、テスト効率を向上する。さらに、第１のオーディオ再生機器は、第２のオーディオ信号を繰り返し再生することができるため、語音認識システムの最適化前と最適化後との結果の違いは、最適化の影響によるものであり、テスト者の話す状態の違いによって最適化結果が異なるという問題が存在しないことを確定できる。オーディオ信号が機器によって再生された後、もともと録音された時のものと異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声がその録音された時の周波数レスポンス曲線と一致するようになり、オーディオ再現の技術効果を達成する。本願の実施例の技術案によれば、人工の替わりに実地にテストすることができ、人力を大幅に省くとともに、環境に対するテスト過程の依存性を低減することができる。

前に示す様々な形式のフローを利用して、ステップを並び替え、増加又は削除することができると理解されるべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本明細書はここで限定しない。

上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者にとって、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換えを行えることが、自明なことである。本願の趣旨と原則の範囲内になされた任意の修正、等価な置換え、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

録音された第１のオーディオ信号を取得することと、
第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第１のフィルタ係数に基づいて、前記第１のオーディオ信号を処理して、第２のオーディオ信号を取得することと、
前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生して得られた音声を認識することと、を含む
オーディオ認識方法。
録音された第３のオーディオ信号を取得することと、
第２のオーディオ再生機器が前記校正信号を再生して得られた音声の第２の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第２のフィルタ係数に基づいて、前記第３のオーディオ信号を処理して、第４のオーディオ信号を取得することと、
前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生するとともに、前記第２のオーディオ再生機器で前記第４のオーディオ信号を再生している過程において、前記第２のオーディオ信号を再生して得られた音声を認識することと、をさらに含む
請求項１に記載の方法。
前記第１のオーディオ信号は、人声オーディオ信号を含み、前記第３のオーディオ信号は、ノイズオーディオ信号を含む
請求項２に記載の方法。
前記第１のフィルタ係数に基づいて前記第１のオーディオ信号を処理して、第２のオーディオ信号を取得することは、前記第１のフィルタ係数で前記第１のオーディオ信号のスペクトルを調整して、前記第２のオーディオ信号を取得することを含み、
前記第２のフィルタ係数に基づいて前記第３のオーディオ信号を処理して、第４のオーディオ信号を取得することは、前記第２のフィルタ係数で前記第３のオーディオ信号のスペクトルを調整して、前記第４のオーディオ信号を取得することを含む
請求項２に記載の方法。
前記第１のフィルタ係数は、前記校正信号の周波数レスポンスと前記第１の周波数レスポンスとの違いに応じて確定され、前記第２のフィルタ係数は、前記校正信号の周波数レスポンスと前記第２の周波数レスポンスとの違いに応じて確定される
請求項２に記載の方法。
前記第１のフィルタ係数は、複数の第１のフィルタサブ係数を含み、各第１のフィルタサブ係数は、それぞれ第１の所定周波数帯域における対応するオーディオ信号を調整するためのものであり、前記第２のフィルタ係数は、複数の第２のフィルタサブ係数を含み、各第２のフィルタサブ係数は、それぞれ第２の所定周波数帯域における対応するオーディオ信号を調整するためのものである
請求項２に記載の方法。
前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生して得られた音声を認識することは、
語音認識機能を起動することと、
前記語音認識機能を基に、前記第２のオーディオ信号を再生して得られた音声を認識することとを含む
請求項１に記載の方法。
前記第２のオーディオ信号を再生して得られた音声を認識した後、認識結果を出力することと、
前記認識結果の正確性を検証することと、をさらに含む
請求項７に記載の方法。
前記認識結果の正確性を検証することは、
前記認識結果と前記第１のオーディオ信号のオーディオ内容とを比較することと、
前記認識結果と前記第１のオーディオ信号のオーディオ内容とが一致する場合、前記認識結果が正確であることを確定することと、
前記認識結果と前記第１のオーディオ信号のオーディオ内容とが一致していない場合、前記認識結果が誤りであることを確定することと、を含む
請求項８に記載の方法。
前記第１のオーディオ信号が複数含まれ、各前記第１のオーディオ信号は、前記第１のフィルタ係数に基づく処理が行われてから１つの前記第２のオーディオ信号が得られ、
前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生して得られた音声を認識することは、
前記第１のオーディオ再生機器で所定の時間間隔で各前記第２のオーディオ信号を再生して得られた音声をそれぞれ認識することを含む
請求項１に記載の方法。
前記オーディオ認識方法は、車載語音テスト場面に適用される
請求項１に記載の方法。
前記第１のオーディオ再生機器は、人工口を含む
請求項１に記載の方法。
録音された第１のオーディオ信号を取得するための第１の取得モジュールと、
第１のオーディオ再生機器が校正信号を再生して得られた音声の第１の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第１のフィルタ係数に基づいて、前記第１のオーディオ信号を処理して、第２のオーディオ信号を取得するための第１の処理モジュールと、
前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生して得られた音声を認識するための認識モジュールと、を含む
オーディオ認識装置。
録音された第３のオーディオ信号を取得するための第２の取得モジュールと、
第２のオーディオ再生機器が前記校正信号を再生して得られた音声の第２の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第２のフィルタ係数に基づいて、前記第３のオーディオ信号を処理して、第４のオーディオ信号を取得するための第２の処理モジュールと、
前記第１のオーディオ再生機器で前記第２のオーディオ信号を再生するとともに、前記第２のオーディオ再生機器で前記第４のオーディオ信号を再生している過程において、前記第２のオーディオ信号を再生して得られた音声を認識するための前記認識モジュールと、をさらに含む
請求項１３に記載の装置。
前記第１のオーディオ信号は、人声オーディオ信号を含み、前記第３のオーディオ信号は、ノイズオーディオ信号を含む
請求項１４に記載の装置。
前記第１の処理モジュールは、前記第１のフィルタ係数で前記第１のオーディオ信号のスペクトルを調整して、前記第２のオーディオ信号を取得するためのものであり、
前記第２の処理モジュールは、前記第２のフィルタ係数で前記第３のオーディオ信号のスペクトルを調整して、前記第４のオーディオ信号を取得するためのものである
請求項１４に記載の装置。
前記第１のフィルタ係数は、前記校正信号の周波数レスポンスと前記第１の周波数レスポンスとの違いに応じて確定され、前記第２のフィルタ係数は、前記校正信号の周波数レスポンスと前記第２の周波数レスポンスとの違いに応じて確定される
請求項１４に記載の装置。
前記第１のフィルタ係数は、複数の第１のフィルタサブ係数を含み、各第１のフィルタサブ係数は、それぞれ第１の所定周波数帯域における対応するオーディオ信号を調整するためのものであり、前記第２のフィルタ係数は、複数の第２のフィルタサブ係数を含み、各第２のフィルタサブ係数は、それぞれ第２の所定周波数帯域における対応するオーディオ信号を調整するためのものである
請求項１４に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを含む電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得る命令を記憶しており、前記命令が前記少なくとも１つのプロセッサによって実行されることによって、前記少なくとも１つのプロセッサが請求項１〜１２のいずれかに記載の方法を実行することができる、
電子機器。
コンピュータに請求項１〜１２のいずれかに記載の方法を実行させるためのコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体。
コンピュータに請求項１〜１２のいずれかに記載の方法を実行させるためのコンピュータ命令を含むコンピュータプログラム。