JP7158110B2 - オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラム - Google Patents

オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP7158110B2
JP7158110B2 JP2021053196A JP2021053196A JP7158110B2 JP 7158110 B2 JP7158110 B2 JP 7158110B2 JP 2021053196 A JP2021053196 A JP 2021053196A JP 2021053196 A JP2021053196 A JP 2021053196A JP 7158110 B2 JP7158110 B2 JP 7158110B2
Authority
JP
Japan
Prior art keywords
audio signal
audio
reproducing
signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021053196A
Other languages
English (en)
Other versions
JP2021103329A (ja
Inventor
峻華 許
偉 向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2021103329A publication Critical patent/JP2021103329A/ja
Application granted granted Critical
Publication of JP7158110B2 publication Critical patent/JP7158110B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本願は、コンピュータ技術や、語音処理の技術分野に関し、主に語音認識技術、モノのインターネット、スマート交通の分野に関し、特に、オーディオ認識方法、オーディオ認識装置、電子機器及び記憶媒体に関する。
語音処理技術の発展に伴い、語音認識技術の様々な業界への応用が広くなっており、スマートカー、スマートスピーカーへの応用などを含むが、これらに限られない。具体的に、例えば、自動車インテリジェントコネクテッド技術の発展に伴い、語音認識技術の車両への応用が広くなっている。認識率は、車載語音認識性能の評価指標の1つとして、語音認識システム全体の開発過程において非常に重要な作用がある。関連技術では、一般的に作業者が実地にテストする方式で機器の語音認識性能をテストするが、実地にテストする方式が外乱要因に制限されることにより、人力がかかり、テスト効率が低い。
オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラムを提供する。
第1の局面によれば、録音された第1のオーディオ信号を取得することと、第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンスと上記校正信号の周波数レスポンスとに基づいて算出された第1のフィルタ係数に基づいて、上記第1のオーディオ信号を処理して、第2のオーディオ信号を取得することと、上記第1のオーディオ再生機器で上記第2のオーディオ信号を再生して得られた音声を認識することと、を含むオーディオ認識方法を提供する。
第2の局面によれば、録音された第1のオーディオ信号を取得するための第1の取得モジュールと、第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンスと上記校正信号の周波数レスポンスとに基づいて算出された第1のフィルタ係数に基づいて、上記第1のオーディオ信号を処理して、第2のオーディオ信号を取得するための第1の処理モジュールと、上記第1のオーディオ再生機器で上記第2のオーディオ信号を再生して得られた音声を認識するための認識モジュールと、を含むオーディオ認識装置を提供する。
第3の局面によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信接続するメモリとを含む電子機器であって、上記メモリに上記少なくとも1つのプロセッサによって実行され得る命令を記憶しており、上記命令が上記少なくとも1つのプロセッサによって実行されることによって、上記少なくとも1つのプロセッサが本願の上記方法を実行することができる、電子機器を提供する。
第4の局面によれば、コンピュータに本願の上述方法を実行させるコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体を提供する。
第5の局面によれば、コンピュータに本願の上述方法を実行させるコンピュータ命令を含むコンピュータプログラムを提供する。
この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもない。本開示の他の特徴は、以下の明細書によって理解し易くなるであろう。
図面は、本方案がよりよく理解されるためのものであり、本願に対する限定を構成しない。
図1は、本開示の実施例によるオーディオ認識方法及び装置と、電子機器と、記憶媒体とを適用できる例示的な適用場面を模式的に示している。 図2は、本開示の実施例によるオーディオ認識方法のフローチャートを模式的に示している。 図3は、本開示の実施例による第1のオーディオ再生機器で第2のオーディオ信号を再生することで得られた音声を認識するフローチャートを模式的に示している。 図4は、本開示の別の実施例によるオーディオ認識方法のフローチャートを模式的に示している。 図5は、本開示の実施例によるフィルタ係数処理が行われていない校正信号が、人工口によって再生されたスペクトル模式図を模式的に示している。 図6は、本開示の実施例によるフィルタ係数処理が行われた校正信号が、人工口によって再生されたスペクトル模式図を模式的に示している。 図7は、本開示の実施例によるオーディオ認識装置のブロック図を模式的に示している。 図8は、本開示の実施例によるオーディオ認識方法を実現するのに適したコンピュータシステムのブロック図を模式的に示している。
以下、本願の例示的な実施例について図面を参照しながら説明する。その中に、理解の便宜のため本願の実施例の各詳細を含み、これらはあくまで例示的なものであることを理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることを理解すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
語音認識技術の発展に伴って、語音認識技術が様々な応用分野で広く応用されており、ユーザの語音認識の性能に対する要求も高くなっている。機器出荷時の語音認識性能を向上するために、続けてテストして語音認識機能を最適化する必要がある。
関連技術には、一般的に、作業者が実地にテストする方式で機器の語音認識性能をテストし、例えば、車載語音を認識する時に、ハイウェイ、アスファルト道路、雨の日などの実地場面で車載語音をテストする必要がある。さらに、例えば、スピーカー語音を認識する時に、リビングルーム、キッチン、会議室などの、スピーカーの使用場所で実地にテストする必要がある。
しかし、本願を実現した過程において、実地にテストする方式が外乱要因に制限され、例えば、道路上にハイウェイ、アスファルト道路、雨などの場面を長い時間にわたってテストすることができず、これによって、人力がかかり、テスト効率が低いことを発見した。そして、最適化結果も信頼できず、例えば、ある場面について、認識率が低く、フロントエンド信号処理及び語音エンジン訓練最適化を行ってから検証する必要がある。しかし、各テスト者の話しは、毎回同じになることが困難であるため、最適化前と最適化後との結果の違いは、最適化による影響であるか、テスト者の話す状態の違いよる影響であるかを確定できない。
これによって、本願は、オーディオ認識方法及び装置と、電子機器と、記憶媒体とを提供して、この方法は、録音された第1のオーディオ信号を取得することと、第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンス及び前記校正信号の周波数レスポンスに応じて算出された第1のフィルタ係数に基づいて、上記第1のオーディオ信号を処理して、第2のオーディオ信号を取得することと、前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生して得られた音声を認識することを含む。
図1は、本開示の実施例によるオーディオ認識方法及び装置と、電子機器と、記憶媒体とを適用できる例示的な適用場面を模式的に示している。
図1に示すのは、当業者が本開示の技術内容を理解することに役立つように、本開示の実施例を適用できる適用場面の例示に過ぎず、本開示の実施例が他の機器、システム、環境または場面に適用できないことを意味していないことに注意すべきである。例えば、オーディオ認識方法及び装置と、電子機器と、記憶媒体との例示的な適用場面は、ホーム場面でスマートスピーカーをテストするものであってもよい。
図1に示すように、この適用場面100において、乗物110には電子機器120とオーディオ再生機器130とがある。
乗物110と、電子機器120と、オーディオ再生機器130との間に、ネットワークを通じて通信リンクしてもよい。ネットワークは、例えば有線及び/又は無線の通信リンクなどの様々な接続タイプを含んでもよい。
本開示の実施例によれば、語音認識システムが、乗物110又は電子機器120に設けられてもよく、録音されたオーディオファイルが電子機器120に記憶されてもよく、電子機器120にオーディオ再生プログラムが設けられてもよく、場面に応じてオーディオ再生機器130が別々のオーディオファイルを再生するように制御することを定義してもよく、オーディオファイルは、人声、ノイズ等を含んでもよい。語音認識システムは、再生した音声を認識し、認識結果を出力してもよく、電子機器120によって認識結果の正確性を検証してもよい。
乗物110と、電子機器120と、オーディオ再生機器130との間に、ネットワークを通じて通信リンクした後、電子機器120は、録音されたオーディオ信号をフィルタ処理して得られたオーディオ信号をオーディオ再生機器130に送信してもよく、オーディオ再生機器130は、放送を送って乗物110や電子機器120に語音認識システムをターンオンして認識を行うように通知してもよく、語音認識システムがターンオンされた後に、オーディオ再生機器130は、対応するテストが必要とする認識単語を再生し始め、認識単語が一定の時間再生された後、また放送で語音認識をターンオフするように通知し、今回の認識の結果を統計してもよい。その後、次のものを再生し、このように繰り返して、すべての必要とする場面を再生するようにガイドする。
本願の実施例によれば、1回の録音につき最適化を複数回検証する効果を実現することができ、乗物110が静止している場合、各場面での語音の認識率を検証することができ、かつ出力パワーを安定して制御可能であり、毎回の最適化の結果検証が自動的に完成されて、人力を省き、且つ検証結果の信頼性が高い。
乗物110は、語音認識システムを備える様々な乗物であってもよく、自動車、飛行機などを含むが、これらに限られない。
電子機器120は、ディスプレイを備える様々な電子機器であってもよく、スマートフォン、タブレット、ラップトップ型携帯コンピュータなどを含むが、これらに限られない。
オーディオ再生機器130は、再生機能を備える様々な再生機器であってもよく、人工口、スピーカーなどを含むが、これらに限られない。
なお、本開示の実施例が提供するオーディオ認識方法は、一般的に電子機器120によって実行されてもよい。相応的に、本開示の実施例が提供するオーディオ認識装置が電子機器120に設けられてもよい。
あるいは、本開示の実施例が提供するオーディオ認識方法は、乗物110と電子機器120とによって共に実行されてもよい。相応的に、本開示の実施例が提供するオーディオ認識装置は、乗物110と電子機器120とに設けられてもよい。例えば、電子機器120は、録音された第1のオーディオ信号を取得し、第1のフィルタ係数に基づいて第1のオーディオ信号を処理して、第2のオーディオ信号を取得し、乗物110は、第1のオーディオ再生機器で第2のオーディオ信号を再生して得られた音声を認識する。
あるいは、本開示の実施例が提供するオーディオ認識方法は、乗物110によって実行されてもよい。相応的に、本開示の実施例が提供するオーディオ認識装置は、乗物110に設けられてもよい。例えば、乗物110は、録音された第1のオーディオ信号を取得し、第1のフィルタ係数に基づいて第1のオーディオ信号を処理して、第2のオーディオ信号を取得し、乗物110は、第1のオーディオ再生機器で第2のオーディオ信号を再生して得られた音声を認識する。
図1における乗物110と、電子機器120と、オーディオ再生機器130との数は、例示的なものであることを理解すべきである。実現の必要に応じて、任意の数を有してもよい。
本開示の別の実施例によれば、上述した適用場面に乗物110が含まれなくてもよく、語音認識システムをまず電子機器120に設置して、テストが完成した後に、また乗物110に設置する。本開示の実施例によれば、語音認識システムは、語音で乗物を制御するのに用いられてもよく、ユーザが語音命令によって乗物を制御することができる。例えば、運転手が車両を運転中に、語音命令によってナビゲーションを設定したり、エフエムを変更したりすることができ、センターコンソールを見ながら手動で操作する必要がない。運転手の両手を解放することができ、一方、運転手がセンターコンソールを見ながら手動で操作する必要がなく、運転中に集中力を散らすことがなく、運転安全の向上に役立つ。
図2は、本開示の実施例によるオーディオ認識方法のフローチャートを模式的に示している。
図2に示すように、このオーディオ認識方法は操作S210~S230を含む。
操作S210において、録音された第1のオーディオ信号を取得する。
操作S220において、第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンス及び校正信号の周波数レスポンスに応じて算出された第1のフィルタ係数に基づいて、第1のオーディオ信号を処理して、第2のオーディオ信号を取得する。
操作S230において、第1のオーディオ再生機器で第2のオーディオ信号を再生して得られた音声を認識する。
本願の実施例によれば、ユーザ語音を録音してもよく、例えば周波数レスポンス曲線が平らかな高精度テストマイクを利用して無音ルームで人声を採集して、ユーザ語音の純粋、ノイズなし、エコーなしを確保し、各オーディオファイルが語音内容で命名されてもよい。例えば、1つの語音のオーディオ内容は、「天気はどうですか」である場合、オーディオファイル名が、「天気はどうですか」に命名されてもよい。
本願の実施例によれば、録音された第1のオーディオ信号は、別々のテスト場面において必要とするオーディオ信号であってもよい。本願の実施例によれば、オーディオ認識方法が車載語音テスト場面に適用されることを例として、第1のオーディオ信号が、車両が提供できる操作機能の命令であってもよく、例えば、車両が提供できる操作機能の命令は、地図を探す命令、エアコンをターンオンする命令、音楽を再生する命令、車の窓を開く命令などを含んでもよい。
本願の実施例によれば、第1のオーディオ再生機器の種類が限定されず、人工口、スピーカーなどを含むが、これらに限られない。異なる種類のオーディオ再生機器の周波数レスポンスが異なり、例えば、人工口とスピーカーとの周波数レスポンスが異なり、或いは、同じ種類の異なるオーディオ再生機器の周波数レスポンスも異なる可能性があり、周波数レスポンスは、周波数レスポンス曲線によって説明することができる。
本願の実施例によれば、第1のフィルタ係数は、第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンス及び校正信号の周波数レスポンスに基づいて算出されたものである。校正信号は、周波数レスポンス曲線がまっすぐなホワイトノイズを採用することができる。
本願の実施例によれば、ホワイトノイズを校正信号とすることは、例示的な実施例に過ぎず、これに限られなく、本分野で既知の他の校正信号を含んでもよい。
本願の実施例によれば、第1のフィルタ係数に基づいて第1のオーディオ信号を処理することは、第1のフィルタ係数で第1のオーディオ信号の別々の所定周波数帯域における対応オーディオ信号をフィルタリングや増幅をして、得られた第2のオーディオ信号と録音された第1のオーディオ信号とが異なるようにすることであってもよい。オーディオ信号を再生する人工口、スピーカーなどは、各々特定の周波数レスポンス曲線を有し、オーディオ信号がこれらの機器によって再生された後、もともと録音された時のものと異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声が、その録音された時の周波数レスポンス曲線と一致するようになり、オーディオ再現の技術効果を達成する。
本願の実施例によれば、第2のオーディオ信号を取得した後、第2のオーディオ信号を第1のオーディオ再生機器に送信して再生させてもよく、第1のオーディオ再生機器が第2のオーディオ信号を再生している過程において、語音認識システムで再生された音声を認識することができる。
図3は、本開示の実施例による第1のオーディオ再生機器で第2のオーディオ信号を再生して得られた音声を認識するフローチャートを模式的に示している。
図3に示すように、この第1のオーディオ再生機器で第2のオーディオ信号を再生して得られた音声を認識することは、操作S310~S320を含む。
操作S310において、語音認識機能を起動する。
操作S320において、語音認識機能を基に、第2のオーディオ信号を再生して得られた音声を認識する。
本願の実施例によれば、第2のオーディオ信号を再生して得られた音声を認識した後、認識結果を出力し、認識結果の正確性を検証してもよい。
本願の実施例によれば、バックグラウンドプロセスを起動して語音ログを常にモニタしてもよく、毎回結果が認識された後に、語音認識システムがログをプリントして、ログと再生されたオーディオファイル名とを対比し、一致すると、認識成功とされる。オーディオファイル名は、オーディオ内容であってもよい。
本願の実施例によれば、認識結果の正確性を検証することは、認識結果と第1のオーディオ信号のオーディオ内容とを比較し、認識結果と第1のオーディオ信号のオーディオ内容とが一致する場合、認識結果が正確であることを確定し、認識結果と第1のオーディオ信号のオーディオ内容とが一致しない場合、認識結果が不正確であることを確定する。
本願の実施例によれば、例えば、第2のオーディオ信号を再生して得られた音声を認識した後、出力された認識結果が「空気はどうですか」であり、第1のオーディオ信号に対応するオーディオ内容が「空気はどうですか」であれば、認識結果と第1のオーディオ信号のオーディオ内容と一致し、認識結果が正確であることを確定する。第1のオーディオ信号に対応するオーディオ内容が「天気はどうですか」であれば、認識結果と第1のオーディオ信号のオーディオ内容とが一致せず、認識結果が不正確であることを確定する。
図4は、本開示の別の実施例によるオーディオ認識方法のフローチャートを模式的に示している。
本願の実施例によれば、第1のオーディオ信号が複数含まれてもよく、各第1のオーディオ信号は、第1のフィルタ係数処理が行われた後、第2のオーディオ信号が得られる。
本願の実施例によれば、一言の認識語音が1つの第1のオーディオ信号としてもよい。
図4に示すように、この方法は、操作S410~S430を含んでいる。
操作S410において、録音された複数の第1のオーディオ信号を取得する。
操作S420において、第1のフィルタ係数に基づいて、各第1のオーディオ信号を処理して、複数の第2のオーディオ信号を取得する。
操作S430において、第1のオーディオ再生機器で所定の時間間隔で各第2のオーディオ信号を再生して得られた音声をそれぞれ認識する。
本願の実施例によれば、所定の時間間隔は、例えば5秒、7秒などであってもよい。語音認識システムをターンオンした後、対応するテストが必要とする認識単語を再生し始めて、再生された後の所定の時間間隔の間に、今回の認識の結果を認識して統計する。その後、また次のものを再生する。このようにして、すべての必要とする場面を再生するまで実行する。
本願の実施例によれば、音声をそれぞれ認識する時、入力された語音信号に対して、プリエンファシス及びフレーミング・ウィンドウ、ブレークポイント検出、ノイズリダクション操作を行ってもよい。その後、特徴抽出を行い、よく見られる特徴パラメータは、時間領域による幅とエネルギー、及び周波数領域による線形予測ケプストラム係数(LPCC)、Melケプストラム係数(MFCC)などを含む。最後に、認識結果と正確結果とをマッチングすることで、検証結果が得られる。
本願の実施例によれば、録音された第1のオーディオ信号は、別々の場面でのテスト語音であってもよいため、実地にテストする必要がなく、外乱要因に制限されることを避けて、テスト効率を向上する。さらに、第1のオーディオ再生機器は、第2のオーディオ信号を繰り返し再生することができるため、語音認識システムの最適化前と最適化後との結果の違いは、最適化の影響によるものであり、テスト者の話す状態の違いによって最適化結果が異なるという問題が存在しないことを確定できる。各場面での語音の認識率を検証し、人声を完全に再現することができ、さらに出力パワーを安定して制御可能であり、毎回の最適化の結果検証が自動的に完成されて、人力を省き、且つ検証結果の信頼性が高い。
語音認識の過程において、通常に、他の音源や、環境ノイズによる語音認識への影響を考慮する必要がある。例えば、車載語音が複数の使用場面を考慮すべき、異なるノイズ源が異なる程度で語音の認識率を干渉し、語音テスト最適化の効率を向上し、人力の投入を低減し、測定結果の信頼性を向上し、最適化結果の信頼性を向上するために、異なるノイズ環境で語音を認識してもよい。
本開示の実施例によれば、録音された第3のオーディオ信号を取得し、第2のオーディオ再生機器が校正信号を再生して得られた音声の第2の周波数レスポンスと校正信号の周波数レスポンスとに応じて算出された第2のフィルタ係数に基づいて、第3のオーディオ信号を処理して、第4のオーディオ信号を取得してもよい。第1のオーディオ再生機器で第2のオーディオ信号を再生するとともに、第2のオーディオ再生機器を利用して第4のオーディオ信号を再生している過程において、第2のオーディオ信号を再生して得られた音声を認識する。
本願の実施例によれば、第3のオーディオ信号は、他のユーザの音声であってもよく、ノイズであってもよい。
本願の実施例によれば、具体的に、第1のオーディオ信号は、人声オーディオ信号を含み、第3のオーディオ信号はノイズオーディオ信号を含む。
本願の実施例によれば、例えば、人工口で人声オーディオ信号を再生している過程において、スピーカーでノイズを再生してもよく、この場合、語音認識システムでノイズが含まれる人声を認識してもよい。
本願の実施例によれば、ノイズの種類が限定されず、さらに、別々の種類のノイズを予め録音してもよい。例えば、周波数レスポンス曲線が平らかな高精度テストマイクを使用して、車両が静止中や、運転中の各場面のノイズ、例えば、窓閉じで低速でエアコンなしや、窓開けて高速でアスファルト道路などのノイズを採集する。
本願の実施例によれば、第1のフィルタ係数に基づいて第1のオーディオ信号を処理して、第2のオーディオ信号を取得することは、第1のフィルタ係数で第1のオーディオ信号のスペクトルを調整して、第2のオーディオ信号を取得することを含む。
本願の実施例によれば、第2のフィルタ係数に基づいて第3のオーディオ信号を処理して、第4のオーディオ信号を取得することは、第2のフィルタ係数で第3のオーディオ信号のスペクトルを調整して、第4のオーディオ信号を取得することを含む。
本願の実施例によれば、フィルタ係数でオーディオ信号のスペクトルを調整することは、例示的な実施例に過ぎず、これに限られず、本分野で既知の他のフィルタ係数でオーディオ信号を処理する方法を含んでもよく、処理後のオーディオ信号がオーディオ再生機器に再生されて得られた音声は、録音された音声であることを実現できればよく、即ち、音声を復元する効果を実現できればよい。
図5は、本開示の実施例によるフィルタ係数処理が行われていない校正信号が人工口によって再生されたスペクトル模式図を模式的に示している。
元の校正信号が、周波数レスポンス曲線がまっすぐなホワイトノイズである場合、図5に示すように、人工口が実際に出力した信号は、人工口自身の周波数レスポンスに影響され、図5から分かるように、人工口によって再生された信号は、中間周波数を強化し、高域を無くしたフィルタを通過したようであり、これによって、このような信号が語音認識システムに与えられた後に、認識率が低く、テストの正確性を保証できない。
本願を実現した過程において、オーディオ信号を再現する人工口や、スピーカーなどは、それぞれの特定の周波数レスポンス曲線を有することを考慮して、オーディオ信号がこれらの機器によって再生された後、もともと録音された時のものと異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声とその録音された時の周波数レスポンス曲線とが一致し、オーディオ再現の技術効果を達成する。
図6は、本開示の実施例によるフィルタ係数処理が行われた校正信号が人工口によって再生されたスペクトル模式図を模式的に示している。
元の校正信号が、周波数レスポンス曲線がまっすぐなホワイトノイズである場合、図6に示すように、処理されたオーディオ信号が人工口によって再生された後、信号曲線がまっすぐに近似し、録音された音声をほぼ完全に復元することができ、認識テストの正確性を保証でき、人の耳でも本当の発音との区別を聞き出すことができない。
本願の実施例によれば、第1のフィルタ係数は、校正信号の周波数レスポンスと第1の周波数レスポンスとの違いに応じて確定でき、第2のフィルタ係数は、校正信号の周波数レスポンスと第2の周波数レスポンスとの違いに応じて確定できる。
本願の実施例によれば、オーディオ信号反転校正の原理は、元信号と人工口再生信号との周波数レスポンスの差を比較することで、フィルタ係数を算出し、元信号が、周波数レスポンス曲線がまっすぐなホワイトノイズを採用してもよいため、フィルタ係数は、人工口再生信号の周波数レスポンス曲線の反転値であってもよい。
本願の実施例によれば、フィルタ係数を確定する時、処理後の信号が人工口によって再度再生され、その信号曲線がまっすぐであるかを確認してもよく、信号曲線がまっすぐではない場合、周波数レスポンス曲線のどこが、補足することやゲインを下げることが必要であるかを確認し、各周波数帯域のゲインを調整し続けることで、最終に人工口によって再生された信号がまっすぐになり、フィルタ係数を保存する。他のまっすぐではない信号、例えば人声について、フィルタ処理が行われてから、人工口によって再生された後、正逆の2回の変化を経て、最終的に元の人声と一致する信号を形成する。
本願の実施例によれば、検証によって、100文の認識されるコーパスについて、実際に人声で直接にテストする時の認識率が98%である場合、人工口によって再生されると、校正される前に、人工口によって再生されるテスト認識率は60%のみであるが、校正された後、認識率は、元声に比べて1%上下に変動し、97%~99%であり、顕著な効果を奏する。
本願の実施例によれば、語音認識システムが一般的に人声の100ヘルツ以下、10kヘルツ以上の周波数に対して語音認識を行わないため、100ヘルツ以下、10kヘルツ以上の周波数ではフィルタ係数で調整しなくてもよい。本願の実施例によれば、語音認識システムがレスポンス認識を行う周波数帯域を確定し、レスポンス認識が可能な周波数帯域に対してフィルタ係数を確定することができる。
本願の実施例によれば、第1のフィルタ係数は複数の第1のフィルタサブ係数を含んでもよく、各第1のフィルタサブ係数は、それぞれ第1の所定周波数帯域における対応するオーディオ信号を調整するためのものであり、第2のフィルタ係数は複数の第2のフィルタサブ係数を含み、各第2のフィルタサブ係数は、それぞれ第2の所定周波数帯域における対応するオーディオ信号を調整するためのものである。
本願の実施例によれば、第1の所定周波数帯域に複数の第1のサブ周波数帯域を含んでもよく、各第1のサブ周波数帯域は、対応する第1のフィルタサブ係数を有し、第1のフィルタサブ係数は、対応する第1のサブ周波数帯域におけるオーディオ信号を処理するためのものである。第2の所定周波数帯域に複数の第2のサブ周波数帯域を含んでもよく、各第2のサブ周波数帯域は、対応する第2のフィルタサブ係数を有し、第2のフィルタサブ係数は、対応する第2のサブ周波数帯域におけるオーディオ信号を処理するためのものである。
本願の実施例によれば、異なるフィルタサブ係数で異なるサブ周波数帯域におけるオーディオ信号を処理し、オーディオ信号を指向性を持って処理することができ、オーディオ復元の正確度を向上し、さらに語音認識の正確度を向上する。
図7は、本開示の実施例によるオーディオ認識装置のブロック図を模式的に示している。
図7に示すように、オーディオ認識装置700は、第1の取得モジュール710と、第1の処理モジュール720と、認識モジュール730とを含む。
第1の取得モジュール710は、録音された第1のオーディオ信号を取得するためのものである。
第1の処理モジュール720は、第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第1のフィルタ係数に基づいて前記第1のオーディオ信号を処理して、第2のオーディオ信号を取得するためのものである。
認識モジュール730は、前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生して得られた音声を認識するためのものである。
録音された第1のオーディオ信号は、別々の場面でのテスト語音であってもよいため、実地にテストする必要がなく、外乱要因に制限されることを避けて、テスト効率を向上する。さらに、第1のオーディオ再生機器は、第2のオーディオ信号を繰り返し再生することができるため、語音認識システムの最適化前と最適化後との結果の違いは、最適化の影響によるものであり、テスト者の話す状態の違いによって最適化結果が異なるという問題が存在しないことを確定できる。オーディオ信号が機器によって再生された後、もともと録音された時のものとは異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声がその録音された時の周波数レスポンス曲線と一致するようになり、オーディオ再現の技術効果を達成する。
本願の実施例によれば、オーディオ認識装置700は、さらに、第2の取得モジュールと、第2の処理モジュールとを含む。
第2の取得モジュールは、録音された第3のオーディオ信号を取得するためのものである。
第2の処理モジュールは、第2のオーディオ再生機器が前記校正信号を再生して得られた音声の第2の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第2のフィルタ係数に基づいて、前記第3のオーディオ信号を処理して、第4のオーディオ信号を取得するためのものである。
前記認識モジュール730は、前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生するとともに、前記第2のオーディオ再生機器で前記第4のオーディオ信号を再生している過程において、前記第2のオーディオ信号を再生して得られた音声を認識するためのものである。
本願の実施例によれば、前記第1のオーディオ信号は、人声オーディオ信号を含み、前記第3のオーディオ信号は、ノイズオーディオ信号を含む。
本願の実施例によれば、前記第1の処理モジュールは、前記第1のフィルタ係数で前記第1のオーディオ信号のスペクトルを調整して、前記第2のオーディオ信号を取得するためのものである。
前記第2の処理モジュールは、前記第2のフィルタ係数で前記第3のオーディオ信号のスペクトルを調整して、前記第4のオーディオ信号を取得するためのものである。
本願の実施例によれば、前記第1のフィルタ係数は、前記校正信号の周波数レスポンスと前記第1の周波数レスポンスとの違いに応じて確定され、前記第2のフィルタ係数は、前記校正信号の周波数レスポンスと前記第2の周波数レスポンスとの違いに応じて確定される。
本願の実施例によれば、前記第1のフィルタ係数は、複数の第1のフィルタサブ係数を含み、各第1のフィルタサブ係数がそれぞれ第1の所定周波数帯域における対応するオーディオ信号を調整するためものであり、前記第2のフィルタ係数は、複数の第2のフィルタサブ係数を含み、各第2のフィルタサブ係数がそれぞれ第2の所定周波数帯域における対応するオーディオ信号を調整するためのものである。
本願の実施例によれば、前記認識モジュールは、起動手段と、認識手段とを含む。
起動手段は、語音認識機能を起動するためのものである。
認識手段は、前記語音認識機能を基に、前記第2のオーディオ信号を再生して得られた音声を認識するためのものである。
本願の実施例によれば、オーディオ認識装置は、さらに、出力モジュールと、検証モジュールとを含む。
出力モジュールは、前記第2のオーディオ信号を再生して得られた音声を認識した後、認識結果を出力するためのものである。
検証モジュールは、前記認識結果の正確性を検証するためのものである。
本願の実施例によれば、前記検証モジュールは、比較手段と、第1の確定手段と、第2の確定手段とを含む。
比較手段は、前記認識結果と前記第1のオーディオ信号のオーディオ内容とを比較するためのものである。
第1の確定手段は、前記認識結果と前記第1のオーディオ信号のオーディオ内容とが一致する場合、前記認識結果が正確であることを確定するためのものである。
第2の確定手段は、前記認識結果と前記第1のオーディオ信号のオーディオ内容とが一致していない場合、前記認識結果が誤りであることを確定するためのものである。
本願の実施例によれば、前記第1のオーディオ信号が複数含まれ、各前記第1のオーディオ信号は、前記第1のフィルタ係数処理が行われて1つの前記第2のオーディオ信号が得られる。
前記認識モジュールは、前記第1のオーディオ再生機器で所定の時間間隔で各前記第2のオーディオ信号を再生して得られた音声をそれぞれ認識するためのものである。
本願の実施例によれば、前記オーディオ認識装置が車載語音テスト場面に適用される。
本願の実施例によれば、前記第1のオーディオ再生機器は、人工口を含む。
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体を提供する。
図8は、本開示の実施例によるオーディオ認識方法を実現するのに適したコンピュータシステムのブロック図を模式的に示している。
図8に示すように、本願の実施例の方法を実行する電子機器のブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、パーソナル・デジタル・アシスタントと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを指している。電子機器は、様々な形態の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを指してもよい。本明細書に示す部品と、それらの接続関係と、それらの機能は、単に例示であり、本明細書で説明及び/又は要求した本願の実現を限定することを意図しない。
図8に示すように、この電子機器800は、1つ又は複数のプロセッサ801と、メモリ802と、各部品を接続するための、高速インターフェース及び低速インターフェースを含むインターフェースとを含む。各部品は、別々のバスで互いに接続され、共通のマザーボードに実装され、又は、必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、この命令は、メモリ中又はメモリ上に記憶されて、外部の入力・出力装置(例えば、インターフェースに結合された表示機器)にGUIの図形情報を表示する命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器を接続して、各機器が一部の必要な操作を提供してもよい(例えば、サーバアレー、一組のブレードサーバ、又はマルチプロセッサシステムとする)。図8は、1つのプロセッサ801を例にしている。
メモリ802は、本願が提供する不揮発性のコンピュータ読取可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサによって実行され得る命令を記憶しており、前記少なくとも1つのプロセッサに本願が提供する方法を実行させる。本願の不揮発性のコンピュータ読取可能な記憶媒体は、コンピュータ命令を記憶し、このコンピュータ命令は、コンピュータに本願が提供する方法を実行させるためのものである。
メモリ802は、不揮発性のコンピュータ読取可能な記憶媒体として、本願の実施例における方法に対応するプログラム命令・モジュール(例えば、図7に示す第1の取得モジュール710と、第1の処理モジュール720と、認識モジュール730)のような、不揮発性のソフトウェアプログラムと、不揮発性のコンピュータ実行可能なプログラム及びモジュールとを記憶するためのものである。プロセッサ801は、メモリ802に記憶される不揮発性のソフトウェアプログラムと、命令と、モジュールとを実行することで、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上述した方法実施例における方法を実現する。
メモリ802は、オペレーティング・システム、少なくとも1つの機能が必要とするアプリケーションプログラムを記憶することができるプログラム記憶エリア、及び上述した方法による電子機器の使用によって生成されたデータなどを記憶するデータ記憶エリアを含んでもよい。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、又は他の不揮発性ソリッドメモリを含んでもよい。一部の実施例において、メモリ802は、選択的に、プロセッサ801に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを通じて電子機器に接続されてもよい。上述したネットワークの実例は、インターネットと、イントラネットと、ローカルエリアネットワークと、移動通信ネットワークと、それらの組合せとを含むが、それらに限られない。
電子機器は、入力装置803と、出力装置804とをさらに含んでもよい。プロセッサ801と、メモリ802と、入力装置803と、出力装置804とは、バス又は他の方式によって接続されてもよく、図8においてバスによって接続されることを例にしている。
入力装置803は、入力されたデジタル又はキャラクター情報を受信し、電子機器のユーザ設定及び機能制御に関わるキー信号入力を発生してもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、レバーなどの入力装置である。出力装置804は、表示デバイスと、補助照明装置(例えば、LED)と、触覚フィードバック装置(例えば、振動モーター)などを含んでもよい。この表示デバイスは、液晶ディスプレー(LCD)、発光ダイオード(LED)ディスプレー、プラズマディスプレーを含むが、これらに限られない。一部の実施形態において、表示デバイスはタッチスクリーンであってもよい。
ここで説明したシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現されてもよい。これらの各実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んでもよく、この1つまたは複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されてもよく、このプログラマブルプロセッサは、専用又は共通のプログラマブルプロセッサであってもよく、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とからデータと命令とを受信し、データと命令とをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに伝送してもよい。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称する)は、プログラマブルプロセッサの機械命令を含み、高級プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ・機械言語によってこれらの計算プログラムを実施してもよい。本明細書で使用した術語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味しており、機械読取可能な信号である機械命令を受ける機械読取可能な媒体を含む。術語「機械読取可能な信号」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を意味している。
ユーザとのインタラクティブを提供するために、コンピュータ上にここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレー)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とインタラクティブすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータ上で実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。
本願の実施例の技術案によれば、録音された第1のオーディオ信号は、別々の場面でのテスト語音であってもよいため、実地にテストする必要がなく、外乱要因に制限されることを避けて、テスト効率を向上する。さらに、第1のオーディオ再生機器は、第2のオーディオ信号を繰り返し再生することができるため、語音認識システムの最適化前と最適化後との結果の違いは、最適化の影響によるものであり、テスト者の話す状態の違いによって最適化結果が異なるという問題が存在しないことを確定できる。オーディオ信号が機器によって再生された後、もともと録音された時のものと異なるようになり、再生機器の周波数レスポンス曲線に基づいて、録音されたオーディオ信号を予め反転調整することで、再生機器によって再生された音声がその録音された時の周波数レスポンス曲線と一致するようになり、オーディオ再現の技術効果を達成する。本願の実施例の技術案によれば、人工の替わりに実地にテストすることができ、人力を大幅に省くとともに、環境に対するテスト過程の依存性を低減することができる。
前に示す様々な形式のフローを利用して、ステップを並び替え、増加又は削除することができると理解されるべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本明細書はここで限定しない。
上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者にとって、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換えを行えることが、自明なことである。本願の趣旨と原則の範囲内になされた任意の修正、等価な置換え、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (21)

  1. 録音された第1のオーディオ信号を取得することと、
    第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第1のフィルタ係数に基づいて、前記第1のオーディオ信号を処理して、第2のオーディオ信号を取得することと、
    前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生して得られた音声を認識することと、を含む
    オーディオ認識方法。
  2. 録音された第3のオーディオ信号を取得することと、
    第2のオーディオ再生機器が前記校正信号を再生して得られた音声の第2の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第2のフィルタ係数に基づいて、前記第3のオーディオ信号を処理して、第4のオーディオ信号を取得することと、
    前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生するとともに、前記第2のオーディオ再生機器で前記第4のオーディオ信号を再生している過程において、前記第2のオーディオ信号を再生して得られた音声を認識することと、をさらに含む
    請求項1に記載の方法。
  3. 前記第1のオーディオ信号は、人声オーディオ信号を含み、前記第3のオーディオ信号は、ノイズオーディオ信号を含む
    請求項2に記載の方法。
  4. 前記第1のフィルタ係数に基づいて前記第1のオーディオ信号を処理して、第2のオーディオ信号を取得することは、前記第1のフィルタ係数で前記第1のオーディオ信号のスペクトルを調整して、前記第2のオーディオ信号を取得することを含み、
    前記第2のフィルタ係数に基づいて前記第3のオーディオ信号を処理して、第4のオーディオ信号を取得することは、前記第2のフィルタ係数で前記第3のオーディオ信号のスペクトルを調整して、前記第4のオーディオ信号を取得することを含む
    請求項2に記載の方法。
  5. 前記第1のフィルタ係数は、前記校正信号の周波数レスポンスと前記第1の周波数レスポンスとの違いに応じて確定され、前記第2のフィルタ係数は、前記校正信号の周波数レスポンスと前記第2の周波数レスポンスとの違いに応じて確定される
    請求項2に記載の方法。
  6. 前記第1のフィルタ係数は、複数の第1のフィルタサブ係数を含み、各第1のフィルタサブ係数は、それぞれ第1の所定周波数帯域における対応するオーディオ信号を調整するためのものであり、前記第2のフィルタ係数は、複数の第2のフィルタサブ係数を含み、各第2のフィルタサブ係数は、それぞれ第2の所定周波数帯域における対応するオーディオ信号を調整するためのものである
    請求項2に記載の方法。
  7. 前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生して得られた音声を認識することは、
    語音認識機能を起動することと、
    前記語音認識機能を基に、前記第2のオーディオ信号を再生して得られた音声を認識することとを含む
    請求項1に記載の方法。
  8. 前記第2のオーディオ信号を再生して得られた音声を認識した後、認識結果を出力することと、
    前記認識結果の正確性を検証することと、をさらに含む
    請求項7に記載の方法。
  9. 前記認識結果の正確性を検証することは、
    前記認識結果と前記第1のオーディオ信号のオーディオ内容とを比較することと、
    前記認識結果と前記第1のオーディオ信号のオーディオ内容とが一致する場合、前記認識結果が正確であることを確定することと、
    前記認識結果と前記第1のオーディオ信号のオーディオ内容とが一致していない場合、前記認識結果が誤りであることを確定することと、を含む
    請求項8に記載の方法。
  10. 前記第1のオーディオ信号が複数含まれ、各前記第1のオーディオ信号は、前記第1のフィルタ係数に基づく処理が行われてから1つの前記第2のオーディオ信号が得られ、
    前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生して得られた音声を認識することは、
    前記第1のオーディオ再生機器で所定の時間間隔で各前記第2のオーディオ信号を再生して得られた音声をそれぞれ認識することを含む
    請求項1に記載の方法。
  11. 前記オーディオ認識方法は、車載語音テスト場面に適用される
    請求項1に記載の方法。
  12. 前記第1のオーディオ再生機器は、人工口を含む
    請求項1に記載の方法。
  13. 録音された第1のオーディオ信号を取得するための第1の取得モジュールと、
    第1のオーディオ再生機器が校正信号を再生して得られた音声の第1の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第1のフィルタ係数に基づいて、前記第1のオーディオ信号を処理して、第2のオーディオ信号を取得するための第1の処理モジュールと、
    前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生して得られた音声を認識するための認識モジュールと、を含む
    オーディオ認識装置。
  14. 録音された第3のオーディオ信号を取得するための第2の取得モジュールと、
    第2のオーディオ再生機器が前記校正信号を再生して得られた音声の第2の周波数レスポンスと前記校正信号の周波数レスポンスとに基づいて算出された第2のフィルタ係数に基づいて、前記第3のオーディオ信号を処理して、第4のオーディオ信号を取得するための第2の処理モジュールと、
    前記第1のオーディオ再生機器で前記第2のオーディオ信号を再生するとともに、前記第2のオーディオ再生機器で前記第4のオーディオ信号を再生している過程において、前記第2のオーディオ信号を再生して得られた音声を認識するための前記認識モジュールと、をさらに含む
    請求項13に記載の装置。
  15. 前記第1のオーディオ信号は、人声オーディオ信号を含み、前記第3のオーディオ信号は、ノイズオーディオ信号を含む
    請求項14に記載の装置。
  16. 前記第1の処理モジュールは、前記第1のフィルタ係数で前記第1のオーディオ信号のスペクトルを調整して、前記第2のオーディオ信号を取得するためのものであり、
    前記第2の処理モジュールは、前記第2のフィルタ係数で前記第3のオーディオ信号のスペクトルを調整して、前記第4のオーディオ信号を取得するためのものである
    請求項14に記載の装置。
  17. 前記第1のフィルタ係数は、前記校正信号の周波数レスポンスと前記第1の周波数レスポンスとの違いに応じて確定され、前記第2のフィルタ係数は、前記校正信号の周波数レスポンスと前記第2の周波数レスポンスとの違いに応じて確定される
    請求項14に記載の装置。
  18. 前記第1のフィルタ係数は、複数の第1のフィルタサブ係数を含み、各第1のフィルタサブ係数は、それぞれ第1の所定周波数帯域における対応するオーディオ信号を調整するためのものであり、前記第2のフィルタ係数は、複数の第2のフィルタサブ係数を含み、各第2のフィルタサブ係数は、それぞれ第2の所定周波数帯域における対応するオーディオ信号を調整するためのものである
    請求項14に記載の装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続するメモリとを含む電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行され得る命令を記憶しており、前記命令が前記少なくとも1つのプロセッサによって実行されることによって、前記少なくとも1つのプロセッサが請求項1~12のいずれかに記載の方法を実行することができる、
    電子機器。
  20. コンピュータに請求項1~12のいずれかに記載の方法を実行させるためのコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体。
  21. コンピュータに請求項1~12のいずれかに記載の方法を実行させるためのコンピュータ命令を含むコンピュータプログラム。
JP2021053196A 2020-09-18 2021-03-26 オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラム Active JP7158110B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010991729.5 2020-09-18
CN202010991729.5A CN114203156A (zh) 2020-09-18 2020-09-18 音频识别方法、音频识别装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021103329A JP2021103329A (ja) 2021-07-15
JP7158110B2 true JP7158110B2 (ja) 2022-10-21

Family

ID=75743268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021053196A Active JP7158110B2 (ja) 2020-09-18 2021-03-26 オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラム

Country Status (3)

Country Link
JP (1) JP7158110B2 (ja)
KR (1) KR102488319B1 (ja)
CN (1) CN114203156A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470618A (zh) * 2021-06-08 2021-10-01 阿波罗智联(北京)科技有限公司 唤醒测试的方法、装置、电子设备和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745731A (zh) 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100518031B1 (ko) * 2003-12-20 2005-10-04 한국전자통신연구원 수신기 캘리브레이션용 신호 발생 장치
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745731A (zh) 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法

Also Published As

Publication number Publication date
KR20210042851A (ko) 2021-04-20
CN114203156A (zh) 2022-03-18
JP2021103329A (ja) 2021-07-15
KR102488319B1 (ko) 2023-01-13

Similar Documents

Publication Publication Date Title
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
US20210304759A1 (en) Automatic speech recognition with filler model processing
CN106233374B (zh) 用于检测用户定义的关键字的关键字模型生成
JP5331784B2 (ja) スピーチエンドポインタ
CN110197658B (zh) 语音处理方法、装置以及电子设备
US6959276B2 (en) Including the category of environmental noise when processing speech signals
KR20160125984A (ko) 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들
US20120271639A1 (en) Permitting automated speech command discovery via manual event to command mapping
US10685664B1 (en) Analyzing noise levels to determine usability of microphones
CN110097870A (zh) 语音处理方法、装置、设备和存储介质
JP4061094B2 (ja) 音声認識装置、その音声認識方法及びプログラム
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP7158110B2 (ja) オーディオ認識方法、オーディオ認識装置、電子機器、記憶媒体及びプログラム
CN111739512A (zh) 一种基于实车的语音唤醒率测试方法、系统、设备及介质
CN113643704A (zh) 车机语音系统的测试方法、上位机、系统和存储介质
CN111768759A (zh) 用于生成信息的方法和装置
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
US20190156836A1 (en) Speaker enrollment
Krishnamurthy et al. Car noise verification and applications
CN116580713A (zh) 一种车载语音识别方法、装置、设备和存储介质
CN113241091B (zh) 声音分离的增强方法及系统
Kaur et al. Power-Normalized Cepstral Coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK
JP6811865B2 (ja) 音声認識装置および音声認識方法
CN112382296A (zh) 一种声纹遥控无线音频设备的方法和装置
US20160314787A1 (en) Speech recognition apparatus and computer program product for speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210326

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220920

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221004

R150 Certificate of patent or registration of utility model

Ref document number: 7158110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150