JP2021144248A - 音声データ処理方法、装置及びスマート車両 - Google Patents

音声データ処理方法、装置及びスマート車両 Download PDF

Info

Publication number
JP2021144248A
JP2021144248A JP2021097317A JP2021097317A JP2021144248A JP 2021144248 A JP2021144248 A JP 2021144248A JP 2021097317 A JP2021097317 A JP 2021097317A JP 2021097317 A JP2021097317 A JP 2021097317A JP 2021144248 A JP2021144248 A JP 2021144248A
Authority
JP
Japan
Prior art keywords
voice data
time zone
channels
energy
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021097317A
Other languages
English (en)
Inventor
イー チョウ
Yi Zhou
イー チョウ
シェンヨン ツオ
Shengyong Zuo
シェンヨン ツオ
チエ イン
Qie Yin
チエ イン
チェン チェン
Chen Chen
チェン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021144248A publication Critical patent/JP2021144248A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】命令を間違って認識する状況を防止し、認識する正確性を向上させる音声データ処理方法及び装置を提供する。【解決手段】音声データ処理方法であって、複数のマイクによって収集された複数チャネルの音声データに、いずれもウェイクワードが含まれると、複数チャネルの音声データでエネルギーが最も大きい音声データに対応するマイクをターゲットマイクとして、後続の時間帯に、ターゲットマイクによって収集された音声データによって、その中の命令を認識する。【選択図】図2

Description

本願は、データ処理技術における音声データ処理技術分野、自然言語処理技術分野、音声対話技術分野および自動運転技術分野などに関し、特に、音声データ処理方法、装置及びスマート車両に関する。
現在、音声認識技術の発展に伴い、いくつかのスマート車両に設定された車載端末は、マイクによって収集された車内の人が話したときの音声データを受信して、音声データにおける人の命令を音声認識技術をもって確定して、該命令を実行し、これにより、車内の人が音声方式で車載端末を制御することは、実現され、車両のインテリジェントの程度を向上させる。
従来技術において、音声データにおける命令を認識するアルゴリズムの複雑さが高いため、車載端末は、リソース浪費を免れるために、マイクによって収集された音声データを受信した後に、まず、音声データにおけるウェイクワードを認識し、音声データにウェイクワードが含まれると認識した状況だけに、ウェイクワードの後の音声データにおける命令を認識し、これにより、車載端末の作業効率を向上させるようになる。
しかし、車内に複数のマイクが設置されたとき、複数のマイクがいずれも音声データを受信してウェイクワードを認識する可能性があり、ウェイクワードを認識するアルゴリズムの精度が低いため、後続に、どのマイクの音声データにおける命令を認識すべきであるかを正確に確定できず、さらに、音声データにおける命令を正確に認識できないようになり、ひいては、命令を間違って認識し、音声データ処理の正確性を低下させるようになる。
本願は、従来技術において、音声データ処理のときに正確性が劣っている技術的課題を解決するために、音声データ処理方法、装置及びスマート車両を提供する。
第1の態様では、本願は、音声データ処理方法を提供し、第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するステップであって、前記複数チャネルの第1の音声データが、前記第1の時間帯に車内に設置された複数のマイクによって収集されるステップと、前記ターゲットマイクが第2の時間帯に収集した第2の音声データを取得するステップであって、前記第2の時間帯が前記第1の時間帯の後にあるステップと、前記第2の音声データに含まれた命令を認識するステップと、を含む。
以上のようにして、本実施例に係る音声データ処理方法により、車載端末が第1の音声データ内のウェイクワードによってウェイクされた後に、エネルギーが最も大きい音声データに対応するターゲットマイクの第2の音声データを選択し、命令を認識することができ、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された第2の音声データによって、ユーザが話した命令をより正確に認識することができ、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させることができる。
本願の第1の態様の一実施例において、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、前記複数チャネルの第1の音声データから、前記ターゲット語彙を含む1つのチャネル又は複数チャネルの候補第1の音声データを確定するステップと、前記1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含む。
具体的に、本実施例に係る音声データ処理方法において、ターゲット語彙が複数チャネルの第1の音声データで検出され、すべての第1の音声データにターゲット語彙が含まれるわけではない可能性があるため、車載端末は、複数チャネルの第1の音声データにターゲット語彙が含まれた後に、すべての第1の音声データのエネルギーを比較するのではなく、実際にターゲット語彙を含む1つのチャネル又は複数チャネルの第1の音声データのエネルギーを比較し、これにより、車載端末が音声データを処理し、ターゲットマイクを確定するときに必要な計算量を減らし、車載端末が音声データを処理する効率をさらに向上させる。
本願の第1の態様の一実施例において、前記1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、記憶モジュールから、前記第1の時間帯内の前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーを取得するステップであって、前記記憶モジュールが、前記複数のマイクによって収集された音声データのエネルギーを記憶するためのものであるステップと、前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーに基づいて、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含む。
具体的に、本実施例に係る音声データ処理方法において、車載端末は、第1の音声データを受信した後にいずれも記憶するため、車載端末は、複数チャネルの第1の音声データにターゲット語彙が含まれると確定した後に、バックトラックの方式により、記憶機器から記憶されたエネルギーを直接に読み取り、これにより、複数チャネルの第1の音声データのエネルギー値をより速く比較し、さらに、車載端末が音声データを処理する効率を向上させることができる。
本願の第1の態様の一実施例において、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する前記ステップの前に、前記複数のマイクが前記第1の時間帯に収集した複数チャネルの第1の音声データを取得するステップと、前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを計算するステップと、前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを記憶モジュールに記憶するステップと、をさらに含む。
具体的に、本実施例に係る音声データ処理方法において、車載端末は、マイクによってリアルタイムに収集された第1の時間帯内の複数チャネルの第1の音声データに対して、まず、エネルギーを計算し、計算して得られたエネルギー値を記憶機器に記憶し、これにより、後続に、ウィクアップモデルによって、複数チャネルの第1の音声データにターゲット語彙が含まれると認識した場合、同様に、記憶機器から、記憶されたエネルギーを直接に読み取ることができ、これにより、複数チャネルの第1の音声データのエネルギー値をより速く比較することができ、車載端末が音声データを処理する効率を向上させることもできる。
本願の第1の態様の一実施例において、いずれか1つの第1の音声データに対し、前記第1の時間帯内の前記第1の音声データのエネルギーを計算する前記ステップは、プリセット時間窓に従って、前記第1の時間帯内に前記第1の音声データに対してウィンドウフレーミング処理を行い、前記第1の時間帯内の前記第1の音声データの複数の周波数ドメイン特徴を得るステップと、前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第1の時間帯内の前記第1の音声データのエネルギーとするステップと、を含む。
具体的に、本実施例に係る音声データ処理方法において、ウィンドウフレーミングの処理方式により、第1の音声データのエネルギーを表し、周波数ドメイン特徴が信号での異なる成分、特に人から発した音声データの特徴をより体現化することができるため、音声データのエネルギーをよりよく表し、さらに、ターゲットマイクを確定するときの正確性を向上させ、さらに、音声データを認識するときの正確性を向上させることができる。
本願の第1の態様の一実施例において、実行主体としての音声データ処理装置は、第2の音声データを取得した後に、第2の音声データにおける命令を直接に認識してもよいし、または、第2のデータをネットワーク機器に送信し、ネットワーク機器により、第2の音声データにおける命令を認識した後に、音声データ処理装置は、ネットワーク機器によって送信された第2の音声データにおける命令を直接に受信してもよい。これにより、本実施例は、異なる認識シーンに応用されることができ、演算能力が足りないとき、ネットワーク機器による認識に依存して音声データに対する処理効率を向上させることができる。音声データ処理装置の演算能力によってサポートされる状況で、自身が第2の音声データにおける命令を認識することに依存して、ネットワーク機器とのデータ対話を減少させることもできる。
第2の態様では、本願は、音声データ処理装置を提供し、該装置は、本願の第1の態様の音声データ処理方法を実行するために使用されることができ、該装置は、第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される確定モジュールであって、前記複数チャネルの第1の音声データが、前記第1の時間帯に車内に設置された複数のマイクによって収集される確定モジュールと、前記ターゲットマイクが第2の時間帯に収集した第2の音声データを取得するために使用される取得モジュールであって、前記第2の時間帯が前記第1の時間帯の後にある取得モジュールと、前記第2の音声データに含まれた命令を認識するために使用される認識モジュールと、を含む。
本願の第2の態様の一実施例において、前記確定モジュールは、具体的に、前記複数チャネルの第1の音声データから、前記ターゲット語彙を含む1つのチャネル又は複数チャネルの候補第1の音声データを確定し、前記1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される。
本願の第2の態様の一実施例において、前記確定モジュールは、具体的に、前記複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、前記第1の時間帯内の前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーを取得し、前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーに基づいて、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される。
本願の第2の態様の一実施例において、前記音声データ処理装置はさらに、計算モジュール及び記憶モジュールを含み、前記取得モジュールはさらに、前記複数のマイクが前記第1の時間帯に収集した複数チャネルの第1の音声データを取得するために使用され、前記計算モジュールは、前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを計算して、前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを前記記憶モジュールに記憶するために使用される。
本願の第2の態様の一実施例において、前記計算モジュールは、具体的に、プリセット時間窓に従って、前記第1の時間帯内に前記第1の音声データに対してウィンドウフレーミング処理を行い、前記第1の時間帯内の前記第1の音声データの複数の周波数ドメイン特徴を得、前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第1の時間帯内の前記第1の音声データのエネルギーとするために使用される。
本願の第2の態様の一実施例において、認識モジュールは、第2の音声データにおける命令を認識してもよいし、または、認識モジュールは、第2のデータをネットワーク機器に送信し、ネットワーク機器により、第2の音声データにおける命令を認識した後に、ネットワーク機器によって送信された第2の音声データにおける命令を直接に受信してもよい。
第3の態様では、本願は、スマート車両を提供し、複数のマイクとプロセッサを含み、複数のマイクは、スマート車両内部の音声データを収集するためのものであり、プロセッサは、第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定し、この後、ターゲットマイクが第2の時間帯に収集した第2の音声データを取得して、第2の音声データに含まれた命令を認識するためのものであり、複数チャネルの第1の音声データが複数のマイクによって第1の時間帯に収集され、第2の時間帯が第1の時間帯の後にある。
本願の第3の態様の一実施例において、プロセッサは、具体的に、複数チャネルの第1の音声データから、ターゲット語彙を含む1つのチャネル又は複数チャネルの候補第1の音声データを確定し、1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される。
本願の第3の態様の一実施例において、プロセッサは、具体的に、複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、第1の時間帯内の1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーを取得し、1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーに基づいて、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される。
本願の第3の態様の一実施例において、プロセッサはさらに、複数のマイクが第1の時間帯に収集した複数チャネルの第1の音声データを取得し、第1の時間帯内の複数チャネルの第1の音声データのエネルギーを計算し、第1の時間帯内の複数チャネルの第1の音声データのエネルギーを記憶モジュールに記憶するために使用される。
本願の第3の態様の一実施例において、プロセッサは、具体的に、プリセット時間窓に従って、第1の時間帯内に第1の音声データに対してウィンドウフレーミング処理を行い、第1の時間帯内の第1の音声データの複数の周波数ドメイン特徴を得、複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、第1の時間帯内の第1の音声データのエネルギーとするために使用される。
本願の第3の態様の一実施例において、プロセッサは、具体的に、第2の音声データをネットワーク機器へ送信し、ネットワーク機器によって送信された第2の音声データに含まれた命令を受信するために使用される。
第4の態様では、本願は、電子機器を提供し、少なくとも1つのプロセッサ、および前記少なくとも1つのプロセッサと通信するように接続されたメモリを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは、本願の第1の態様のいずれか1項に記載の方法を実行することができるようになる。
第5の態様では、本願は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本願の第1の態様のいずれか1項に記載の方法を実行させるためのものである。
第6の態様では、本願は、コンピュータ可読記憶媒体に記憶されたコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令は、プロセッサで実行されるとき、本願の第1の態様及び本願の第1の態様の各種の可能な実施例のいずれかに記載の方法を実現するためのものである。
本実施例に係る音声データ処理方法、装置及びスマート車両により、実行主体としての車載端末は、第1の時間帯内の音声データにターゲット語彙が含まれると確定すると、さらに、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定して、この後に、取得されたターゲットマイクによって収集された第2の音声データのみにより、ユーザがウィクアップワードの後に話した命令を認識し、最終的に、認識された命令を実行することができる。よって、本実施例に係る音声データ処理方法により、車載端末が第1の音声データ内のウェイクワードによってウェイクされた後に、エネルギーが最も大きい音声データに対応するターゲットマイクの第2の音声データを選択し、命令を認識することができ、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された第2の音声データによって、ユーザが話した命令をより正確に認識し、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させることができる。
この部分に記述した内容は、本願の実施例の肝心又は重要な特徴を識別することを主旨としているわけではなく、本願の範囲を制限するためにも使用されないと理解すべきである。本願の他の特徴を、以下の明細書によって理解しやすくなる。
図面は、本解決手段をよりよく理解するために使用されるものであり、本願に対する限定を構成しない。
本願が応用するシーンの概略図である。 本願に係る音声データ処理方法の一実施例のフローチャートである。 本願に係る車載端末が複数チャネルの第1の音声データに基づくエネルギーを確定するロジック概略図である。 本実施例に係る音声データ処理方法の他の実施例のフローチャートである。 本実施例に係る音声データの時間帯概略図である。 本願に係る音声データ方法の一実施例において車載端末の処理ロジック概略図である。 本願に係る音声データ処理装置の一実施例の構造概略図である。 本願に係る音声データ処理装置の他の実施例の構造概略図である。 本願の実施例に基づく音声データ処理方法の電子機器のブロック図を示す。
以下、本願の示範的な実施例を図面に合わせて説明する。理解に寄与するための本願の実施例の様々な詳細が含まれるが、これらは、示範的なものにすぎないと考えるべきである。よって、当業者は、ここに記述した実施例に対する様々な変化や修正が可能であり、本願の範囲や趣旨から逸脱されないと認識するべきである。同様に、明確や簡潔のため、以下の記述では、周知の機能や構造に関するものを省略するようにしている。
以下、本願の実施例を正式的に紹介する前に、まず、本願が応用するシーン、および従来技術に存在する問題について図面に合わせて説明する。
図1は、本願が応用するシーンの概略図であり、図1に示すスマート車両1に車載端末11が設置されており、車両運転手または乗客は、車載端末11によって音楽再生、マップナビゲーション、電話の受けと掛けなどの機能を実現することができる。同時に、音声認識技術の発展に伴い、車載端末11は音声方式で車内の人と対話することもでき、これにより、車内の人が車載端末11を操作することによるスマート車両1の正常走行対するセキュリティリスクを減少させる。
例えば、スマート車両1内の人は、車載端末11を制御して関連機能を実現するとき、「音楽再生」を直接に話すことができ、車載端末11は、マイクによってユーザが話した「音楽再生」という命令を含む音声データを収集した後に、音声認識技術によって、音声データには、ユーザが話した命令は「音楽再生」であると確定し、この後、音楽再生の機能を直接に実行することができ、上記のプロセス全体で、スマート車両1内の人は、命令を話すだけで、車載端末11に対する制御を実現することができ、これにより、スマート車両1内の人、特に、運転手は、車載端末11を使用するとき、ホイールから両手を離すことなく、ひいては、車両の前方から目を逸らすことなく、命令を車載端末11へ発信することができ、スマート車両1内の人、および周囲環境内の他の車両や通行人のセキュリティを確保すると同時に、また、車載端末11のインテリジェントの程度を高くし、スマート車両1内の人の制御体験を向上させる。
さらに具体的に、車載端末11がユーザと音声対話を行うことを実現するとき、収集して得られた音声データで、ユーザが話した命令を認識することは1つの重要な技術である。音声データにおける命令を認識するアルゴリズムの複雑さが高く、使用される認識モデルのデータ量が大きいため、車載端末は、リソース浪費を免れるために、通常は、「ウェイクワード」、例えば「ABAB」を設定することがある。このとき、ユーザは、「音楽再生」という命令を車載端末11へ話す前に、まず、ウェイクワード、例えば「ABAB、音楽再生」を話す必要がある。車載端末11は、リアルタイムに音声データを収集し、且つ軽量レベルのウィクアップモデルを利用してウェイクワードを認識し、このとき使用されるウィクアップモデルは、音声データにウェイクワードが存在するか否かを比べるだけでよいため、そのアルゴリズムの複雑さが低く、使用されるウィクアップモデルのデータ量も少ない。車載端末11は、ウィクアップモデルによって、第1の時間帯に収集された音声データにウェイクワード「ABAB」が含まれると確定すると、引き続き認識モデルにより、第1の時間帯の後の第2の時間帯に収集された音声データに対し、その中に含まれる命令の「音楽再生」を認識し、さらに、該命令を実行する。よって、車載端末11は、大半の時間に、軽量レベルのウィクアップモデルを利用して音声データを処理することができ、ウェイクワードを検出した後にだけ、認識モデルを利用して命令を認識し、これにより、車載端末11が音声データを処理するときの計算量を低減し、車載端末11の作業効率を向上させる。
いくつかの実現において、スマート車両内に、通常は、1つ以上のマイクを設置することにより音声データを収集し、例えば、図1に示すスマート車両1内には、車内座席の設置に従って、運転席のそばに、第1のマイク121を設置し、助手席のそばに、第2のマイク122を設置し、後部座席の左側及び右側に、第3のマイク123と第4のマイク124をそれぞれ設置し、車載端末11は、この4つのマイクによって個々の位置にある人の音声データを収集することができ、これにより、個々の位置の人が話すウェイクワードがマイクからの距離が遠いことで認識されないことがないことを確保し、車載端末11のウィクアップの正確性を向上させる。例えば、スマート車両1内の運転手が「ABAB」というウェイクワードを話した後に、運転手のそばに設置された第1のマイク121がウェイクワードを含む音声データを収集し、この後、車載端末11が第1のマイク121の音声データに基づいてウィクアップされると、認識モデルを利用し、第1のマイク121によって収集されたウェイクワードの後の音声データを認識し、さらに、運転手が話す「音楽再生」という命令を認識し、第1のマイク121が運転手のそばに設置されるため、該マイクを使用する音声データ認識命令により、認識される命令の正確性を向上させることができ、後続に、命令に基づいて関連機能を実行する正確さを確保することもできる。
実際の応用において、このように、車内に複数のマイクを設置してデータを同時に収集してウェイクワードを認識するシーンで、運転手の位置に座った運転手がウェイクワードを話した後に、運転手のそばに設置された第1のマイク121のほか、他のマイクがウェイクワードを含む音声データを収集する可能性もある。これにより、車載端末11は、音声データにおけるウェイクワードを検出するとき、複数のマイクによって収集された複数チャネルの音声データで、いずれもウェイクワードが検出される可能性がある。この後、車載端末11は、その中のいずれか1つのマイクの後続の音声データを選択して認識モデルによってその中の命令を認識することができる。
運転手は、ウェイクワードを話した後に、運転手のそばに設置された第1のマイク121によって収集された音声データ、及び、後部座席に設置された第4のマイク124によって収集された音声データを使用して、いずれもウェイクワードを認識したと仮定すると、このとき、車載端末11が第4のマイク124によって収集された後続音声データにより、命令を認識する場合、命令を認識できないか、または間違って命令を認識した問題が存在する可能性があり、車載端末11が音声データを処理するときに認識する正確性が低下するようになる。
よって、上記の問題を解決すために、車載端末11が音声データを処理するとき、複数のマイクによって収集された複数チャネルの音声データには、いずれもウェイクワードが含まれると、複数チャネルの音声データでエネルギーが最も大きい音声データに対応するマイクをターゲットマイクとして、後続に、ターゲットマイクによって収集された音声データによって、その中の命令を認識し、最終的に、認識された命令を実行する。これにより、端末機器がウィクアップされた後に、エネルギーが最も大きい音声データに対応するマイクを選択して音声データにおける命令を認識し、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された音声データにより、その中に含まれた命令をより正確に認識することができ、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させる。
以下、本願の技術的解決手段について具体的な実施例をもって詳細に説明する。以下のいくつかの実施例を、相互に組み合わせてもよく、同様又は類似の概念又はプロセスをいくつかの実施例では繰り返して説明しないようにする場合もある。
図2は、本願に係る音声データ処理方法の一実施例のフローチャートであり、図2に示す方法は、図1に示すスマート車両1内の車載端末11によって実行されてもよく、または、スマート車両1内に設置された、音声データを処理するための他の音声データ処理装置、または、音声データ処理装置におけるプロセッサによって実行されてもよい。かつ、スマート車両1内に複数のマイクが設置されることができ、個々のマイクが異なる位置に設置され、いずれも音声データを収集して、収集された音声データを車載端末11に送信するためのものである。また、説明する必要があるものとして、図1に示すスマート車両1に4つのマイクが設置されることを例とし、マイク数を制限するわけではなく、スマート車両1内に2つ、6つ、8つまたは他の数の複数のマイクが設置されてもよく、いずれも本願の実施例の保護範囲内にある。
具体的に、図2に示す音声データ処理方法は、以下のステップを含む。
S101において、第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する。
前記複数チャネルの第1の音声データは、車内に設置された複数のマイクが第1の時間帯に収集した音声データであり、前記ターゲット語彙は、車載端末の音声機能のウェイクワードであってもよい。具体的に、図1に示すスマート車両内に、複数のマイクが音声データをリアルタイムに収集して、車載端末に送信して認識し、例えば、図1に示す4つのマイクがt1−t2の時間帯内に収集した4チャネルの音声データを車載端末に送信し、車載端末により、この4チャネルの音声データにウェイクワードが含まれるか否かを認識し、この4チャネルの音声データに、いずれもウェイクワードが含まれない場合、車載端末は、4つのマイクがt2−t3の時間帯内に収集して車載端末に送信した4チャネルの音声データを続いて認識し、このとき、t2−t3の時間帯内の4チャネルの音声データで、任意の1つのチャネルまたは複数チャネルの音声データにウェイクワードが含まれた場合、S101を実行する。そのうち、ウェイクワードを含むt2−t3の時間帯を第1の時間帯と記し、第1の時間帯内に複数のマイクによって収集された音声データをこの複数のマイクによってそれぞれ収集された第1の音声データと記す。
よって、S101で、車載端末は、第1の時間帯内に、複数チャネルの第1の音声データにウェイクワードが含まれる1つのチャネルまたは複数チャネルの第1の音声データが存在すると確定した場合、S101で、複数チャネルの第1の音声データから、エネルギーが最も大きい第1の音声データを確定して、音声データのエネルギーが最も大きい音声データに対応するマイクを確定し、ターゲットマイクとして記す。
S102において、車載端末は、ターゲットマイクが第2の時間帯に収集した第2の音声データを取得する。
車載端末はS101によってターゲットマイクを確定した後に、車載端末は、後続に、スマート車両内の人が話す音声データにおける命令を認識するとき、ターゲットマイクによって収集された音声データのみを認識する。S102で、車載端末は、ターゲットマイクが第2の時間帯に収集した音声データを取得する。例えば、ウェイクワードが「ABAB」である場合、スマート車両内の人が「ABAB、音楽再生」を話した後に、複数のマイクが第1の時間帯内に収集した音声データにはウェイクワード「ABAB」が含まれる。車載端末は、S101に基づいてターゲットマイクを確定した後に、第1の時間帯の後の第2の時間帯に、複数のマイクが、いずれも音声データを収集しているとしても、車載端末は、ターゲットマイクによって収集された第2の音声データだけ取得して、その中に含まれた「音楽再生」という命令を認識する。このとき、第1の時間帯の後にある隣接する時間帯を第2の時間帯と記して、ターゲットマイクによって収集された「音楽再生」という命令が含まれた音声データを第2の音声データと記し、第2の時間帯は、第1の時間帯の後にある隣接する第1個の時間帯である。
S103において、車載端末は、第2の音声データに含まれた命令を認識する。
具体的に、S103の1つの具体的な実施形態において、端末機器は、S102で取得された第2の音声データを認識し、例えば、スマート車両にいる人が話した「ABAB、音楽再生」における第2の音声データ内の「音楽再生」という命令を認識し、この後、車載端末は、該命令を実行し、音楽再生を開始させる。理解できるものとして、S103で、車載端末は、ターゲットマイク以外の他のマイクによって収集された音声データを認識しない。本実施形態において、実行主体としての音声データ処理装置が演算能力をサポートすると仮定する場合には、自身が第2の音声データにおける命令を識別することに依存して、ネットワーク機器とのデータ対話を減少させることができる。
S103の他の具体的な実施形態において、実行主体としての音声データ処理装置の演算能力が足りないとき、ネットワーク機器による認識に依存して音声データに対する処理効率を向上させることができる。具体的に、音声データ処理装置は、第2のデータをネットワーク機器に送信することができ、ネットワーク機器により、第2の音声データにおける命令を認識した後に、音声データ処理装置は、ネットワーク機器によって送信された第2の音声データにおける命令を直接に受信してもよい。
以上のようにして、本実施例に係る音声データ処理方法により、実行主体としての車載端末は、第1の時間帯内の音声データにターゲット語彙が含まれると確定すると、さらに、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定して、この後に、取得されたターゲットマイクによって収集された第2の音声データのみにより、ユーザがウィクアップワードの後に話した命令を認識し、最終的に、認識された命令を実行することができる。よって、本実施例に係る音声データ処理方法により、車載端末が第1の音声データ内のウェイクワードによってウェイクされた後に、エネルギーが最も大きい音声データに対応するターゲットマイクの第2の音声データを選択し、命令を認識することができ、該ターゲットマイクがユーザに近いため、エネルギーが大きく、収集された第2の音声データによって、ユーザが話した命令をより正確に認識することができ、さらに、他のマイクを使用して命令を認識できないか、または、命令を間違って認識する状況を防止し、車載端末が音声データを処理するときに認識する正確性を向上させることができる。
さらに具体的に、図3は、本願に係る車載端末が複数チャネルの第1の音声データに基づくエネルギーを確定するロジック概略図であり、以下、上記の図2に示す音声データ処理方法には、S101で、車載端末は、具体的に、複数チャネルの第1のデータのエネルギーにより、ターゲットマイクを確定する方法について、図3を組み合わせて説明する。
図3に示す例では、同様に、図1に示すスマート車両、およびスマート車両内に4つのマイクを設置することを例とする。スマート車両内に設置された4つのマイクをマイク1、マイク2、マイク3及びマイク4と記し、この4つのマイクが音声データをリアルタイムに収集して、車載端末内に送信し、車載端末により、4つのマイクの音声データを処理する。車載端末は、音声データを処理するとき、音声データにおけるウェイクワードまたは命令を認識するために、時間帯単位に音声データを分割して、一定の時間における音声内のウェイクワードまたは命令を認識する必要があるため、車載端末内に、一定の時間における音声データを記憶するための記憶モジュールが設置されてもよく、この一定の時間が過ぎた後に、バックトラックの方式により、記憶モジュール内から音声データを取り出して認識する。
例えば、図3に示すロジック図で、4つのマイクがt1−t2時刻に収集して得られた4チャネルの音声データをそれぞれ車載端末に送信し、車載端末は、4つのキューをもって4つのマイクによって収集された音声データを記憶して、t2時刻の後に、4つのマイクがt1−t2の時間帯内に収集した4チャネルの音声データにウェイクワードが含まれるか否かを認識し、理解できるものとして、車載端末は、t2時刻に、t1−t2の時間帯内の音声データに対してウィクアップ認識を行うと同時に、4つのマイクが依然として続いて音声データを収集して車載端末に送信し、車載端末も続いてt2時刻の後の4つのマイクによって収集された音声データをキューで記憶する。
選択的に、車載端末は、4チャネルの音声データにウェイクワードが含まれるか否かを認識するために、4チャネルの音声データに1対1で対応するウィクアップエンジンを使用し、それぞれ各チャネルの音声データにウェイクワードが含まれるか否かを認識し、例えば図3において、マイク1によって収集された音声データがウィクアップエンジン1によって認識され、マイク2によって収集された音声データがウィクアップエンジン2によって認識され、マイク3によって収集された音声データがウィクアップエンジン3によって認識され、およびマイク4によって収集された音声データがウィクアップエンジン4によって認識される。車載端末内の複数のウィクアップエンジンは、機械学習モデルによって実現されることができ、個々の機械学習モデルは、具体的に実現されるとき、同じであってもよく、異なってもよく、個々の機械学習モデルは、いずれも音声データにおけるウェイクワードを認識するためのものである。
理解できるものとして、図3に示す例では、4つのウィクアップエンジンにより、4つのマイクがt1−t2の時間帯内に収集した4チャネルの音声データを認識した後に、4チャネルの音声データにいずれもウェイクワードが含まれないと確定した場合、車載端末は、続いて、記憶モジュールから、t2−t3の時間帯内に、4つのマイクによって収集された4チャネルの音声データを取得して、且つ4つのウィクアップエンジンによってウェイクワードを認識する。
特に、本実施例において、車載端末内の記憶モジュールはまた、セグメントごとの音声データのエネルギーを記憶し、例えば図3で、エネルギーをキュー型で記憶し、「エネルギーバッファキュー」と命名することができる。そのうち、実際のその時間帯内の個々の音声データに対し、ウィンドウ演算により、該時間帯内のフレームごとの信号の周波数ドメインエネルギーを計算して、平均値を取った後に、時間帯内の該チャネルの音声データのエネルギー値を得る。例えば、図3に示すマイク1によって収集されたt1−t2の時間帯内の音声データのエネルギーの計算プロセスを例示的に説明して、車載端末は、マイク1がt1−t2の時間帯内の音声データを収集した後に、この時間帯内の音声データを取得し、ウィンドウフレーミング処理により、この一定の時間内に音声データのフレームごとの周波数ドメイン特徴を得る。前記ウィンドウ演算により、音声データをフレームごとに、フレーミングして周波数ドメインに転換することができ、その具体的な実現及び原理は、従来技術を参照することができ、繰り返して説明しないようにする。この後、ウィンドウフレーミング処理により、マイク1によって収集されたt1−t2の時間帯内の音声データを100のフレームに分けたと仮定すると、この100のフレームの周波数ドメインエネルギーを計算することができ、前記周波数ドメインエネルギーの一実施形態は、スペクトル振幅の二乗値、または他の可能なエネルギー表現方法であってもよく、本実施例により、限定されない。最終的に、車載端末は、上記の100のフレームの周波数ドメインエネルギーに対して平均値を計算した後に、マイク1によって収集されたt1−t2の時間帯内の音声データのエネルギーを得て、エネルギーバッファキューに記憶することができる。車載端末はまた、同じ方式に従って、異なる時間帯内に異なるマイクのエネルギーを計算してそれぞれのバッファキューに記憶することもできる。
図3に示すロジック概略図において、4つのウィクアップエンジンのいずれか1つ又は複数のウィクアップエンジンにより、第1の時間帯内の第1の音声データにウェイクワードが含まれると認識すると、エネルギーキューから、第1の音声データの第1の時間帯内でのエネルギーを取得する。例えば、車載端末は、4つのウィクアップエンジンにより、t2−t3の時間帯内の第1の音声データから、ウィクアップエンジン1により、t2−t3の時間帯内のマイク1の第1の音声データにウェイクワードが含まれると認識し、t2−t3の時間帯内のマイク2の第1の音声データにウェイクワードが含まれると認識した場合、車載端末は、第1の時間帯内の第1の音声データに基づいてターゲットマイクを確定する必要がある。
選択的に、車載端末は、ウェイクワードが検出された音声データのみから、ターゲットマイクを確定することができる。例えば、車載端末は、4つのウィクアップエンジンにより、t2−t3の時間帯内の第1の音声データから、ウィクアップエンジン1により、t2−t3の時間帯内のマイク1の第1の音声データにウェイクワードが含まれると認識し、t2−t3の時間帯内のマイク2の第1の音声データにウェイクワードが含まれると認識した後に、t2−t3の時間帯内のこの2つのマイクの第1の音声データを候補第1の音声データとして、その中から、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する。例えば、車載端末は、エネルギーバッファキューのみから、t2−t3の時間帯内のマイク1の第1の音声データのエネルギーN1、及び、t2−t3の時間帯内のマイク2の第1の音声データのエネルギーN2を取得して、この2つの第1の音声データのエネルギーN1とN2のみを比較し、N1>N2の場合、マイク1をターゲットマイクとして、この後に、ターゲットマイクに基づいて後続の処理を行うことができ、例えばターゲットマイクによって収集されたt3−t4の第2の時間帯内の第2の音声データに基づいて、第2の音声データにおける命令を認識する。
図4は、本実施例に係る音声データ処理方法の他の実施例のフローチャートであり、図4に示す方法は、図1に示す実施例に基づいて、S101の前に、また、以下のステップを含む。
S201において、車載端末は、複数のマイクによって送信された第1の音声データを受信する。第1の音声データは、マイクによって第1の時間帯に収集されたものである。図3に示すロジック図に合わせて、S201は、4つのマイクが収集された第1の音声データを車載端末に送信することに対応する。
S202において、車載端末は、複数チャネルの第1の音声データのエネルギーを計算し、車載端末は、図3に示す実施例において、音声データに対してウィンドウ演算を行う方式に従って、各チャネルの第1の音声データのエネルギー値を計算することができる。
S203において、車載端末は、計算して得られた複数チャネルの第1の音声データのエネルギー値を記憶モジュールに記憶する。図3に示すものに対応し、具体的に、エネルギーを記憶モジュールのエネルギーバッファキューに記憶することができる。
S204において、第1の音声データにターゲット語彙が含まれると確定する。車載端末は、具体的に、図3に示す、複数チャネルの第1の音声データと1対1で対応するウィクアップエンジンにより、複数チャネルの第1の音声データで1つのチャネルまたは複数チャネルの第1の音声データにウェイクワードが含まれると確定することができる。
この後、S101−S103の関連記述は、図2に示す実施例を参照することができ、その実施形態と原理が同じであり、繰り返して説明しないようにする。
特に、図5は、本実施例に係る音声データの時間帯の概略図であり、複数のマイクのいずれか1つのマイクによって収集された音声データが、図4に示す第1の時間帯と第2の時間帯との間での関係を示す。図5に示すように、車載端末は、マイクによって収集された音声データを時間帯単位に処理し、理解できるものとして、マイクは、不断に音声データを収集して車載端末に送信し、車載端末は、受信された音声データを記憶して、時間帯t1−t2、t2−t3、t3−t4……の順に従って、個々の時間帯内の音声データに対してウェイクワードを認識して、図4のS201で第1の時間帯がt2−t3の第1の音声データを受信して、S204で第1の音声データにウェイクワードが含まれると確定したと仮定すると、この後のS102で、第2の時間帯がt3−t4の第2の音声データに含まれた命令を認識することができる。理解できるものとして、図4に示すS202−S101は、図5に示す第1の時間帯内の終了時刻t3の後に実行されることができる。
また、本実施例では、また、車載端末が音声データを処理する方法は提供され、車載端末が音声データを収集するときに音声データに対して前処理を行うために使用され得る。即ち、車載端末は、音声データを収集して前処理を行った後に、さらに、本願のいずれか1つの実施例における音声データ処理方法によって処理する。
例えば、図6は、本願に係る音声データ方法の一実施例において車載端末の処理ロジック概略図であり、図1に示すスマート車両の車載端末11に応用されることができる。図6に示す車載端末は、サウンドカードデジタル信号処理(Digital Signal Processing、DSPと略称)及び読み取り専用メモリ(Read−Only Memory、ROMと略称)を含む。サウンドカードDSPは、複数のマイクと接続して、複数のマイクによって送信された音声データを受信するためのものであり、複数チャネルの音声データを受信した後に、サウンドカードDSPは、信号を時分割多重データフレーム(Time−Division Multiplexing Slot、TDM slotと略称)に伝送し、複数チャネルの音声データを処理して、その後の複数チャネルの音声データをROMに送信する。この後、ROMにより、オーディオコーデック(AudioCodec)をもってその後の複数チャネルの音声データを読み取った後に、デインターリーブアルゴリズムをもって、オーディオを複数チャネルの音声データに分けて、複数チャネルの音声データをSSRCプロトコルによって上位アプリケーションクラスのスレッド(例えばAudioRecord)に伝送し、AudioRecordスレッドにより、図4に示すロジックにおいて、複数チャネルの音声データを取得してエネルギーをバッファし、および、複数のウィクアップエンジンにより、音声データにおけるウェイクワードをそれぞれ認識するなどの後続の処理を実行する。
前述の実施例において、本願の実施例に係る音声データ処理方法を紹介したが、上記の本願の実施例に係る方法における各機能を実行するために、実行主体としての車載端末は、ハードウェア構造及び/又はソフトウェアモジュールを含み、ハードウェア構造、ソフトウェアモジュール、又はハードウェア構造及びソフトウェアモジュールの形で上記の各機能を実現することができる。上記の各機能における1つの機能がハードウェア構造、ソフトウェアモジュール、またはハードウェア構造とソフトウェアモジュールのいずれで実行されるかは、技術的解決手段の特定応用や設計約束条件によって異なる。
例えば、図7は、本願に係る音声データ処理装置の一実施例の構造概略図であり、図7に示す装置700には、確定モジュール701、取得モジュール702及び認識モジュール703が含まれている。確定モジュール701は、第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用され、複数チャネルの第1の音声データが車内に設置された複数のマイクにより第1の時間帯に収集され、取得モジュール702は、ターゲットマイクが第2の時間帯に収集した第2の音声データを取得するために使用され、第2の時間帯が第1の時間帯の後にあり、認識モジュール703は、第2の音声データに含まれた命令を認識するために使用される。
選択的に、確定モジュール701は、具体的に、複数チャネルの第1の音声データから、ターゲット語彙を含む1つのチャネル又は複数チャネルの候補第1の音声データを確定し、1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される。
選択的に、確定モジュール701は、具体的に、複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、第1の時間帯内の1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーを取得し、1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーに基づいて、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される。
図8は、本願に係る音声データ処理装置の他の実施例の構造概略図であり、図8に示す装置は、図7に示す実施例に基づいて、計算モジュール801及び記憶モジュール802をさらに含む。図8に示す装置において、取得モジュール702はさらに、複数のマイクが第1の時間帯に収集した複数チャネルの第1の音声データを取得するために使用され、計算モジュール801は、第1の時間帯内の複数チャネルの第1の音声データのエネルギーを計算して、第1の時間帯内の複数チャネルの第1の音声データのエネルギーを記憶モジュール802に記憶するために使用される。
選択的に、計算モジュール801は、具体的に、プリセット時間窓に従って、第1の時間帯内に第1の音声データに対してウィンドウフレーミング処理を行い、第1の時間帯内の第1の音声データの複数の周波数ドメイン特徴を得、複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、第1の時間帯内の第1の音声データのエネルギーとするために使用される。
説明する必要があるものとして、理解するべきものとして、以上の装置の各モジュールの分割は、あくまでもロジック機能の分割にすぎず、実際に実現するとき、そのすべて又は一部が1つの物理エンティティに集積されてもよく、物理的に分離してもよい。これらのモジュールは、すべてがソフトウェアによって処理コンポーネント呼び出しの形で実現されてもよく、すべてがハードウェアの形で実現されてもよく、モジュールの一部がソフトウェアを処理コンポーネントによって呼び出す形で実現されて、モジュールの一部がハードウェアの形で実現されてもよい。例えば、処理モジュールは、単独に設立された処理コンポーネントであってもよく、上記の装置の1つのチップに集積されて実現されてもよく、また、プログラムコードの形で上記の装置的メモリに記憶され、上記の装置の1つの処理コンポーネントによって上記の確定モジュールの機能を呼び出して実行してもよい。他のモジュールの実現は、それと類似する。また、これらのモジュールは、すべて又は一部が集積されてもよく、独立的に実現されてもよい。ここに記載の処理コンポーネントは、信号処理能力を備えた集積回路であってもよい。実現プロセスで、上記の方法の各ステップ又は上記の各モジュールは、プロセッサコンポーネントにおけるハードウェアの集積ロジック回路またはソフトウェア型の命令によって完了することができる。
例えば、以上のこれらのモジュールは、以上方法を実施するための1つ又は複数の集積回路、例えば、1つ又は複数の特定用途向け集積回路(application specific integrated circuit、ASIC)、又は、1つ又は複数のマイクロプロセッサ(digital signal processor、DSP)、又は、1つまたは複数のフィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)などに構成されてもよい。さらに例えば、上記の1つのモジュールは、処理コンポーネントがプログラムコードをスケジュールする形で実現されるとき、該処理コンポーネントは、汎用プロセッサ、例えば中央処理ユニット(central processing unit、CPU)又はプログラムコードを呼び出することができる他のプロセッサであってもよい。さらに例えば、これらのモジュールは、一体に集積され、システムオンチップ(system−on−a−chip、SOC)の形で実現されてもよい。
上記の実施例において、すべて又は一部的に、ソフトウェア、ハードウェア、ファームウェアまたはその任意の組み合わせによって実現されてもよい。ソフトウェアを使用して実現するとき、すべて又は一部的に、コンピュータプログラム製品の形で実現されてもよい。前記コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行するとき、すべて又は一部的に、本願の実施例に記載のフロー又は機能が発生する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、または、1つのコンピュータ可読記憶媒体から他のコンピュータ可読記憶媒体に伝送されてもよく、例えば、前記コンピュータ命令は、1つのウェブサイト、コンピュータ、サーバ又はデータセンターから有線(例えば同軸ケーブル、光ファイバー、デジタル加入者線(DSL))又は無線(例えば赤外線、無線、マイクロ波など)方式によって他のウェブサイト、コンピュータ、サーバ又はデータセンターへ伝送されてもよい。前記コンピュータ可読記憶媒体は、コンピュータがアクセスできる任意の利用可能な媒体または1つ又は複数の利用可能な媒体が含まれた集積サーバ、データセンターなどのデータ記憶機器であってもよい。前記利用可能な媒体は、磁気媒体(例えば、フロッピーディスク、ハードディスク、テープ)、光メディア(例えば、DVD)、または半導体媒体(例えばソリッドステートドライブsolid state disk (SSD))などであってもよい。
本願の実施例によれば、本願は、さらに、電子機器及び可読記憶媒体を提供する。
図9に示すように、図9は、本願の実施例に基づく音声データ処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを主旨とする。電子機器は、また、パーソナルデジタルアシスタント、セルラーテレフォン、スマートフォーン、ウェアラブルデバイス及びその他の類似するコンピューティングデバイスなど、様々な形のモバイル装置を表すこともできる。本明細書に示したコンポーネント、それらの接続や関係、及び、それらの機能は、あくまで例示的なものにすぎず、本明細書に記載の及び/又は本文が求める本願の実現を制限することを意図しない。
図9に示すように、該電子機器は、1つ又は複数のプロセッサ901、メモリ902、及び各コンポーネントを接続するためのインタフェースを含み、該インタフェースは、高速インタフェースと低速インタフェースとを含む。個々のコンポーネントは、異なるバスを使用して互いに接続され、パブリックメインボードにインストールされるか、又は、必要に応じて他の方式でインストールされることができる。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は、外部の入力/出力装置(インタフェースにカップリングされたディスプレイデバイスなど)でGUIのグラフィクス情報がディスプレイされるための、メモリ内又はメモリ上に記憶されている命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用してもよい。同様に、複数の電子機器を接続して、個々の機器により、一部の必要な操作を提供(例えば、サーバアレイ、一揃いのブレードサーバ、または、マルチプロセッサシステムとする)してもよい。図9において、1つのプロセッサ901を例とする。
メモリ902は、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されることにより、前記少なくとも1つのプロセッサが本願に係る音声データ処理方法を実行する。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータ命令を記憶しており、該コンピュータ命令は、コンピュータに本願に係る音声データ処理方法を実行させるためのものである。
メモリ902は、非一時的なコンピュータ可読記憶媒体として、本願の実施例における音声データ処理方法に対応するプログラム命令/モジュール(例えば、図面7に示す確定モジュール701、取得モジュール702、及び認識モジュール703)などの非一時的なソフトウェアプログラム、非一時的なコンピュータによる実行可能なプログラムおよびモジュールを記憶するために使用されるものであってもよい。プロセッサ901は、メモリ902に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、即ち、上記の方法の実施例における音声データ処理方法を実現する。
メモリ902は、プログラム記憶エリアとデータ記憶エリアとを含むことができ、そのうち、プログラム記憶エリアは、操作システム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、音声データ処理方法の電子機器の使用によって作成されるデータなどを記憶することができる。また、メモリ902は、高速ランダムアクセスメモリを含むことができ、また、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含むこともできる。いくつかの実施例において、メモリ902は、プロセッサ901に対して遠隔に設置されているメモリを選択的に含むことができ、それらの遠隔メモリは、ネットワークを介し、音声データ処理方法の電子機器に接続されることができる。上記のネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
音声データ処理方法の電子機器は、さらに、入力装置903及び出力装置904を含むことができる。プロセッサ901、メモリ902、入力装置903及び出力装置904は、バス又はその他の方式によって接続されてもよく、図9では、バスによって接続される方式を例としている。
入力装置903は、入力された数字又はキャラクタ情報を受信し、音声データ処理方法の電子機器のユーザ設定、および機能制御に関連する鍵信号の入力が発生することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インディケータロッド、1つ又は複数のマウスボタン、トラックボール、操縦ハンドルなどの入力装置が挙げられる。出力装置904は、ディスプレイデバイス、補助照明装置(LEDなど)や触感フィードバック装置(振動モータなど)などを含むことができる。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイやプラズマディスプレイを含むことができるが、それらに限定されない。いくつかの実施形態では、ディスプレイデバイスはタッチスクリーンであってもよい。
ここに記載のシステムや技術的様々な実施形態は、デジタル電子回路、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてよい。それらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施される形態を含むことができ、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されることができ、該プログラマブルプロセッサは、特定用途向け、または、汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、や少なくとも1つの出力装置から、データや命令を受信し、そして、データや命令を該記憶システム、該少なくとも1つの入力装置や、該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、または、コードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムをアドバンスプロセス及び/又はオブジェクト指向型プログラミング言語、及び/又はアセンブリ言語/機械言語を利用して実施することができる。例えば、本明細書に使用される用語「機械可読媒体」や「コンピュータ可読媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD)など)のことを指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。用語「機械可読信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号のことを指す。
ユーザとのインタラクションを提供するために、ここに記載のシステムや技術をコンピュータで実施することができ、該コンピュータは、ユーザへ情報をディスプレイするためのディスプレイ装置(CRT(陰極線管)またはLCD(液晶ディスプレイ)モニターなど)、及びキーボードやポインティングデバイス(マウス又はトラックボールなど)があり、ユーザは、該キーボードや該ポインティングデバイスを通じ、入力をコンピュータに提供することができる。その他の種類の装置は、ユーザとのインタラクションを提供するために使用されることができ、例えば、ユーザに提供されるフィードバックは、任意の形の感覚フィードバック(視覚フィードバック、聴覚フィードバック、または触感フィードバックなど)であってもよく、ユーザからの入力を任意の形(音入力、音声入力又は触感入力を含む)で受信することができる。
ここに記載のシステムや技術は、バックグランドコンポーネントを含むコンピュータシステム(データサーバとして作用するなど)、または、ミドルウェアコンポーネントを含むコンピューティングシステム(アプリケーションサーバなど)、または、フロントエンドコンポーネントを含むコンピューティングシステム(グラフィカル・ユーザ・インタフェース、またはネットワークブラウザを備えるユーザコンピュータなど、ユーザは、該グラフィカル・ユーザ・インタフェース、または該ネットワークブラウザを通じてここに記載のシステムや技術に係る実施形態とインタラクションをすることができる)、またはこのようなバックグランドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施されてもよい。システムのコンポーネントを、任意の形、または媒体のデジタルデータ通信(通信ネットワークなど)を通じて相互に接続することができる。通信ネットワークは、例示的に、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント端末やサーバを含むことができる。クライアント端末やサーバは、一般的に、互いに遠く離れており、且つ通常は通信ネットワークを通じてインタラクションする。対応するコンピュータで実行されるとともに、互いにクライアント端末-サーバという関係を有するコンピュータプログラムにより、クライアント端末とサーバとの関係を築き上げる。
本願の実施例によれば、本願は、さらに、コンピュータ可読記憶媒体に記憶されたコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令は、プロセッサで実行されるとき、本願の上記方法実施例における音声データ処理方法を実現するためのものである。
上記に示した様々な形のフローを使用し、ステップを改めて並べ替えたり、増加したり、又は削除したりすることができると理解するべきである。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段による所期結果さえ実現されれば、並行して実行されてもよく、順に沿って実行されてもよく、又は順番を乱して実行されてもよいから、本文では、ここで限定されない。
上記の具体的な実施形態は、本願の保護範囲に対する制限を構成しない。当業者であれば、設計要件やその他の要素に基づいた様々な修正、組み合わせ、下位組み合わせや代替が可能であると理解するべきである。本願の精神や原則の範囲内に行われるすべての修正、等価置換や改善は、いずれも本願の保護範囲に含まれるべきである。

Claims (16)

  1. 音声データ処理方法であって、
    第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するステップであって、前記複数チャネルの第1の音声データが、前記第1の時間帯に車内に設置された複数のマイクによって収集されるステップと、
    前記ターゲットマイクが第2の時間帯に収集した第2の音声データを取得するステップであって、前記第2の時間帯が前記第1の時間帯の後にあるステップと、
    前記第2の音声データに含まれた命令を認識するステップと、を含むことを特徴とする音声データ処理方法。
  2. 複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、
    前記複数チャネルの第1の音声データから、前記ターゲット語彙を含む1つのチャネル又は複数チャネルの候補第1の音声データを確定するステップと、
    前記1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する前記ステップは、
    記憶モジュールから、前記第1の時間帯内の前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーを取得するステップであって、前記記憶モジュールが、前記複数のマイクによって収集された音声データのエネルギーを記憶するためのものであるステップと、
    前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーに基づいて、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するステップと、を含むことを特徴とする請求項2に記載の方法。
  4. 複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定する前記ステップの前に、さらに、
    前記複数のマイクが前記第1の時間帯に収集した複数チャネルの第1の音声データを取得するステップと、
    前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを計算するステップと、
    前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを記憶モジュールに記憶するステップと、を含むことを特徴とする請求項3に記載の方法。
  5. いずれか1つの第1の音声データに対し、前記第1の時間帯内の前記第1の音声データのエネルギーを計算する前記ステップは、
    プリセット時間窓に従って、前記第1の時間帯内に前記第1の音声データに対してウィンドウフレーミング処理を行い、前記第1の時間帯内の前記第1の音声データの複数の周波数ドメイン特徴を得るステップと、
    前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第1の時間帯内の前記第1の音声データのエネルギーとするステップと、を含むことを特徴とする請求項4に記載の方法。
  6. 前記第2の音声データに含まれた命令を認識するステップは、
    前記第2の音声データをネットワーク機器へ送信するステップと、
    前記ネットワーク機器によって送信された前記第2の音声データに含まれた命令を受信するステップと、を含むことを特徴とする請求項1〜請求項5のいずれか1項に記載の方法。
  7. 音声データ処理装置であって、
    第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用される確定モジュールであって、前記複数チャネルの第1の音声データが、前記第1の時間帯に車内に設置された複数のマイクによって収集される確定モジュールと、
    前記ターゲットマイクが第2の時間帯に収集した第2の音声データを取得するために使用される取得モジュールであって、前記第2の時間帯が前記第1の時間帯の後にある取得モジュールと、
    前記第2の音声データに含まれた命令を認識するために使用される認識モジュールと、を含むことを特徴とする音声データ処理装置。
  8. 前記確定モジュールは、
    前記複数チャネルの第1の音声データから、前記ターゲット語彙を含む1つのチャネル又は複数チャネルの候補第1の音声データを確定し、
    前記1つのチャネル又は複数チャネルの候補第1の音声データから、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用されることを特徴とする請求項7に記載の装置。
  9. 前記確定モジュールは、
    前記複数のマイクによって収集された音声データのエネルギーを記憶するための記憶モジュールから、前記第1の時間帯内の前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーを取得し、
    前記1つのチャネル又は複数チャネルの候補第1の音声データのエネルギーに基づいて、エネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定するために使用されることを特徴とする請求項8に記載の装置。
  10. 計算モジュール及び記憶モジュールをさらに含み、
    前記取得モジュールはさらに、前記複数のマイクが前記第1の時間帯に収集した複数チャネルの第1の音声データを取得するために使用され、
    前記計算モジュールは、前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを計算して、前記第1の時間帯内の前記複数チャネルの第1の音声データのエネルギーを前記記憶モジュールに記憶するために使用されることを特徴とする請求項9に記載の装置。
  11. 前記計算モジュールは、
    プリセット時間窓に従って、前記第1の時間帯内に前記第1の音声データに対してウィンドウフレーミング処理を行い、前記第1の時間帯内の前記第1の音声データの複数の周波数ドメイン特徴を得、
    前記複数の周波数ドメイン特徴の周波数ドメインエネルギー平均値を、前記第1の時間帯内の前記第1の音声データのエネルギーとするために使用されることを特徴とする請求項10に記載の装置。
  12. 前記認識モジュールは、
    前記第2の音声データをネットワーク機器へ送信し、
    前記ネットワーク機器によって送信された前記第2の音声データに含まれた命令を受信するために使用されることを特徴とする請求項7〜請求項11のいずれか1項に記載の装置。
  13. スマート車両であって、
    前記スマート車両の内部の音声データを収集するための複数のマイクと、
    第1の時間帯内の音声データにターゲット語彙が含まれると、複数チャネルの第1の音声データでエネルギーが最も大きい第1の音声データに対応するマイクをターゲットマイクとして確定し、この後、前記ターゲットマイクが第2の時間帯に収集した第2の音声データを取得して、前記第2の音声データに含まれた命令を認識するためのプロセッサであって、前記複数チャネルの第1の音声データが、前記複数のマイクにより、前記第1の時間帯に収集され、前記第2の時間帯が前記第1の時間帯の後にあるプロセッサと、を含むことを特徴とするスマート車両。
  14. 電子機器であって、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサと通信するように接続されたメモリを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは、請求項1〜請求項6のいずれか1項に記載の方法を実行することができるようにすることを特徴とする電子機器。
  15. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1〜請求項6のいずれか1項に記載の方法を実行させるためのものであることを特徴とする非一時的なコンピュータ可読記憶媒体。
  16. コンピュータプログラムであって、前記コンピュータプログラムはプロセッサで実行されるとき、請求項1〜請求項6のいずれか1項に記載の方法を実施することを特徴とするコンピュータプログラム。
JP2021097317A 2020-08-27 2021-06-10 音声データ処理方法、装置及びスマート車両 Pending JP2021144248A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010878262.3A CN111968642A (zh) 2020-08-27 2020-08-27 语音数据处理方法、装置及智能车辆
CN202010878262.3 2020-08-27

Publications (1)

Publication Number Publication Date
JP2021144248A true JP2021144248A (ja) 2021-09-24

Family

ID=73399331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021097317A Pending JP2021144248A (ja) 2020-08-27 2021-06-10 音声データ処理方法、装置及びスマート車両

Country Status (3)

Country Link
JP (1) JP2021144248A (ja)
KR (1) KR102553234B1 (ja)
CN (1) CN111968642A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466304B (zh) * 2020-12-03 2023-09-08 北京百度网讯科技有限公司 离线语音交互方法、装置、系统、设备和存储介质
CN112634890B (zh) * 2020-12-17 2023-11-24 阿波罗智联(北京)科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质
CN112509567B (zh) * 2020-12-25 2024-05-10 阿波罗智联(北京)科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
CN113329372B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 用于车载通话的方法、装置、设备、介质和产品
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN114333017A (zh) * 2021-12-29 2022-04-12 阿波罗智联(北京)科技有限公司 一种动态拾音方法、装置、电子设备及存储介质
CN115273850A (zh) * 2022-09-28 2022-11-01 科大讯飞股份有限公司 一种自主移动设备语音控制方法及系统
CN115881131B (zh) * 2022-11-17 2023-10-13 广东保伦电子股份有限公司 一种多语音下的语音转写方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10508389A (ja) * 1994-07-18 1998-08-18 松下電器産業株式会社 音声検出装置
JPH1152976A (ja) * 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
US20180108351A1 (en) * 2016-10-19 2018-04-19 Sonos, Inc. Arbitration-Based Voice Recognition
JP2019091472A (ja) * 2014-09-12 2019-06-13 アップル インコーポレイテッドApple Inc. 発語トリガを常時リッスンするための動的閾値
JP2019176430A (ja) * 2018-03-29 2019-10-10 トヨタ自動車株式会社 音声認識装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107591151B (zh) * 2017-08-22 2021-03-16 百度在线网络技术(北京)有限公司 远场语音唤醒方法、装置和终端设备
US20190237067A1 (en) * 2018-01-31 2019-08-01 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-channel voice recognition for a vehicle environment
CN109920405A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 多路语音识别方法、装置、设备及可读存储介质
CN113990320A (zh) * 2019-03-11 2022-01-28 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备和存储介质
CN110310633B (zh) * 2019-05-23 2022-05-20 阿波罗智联(北京)科技有限公司 多音区语音识别方法、终端设备和存储介质
CN110232924A (zh) * 2019-06-03 2019-09-13 中国第一汽车股份有限公司 车载语音管理方法、装置、车辆及存储介质
CN110225202A (zh) * 2019-06-11 2019-09-10 深圳市锐尔觅移动通信有限公司 音频流的处理方法、装置、移动终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10508389A (ja) * 1994-07-18 1998-08-18 松下電器産業株式会社 音声検出装置
JPH1152976A (ja) * 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2019091472A (ja) * 2014-09-12 2019-06-13 アップル インコーポレイテッドApple Inc. 発語トリガを常時リッスンするための動的閾値
US20180108351A1 (en) * 2016-10-19 2018-04-19 Sonos, Inc. Arbitration-Based Voice Recognition
JP2019176430A (ja) * 2018-03-29 2019-10-10 トヨタ自動車株式会社 音声認識装置

Also Published As

Publication number Publication date
KR102553234B1 (ko) 2023-07-06
KR20210040854A (ko) 2021-04-14
CN111968642A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
JP2021144248A (ja) 音声データ処理方法、装置及びスマート車両
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
US10777195B2 (en) Wake command nullification for digital assistance and voice recognition technologies
EP3389044B1 (en) Management layer for multiple intelligent personal assistant services
US11330521B2 (en) Method for waking up intelligent device in group wake-up mode, intelligent device and computer-readable storage medium
CN107112017B (zh) 操作语音识别功能的电子设备和方法
JP6317111B2 (ja) ハイブリッド型クライアントサーバ音声認識
EP4064276A1 (en) Method and device for speech recognition, terminal and storage medium
CN111402877B (zh) 基于车载多音区的降噪方法、装置、设备和介质
US8346549B2 (en) System and method for supplemental speech recognition by identified idle resources
CN105793921A (zh) 基于部分热词发起动作
US11587550B2 (en) Method and apparatus for outputting information
US9921805B2 (en) Multi-modal disambiguation of voice assisted input
US11348583B2 (en) Data processing method and apparatus for intelligent device, and storage medium
US20210316745A1 (en) Vehicle-based voice processing method, voice processor, and vehicle-mounted processor
WO2020233363A1 (zh) 语音识别的方法、装置、电子设备和存储介质
US20220044678A1 (en) Speech processing method and method for generating speech processing model
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
KR20220083990A (ko) 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
KR102554916B1 (ko) 음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기
CN116888664A (zh) 在单个话语中组合设备或助理专用热词
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
US20220293103A1 (en) Method of processing voice for vehicle, electronic device and medium
CN114333017A (zh) 一种动态拾音方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210610

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220921

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230411