JP2018524620A - 音声の発生位置を特定するための方法及び端末デバイス - Google Patents

音声の発生位置を特定するための方法及び端末デバイス Download PDF

Info

Publication number
JP2018524620A
JP2018524620A JP2017557075A JP2017557075A JP2018524620A JP 2018524620 A JP2018524620 A JP 2018524620A JP 2017557075 A JP2017557075 A JP 2017557075A JP 2017557075 A JP2017557075 A JP 2017557075A JP 2018524620 A JP2018524620 A JP 2018524620A
Authority
JP
Japan
Prior art keywords
voice
audio signals
signals
audio
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017557075A
Other languages
English (en)
Other versions
JP6615227B2 (ja
JP2018524620A5 (ja
Inventor
▲樹▼▲強▼ ▲ゴン▼
▲樹▼▲強▼ ▲ゴン▼
志▲東▼ 陶
志▲東▼ 陶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2018524620A publication Critical patent/JP2018524620A/ja
Publication of JP2018524620A5 publication Critical patent/JP2018524620A5/ja
Application granted granted Critical
Publication of JP6615227B2 publication Critical patent/JP6615227B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0217Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for loud-speakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/025Transducer mountings or cabinet supports enabling variable orientation of transducer of cabinet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

本発明の実施形態は、音声の発生位置を特定するための方法及び端末デバイスを提供する。前記方法は、K個の第1音声信号を収集するステップであって、Kは2以上の整数である、ステップと、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するステップであって、MはN以下であり、Nは2以上の整数である、ステップと、各第2音声信号に対応する位置を決定するステップとを含む。本発明の実施形態において、M個の第2音声信号はビーム形成アルゴリズムを用いて、位置パラメータに従って、K個の第1音声信号から抽出され、各第2音声信号に対応する発生位置が決定される。この方法により、異なる位置から発せられた音声信号が効率的に抽出することができ、音声認識の能力が提供され、これにより、ユーザに対し、よりよいユーザ体験が提供される。

Description

本発明は、移動通信の分野に関連し、特に、音声の発生位置を特定するための方法及び端末デバイスに関する。
音声認識は、現在のインテリジェント情報システムの人間−コンピュータ・インタラクション・インターフェースの中核技術である。音声認識の成功率を向上させるためには、一般的には、集音センサを用いて音声信号を収集するという解決策が用いられ、音声の発生位置に応じて音声信号の収集及び音声認識が実行される。
現在のところ、音声認識の成功率を向上させる解決策において、1つの位置からのみ発生された音声信号を抽出することができる。別の位置から発生された音声信号は、雑音としてしかみなされず、フィルタリングされ除外されます。その結果、前記音声信号を正確に抽出することができず、音声の発生位置を特定できず、音声認識を行うことができない。車に搭載される車載システムが一例として使用される。現在のところ、前記車載システムに搭載された集音センサを用いて周囲環境の音声信号が収集され得、運転席から発せられた音声信号が抽出され、前記運転席から発せられた音声信号に対して音声認識が行われている。前記車載システムは、運転席から発せられた前記音声信号に応答することができる。しかし、車内の助手席から発せられた音声信号又は後部座席から発せられた音声信号は、雑音と判定され、前記車載システムによりフィルタリングされる。その結果、前記音声信号を正確に抽出することができず、音声の発生位置を特定できず、音声認識を行うことができない。例えば、前記車載システムは、前記運転席から発せられた「サンルーフを開ける」という音声コマンドに対して抽出及び音声認識を実行し得る。しかし、車内の助手席又は後部座席などの別の位置から発せられた「サンルーフを開ける」という音声コマンドは抽出することはできず、前記車載システムにおける別の音声信号の発生位置を特定することができない。したがって、車内の車載システムのアプリケーションシナリオにおいて、前記車載システムは、車内の別の音声信号の発生位置を効率的かつ正確に特定することができない。その結果、音声信号の発生位置を特定する効率が低下し、ユーザ体験が貧弱になる。
本発明の実施形態は、単一の位置から発せられた音声信号のみ特定及び抽出でき、別の位置から発せられた音声信号は特定及び抽出できない、という問題を解消する、音声の発生位置を特定するための方法及び端末デバイスを提供する。
本発明の第1の態様によると、音声の発生位置を特定するための方法が提供され、K個の第1音声信号を収集するステップであって、Kは2以上の整数である、ステップと、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するステップであって、MはN以下であり、Nは2以上の整数である、ステップと、各第2音声信号に対応する位置を決定するステップと、を含む。
第1の可能な実装様式において、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するステップは、具体的には、ビーム形成アルゴリズムを用いて、前記N個の位置パラメータに従って、前記K個の第1音声信号から前記M個の第2音声信号を抽出するステップを含む。
第1の態様に関連して、第2の可能な実装様式において、各第2音声信号に対応する位置を決定する前記ステップは、具体的には、L番目の第2音声信号に対応する位置パラメータに従って、前記L番目の第2音声信号に対応する位置Lを決定するステップであって、前記L番目の第2音声信号は、前記M個の第2音声信号の内のいずれか一つである、ステップを含む。
第1の態様、及び前述の可能な実装様式の任意の1つに関連して、第3の可能な実装様式において、前記K個の第1音声信号からM個の第2音声信号を抽出するステップの後に、前記方法は、前記M個の抽出された第2音声信号に対して音声認識を実施するステップと、前記M個の第2音声信号に対応するM個の音声コマンドを取得するステップと、をさらに含む。
第1の態様、及び第3の可能な実装様式に関連して、第4の可能な実装様式において、前記M個の第2音声信号に対応するM個の音声コマンドを取得する前記ステップの後に、前記方法は、前記M個の音声コマンドに応答するステップをさらに含む。
第1の態様、及び第4の可能な実装様式に関連して、第5の可能な実装様式において、前記M個の音声コマンドに応答する前記ステップは、前記M個の音声コマンドに対応するM個の異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答するステップを含む。
本発明の第2の態様によると、端末デバイスが提供され、前記端末デバイスは、K個の第1音声信号を収集するように構成されたK個の集音センサであって、Kは2以上の整数である、K個の集音センサと、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出し、各第2音声信号に対応する位置を決定するように構成されたプロセッサであって、MはN以下であり、Nは2以上の整数である、プロセッサと、を含む。
第1の可能な実装様式において、前記プロセッサが、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するように構成されることは、具体的には、前記プロセッサが、ビーム形成アルゴリズムを用いて、前記N個の位置パラメータに従って、前記K個の第1音声信号から別々に前記M個の第2音声信号を抽出するように構成されることを含む。
第2の態様、及び第1の可能な実装様式に関連して、第2の可能な実装様式において、前記プロセッサが、各第2音声信号に対応する位置を決定するように構成されることは、具体的には、L番目の第2音声信号に対応する位置パラメータに従って、前記L番目の第2音声信号に対応する位置Lを決定するステップであって、前記L番目の第2音声信号は、前記M個の第2音声信号の内のいずれか一つである、ステップを含む。
第2の態様、及び前述の可能な実装様式の任意の1つに関連して、第3の可能な実装様式において、前記プロセッサは、前記K個の第1音声信号から前記M個の第2音声信号を抽出した後、前記M個の抽出された第2音声信号に対して音声認識を実施し、前記M個の第2音声信号に対応するM個の音声コマンドを取得するようにさらに構成される。
第2の態様、及び前述の可能な実装様式の任意の1つに関連して、第4の可能な実装様式において、前記端末デバイスは、出力装置をさらに含み、前記出力装置は、前記プロセッサが前記M個の第2音声信号に対応するM個の音声コマンドを取得した後に、前記M個の音声コマンドに応答するように構成されている。
第2の態様、及び第4の可能な実装様式に関連して、第5の可能な実装様式において、前記出力装置が、前記M個の音声コマンドに応答するように構成されることは、具体的には、
前記出力装置が、前記M個の音声コマンドに対応するM個の異なる位置の優先順位に従って、優先順位の高いコマンドに優先的に応答するように構成されることを含む。
第2の態様、及び前述の可能な実装様式の任意の1つに関連して、三次元空間における前記K個の集音センサの座標は異なる。
本発明の第3の態様によると、音声の発生位置を特定するための装置が提供され、前記装置は、収集モジュール、抽出モジュール、及び決定モジュールを含む。収集モジュールは、K個の第1音声信号を収集するように構成され、Kは2以上の整数であり、前記抽出モジュールは、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するように構成され、MはN以下であり、Nは2以上の整数であり、前記決定モジュールは、各第2音声信号に対応する位置を決定するように構成される。
第1の可能な実装様式において、抽出モジュールが、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するように構成されることは、具体的には、ビーム形成アルゴリズムを用いて、前記N個の位置パラメータに従って、前記K個の第1音声信号から別々に前記M個の第2音声信号を抽出するステップを含む。
第3の態様、及び第1の可能な実装様式に関連して、第2の可能な実装様式において、前記決定モジュールが各第2音声信号に対応する位置を決定するように構成されることは、具体的には、前記決定モジュールがL番目の第2音声信号に対応する位置パラメータに従って、前記L番目の第2音声信号に対応する位置Lを決定するように構成されることを含み、前記L番目の第2音声信号は、前記M個の第2音声信号の内のいずれか一つである。
第3の態様、及び前述の可能な実装様式の任意の1つに関連して、第3の可能な実装様式において、前記装置は、音声認識モジュールと取得モジュールをさらに含み、前記音声認識モジュールは、前記M個の第2音声信号が前記K個の第1音声信号から抽出された後、前記M個の抽出された第2音声信号に対して音声認識を実施するように構成され、前記取得モジュールは、前記M個の第2音声信号に対応するM個の音声コマンドを取得するように構成されている。
第3の態様、及び第3の可能な実装様式に関連して、第4の可能な実装様式において、前記装置は、応答モジュールをさらに含み、前記応答モジュールは、前記取得モジュールが前記M個の第2音声信号に対応するM個の音声コマンドを取得した後、前記M個の音声コマンドに応答するように構成されている。
第3の態様、及び第4の可能な実装様式に関連して、第5の可能な実装様式において、前記応答モジュールが前記M個の音声コマンドに応答するように構成されていることは、前記M個の音声コマンドに対応するM個の異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答するステップことを含む。
上記の技術的解決策から、本発明の実施形態は、以下の利点を有することが分かる:
ビーム形成アルゴリズムを用いて、位置パラメータに従って、K個の第1音声信号からM個の第2音声信号が抽出され、各第2音声信号に対応する発生位置が決定され得る。この方法によれば、異なる位置から発せられた音声信号を効率的に抽出することができ、音声認識の能力が提供され、これにより、ユーザに対しよりよいユーザ体験が提供される。競合するコマンドは、優先順位様式により処理され、それにより車載中央制御デバイスが複数のコマンドに同時に応答するときに生じるエラーを低減する。
本発明の実施形態における技術的解決策をより明確に説明するために、以下で実施形態を説明するために必要な添付の図面について簡単に説明する。以下の説明における添付の図面は本発明のいくつかの実施形態を示すものにすぎず、それでもなお、当業者が創造的な努力なしにこれらの添付の図面から他の図面を得ることができることは明らかである。
図1は、本発明の一実施形態による、音声の発生位置を特定する方法のフローチャートである。 図2Aは、本発明の一実施形態による、特定される音声の発生位置である車内の位置の概略図である。 図2Bは、本発明の別の実施形態による、特定される音声の発生位置である車内の位置の概略図である。 図3は、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。 図3Aは、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。 図3Bは、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。 図4は、本発明の一実施形態による、端末デバイス400の概略構成図である。
以下では、本発明の実施形態における添付の図面を参照しながら、本発明の実施形態における技術的解決策をより明確にかつ完全に説明する。説明される実施形態は、本発明の実施形態のすべてではなく、単にいくつかの実施形態を示すものにすぎないことは明らかである。本発明の実施形態に基づき当業者が創造的な取り組み無しに得られる他のすべての実施形態は、本発明の保護範囲に含まれるものとする。
本発明の実施形態は、音声の発生位置を特定するための方法を提供する。本発明の実施形態に含まれる端末デバイスは、車載中央制御デバイス、スマートフォン、タブレットコンピュータなどであり得る。
従来技術においては、ビーム形成アルゴリズムと、集音センサを用いた音声信号を収集する解決策とが組み合わされるとともに、音声信号の収集及び音声認識に適用され、この様式を使用することにより、音声認識の成功率が大幅に向上される。しかし、この様式を使用すると、単一の音声の発生位置から発せられた音声信号のみを識別することができる。音声信号が複数の音声の発生位置から発せられた場合には、音声認識システムは、複数の音声信号を同時に認識することができない。
本発明の実施形態において、第1音声信号又は第2音声信号は、単に区別するためのものであり、序列又は順番を示すものではない。
図1は、本発明の一実施形態による、音声の発生位置を特定する方法のフローチャートである。本発明のこの実施形態のアプリケーションシナリオは、音声収集及び音声認識の任意のシナリオであり得る。本発明のこの実施形態において、車載システムにおける音声収集及び音声認識が使用され、方法は以下のステップを含む。
S101:K個の第1音声信号を収集する。Kは2以上の整数である。
車載システムにおいて、車載システム内部にK個の集音センサがあり、プロセッサは、K個の第1音声信号を収集でき、Kは2以上の整数である。
例えば、車載システムにおいて、Kは2に設定することができ、すなわち、第1集音センサと第2集音センサを、運転席と助手席にそれぞれ設置してもよい。
第1集音センサ及び第2集音センサは、第1音声信号を同時に収集する。任意選択で、車載システムにおいて、別の集音センサを、車内の後部座席又は車内の別の位置にさらに設置してもよい。
本発明のこの実施形態において、第1音声信号は、車載システム内の環境音であり、車内において異なる位置から発せられた音声信号と、車外の音声信号を含む。第1音声信号は、運転席の位置(例えば、図2Aに示すように、位置(1)(図では丸に1、以下同じ))から発せられた音声信号、助手席の位置(例えば、図2Aに示すように、位置(2)(図では丸に2、以下同じ))から発せられた音声信号、車載システムにおける後部座席の位置(例えば、図2Aに示すように、位置(3)(図では丸に3、以下同じ)及び位置(4)(図では丸に4、以下同じ))から発せられた音声信号、又は車載システムの外側の雑音の内の少なくとも1つを含み得る。
S102:N個の異なる位置に対応するN個の位置パラメータに従って、K個の第1音声信号からM個の第2音声信号を抽出する。MはN以下であり、Nは2以上の整数である。
同様に、車載システムの場合が説明のための一例として使用される。第1集音センサ及び第2集音センサの座標は空間的な位置において重ならず、第1集音センサと第2集音センサの間には特定の距離がある。図2Aに示すように、第1集音センサ及び第2集音センサは、車載システムの中央バックミラーAの左側と右側にそれぞれ配置されている。第1集音センサは、車載システムの位置Cに配置され、第2集音センサは、車載システムの位置Bに配置される。したがって、第1集音センサにより収集された音声信号の時間は、第2集音センサにより収集された音声信号の時間とは異なる。この場合、位相差が、第1集音センサにより収集された音声信号と第2集音センサにより収集された音声信号との間に形成される。
本発明の別の実施形態において、図2Bに示すように、車載システムは、4つの集音センサを含む。この場合、Kは4である。4つの集音センサは、図2Bに示すように、車載システムの中央位置に配置される。
K個の第1音声信号からM個の第2音声信号を抽出するステップは、具体的には、ビーム形成アルゴリズムを用いて、K個の第1音声信号からM個の第2音声信号を抽出するステップであっても、又はビーム形成アルゴリズムを用いて、他の音声信号をフィルタリングすることにより、K個の第1音声信号からM個の第2音声信号を抽出するステップであってもよい。
例えば、音声信号の発生位置は、運転席の位置であり、対応する位置パラメータは、運転席の位置のパラメータである。車載中央制御デバイスは、運転席に対応する運転席の位置パラメータに従って、K個の第1音声信号から、運転席から発せられた第2音声信号を抽出する。
S103:各第2音声信号に対応する位置を決定する。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、N個の位置パラメータに従って、K個の第1音声信号から別々にM個の第2音声信号を抽出する。
例えば、位置パラメータが運転席の位置パラメータである場合、第2音声信号は、ビーム形成アルゴリズムを使用して、運転席の位置パラメータに従って抽出され、第2音声信号に対応する位置パラメータに従って、抽出された第2音声信号に対応する発生位置は、運転席であることが決定される。
本発明は、音声の発生位置を特定するための方法を提供し、M個の第2音声信号は、ビーム形成アルゴリズムを用いて、位置パラメータに従って、K個の第1音声信号から抽出され、各第2音声信号に対応する発生位置が決定され得る。この方法によれば、異なる位置から発せられた音声信号が効率的に抽出することができ、音声認識の能力が改善され、これにより、ユーザに対し、よりよいユーザ体験を提供できる。
図3は、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。同様に、本発明のこの実施形態において、車載システムへのアプリケーションが説明のための一例として使用される。図3に示すように、方法は、以下のステップを含む。
S301a:N個の異なる位置からの音声コマンドに応答する優先順位を設定する。
同様に、図2Aにおける位置の概略図が一例として使用される。図2Aにおいて、車載システムにおける、位置(1)は、運転席の位置であり、位置(2)は、助手席の位置であり、位置(3)車載システムにおいて、後部左座席の位置であり、位置(4)は、後部右座席の位置である。
本発明のこの実施形態において、車載システムを一例として使用する。Kは2であり、Nは4であり、Mは2であるとする。
車載システムにおける車載中央制御デバイスにおいて、4つの異なる位置に従って、4つの異なる位置からの音声コマンドに応答する優先順位を設定する。
例えば、通常のファミリーセダンにおいて設定された音声コマンドの優先順位が一例として使用される。
表1から、「サンルーフを開く」、「サンルーフを閉じる」、「ラジオをつける」、「音楽再生」などのコマンドが位置(1)から発せられる場合には、位置(1)から発せられるコマンドの優先順位は、同じ意味を持つ、別の位置から発せられたコマンドよりも高い。
本発明の別の実施形態において、N個の異なる位置からの音声コマンドに応答する優先順位が設定されている場合、子供の音声と、大人の音声に関する決定要素が追加される。子供の音声である音声コマンドの優先順位は低く設定されるか、又は音声コマンドが子供の音声である場合には、子供の音声である音声コマンドは、ブロックするように設定される。大人の音声である音声コマンドの優先順位は、優先順位が高く設定される。
本発明のこの実施形態において、位置(1)から発せられる「エアコンをオン」のコマンドと、位置(4)から発せられる「エアコンをオフ」のコマンドが同時にある場合を一例として使用する。
S301:K個の第1音声信号を収集する。
本発明のこの実施形態において、説明のためにKが2である場合を用いる。
車載システムにおいて、第1集音センサ及び第2集音センサは、中央バックミラーAの左側と右側にそれぞれ設置されている。
第1集音センサ及び第2集音センサは、第1音声信号を同時に収集する。任意選択で、車載システムにおいて、別の集音センサが車内の後部座席又は車内の別の位置にさらに設置されてもよい。
例えば、「エアコンをオン」のコマンドの音声信号が位置(1)から発せられ、同時に、「エアコンをオフ」のコマンドの音声信号が位置(4)から発せられる場合、第1集音センサ及び第2集音センサは、位置(1)から発せられる「エアコンをオン」のコマンドの音声信号を同時に収集する。同様に、第1集音センサ及び第2集音センサは、位置(4)から発せられる「エアコンをオフ」のコマンドの音声信号を同時に収集する。
S302:N個の異なる位置に対応するN個の位置パラメータに従って、K個の第1音声信号からM個の第2音声信号を抽出する。MはN以下であり、Nは2以上の整数である。
本発明のこの実施形態において、説明のために、Nが4であり、Mが2であることが使用される。
第1集音センサ及び第2集音センサの座標は、空間的な位置において重ならず、第1集音センサ及び第2集音センサの間には特定の距離がある。したがって、第1集音センサにより収集された音声信号の時間は、第2集音センサにより収集された音声信号の時間とは異なる。この場合、位相差が、第1集音センサにより収集された音声信号と、第2集音センサにより収集された音声信号との間に形成される。
本発明では、第1集音センサと第2集音センサがそれぞれ中央バックミラーの左側と右側に配置された例を使用する。本発明において、集音センサの量は限定されず、集音センサの位置も限定されない。例えば、別の集音センサを音声が発生され得る一の周辺にさらに配置してもよく、例えば、図2Aに示されている位置(1)又は位置(2)の座席の後ろ側に配置される。
例えば、車載中央制御デバイスは、位置(1)のプリセットされた位置パラメータに従って、位置(1)から発せられた第2音声信号を抽出する。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(1)のプリセットされた位置パラメータに従って、収集された第1音声信号から、位置(1)から発せられた第2音声信号を抽出する。
同時に、車載中央制御デバイスは、位置(4)のプリセットされた位置パラメータに従って、位置(4)から発せられた第2音声信号を抽出する。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(4)のプリセットされた位置パラメータに従って、収集された第1音声信号から、位置(4)から発せられた第2音声信号を抽出する。
例えば、車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(1)の位置パラメータに従って、位置(1)のプリセットされた位置パラメータに合致する音声信号を抽出する。例えば、位置(1)から発せられた「エアコンをオン」の音声信号が収集される。車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、位置(4)の位置パラメータに従って、位置(2)のプリセットされた位置パラメータに合致する音声信号を抽出する。例えば、位置(4)から発せられた「エアコンをオフ」の音声信号が収集される。
S303:各第2音声信号に対応する位置を決定する。
車載中央制御デバイスは、ビーム形成アルゴリズムを用いて、4つの位置パラメータに従って、2つの第1音声信号から別々に2つの第2音声信号を抽出する。
例えば、位置パラメータが、位置(1)の位置パラメータである場合、位置(1)から発せられた第2音声信号は、ビーム形成アルゴリズムを用いて、位置(1)の位置パラメータに従って抽出され、第2音声信号に対応する位置パラメータに従って、抽出された第2音声信号に対応する発生位置が位置(1)であることを決定する。
S304:M個の抽出された第2音声信号に対して音声認識を実施する。
車載中央制御デバイスは、抽出された音声信号に対して音声認識を実施し、抽出された音声信号を認識する。
例えば、車載中央制御デバイスは、位置(1)から抽出された音声信号に対して、音声認識を実施し、抽出された音声信号が「エアコンをオン」であることを認識する。車載中央制御デバイスは、位置(4)から抽出された音声信号に対して音声認識を実施し、抽出された音声信号が「エアコンをオフ」であることを認識する。
S305:M個の第2音声信号に対応する音声コマンドを取得する。
車載中央制御デバイスは、M個の抽出された第2音声信号に対応する音声コマンドを取得する。
例えば、車載中央制御デバイスは、抽出された位置(1)から発せられた音声信号に対応する 音声コマンドを取得し、音声コマンド「エアコンをオン」を取得する。車載中央制御デバイスは、抽出された位置(4)から発せられた音声信号に対応する音声コマンドを取得し、音声コマンド「エアコンをオフ」を取得する。
S306:M個の音声コマンドに応答する。
車載中央制御デバイスは、M個の抽出された第2音声信号に対応する取得された音声コマンドに従ってM個の音声コマンドに応答する。
例えば、位置(1)から発せられた音声コマンド「エアコンをオン」を取得した後、車載中央制御デバイスは、音声コマンドに応答し、エアコンをオンにする。
本発明の別の実施形態において、車載中央制御デバイスは、位置(1)から抽出された音声信号と位置(4)から抽出された音声信号とに対して音声認識を実施し、抽出された音声信号を認識する。車載中央制御デバイスは、抽出された位置(1)から発せられた音声信号と抽出された位置(4)から発せられた音声信号とに対して音声認識を実施し、抽出された音声信号を認識する。抽出された位置(1)から発せられた音声信号に対応する音声コマンドが取得され、抽出された位置(4)から発せられた音声信号に対応する音声コマンドが取得される。例えば、位置(1)から発せられた音声コマンド「エアコンをオン」と、位置(4)から発せられた音声コマンド「エアコンをオフ」が取得される。取得された位置(1)から発せられた音声コマンド「エアコンをオン」と、取得された位置(4)から発せられた音声コマンド「エアコンをオフ」に従って、車載中央制御デバイスは、2つの音声コマンドに応答する。任意選択で、音声認識により2つの位置からの音声コマンドを取得する場合、車載中央制御デバイスは、2つの音声コマンドに対応する2つの異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答し得る。例えば、位置(1)の優先順位は、位置(4)の優先順位より高い。車載中央制御デバイスは、位置(1)からの音声コマンド「エアコンをオン」に優先的に応答し、エアコンをオンにする。車載中央制御デバイスは次いで位置(4)からの音声コマンド「エアコンをオフ」に応答する。この場合、車載中央制御デバイスが応答する位置(1)からの音声コマンドは、「エアコンをオン」であるが、位置(4)からの音声コマンドは、「エアコンをオフ」である。したがって、位置(1)からの音声コマンドと、位置(4)からの音声コマンドは、コマンドが対立しており、車載中央制御デバイスは、位置(1)からの音声コマンドと、位置(4)からの音声コマンドの双方に応答することができない。したがって、位置(4)からの音声信号に対して音声認識を実施した後、車載中央制御デバイスは、抽出された音声信号に対応する音声コマンドを取得し、位置(4)からの音声コマンドに応答しない。コマンドの対立は、優先順位様式により処理され、車載中央制御デバイスが、複数の対立コマンドに応答する場合、車載中央制御デバイスがコマンドの対立により正しい応答ができなくなることが減り、応答ミスにより生じるエラーが低減される。
対立コマンドは、具体的には以下のように定義される:同じリソースが少なくとも2つのコマンドに対して使用され、少なくとも2つのコマンドが実行される間、同じリソースに対して異なる動作が実施される場合、前述の少なくとも2つのコマンドは、対立コマンドである。
本発明の別の実施形態において、取得された2つの音声コマンドが互いに対立する場合、時間に関する決定要素が追加される。優先順位の高いコマンドが認識された後、車載中央制御デバイスがプリセット時間T1内に対立コマンドを認識したが、認識された対立コマンドが、比較的低い優先順位を有している場合、比較的低い優先順位を有するそのコマンドは無視される。優先順位の高いコマンドが認識された後、車載中央制御デバイスがプリセット時間T1内に対立コマンドを認識した場合、車載中央制御デバイスは、音声コマンドが認識された時間順に従って、取得された音声コマンドに応答する。
図3Aは、本発明の別の実施形態による、音声の発生位置を特定する方法のフローチャートである。本発明の別の実施形態において、ステップS301が実施される前に、以下のステップが実施されてもよい。
S401:車載システム内の少なくとも1つの座席が占有されているかどうかを判定する。
具体的には、車載システムは、重力センシングによって、車載システム内の座席が占有されているかどうかを判定し得る。
例えば、重力センシングにより、図2Aの車載システム内の座席が占有されているかどうかが判定される。例えば、図2Aの位置(1)、位置(2)、位置(3)、又は位置(4)が占有されているかどうかが判定される。
車載システムが車載システム内の座席がいずれも占有されていないと判定する場合、ステップS301は実施されない。
車載システムが、車載システムの少なくとも1つの座席が占有されていると判定する場合、ステップS301が実施される。
音声信号が収集される前に、車載システムの少なくとも1つの座席が占有されているかどうかがまず判定される。音声の発生位置は、車載システム内の座席が占有されている場合にのみ特定され、これにより、音声収集の効率性が改善されるとともに音声の発生位置の決定の効率性が改善される。
本発明の別の実施形態において、図3Bに示すように、ステップS305が実施された後、ステップS305a:M個の抽出された第2音声信号の声紋を認識するステップ、が実施されてもよい。
S305b:車載システム内の占有された座席上のユーザの体重を測定する。
S305c:ユーザの測定された体重と第2音声信号の認識された声紋を基準にしてユーザの身元を判定する。
S305d:判定されたユーザの身元に従って、ユーザにより発せられた第2音声信号に対応する音声コマンドの優先順位を決定する。
S305e:ユーザにより発せられた第2音声信号に対応する音声コマンドの優先順位に従って、第2音声信号に対応する音声コマンドに応答する。
重力センシングと声紋認識を組み合わせた様式により、ユーザの身元及びユーザにより発せられた音声信号に対応する音声コマンドの優先順位が決定される。ユーザにより発せられた音声信号に対応する音声コマンドの優先順位を基準にして、複数の音声コマンドに応答する優先順位が決定され、これにより、車載中央制御デバイスが複数の音声コマンドに応答する必要があることから、車載中央制御デバイス内で生じるエラーやミスを減少させる。
本発明は、音声の発生位置を特定するための方法を提供し、M個の第2音声信号は、ビーム形成アルゴリズムを用いて、位置パラメータに従って、K個の第1音声信号から抽出され、各第2音声信号に対応する発生位置が判定され得る。さらに、音声コマンドの優先順位が設定され、優先順位の高いコマンドを優先的に処理する方法が対立コマンドを処理するために使用され、これにより、車載中央制御デバイスが複数の対立コマンドに応答することによる競合を低減し、応答ミスによるエラーを低減し、これによりユーザ体験を改善する。
図4は、本発明の一実施形態による、端末デバイス400である。端末デバイス400は、本発明の実施形態の前述の方法を実施するように構成されている。図4に示すように、端末デバイス400は、モバイルフォン、タブレットコンピュータ、PDA(Personal Digital Assistant, 個人用デジタル補助装置)、POS(Point of Sale, 販売時点情報管理)、又は車載中央制御端末デバイスなどの端末デバイスであり得る。端末デバイス400は、RF(Radio Frequency, 無線周波数)回路410、メモリ420、入力装置430、表示装置440、センサ450、音声回路460、WiFi(Wireless Fidelity, ワイヤレス・フィディリティー)モジュール470、プロセッサ480、及び電源490などの構成要素を含む。当業者であれば、図4に示されている端末デバイスの構成は、単なる実装様式の一例にすぎず、端末デバイスを限定するものではなく、図に示されるよりも多い又は少ない構成要素を含んでもよく、又はいくつかの構成要素の組み合わせ、又は構成要素を異なる配置としてもよいことは、理解し得る。
RF回路410は、情報の受信及び送信処理又は呼び出し処理の間、信号を受信及び送信するように構成され得る。具体的には、RF回路410は、基地局からダウンリンク情報を受信し、次いで、処理のためにダウンリンク情報をプロセッサ480に配信し、関連するアップリンクデータを基地局に送信する。一般に、RF回路410は、アンテナ、少なくとも1つの増幅器、トランシーバ、カプラ、LNA(Low Noise Amplifier, 低雑音増幅器)、及びデュプレクサを含むが、これに限定されない。さらに、RF回路410は、無線通信によって、ネットワーク及び別の端末デバイスとさらに通信できる。無線通信は、GSM(登録商標)(Global System of Mobile communication, 移動通信用グローバルシステム)、GPRS(General Packet Radio Service, 汎用パケット無線システム)、CDMA(Code Division Multiple Access, 符号分割多元接続)、WCDMA(登録商標)(Wideband Code Division Multiple Access, 広域符号分割多元接続)、LTE(Long Term Evolution, ロングタームレボリューション)、e−mail、及びSMS(Short Messaging Service, ショートメッセージサービス)を含む任意の通信規格又はプロトコルを使用し得るがこれに限定されるものではない。
メモリ420は、ソフトウェアプログラム及びモジュールを格納するように構成され得、プロセッサ480は、メモリ420に格納されているソフトウェアプログラム及びモジュールを実行し、端末デバイス400の様々な機能アプリケーション及びデータ処理を実施する。メモリ420は、主にプログラム格納領域とデータ格納領域とを含み、プログラム格納領域は、オペレーティングシステム、少なくとも1つの機能(音声再生機能や画像表示機能など)により必要とされるアプリケーションプログラムなどを格納し得、データ格納領域は、端末デバイス400の使用に応じて生成されたデータ(音声データや電話帳など)などを格納し得る。さらに、メモリ420は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスク記憶装置、フラッシュ記憶装置などの不揮発性メモリ、又は別の揮発性ソリッドステート記憶装置をさらに含んでもよい。
表示装置440は、ユーザにより入力された情報又はユーザのために提供される情報、及び端末デバイス400の種々のメニューを表示するように構成することができる。表示装置440は、表示パネル441を含んでもよい。任意選択で、表示パネル441は、LCD(Liquid Crystal Display, 液晶ディスプレイ)、OLED(Organic Light-Emitting Diode, 有機LED)などの形状を使用して構成される。さらに、タッチパネル431は、表示パネル441で覆ってもよい。タッチパネル431上又はその近傍でのタッチ操作を検出した後、タッチパネル431は、タッチ操作をプロセッサ480に送信し、タッチイベントの種類を判定する。プロセッサ480は、次いでタッチイベントの種類に従って、表示パネル441上に対応する視覚的な出力を提供する。図4において、タッチパネル431と表示パネル441は、端末デバイス400の入力機能と出力機能を実施するための2つの独立した構成要素として使用されている。しかし、いくつかの実施形態においては、タッチパネル431と表示パネル441は、端末デバイス400の入力機能と出力機能を実施するために統合されてもよい。例えば、タッチパネル431と表示パネル441は、端末デバイス400の入力機能と出力機能を実施ためのタッチスクリーンとして統合されてよい。
端末デバイス400は、光センサ、モーションセンサ、及び他のセンサなどの少なくとも1つのセンサ450をさらに含んでもよい。具体的には、光センサは、周囲光センサや近接センサを含み得、周囲光センサは、周囲光の輝度に従って、表示パネル441の光度を調整し得、近接センサは、端末デバイス400が耳に近づいた場合に、表示パネル441又はバックライトのスイッチを切り得る。モーションセンサの一種である加速度センサは、様々な方向(通常3軸方向)の加速度の値を検出し得、端末デバイス400が静止しているときの重力の値や方向を検出でき、携帯電話の姿勢を認識するアプリケーション(例えば、横向きと縦向きの切り替え、関連するゲーム、磁力計の姿勢校正)に適用され得、振動認識に関連する機能(歩数計やタッピングなど)に適用することができる。端末デバイス400上にジャイロ、バロメータ、湿度計、温度計、及び赤外線センサ等の他のセンサをさらに構成し得るが詳細はここでは説明しない。
音声回路460、ラウドスピーカ461、及びマイクロフォン462は、ユーザと端末デバイス400との間の音声インターフェースを提供し得る。音声回路460は、受信された音声データを電子信号に変換し、その電子信号をラウドスピーカ461に送信し得る。ラウドスピーカ461は、電子信号を出力のために音声信号に変換する。一方で、マイクロフォン462は、収集された音声信号を、電子信号に変換する。音声回路460は、電子信号を受信し、電子信号を音声データに変換し、処理のために、音声データをプロセッサ480に出力する。プロセッサ480はその後音声データを例えば、RF回路410を用いて別の携帯電話に送信するか、又は更なる処理のために、音声データをメモリ420に出力する。
端末デバイス400は、WiFiモジュール470を使用することにより、ユーザが電子メールを送受信し、ウェブページを閲覧し、ストリーミングメディアにアクセスすることを助けることができる。WiFiモジュール470は、ユーザに無線ブロードバンドインターネットアクセスを提供する。図4は、WiFiモジュール470を示しているが、WiFiモジュール470は、端末デバイス400の必要的な構成要素ではなく、必要に応じて、本発明の特質の範囲を逸脱しない限り、WiFiモジュール470は省略されてもよいことは理解し得る。
プロセッサ480は、端末デバイス400の制御センタであり、各種インターフェースや回線を用いて、携帯電話全体のすべての部分に接続され、端末デバイス400の各種機能を実施し、メモリ420に格納されているソフトウェアプログラム、又はモジュール、又は両方を実行又は実施し、メモリ402に格納されているデータを呼び出すことによりデータを処理し、端末デバイスを全体的な監視を実施する。任意選択で、プロセッサ480は、1つ又は複数の処理ユニットを含み得る。好適には、プロセッサ480は、アプリケーションプロセッサとモデムプロセッサとを統合し得る。アプリケーションプロセッサは、オペレーティングシステム、ユーザインターフェース、アプリケーションプログラムなどを主に処理する。モデムプロセッサは、主に無線通信を処理する。前述のモデムプロセッサは、プロセッサ480に統合されていなくてもよいことが理解し得る。プロセッサ480は、具体的には、中央演算処理装置(Central Processing Unit, CPU)であってもよい。
端末デバイス400は、様々な構成要素に電力を供給する電源490(例えば、バッテリー)をさらに含んでもよい。好適には、電源は、電力管理システムを使用して充電、放電、及び消費電力管理などの機能を実施するために、電力管理システムを使用してプロセッサ480に論理的に接続され得る。
本発明のこの実施形態において、端末デバイス400は、K個の集音センサ450とプロセッサ480を含み、以下の機能を有する。
集音センサ450は、K個の第1音声信号を収集するように構成され、Kは2以上の整数である。
具体的には、三次元空間におけるK個の集音センサの座標は、異なる。
プロセッサ480は、N個の異なる位置に対応するN個の位置パラメータに従って、K個の第1音声信号からM個の第2音声信号を抽出し、各第2音声信号に対応する位置を決定するように構成され、MはN以下であり、Nは2以上の整数である。
本発明の別の実施形態において、各第2音声信号に対応する位置を決定するように構成されているプロセッサ480は、具体的には、L番目の第2音声信号に対応する位置パラメータに従って、L番目の第2音声信号に対応する位置Lを決定するステップを含み、L番目の第2音声信号は、M個の第2音声信号の内のいずれか一つである。
本発明の別の実施形態において、プロセッサ480は、K個の第1音声信号からM個の第2音声信号を抽出するステップの後に、M個の抽出された第2音声信号に対して音声認識を実施し、M個の第2音声信号に対応するM個の音声コマンドを取得するようにさらに構成されている。
本発明の別の実施形態において、端末デバイス400は、出力装置510をさらに含み、出力装置510は、プロセッサがM個の第2音声信号に対応するM個の音声コマンドを取得した後、M個の音声コマンドに応答するように構成されている。
M個の音声コマンドに応答するように構成される出力装置510は、具体的には、M個の音声コマンドに対応するM個の異なる位置の優先順位に従って、優先順位の高いコマンドに優先的に応答するように構成される出力装置を含む。
本発明のこの実施形態において、出力装置510は、具体的には、音声回路460又は表示装置440であり得る。
本発明の実施形態において、音声の発生位置を特定するための方法及び端末デバイスが提供される。M個の第2音声信号が、ビーム形成アルゴリズムを用いて、位置パラメータに従って、K個の第1音声信号から抽出され、各第2音声信号に対応する発生位置が決定され得る。この方法によれば、異なる位置から発せられた音声信号が効率的に抽出することができ、音声認識の能力が提供され、これにより、ユーザに対し、よりよいユーザ体験を提供できる。
当業者であれば、この明細書に開示された実施形態において説明された実施例と組み合わせて、ユニット、アルゴリズム及び方法のステップをコンピュータソフトウェアと電子ハードウェアの組み合わせにより実施し得ることに気づき得る。機能がハードウェアにより実行されるのかソフトウェアにより実行されるのかは、技術的解決策の具体的なアプリケーション及び設計制約条件に依存する。当業者であれば、特定のアプリケーション毎に説明された機能を実施するために異なる方法を使用し得るが、その実施は本発明の範囲を超えるものであると考えるべきではない。
当業者であれば、前述の移動端末およびアクセス端末は本発明の方法の実施形態における作業処理を別々に実施していることは簡潔かつ簡単な説明のためであることは明確に理解され得、具体的な作業に関しては、前述の方法の実施形態における対応する処理を参照することができ、詳細はここでは再び説明しない。
本出願において提供されるいくつかの実施形態では、開示されたサーバ及び方法は、別の方法においても実施され得る。例えば、説明されたサーバの実施形態は単なる一例に過ぎない。例えば、ユニット分割は単に論理的な機能分割であり実際の実装において他の分割であってもよい。例えば、複数のユニット又は構成要素を組み合わせ、又は別のシステムに統合してもよく、又はいくつかの機能は、無視しても、若しくは実行しなくてもよい。さらに、表示された又は議論された相互結合又は直接結合又は通信接続は、いくつかのインターフェースを用いて実装され得る。装置間又はユニット間の間接結合又は通信接続は、電子的、機械的、又は他の形状で実施されてもよい。
別々の部品として説明されたユニットは、物理的に分離されていてもいなくてもよく、ユニットとして表示される部品は、物理ユニットであってもなくてもよく、一か所に配置されてよいし、又は複数のネットワークユニットに分配されてもよい。本発明の実施形態の解決策の目的を達成するために、ユニットの一部又は全部は、実際の必要に応じて選択することができる。
また、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、又はユニットのそれぞれが単独で物理的に存在してもよいし、又は2つ以上のユニットが1つのユニットに統合されてもよい。
当業者であれば、方法の実施形態のステップの全部または一部を、関連するハードウェアに指示するプログラムにより実施され得ることを理解し得る。プログラムは、コンピュータ可読記憶媒体に格納されてよい。プログラムが実行されると、方法の実施形態のステップが実施される。上記記憶媒体は、ROM、RAM、磁気ディスク、又は光ディスクなどのプログラムコードを格納可能な任意の媒体が含まれる。
上記の説明は本発明の特定の実施形態にすぎないが、本発明の保護範囲を限定するものではない。本発明において説明される技術範囲を逸脱することなく当業者によって行われるいかなる変形または置換も、本発明の保護範囲内に入るものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
401 RF回路
490 電源
420 メモリ
430 入力装置
431 タッチパネル
432 その他の入力デバイス
470 WiFiモジュール
460 オーディオ回路
461 ラウドスピーカ
462 マイクロフォン
450 センサ
510 出力装置
440 表示装置
441 表示パネル
プロセッサ480は、端末デバイス400の制御センタであり、各種インターフェースや回線を用いて、携帯電話全体のすべての部分に接続され、端末デバイス400の各種機能を実施し、メモリ420に格納されているソフトウェアプログラム、又はモジュール、又は両方を実行又は実施し、メモリ420に格納されているデータを呼び出すことによりデータを処理し、端末デバイスを全体的な監視を実施する。任意選択で、プロセッサ480は、1つ又は複数の処理ユニットを含み得る。好適には、プロセッサ480は、アプリケーションプロセッサとモデムプロセッサとを統合し得る。アプリケーションプロセッサは、オペレーティングシステム、ユーザインターフェース、アプリケーションプログラムなどを主に処理する。モデムプロセッサは、主に無線通信を処理する。前述のモデムプロセッサは、プロセッサ480に統合されていなくてもよいことが理解し得る。プロセッサ480は、具体的には、中央演算処理装置(Central Processing Unit, CPU)であってもよい。

Claims (13)

  1. 音声の発生位置を特定するための方法であって、前記方法は、
    K個の第1音声信号を収集するステップであって、Kは2以上の整数である、ステップと、
    N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するステップであって、MはN以下であり、Nは2以上の整数である、ステップと、
    各第2音声信号に対応する位置を決定するステップと、
    を具備することを特徴とする音声の発生位置を特定するための方法。
  2. N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出する前記ステップは、具体的には、
    ビーム形成アルゴリズムを用いて、前記N個の位置パラメータに従って、前記K個の第1音声信号から前記M個の第2音声信号を別々に抽出するステップ
    を具備することを特徴とする請求項1に記載の方法。
  3. 各第2音声信号に対応する位置を決定する前記ステップは、具体的には、
    L番目の第2音声信号に対応する位置パラメータに従って、前記L番目の第2音声信号に対応する位置Lを決定するステップであって、前記L番目の第2音声信号は、前記M個の第2音声信号の内のいずれか一つである、ステップ
    を具備することを特徴とする請求項1又は2に記載の方法。
  4. 前記K個の第1音声信号からM個の第2音声信号を抽出する前記ステップの後に、前記方法は、
    前記M個の抽出された第2音声信号に対して音声認識を実施するステップと、
    前記M個の第2音声信号に対応するM個の音声コマンドを取得するステップと、
    をさらに具備することを特徴とする請求項1から3のいずれか一項に記載の方法。
  5. 前記M個の第2音声信号に対応するM個の音声コマンドを取得する前記ステップの後に、前記方法は、
    前記M個の音声コマンドに応答するステップ
    をさらに具備することを特徴とする請求項4に記載の方法。
  6. 前記M個の音声コマンドに応答する前記ステップは、前記M個の音声コマンドに対応するM個の異なる位置の優先順位に従って、優先順位の高い音声コマンドに優先的に応答するステップを具備することを特徴とする請求項5に記載の方法。
  7. 端末デバイスであって、前記端末デバイスは、
    K個の第1音声信号を収集するように構成されたK個の集音センサであって、Kは2以上の整数である、K個の集音センサと、
    N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出し、各第2音声信号に対応する位置を決定するように構成されたプロセッサであって、MはN以下であり、Nは2以上の整数である、プロセッサと、
    を具備することを特徴とする端末デバイス。
  8. 前記プロセッサが、N個の異なる位置に対応するN個の位置パラメータに従って、前記K個の第1音声信号からM個の第2音声信号を抽出するように構成されることは、具体的には、
    前記プロセッサが、ビーム形成アルゴリズムを用いて、前記N個の位置パラメータに従って、前記K個の第1音声信号から別々に前記M個の第2音声信号を抽出するように構成される
    ことを含むことを特徴とする請求項7に記載の端末デバイス。
  9. 前記プロセッサが、各第2音声信号に対応する位置を決定するように構成されることは、具体的には、
    L番目の第2音声信号に対応する位置パラメータに従って、前記L番目の第2音声信号に対応する位置Lを決定するステップであって、前記L番目の第2音声信号は、前記M個の第2音声信号の内のいずれか一つである、ステップ
    を含むことを特徴とする請求項7又は8に記載の端末デバイス。
  10. 前記プロセッサは、前記K個の第1音声信号から前記M個の第2音声信号を抽出した後、前記M個の抽出された第2音声信号に対して音声認識を実施し、前記M個の第2音声信号に対応するM個の音声コマンドを取得するようにさらに構成されていることを特徴とする請求項7から9のいずれか一項に記載の端末デバイス。
  11. 前記端末デバイスは、出力装置をさらに具備し、
    前記出力装置は、前記プロセッサが前記M個の第2音声信号に対応する前記M個の音声コマンドを取得した後に、前記M個の音声コマンドに応答するように構成されている
    ことを特徴とする請求項7から10のいずれか一項に記載の端末デバイス。
  12. 前記出力装置が、前記M個の音声コマンドに応答するように構成されることは、具体的には、
    前記出力装置が、前記M個の音声コマンドに対応するM個の異なる位置の優先順位に従って、優先順位の高いコマンドに優先的に応答するように構成される
    ことを含むことを特徴とする請求項11に記載のデバイス。
  13. 三次元空間における前記K個の集音センサの座標は異なることを特徴とする請求項7から12のいずれか一項に記載のデバイス。
JP2017557075A 2015-05-20 2015-05-20 音声の発生位置を特定するための方法及び端末デバイス Active JP6615227B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/079391 WO2016183825A1 (zh) 2015-05-20 2015-05-20 一种定位声音发出位置的方法和终端设备

Publications (3)

Publication Number Publication Date
JP2018524620A true JP2018524620A (ja) 2018-08-30
JP2018524620A5 JP2018524620A5 (ja) 2019-10-17
JP6615227B2 JP6615227B2 (ja) 2019-12-04

Family

ID=57319145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017557075A Active JP6615227B2 (ja) 2015-05-20 2015-05-20 音声の発生位置を特定するための方法及び端末デバイス

Country Status (6)

Country Link
US (1) US10410650B2 (ja)
EP (1) EP3264266B1 (ja)
JP (1) JP6615227B2 (ja)
KR (1) KR102098668B1 (ja)
CN (1) CN107430524B (ja)
WO (1) WO2016183825A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019069731A1 (ja) * 2017-10-06 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法、プログラム、および移動体
CN110556113A (zh) * 2018-05-15 2019-12-10 上海博泰悦臻网络技术服务有限公司 基于声纹识别的车辆控制方法与云端服务器
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
US10944588B2 (en) * 2018-11-29 2021-03-09 International Business Machines Corporation Resolving conflicting commands received by an electronic device
KR102592833B1 (ko) * 2018-12-14 2023-10-23 현대자동차주식회사 차량의 음성 인식 기능 연동 제어 시스템 및 방법
WO2020184753A1 (ko) * 2019-03-12 2020-09-17 엘지전자 주식회사 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
CN110297702B (zh) * 2019-05-27 2021-06-18 北京蓦然认知科技有限公司 一种多任务并行处理方法和装置
JP7198741B2 (ja) * 2019-12-27 2023-01-04 本田技研工業株式会社 車両操作権管理装置、車両操作権管理方法及びプログラム
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치
CN111786860B (zh) * 2020-06-29 2022-04-01 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质
CN115503639A (zh) * 2022-10-13 2022-12-23 广州小鹏汽车科技有限公司 语音处理方法、语音交互方法、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289587A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 機器制御装置および機器制御方法
JP2009282704A (ja) * 2008-05-21 2009-12-03 Denso Corp 自動車用情報提供システム
JP2011216090A (ja) * 2010-03-31 2011-10-27 Denso Corp 交通カメラ画像を表示する方法及び交通カメラ画像表示システム
US20150110287A1 (en) * 2013-10-18 2015-04-23 GM Global Technology Operations LLC Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0418831A (ja) 1990-05-14 1992-01-23 Sony Corp 遠隔制御装置
JP3863306B2 (ja) * 1998-10-28 2006-12-27 富士通株式会社 マイクロホンアレイ装置
JP4327510B2 (ja) 2003-06-05 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 リモート操作システム
CN1815556A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可利用语音命令操控车辆的方法及系统
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US8141115B2 (en) 2008-12-17 2012-03-20 At&T Labs, Inc. Systems and methods for multiple media coordination
KR101987966B1 (ko) 2012-09-03 2019-06-11 현대모비스 주식회사 차량용 어레이 마이크의 음성 인식 향상 시스템 및 그 방법
US9462385B2 (en) 2013-03-28 2016-10-04 Jvis-Usa, Llc Speaker system such as a sound bar assembly having improved sound quality
CN104464739B (zh) 2013-09-18 2017-08-11 华为技术有限公司 音频信号处理方法及装置、差分波束形成方法及装置
KR101500150B1 (ko) 2013-09-25 2015-03-06 현대자동차주식회사 차량의 음향 제어 장치 및 방법
TWI598774B (zh) * 2013-10-25 2017-09-11 和冠股份有限公司 電磁書寫單元及兼具墨水與電磁書寫功能的電磁式手寫筆
US20160012827A1 (en) * 2014-07-10 2016-01-14 Cambridge Silicon Radio Limited Smart speakerphone
US20160080861A1 (en) * 2014-09-16 2016-03-17 Toyota Motor Engineering & Manufacturing North America, Inc. Dynamic microphone switching
DE102015220400A1 (de) * 2014-12-11 2016-06-16 Hyundai Motor Company Sprachempfangssystem im fahrzeug mittels audio-beamforming und verfahren zum steuern desselben
US10304463B2 (en) * 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289587A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 機器制御装置および機器制御方法
JP2009282704A (ja) * 2008-05-21 2009-12-03 Denso Corp 自動車用情報提供システム
JP2011216090A (ja) * 2010-03-31 2011-10-27 Denso Corp 交通カメラ画像を表示する方法及び交通カメラ画像表示システム
US20150110287A1 (en) * 2013-10-18 2015-04-23 GM Global Technology Operations LLC Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system

Also Published As

Publication number Publication date
WO2016183825A1 (zh) 2016-11-24
CN107430524A (zh) 2017-12-01
EP3264266B1 (en) 2020-08-05
EP3264266A4 (en) 2018-03-28
EP3264266A1 (en) 2018-01-03
JP6615227B2 (ja) 2019-12-04
US10410650B2 (en) 2019-09-10
KR20170129249A (ko) 2017-11-24
KR102098668B1 (ko) 2020-04-08
CN107430524B (zh) 2020-10-27
US20180108368A1 (en) 2018-04-19

Similar Documents

Publication Publication Date Title
JP6615227B2 (ja) 音声の発生位置を特定するための方法及び端末デバイス
KR102574898B1 (ko) 전자 장치 및 그의 무선 통신 제어 방법
US10183680B2 (en) Mobile terminal and method for controlling application for vehicle
WO2021027267A1 (zh) 语音交互方法、装置、终端及存储介质
US10546587B2 (en) Electronic device and method for spoken interaction thereof
US9743222B2 (en) Method for controlling and an electronic device thereof
US20190196679A1 (en) Method for presenting content based on checking of passenger equipment and distraction
US20160277878A1 (en) Method for communicating data and electronic device thereof
US10652680B2 (en) Electronic device and method for controlling input and output by electronic device
US9924299B2 (en) Method and apparatus for controlling operations of electronic device
EP3742769B1 (en) Service processing method and mobile communication terminal
KR20150100394A (ko) 이미지 표시 방법 및 장치
US20160219359A1 (en) Ear jack recognition method and electronic device supporting the same
US10636122B2 (en) Method, device and nonvolatile computer-readable medium for image composition
CN112230877A (zh) 一种语音操作方法、装置、存储介质及电子设备
US20230164103A1 (en) Electronic device providing notification and method for operating the same
EP3504885B1 (en) Electronic device for controlling speaker and operating method thereof
CN114035876A (zh) 信息展示方法、移动终端及存储介质
CN113641110B (zh) 处理方法、处理设备及可读存储介质
KR20190034896A (ko) 사용자 기반 웹 매뉴얼 제공 방법 및 시스템
CN106648972A (zh) 一种数据备份方法及移动终端
CN114201584A (zh) 模板校验方法及相关装置
CN117672217A (zh) 语音唤醒模型的训练方法、装置、设备及存储介质
CN114143902A (zh) 数据传输方法、智能终端及存储介质
CN116682423A (zh) 一种语音意图匹配方法、装置、智能座舱和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190603

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20190903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191105

R150 Certificate of patent or registration of utility model

Ref document number: 6615227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250