JP2021531685A - クロストークデータ検出方法および電子デバイス - Google Patents

クロストークデータ検出方法および電子デバイス Download PDF

Info

Publication number
JP2021531685A
JP2021531685A JP2021500297A JP2021500297A JP2021531685A JP 2021531685 A JP2021531685 A JP 2021531685A JP 2021500297 A JP2021500297 A JP 2021500297A JP 2021500297 A JP2021500297 A JP 2021500297A JP 2021531685 A JP2021531685 A JP 2021531685A
Authority
JP
Japan
Prior art keywords
voice data
data block
time difference
segment
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021500297A
Other languages
English (en)
Inventor
ユンフェン・シュ
タオ・ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2021531685A publication Critical patent/JP2021531685A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/46Monitoring; Testing
    • H04B3/487Testing crosstalk effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/26Arrangements for supervision, monitoring or testing with means for applying test signals or for measuring
    • H04M3/34Testing for cross-talk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

クロストークデータを検出する方法および電子デバイスが、本明細書に開示されている。クロストークデータを検出する方法は、音声データストリームがクロストークデータを含むかどうかを検出することができる。

Description

本出願は、2018年7月12日に出願され、その全体が参照によって本明細書に組み込まれる「Crosstalk Data Detection Method and Electronic Device」と題された「中国出願第2018/10763010.9号の優先権を主張する。
本発明は、コンピュータの技術分野、特にクロストークデータ検出方法および電子デバイスに関する。
実生活では、人々が集まってコミュニケーションを取り、問題について議論する。あるシナリオでは、マイクを使用して音源を増幅することができ、またサイト上の複数のマイクが、各人の音声データを収集できる。場合によっては、2つ以上のマイクが互いに非常に近接している場合、クロストークが発生し得る。
本明細書の実装は、クロストークデータを検出できるクロストークデータ検出方法および電子デバイスを提供する。
本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として使用することと、第1の音声データブロックの1つ以上の音声データセグメントの1つ以上の取得時間と第2の音声データブロックの1つ以上の対応する音声データセグメントの1つ以上の取得時間との間の1つ以上の時間差を1つ以上の音声セグメント時間差として使用することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む。
本明細書の実装は、電子デバイスを提供し、電子デバイスは、第1の音声データブロックを生成するように構成された第1の音検知デバイスであって、第1の音声データブロックが複数の音声データセグメントを含む、第1の音検知デバイスと、第2の音声データブロックを生成するように構成された第2の音検知デバイスであって、第2の音声データブロックが複数の音声データセグメントを含む、第2の音検知デバイスと、プロセッサであって、第1の音声データブロックの複数の音声データセグメントと第2の音声データブロックの複数の音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得し、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データの取得時間との間の時間差を基準時間差として使用し、第1の音声データブロックの1つ以上の音声データセグメントの1つ以上の取得時間と第2の音声データブロックの1つ以上の対応する音声データセグメントの1つ以上の取得時間との間の1つ以上の時間差を1つ以上の音声セグメント時間差として使用し、そして関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、を含む。
本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として使用することと、基準時間差、第1の音声データブロック、および第2の音声データブロックをサーバーに送信して、サーバーが、第1の音声データブロックの1つ以上の音声データセグメントの1つ以上の取得時間と第2の音声データブロックの1つ以上の対応する音声データセグメントの1つ以上の取得時間との間の1つ以上の時間差を1つ以上の音声時間差として使用し、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定できるようにすることと、を含む。
本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第1の音声データブロック、第2の音声データブロック、および基準時間差を受信することであって、第1の音声データブロックと第2の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の対応する音声データセグメントとの間の時間差を音声セグメント時間差として使用することと、音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの音声データセグメントがクロストークデータを含んでいると判定することと、を含む。
本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックが複数の音声データセグメントを別々に含む、受信することと、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値、第1の音声データブロック、および第2の音声データブロックをサーバーに送信し、サーバーが、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントとの間の時間差を基準時間差として設定し、第1の音声データブロック内の1つ以上の音声データセグメントの1つ以上の取得時間と、第2の音声データブロック内の1つ以上の対応する音声データセグメントの1つ以上の取得時間との間の1つ以上の時間差を1つ以上の音声セグメント時間差として設定し、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定できるようにすることと、を含む。
本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、相関係数のピーク値、第1の音声データブロックおよびクライアントによって提供された第2の音声データブロックを受信することであって、ピーク値が、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数のピーク値である、受信することと、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定することと、第1の音声データブロック内の1つ以上の音声データセグメントの1つ以上の取得時間と第2の音声データブロック内の1つ以上の対応する音声データセグメントの1つ以上の取得時間との間の1つ以上の時間差を1つ以上の音声セグメント時間差として設定することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む。
本明細書の実装は、第1の音声データブロックおよび第2音声データブロックを受信することであって、第1の音声データブロックおよび第2音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第1の音声データブロックおよび第2の音声データブロックをサーバーに送信し、サーバーが、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することができるようにすることと、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定することと、第1の音声データブロック内の1つ以上の音声データセグメントの1つ以上の時間差と第2の音声データブロック内の1つ以上の対応する音声データセグメントとの間の1つ以上の時間差を1つ以上の音声セグメント時間差の1つ以上の取得時間として設定することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む、クロストークデータを検出する方法を提供する。
本明細書の上記の実装によって提供される技術的解決策から分かるように、第1の音声データブロックと第2の音声データブロックとの間の基準時間差を判定することによって、基準時間差に基づいてクロストークデータの検出が達成される。音の遅延情報は音源とマイクの空間的位置に関係しているため、音声データブロックがクロストークデータを含んでいるかどうかが、遅延の時間差に基づいて効率的に検知され得る。
本明細書または既存の技術の実装における技術的解決策をより明確に説明するために、実装または既存の技術の説明に使用する必要のある図面を本明細書で簡単に説明する。明らかに、説明された図面は、本明細書に記録されているいくつかの実装のみを表している。当業者は、いかなる創造的な努力もすることなく、これらの図面に基づいて他の図面を取得することができる。
本明細書の実装により提供されるクロストークデータ検出システムの概略図である。 本明細書の実装により提供される討論会のシナリオ下でのクロストークデータ検出システムの概略アプリケーションシナリオ図である。 本明細書の実装により提供される音声データブロックの送信経路の概略図である。 本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。 本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。 本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。
当業者が本明細書の技術的解決策をよりよく理解できるようにするために、本明細書の実装における技術的解決策を、本明細書の実装における図面を参照して以下に明確かつ完全に説明する。明らかに、説明される実装は、本明細書の実装のすべてではなく、一部のみを表している。本明細書の実装に基づいて、いかなる創造的な努力もすることなく、当業者によって取得される他のすべての実装は、本出願の保護の範囲内に含まれるべきである。
図1および図2を参照すると、例示的なシナリオでは、賛成側および反対側の4人の討論者が、討論シーンで長いテーブルの両端にそれぞれ座っている。長いテーブルにはそれぞれ2つのマイクが配置されており、討論者が発する音を検知するために使用され、マイクによって検知された音はパワーアンプによって増幅される。
この例示的なシナリオでは、第1の発言者がマイクAの前で発言し、「私は、グローバリゼーションは発展途上国にとって有益だと思う」と話す。マイクAとマイクBとの間の距離が比較的短いため、マイクBはまた、「私は、グローバリゼーションは開発途上国にとって有益だと思う」という声を検知し得る。同時に、討論者BはマイクBの前で、「グローバリゼーションは貿易の発展に有益である」と話す。マイクAはまた、「グローバリゼーションは貿易の発展に有益である」という声を検知し得る。したがって、マイクAおよびマイクBは、検知された音に従ってそれぞれの音声データストリームを生成し得る。
この例示的なシナリオでは、電子デバイスがセットアップされ得、電子デバイスは、受信モジュールを介してマイクAおよびマイクロBによって生成された音声データストリームを受信し、そして音声データストリームを処理し、音声データストリーム内のクロストークデータを検出し得る。
この例示的なシナリオでは、討論者AがマイクAに向かって「私は、グローバリゼーションは発展途上国に有益だと思う」と話し、そして討論者BがマイクBに向かって「グローバリゼーションは貿易の発展に有益である」と話したときに、電子デバイスは、マイクAによって検知された音を受信し、音声データストリームを生成する。同時に、マイクBもまた、それによって検知された音に基づいて音声データストリームを生成し得る。受信モジュールは、マイクの数に対応する複数のデータチャネルを有し得る。マイクAはデータチャネルAに対応し、マイクBはデータチャネルBに対応する。この例示的なシナリオでは、合計8つのマイクがあり得、また電子デバイスには8つのデータチャネルがあり得る。さらに、電子デバイスは、WIFIによってデータチャネルを介してマイクによって入力された音声データストリームを受信し得る。
この例示的なシナリオでは、受信モジュールは、音声データストリームを音声データブロックに分割し得る。具体的には、データチャネルA内の音声データストリームを分割して第1の音声データブロックを取得し、またデータチャネルB内の音声データストリームを分割して第2の音声データブロックを取得し得る。
この例示的なシナリオでは、電子デバイスは、データチャネルAによって入力された音声データストリームをターゲットとして使用し得、データチャネルA内の音声データストリームが、データチャネルAおよびデータチャネルB内の音声データストリーム間の関連性に基づいてクロストークデータを有するかどうかを検出する。
この例示的なシナリオでは、第1の音声データブロックおよび第2の音声データブロックの各音声データブロックは、1000msの単位でいくつかの音声データセグメントに分割され得る。
この例示的なシナリオでは、電子デバイスの係数計算モジュールは、第1の音声データブロックおよび第2の音声データブロックに対して別々にフーリエ変換を実行し得る。第1の音声データブロックおよび第2の音声データブロックのフーリエ変換に従って、相互相関関数が生成される。第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の相関は、相互相関関数に従って計算することができる。具体的には、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の相関を別々に計算することができ、また計算された相関の最大値を、第1の音声データブロック内の音声データセグメントと相関する最大値に対応する第2の音声データブロック内の音声データセグメントと見なすことができる。このように、最大値は、第1の音声データブロック内の音声データセグメントの最終的な相関係数と見なすことができる。
この例示的なシナリオでは、相互相関関数に従って、音声データブロック内の音声データセグメントに対応する相関係数を計算できる。同時に発言している人が2人いるために、音声データブロック内の音声データセグメントに対応する相関係数には、それぞれ0.3と0.5の2つのピークがあり得る。第1の相関係数として0.3、第2の相関係数として0.5を判定し得る。
この例示的なシナリオでは、閾値を設定することができ、そして音声データセグメントを閾値に従ってフィルタリングして、音声データブロック内の有効なデータを取得し得る。例えば、閾値は0.1であり得る。相関係数が0.1より大きい場合、相関係数に対応する第1の音声データブロック内の音声データセグメントは、第2の音声データブロック内の音声データセグメントと比較的類似度が高いと見なされ得る。これら2つの音声データセグメントは、同じ音源に由来すると見なされ、つまり、有効なデータと見なされ得る。相関係数が0.1未満の場合、相関係数に対応する、第1の音声データブロックおよび第2の音声データブロック内のそれぞれの音声データセグメント間の類似度は低いとみなされ、相関係数に対応する第1の音声データブロック内のそれぞれの音声データセグメントがノイズであリ得るとみなされ得る。この例示的なシナリオでは、ノイズと見なされる音声データセグメントに対してクロストーク検出が実行されない場合がある。第1の相関係数および第2の相関係数は、どちらも0.1より大きい0.3と0.4であるため、第1の相関係数および第2の相関係数に対応する音声データセグメントは有効なデータと見なされ得る。
この例示的なシナリオでは、係数計算モジュールは、第1の相関係数に対応する第1の音声データブロック内の音声データセグメントを第1のターゲット音声データセグメントとして判定し、第2の相関に対応する第1の音声データブロック内の音声データセグメントを第2のターゲット音声データセグメントとして判定し、第1の相関係数に対応する第2の音声データブロック内の音声データセグメントを第1の補助音声データセグメントとして判定し、そして、第2の相関係数に対応する第2の音声データブロック内の音声データセグメントを第2の補助音声データセグメントとして判定し得る。
この例示的なシナリオでは、電子デバイスの時間差判定モジュールは、第1のターゲット音声データセグメントと第1の補助音声データセグメントとの間の第1の時間差を計算し得る。例えば、第1の時間差は30msであり得る。第2のターゲット音声データセグメントと第2の補助音声データセグメントとの間の第2の時間差が計算される。例えば、第2の時間差は60msであり得る。
この例示的なシナリオでは、時間差判定モジュールは、第1の時間差と第2の時間差のうちの小さい方を基準時間差として、そして他方をクロストーク時間差として判定し得る。言い換えると、基準時間差は30msと判定でき、またクロストーク時間差は60msと判定できる。
この例示的なシナリオでは、電子デバイスの処理モジュールは、相関係数に従って、第1の音声データブロック内の各音声データセグメントに対応する第2の音声データブロック内のそれぞれの音声データセグメントを判定し、さらに第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算する。第1の音声データブロック内の音声データセグメントに対応する音声セグメント時間差が30msに等しい場合、第1の音声データブロック内の音声データセグメントが主音声データであると判定される。音声セグメント時間差が60msに等しい場合、第1の音声データブロック内の関連する音声データセグメントがクロストークデータであると判定される。
例示的なシナリオでは、討論者Bが発言し、そして討論者Bが目の前のマイクBに向かって話し、「私は、グローバリゼーションは発展途上国にとって有益だと思う」と言う。マイクAは比較的マイクBに近いので、マイクAもまた「私は、グローバリゼーションは発展途上国にとって有益だと思う」という声を検知できる。したがって、マイクAとマイクBの両方が、検知した声に従って対応する音声データストリームを生成できる。電子デバイスは、データチャネルAおよびデータチャネルBによって入力された音声データストリームに従って、第1の音声データブロックおよび第2の音声データブロックを生成し得る。
この例示的なシナリオでは、電子デバイスは、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の相関係数を計算し得る。第1の音声データブロック内の音声データセグメントは、相関係数に基づいてフィルタリングおよび選択され、そして有効なデータである150の音声データセグメントが第1の音声データブロックから取得される。さらに、電子デバイスは、第1の音声データブロックと第2の音声データブロックとの間の相関係数から0.4のピーク値を取得し、そして相関係数のピーク値0.4に対応する時間差は50msである。
この例示的なシナリオでは、電子デバイスは、第1の音声データブロックおよび第2の音声データブロック内の各音声データセグメントの平滑化エネルギーを計算し、そして第2の音声データブロック内の音声データセグメントの平滑化エネルギーより大きな平滑化エネルギーを有する第1の音声データブロック内の音声データセグメントの数をカウントする。カウント数は5である。電子デバイスは、第2の音声データブロック内の音声データセグメントの平滑化エネルギーより大きな平滑化エネルギーを有する第1の音声データブロック内の音声データセグメントの数と、有効なデータの数との間の比率が、0.8より大きい場合、相関係数のピークに対応する時間差が基準時間差であると判定され、また、0.2未満である場合、相関関数のピークに対応する時間差がクロストーク時間差であると判定されるように設定し得る。150に対する5の比率は0,2未満であるため、50msの時間差がクロストーク時間差であると判定される。
この例示的なシナリオでは、電子デバイスは、第1の音声データブロックの音声データセグメントに対応する時間差を計算し、そして計算された時間差が50msに等しい場合、対応するボイスデータがクロストークデータであると判定する。
この例示的なシナリオでは、他のデータチャネルは、他のデータチャネルによって送信される音声データストリーム内のクロストークデータを検出するためのターゲットとして使用され得る。
この例示的なシナリオでは、討論過程全体で、検出されたクロストークデータをさらに取り除き、そしてクロストークが取り除かれた後に取得された音声データブロックを指定の音声ファイルに保存し、より明確な討論記録を生成する。
図1を参照すると、本明細書の実装は、クロストークデータ検出システムを提供する。クロストークデータ検出システムは、受信モジュール、係数計算モジュール、時間差判定モジュール、および処理モジュールを含み得る。本明細書の以下の説明は、機能モジュールを使用するクロストークデータ検出システムを紹介し、またクロストークデータ検出システムが実行されると、クロストークデータ検出方法が実施される。クロストークデータ検出方法は、以下の機能モジュールを参照することで理解でき、そして繰り返されない。
受信モジュールは、第1の音声データブロックおよび第2の音声データブロックを受信し、第1の音声データブロックおよび第2の音声データブロックはそれぞれ、複数の音声データセグメントを含む。
この実装では、受信モジュールは、第1のデータチャネルを介して入力された第1の音声データブロックおよび第2のデータチャネルを介して入力された第2の音声データブロックを受信し得る。具体的には、受信モジュールは、受信デバイス、またはデータ相互作用能力を備えた通信モジュールであり得る。受信モジュールは、第1のデータチャネルを介して入力された第1の音声データブロックおよび第2のデータチャネルを介して入力された第2の音声データブロックを有線で受信し得る。第1の音声データブロックおよび第1のデータチャネルを介して入力された第1の音声データブロックと、第1のデータチャネルを介して入力された第2の音声データブロックとを、HTTP、TCP/IP、もしくはFTPなどのネットワークプロトコルに基づいて、またはWIFIモジュール、ZigBeeモジュール、Bluetoosモジュール、Z−waveモジュールなどの無線通信モジュールを介して受信することも可能である。明らかに、受信モジュールはソフトウェアプログラムインターフェイスと呼ばれることもあり、コンピューティング能力を有する処理で動作できる。
この実装では、受信モジュールは、音検知デバイスの数に対応する複数のデータチャネルを有し得る。音検知デバイスは、音を検知して音声データストリームを生成し、音声データストリームをデータチャネルに入力することができるデバイスを含み得る。例としては、マイク、ボイスレコーダーなどがある。この実装では、データチャネルは、音声データブロック送信用のキャリアを含み得る。データチャネルは、物理チャネルまたは論理チャネルであり得る。音声データブロックの送信経路により、データチャネルが異なる場合がある。具体的には、例えば、2つのマイクが設けられている場合、音源は、これら2つのマイクによって検知される音を生成して音声データストリームを生成することができ、また各マイクが音声データストリームを送信するチャネルをデータチャネルと呼ぶことができる。明らかに、データチャネルは論理的に分割することもでき、これは、複数のマイクを介して入力された音声データストリームを混合するのではなく、様々なマイクを介して入力された音声データストリームを個別に処理する、つまり、マイクを介して入力された音声データストリームを独立して処理することと理解できる。
この実装では、第1の音声データブロックは、第1のデータチャネル内の音声データストリームに従って生成され得る。第2の音声データブロックは、第2のデータチャネル内の音声データストリームに従って生成され得る。音検知デバイスは、検知された音に従って、対応する音声データストリームを生成することができる。第1の音声データブロックおよび第2の音声データブロックは、様々な音検知デバイスに対応し得る。音検知デバイスの空間的位置は様々であり得るため、音源からの音を検知する様々な音検知デバイスによって生成される音声データストリームが様々である場合、時間もまた様々であり得る。
この実装では、第1の音声データブロックおよび第2の音声データブロックはそれぞれ、複数の音声データブロックを含み得る。受信モジュールは、第1のデータチャネルの音声データストリームおよび第2のデータチャネルの音声データストリームを一定のルールに従ってデータブロックに分割することができ、そして分割されたデータブロックは、音声データブロックであり得る。音声データストリームは、時間の長さまたは数に応じて音声データブロックに分割できる。具体的には、例えば、音声データストリームは、10msの単位で音声データブロックに分割され得る。明らかに、音声データブロックは10msに制限されないこともある。あるいは、音声データブロックは、データの量に従って分割され得る。例えば、各音声データブロックは最大1MBを有し得る。あるいは、音声データストリームによって表される音声波形の連続状態に従って分割が実行される。例えば、エンドポイント検出の場合、2つの隣接する連続波形間に一定の時間差がある無声部分が存在し、各連続音声波形は音声データブロックとして区切られる。音声データブロックは、複数の音声データセグメントを含み得る。音声データセグメントは、処理の基本単位として使用できる。
係数計算モジュールは、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算し、相関係数のピーク値を取得するように構成されている。
この実装では、相関係数を使用して、音声データブロック間の関係の近さの程度を示すことができる。あるいは、相関係数を使用して、音声データブロック間の類似度を示すことができる。相関係数の値が大きいほど、2つの音声データブロック内に含まれる音声データセグメントがより類似していることを示し得る。逆に、相関係数の値が小さいほど、2つの音声データブロック内に含まれる音声データセグメントが異なることを示し得る。
この実装では、フーリエ変換は、GCC PHAT法(位相変換加重一般化相互相関)に従って、音声データブロック内の音声データセグメントに対して個別に実行し得る。フーリエ変換後、第1の音声データブロック内の音声データセグメントおよび第2の音声データブロック内の音声データセグメントに基づいて相互相関関数が生成され、相関係数を取得し得る。明らかに、相関係数は、基本的な相互相関法、相互パワースペクトル位相法、および他の方法に従って計算することもできる。明らかに、当業者は、相関係数を取得するための本明細書の技術的本質の下で他の修正された解決策を採用することができ、それによって実装される機能および効果が本明細書と同じであるかまたは類似している限り、本明細書の保護の範囲内でカバーされるものとする。
この実装では、図3を参照すると、ある空間において、音を発する2つの音源があり得る。第1の音検知デバイスおよび第2の音検知デバイスは、音声データストリームを別々に生成し、そして、それらを対応する第1のデータチャネルおよび第2のデータチャネルに入力し得る。音源Aで音を発してから第1の音検知デバイスで音を検知するまでにかかる時間の長さは時間1である。第1の音検知デバイスが音源Aから発せられた音を検知してから第1のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間2である。音源Aが音を発してから第2の音検知デバイスが音を検知するまでにかかる時間の長さは時間3である。第2の音検知デバイスが音源Aから発せられた音を検知してから第2のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間4である。第1のデータチャネルおよび第2のデータチャネルにおいて、音源Aが発した音によって形成される音声データストリームは、音声データセグメントを含む音声データブロックに分割され得、次いで、相関係数は、GCC PHATなどの方法を使用して計算され得る。音源Bが音を発してから第1の音検知デバイスが音を検知するまでにかかる時間の長さは時間5である。第1の音検知デバイスが音源Bから発せられる音を検知してから第1のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間6である。音源Bが音を発してから第2の音検知デバイスが音を検知するまでにかかる時間の長さは時間7である。第2の音検知デバイスが音源Bから発せられる音を検知してから第2のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間8である。第1のデータチャネルおよび第2のデータチャネルにおいて、音源Bが発する音によって形成される音声データストリームは、音声データセグメントを含む音声データブロックに分割され得、次いで、相関係数は、GCC PHATなどの方法を使用して計算され得る。したがって、2つの音源が空間内で音を発し、2つの相関係数が計算されて、取得され得る。
この実装では、各検知デバイスは1人のユーザに対応してもよく、それにより、各音検知デバイスを使用して、様々なユーザを区別することができる。さらに、各音検知デバイスによって入力された音声データストリームが処理され、最終的に各ユーザに対応する音声ファイルを取得できる。したがって、各音声ファイルは、ユーザの声をより正確に特徴付けることができる。
時間差判定モジュールは、ピーク値に対応する、第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定するように構成され得る。
この実装では、ピーク値に対応する、第1の音声データブロック内の音声データセグメントおよび第2の音声データブロック内の音声データセグメントは、最も類似している、またはほとんど同じ音源に由来する音声データを含んでいると見なされ得る。このようにして、相関係数のピーク値に対応する音声データセグメント間の時間差を使用して、同じ音源に由来する第1の音声データブロックおよび第2の音声データブロック内の音声データ間の時間差を特徴付け得る。時間差は、第1の音声データブロック内の音声データの一部がクロストークデータであるかどうかを判定するための参照として使用され得る。このように、時間差を基準時間差として使用することができる。
この実装では、音声データセグメントの取得時間は、音声検知デバイスにおける音声データセグメントの音声データの生成時間、または受信モジュールによって受信された音声データセグメントの音声データの受信時間であり得る。具体的には、例えば、第1の音声検知端末と第2の音声検知端末とは互いに非常に近接している。ユーザが発言するときに、ユーザの発言からの音が第1の音声検知端末および第2の音声検知端末に到達するのにかかる時間は非常に近い。したがって、第1の音声検知端末および第2の音声検知端末は、ユーザの音を別々に検知し、音声データを生成する。第1の音声検知端末が音を検知して第1の音声データブロックを生成し、そして第2の音声検知端末が音を検知して第2の音声データブロックを生成すると仮定することができる。このように、第1の音声データブロックと第2の音声データブロックの生成時間は比較的近い。しかしながら、ユーザから第1の音声検知端末および第2の音声検知端末までの距離が異なるため、第1の音声データブロックおよび第2の音声データブロックの生成時間は近い。
処理モジュールは、第1の音声データブロックの音声データセグメントの取得時間と第2の音声データブロック内の対応する音声データセグメント取得時間との間の時間差を音声セグメント時間差とし、そして、関連する音声セグメント時間差と基準時間差との間に不適合が存在する場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されている。
この実装では、第1の音声データブロック内の音声データセグメントおよび第2の音声データブロック内の音声データセグメントは、同じ音源に由来するかどうかに基づいて、互いに対応するかどうかを判定することができる。あるいは、上記の相関係数に基づいて、相関係数に対応する第1の音声データブロック内の音声データセグメントが、第2の音声データブロック内の音声データセグメントに対応すると見なすことができる。
この実装では、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することができる。音声セグメント時間差は、音波による音センサーの検出から、対応する音声データセグメントを生成するまでにかかる時間に基づいて基準となり得るか、または音声データセグメントを音センサーデバイスによってデータチャネルに入力することに基づくことができるか、または受信モジュールから音声データセグメントを受信する時間に基づくこともできる。具体的には、時間差を計算する方法は、基準時間差を計算する方法と同じであり得る。
この実装では、不一致には、音声セグメント時間差が基準時間差と等しくないことが含まれ得る。あるいは、第2の指定閾値を設定し、そして音声セグメント時間差と基準時間差との間の差の絶対値が第2の指定閾値より大きい場合、音声セグメント時間差が基準時間差と一致しないと判定することができる。具体的には、例えば、第2の指定閾値0.002が設定されていて、音声セグメント時間差は0.03であり、また基準時間差は0.035である。これら2つの間の差の絶対値は0.005である。したがって、音声データセグメントはクロストークデータを含んでいると考えられ得る。
この実装では、様々な音源は様々な音検知デバイスに対応し、様々な時間差に対応し得る。図3を参照すると、音源Aと第1の音検知デバイスとの間の距離は、音源Aと第2の音検知デバイスとの間の距離よりも空間的に短い。その結果、時間1は時間6よりも短くなる。このようにして、第1のデータチャネルおよび第2のチャネル内の音源Aに由来する音声データセグメント間の音声セグメント時間差は、例えば、時間6と時間1との差が存在する。音声セグメント時間差は、音源Aに対応し、また音源A、第1の音検知デバイス、および第2の音検知デバイスの空間的位置が変わらないままである場合、音声セグメント時間差の値も変わらない。同じことが音源Bにも当てはまる。第1のデータチャネルの音声データセグメントでは、一部は音源Aに由来し、一部は音源Bに由来し得る。同様に、第2の音声データチャネルの音声データセグメントでは、一部は音源Aに由来し、一部は音源Bに由来し得る。相関係数に対応する、第1のデータチャネル内の音声データセグメントと第2のデータデータチャネル内の音声データセグメントとの間の音声セグメント時間差を計算することによって、音声セグメント時間差を使用して、第1のデータチャネル内の音源Aに由来する音声データセグメントと音源Bに由来する音声データセグメントとを区別し得る。クロストークデータは、第1のデータチャネル内の音源Bからの音声データセグメントがクロストークデータであると理解することができる。言い換えれば、クロストークデータは、ターゲット音源以外の音源に由来する音声データセグメントであり得る。
この実装では、音声セグメント時間差が基準時間差と一致する場合、第1の音声データブロック内の対応する音声データセグメントは、第1の音声データブロックが位置しているデータチャネルに対応する音源に由来すると見なすことができる。そのため、音声データセグメントは、さらなる処理および使用のために、取っておく必要がある。音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロック内の対応する音声データセグメントは、第1の音声データブロックが位置しているデータチャネルに対応する音源に由来するものではないと見なすことができる。その音声データセグメントは、第1の音声データブロックから取り除く必要がある。
ある実装において、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を得ることは、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの相関係数を計算して、相関係数組を形成することと、相関係数組内の最大値をピーク値として設定することと、を含み得る。
この実装では、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数組を形成することができる。相関係数の1つ以上のピーク値は、相関係数組から選択される。具体的には、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の相関は、相互相関関数に従って計算することができる。具体的には、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の相関を別々に計算することができる。計算された相関の最大値は、第1の音声データブロック内の音声データセグメントに対応する最大値に対応する第2の音声データブロック内の音声データセグメントとしてみなされ得る。このように、最大値は、最終的に、第1の音声データブロック内の音声データセグメントに対応する相関係数と見なすことができる。このように、第1の音声データブロック内の各音声データセグメントに対応する相関係数を得ることができ、そして第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の対応を、相関係数を介して形成することができる。
この実装では、1つ以上のピーク値は、相関係数組内の最大値であり得る。あるいは、相関係数は、対応する音声データセグメントの構成に従って構成され、その結果、相関係数が連続分布を形成し、1つ以上のピークおよび1つ以上の谷が、全体として表示され得るなど。1つ以上のピーク値は、1つ以上のピークによって表される1つ以上の相関係数であり得る。
ある実装において、係数計算モジュールは、相関係数の1つ以上のピーク値を計算することができ、ピーク値の数は、2つ以上になり得る。
これに対応して、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と、第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を、処理モジュールによって基準時間差として設定することは、それぞれが第1の時間差と第2の時間差であり、第1の時間差と第2の時間差のうちの小さい方が基準時間差として設定される、2つのピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データの取得時間との間の時間差を別々に計算することを含む。
この実装において、相関係数の2つ以上のピークは、相互相関関数に基づいて得られた第1の音声データブロックおよび第2の音声データブロックの相関係数の2つ以上のピークであり得る。あるいは、指定された間隔を相関係数組内に設定し得、そして指定された間隔内の2つの最大値をピーク値として使用する。あるいは、相関係数組内の1つの値をピーク値として設定し得、また特定のデータ間隔の後に、ピーク値に等しくなる傾向がある相関係数は別のピーク値である。あるいは、相関係数内の2つの2番目に大きなものをピーク値として設定する。
この実装では、相関係数内に2つ以上のピークが存在するが、これは、音声データブロック内の音声データが2つ以上の音源に由来し得ることを示し得る。具体的には、例えば、相関係数の2つのピーク値がそれぞれ第1の相関係数および第2の相関係数である相関係数組から選択される。第1の相関係数および第2の相関係数に対応する第1の音声データブロック内の音声データセグメントはそれぞれ第1のターゲット音声データセグメントおよび第2のターゲット音声データセグメントとして扱われ、また第2の音声データブロック内の対応する音声データセグメントは、第1の補助音声データセグメントおよび第2の補助音声データセグメントとして扱われる。このように、ターゲット音声データセグメントおよび対応する補助音声データセグメントとの間の時間差、すなわち、音声セグメント時間差をさらに別々に計算することができる。さらに、各音検知デバイスが1人のユーザに対応するシナリオでは、音検知デバイスと対応するユーザとの間の距離は、音検知デバイスと1人以上の他のユーザとの間の距離よりも短いと見なすことができる。このように、相関係数の複数のピークの場合、より小さな時間差に関連する相関係数に対応するターゲット音声データセグメントは、音検知デバイスの対応する音源に由来する傾向がある。したがって、計算された複数の時間差の中から、より小さな時差を基準時間差として使用することができる。
ある実装において、クロストークデータ検出システムは、さらに、第1の時間差と第2の時間差のうちの大きい方をクロストーク時間差としてみなすことを実施する。それに対応して、処理モジュールは、関連する音声セグメントの時間差がクロストーク時間差と一致する場合、音声データセグメントがクロストークデータを含んでいると判定し得る。
この実装において、音声セグメント時間差がクロストーク時間差と一致することは、音声セグメント時間差がクロストーク時間差に等しいことを含み得る。あるいは、第1の指定閾値が設定され、音声セグメント時間差とクロストーク時間差との間の差の絶対値が、第1の指定閾値よりも小さい場合、音声セグメント時間差はクロストーク時間差と一致すると見なされ得る。具体的には、第1の指定閾値は、例えば、0.008に設定され得る。音声セグメント時間差が0.042であり、クロストーク時間差が0.040であり、これら2つの差の絶対値が0.002(第1の指定閾値よりも小さい)である場合、関連する音声データセグメントがクロストークデータを含んでいると判定され得る。
この実装では、クロストーク時間差を判定することにより、第1の音声データブロック内のクロストークデータは、クロストーク時間差に従って検出される。音声セグメント時間差がクロストーク時間差と一致する場合、音声データセグメントはクロストークデータであると判定される。
ある実装において、システムは、ラベル付けモジュールをさらに含み得る。ラベル付けモジュールは、相関係数が定義された係数値よりも大きい場合、相関係数に対応する第1の音声データブロック内の音声データセグメントを有効なデータとしてラベル付けするように構成される。これに対応して、処理モジュールは、関連する音声データセグメントが有効なデータとしてラベル付けされている場合にのみ、時間差を音声セグメント時間差として使用する。
この実装では、相関係数を使用して、音声データブロック内のノイズデータを除去できる。比較的近接している2つの音検知デバイスは、同じ音源の音を検知して音声データストリームを生成する。その結果、2つの音検知デバイスによって出力された音声データストリームは、互いに比較的関連する音声データセグメントに分割される。計算して得られる相関係数は、比較的大きな値を持つ。第1の音声データブロック内の音声データセグメントが第2の音声データブロック内の対応する音声データセグメントより小さい相関係数を有する場合、これら2つの音声データセグメントの類似性は比較的少ないと見なすことができる。これら2つの音声データセグメントは、同じ音源に由来するものではないと見なされるか、または、音声データセグメントは、電子デバイス自体のノイズによって形成され得る。
この実装では、相関係数に定義された係数値を設定することにより、定義された係数値以上の相関係数を持つ音声データセグメントが、定義された係数値未満の相関係数を持つ音声データセグメントから分離される。このように、定義された係数値未満の相関係数を持つ音声データセグメントは、さらに計算処理することなくノイズデータとして扱うことができ、それによりシステムの計算コンプライアンスが低下する。
この実装において、定義された係数値を設定する方法は、プログラムを介して経験値を直接設定すること、または、音声データブロック内の音声データセグメントに対応する相関係数の分布を分析することと、相関係数の平均値に1未満の係数を掛けて、定義された係数値、例えば、相関係数の平均値の3分の1または4分1を得ることと、を含み得る。
ある実装では、第1の音声データブロックの音声データセグメントと第2の音声データブロックの音声データセグメントとの間の相関係数を計算することによって、係数計算モジュールによって得られる相関係数のピーク数は1であり得る。これに対応して、ピーク値に対応する第1の音声データブロック内の音声データセグメントの取得時間と第2の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定する場合、時間差判定モジュールは、第1の音声データブロックの信号強度が第2の音声データブロックの信号強度よりも高い場合に、時間差を基準時間差として設定し得る。
この実装では、第1の音声データブロックの信号強度が第2の音声データブロックの信号強度よりも大きいこと、第1の音声データブロックおよび第2の音声データブロックのそれぞれの音圧値またはエネルギーを計算することを含み得る。あるいは、本明細書の技術的本質の啓蒙の下で、当業者は、第1の音声データブロックおよび第2の音声データブロックの信号強度の特性を反映することができる他の計算を採用するが、反映される信号強度が本明細書と同じまたは類似している限り、本出願の保護の範囲内でカバーされるものとする。第1の音声データブロックの信号強度は、第2の音声データブロックと比較される。第1の音声データブロックの信号強度が第2の音声データブロックの信号強度よりも大きい場合、取得された時間差を基準時間差として決定することができる。
この実装では、具体的には、エネルギー計算の観点を例として使用する。対応する第2の音声データブロックのエネルギーよりも大きい第1の音声データブロックのエネルギーは、第1の音声データブロック内の音声データのエネルギーを計算し、第1の音声データブロック内の計算されたエネルギーの平均値に基づいて第1の平均値を取得することと、第2の音声データブロック内の音声データのエネルギーを計算し、第2の音声データブロック内の計算されたエネルギーの平均値に基づいて第2の平均値を取得することと、を含み得る。第1の平均値は、第2の平均値と比較され得る。第1の平均値が第2の平均値よりも大きい場合、第1の音声データブロックのエネルギーは、対応する第2の音声データブロックのエネルギーよりも大きいと判定される。あるいは、閾値を設定することができる。第1の平均エネルギーから第2の平均エネルギーを引いたものが設定閾値よりも大きい場合、第1の音声データブロックのエネルギーは、対応する第2の音声データブロックのエネルギーよりも大きいと判定され得る。本明細書の技術的本質の啓蒙の下で、当業者は、第1の音声データブロックのエネルギーが、対応する第2の音声データブロックのエネルギーよりも大きいと判定できる他の方法を採用し、それは、判定された音声データブロック内の音声データのエネルギーが本明細書と同じまたは類似している限り、本出願の保護の範囲によってカバーされるものとする。
この実装では、音検知デバイスと対応する音源との間の距離は、概して、音検知デバイスと1つ以上の他の音源との間の1つ以上の距離よりも短い。音源から発せられた後、音はある程度まで距離とともに減衰する。このように、対応する音源によって生成され、音検知デバイスによって検知される音声データストリームによって表されるエネルギーまたは音圧値は、比較的大きい。場合によっては、第1の音声データブロック内の信号強度は、第2の音声データブロック内の信号強度よりも弱く、これは、第2の音声データブロックが位置しているデータチャネルに対応する、または第2の音声データブロックを生成する音検知デバイスに対応する、現在の音源として理解され得る。第1のデータチャネルに関して、第1の音声データブロック内に含まれる音声データは、第1のデータチャネルに対応する音源に由来しない場合があり、または第1の音声データブロック内の音声データセグメントの少なくとも一部は第1のデータチャネルに対応する音源に由来しないことが結論付けられ得る。上記の分析により、第1の音声データブロック内の音声データセグメントが、第1のデータチャネルに対応する音源に由来するかどうかを見分けることは、第1の音声データブロックおよび第2の音声データブロック内の信号強度によって行うことができる。
ある実装において、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の音声データセグメントとの間の相関係数は、相関係数組を形成する。時間差判定モジュールはまた、定義された係数値よりも大きい相関係数組内の相関係数の統計数をカウントすることと、それに対応して、第1の音声データブロック内の信号強度が第2の音声データブロック内の信号強度よりも大きく、統計数が定義された数の閾値よりも大きい場合にのみ、時間差を基準時間差として設定することと、を実施し得る。
この実装では、相関係数によって、第1の音声データブロック内の音声データセグメントが、有効なデータであるかノイズデータであるかを区別することが可能である。具体的には、相関係数組内の相関係数を、定義された係数値と比較することができる。相関係数が定義された係数値よりも大きい場合、相関係数に対応する音声データセグメントが有効なデータであると判定することができる。
この実装では、定義された数の閾値よりも大きい統計数は、音声データブロック内の有効なデータ数が定義された数の閾値よりも大きいと理解することができる。場合によっては、統計数が定義された数の閾値よりも小さい場合、音声データブロック内の有効なデータは非常に少ないと見なすことができ、計算量を減らすためにさらなる処理が実行されない場合がある。
ある実装において、時間差判定モジュールは、第1の音声データブロックの信号強度が第2の音声データブロックの信号強度よりも弱い場合、時間差をクロストーク時間差として判定することをさらに実施し得る。それに対応して、処理モジュールは、音声セグメント時間差がクロストーク時間差と一致する場合、音声データセグメントがクロストークデータを含んでいると判定する。
この実装において、第2の音声データブロックの信号強度よりも弱い第1の音声データブロックの信号強度は、対応する第2の音声データブロック未満の第1の音声データブロックのエネルギー、または対応する第2の音声データブロックの音圧値未満の第1の音声データブロックの音圧値を含み得る。
この実装では、クロストーク時間差を設定することにより、第1の音声データブロックの音声データセグメントで検出が直接実行され得る。したがって、第1の音声データブロック内の音声データセグメントが、第1のデータチャネルに対応しない音源に由来しているかどうかについて判定がなされる。
図4を参照すると、本明細書の実装は、クロストークデータ検出システムを提供する。クロストークデータ検出システムは、クライアントおよびサーバーを含み得る。
この実装では、クライアントは、データの送受信機能を備えた電子デバイスを含み得る。クライアントは、少なくとも2つの音検知デバイスおよびネットワーク通信ユニットを含み得る。
この実装では、音検知デバイスを使用して、音源から発せられる音を検知し、対応する音声データを生成し得る。具体的には、音検知デバイスは、音送信機または、音送信機を備えるマイクであり得る。音送信機を使用して、音を電気信号に変換して音声データストリームを得る。各検知デバイスはデータチャネルに対応でき、音検知デバイスは、音検知デバイスによって生成された音声データストリームを、データチャネルを介してネットワーク通信ユニットに提供し得る。具体的には、少なくとも2つの音検知デバイスは、第1の音検知デバイスおよび第2の音検知デバイスを含み得る。これに対応して、第1の音検知デバイスは、第1のデータチャネルに対応し得、また第2の音検知デバイスは、第2のデータチャネルに対応し得る。
この実装では、ネットワーク通信ユニットは、1つ以上のネットワーク通信プロトコルに従って、ネットワークデータ通信を実行するためのデバイスを含む。ネットワーク通信ユニットは、音検知デバイスによって提供される音声データを受信することができ、また、音声データをサーバーに送信し得る。ネットワーク通信ユニットは、受信した音声データを、データチャネルを介してサーバーに送信することができる。
この実装では、クライアントは比較的弱いデータ処理能力を有することがあり、またモノのインターネットデバイスなどの電子デバイスであり得る。クライアントは、受信モジュールと送信モジュールを有し得る。クライアントのネットワーク通信ユニットは、送信モジュールの機能を実装できる。
この実装では、サーバーは、ネットワーク通信ユニット、プロセッサ、メモリなどを有し得る特定の計算処理能力を備える電子デバイスを含み得る。明らかに、サーバーは、電子デバイスで実行されるソフトウェアを指すこともある。サーバーはまた、連携して動作する複数のプロセッサ、ネットワーク通信モジュールなどを備えたシステムであり得る分散型サーバーであってもよい。あるいは、サーバーはまた、いくつかのサーバーによって形成されるサーバークラスターであり得る。明らかに、サーバーはクラウドコンピューティング技術を使用して実装することもできる。言い換えれば、サーバーによって操作される機能モジュールは、クラウドコンピューティング技術を使用して操作される。
この実装では、ネットワーク通信ユニットは、1つ以上のネットワーク通信プロトコルに従って、ネットワークデータ通信を実行するデバイスであり得、またクライアントによって提供される音声データストリームを受信するように構成され得る。ネットワーク通信ユニットは、受信モジュールとして機能し得る。
この実装では、サーバーは、受信モジュール、係数計算モジュール、時間差判定モジュール、および処理モジュールを有し得る。ネットワーク通信ユニットは、受信モジュールの機能を実装し得る。サーバーの機能モジュールの内容の詳細を参照して、他の実装と比較し得る。
この実装では、プロセッサは任意の適切な方法で実装され得る。例えば、プロセッサは、マイクロプロセッサまたはプロセッサ、および(マイクロ)プロセッサによって実行可能なコンピュータ可読プログラムコード(ソフトウェアまたはファームウェアなど)を格納するコンピュータ可読媒体、論理ゲート、スイッチ、特殊用途集積回路(特定用途向け集積回路、ASIC)、プログラム可能論理コントローラ、埋め込みマイクロコントローラなどの形態をとり得る。
図5を参照すると、本明細書の実装は、クロストークデータ検出システムも提供する。クロストーク検出システムは、クライアントおよびサーバーを含み得る。
この実装では、クライアントは、少なくとも2つの音検知デバイス、プロセッサ、およびネットワーク通信ユニットを含み得る。この実装で説明されている少なくとも2つの音検知デバイスの機能の詳細については、他の実装を参照することができ、本明細書では繰り返されない。クライアントは、特定の処理能力を備えたデバイスであり得る。具体的には、例えば、クライアントは、ノートブックコンピュータ、またはスマート端末デバイスであり得る。ネットワーク通信ユニットは、受信モジュールを実装することができ、また係数計算モジュールは、プロセッサ内に位置し得る。ネットワーク通信ユニットは、1つ以上のネットワーク通信プロトコルに従ってネットワークデータ通信を実行するデバイスであり得る。
この実装では、サーバーのプロセッサは、上記の時間差判定モジュールおよび処理モジュールを実行し得る。実装の詳細は、他の実装を参照して、それらと比較することができる。
明らかに、図6を参照すると、この実装では、係数計算モジュールおよび時間差判定モジュールもクライアントで実行され得、そして基準時間差、第1の音声データブロック、および第2の音声データブロックがサーバーに送信される。サーバーは処理モジュールのみを実行し得る。
本明細書の実装はまた、クロストークデータ検出システムを提供する。これは、クロストークデータ検出システムの概略相互関係図である。クロストーク検出システムは、クライアントおよびサーバーを含み得る。
この実装では、クライアントは、少なくとも2つの音検知デバイスおよびプロセッサを含み得る。この実装で説明される少なくとも2つの音検知デバイスによって実装される機能の詳細については、他の実装を参照することができ、本明細書では繰り返されない。クライアントは強力な処理能力を持ち得る。プロセッサは、係数計算モジュール、時間差判定モジュール、および処理モジュールを実行し得る。このシナリオでは、サーバーと対話する必要はない。あるいは、処理モジュールによって処理された音声データブロックをサーバーに提供し得る。具体的には、例えば、クライアントは、比較的高性能の、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ワークステーションなどであり得る。
明らかに、上記はいくつかの電子デバイスの例にのみ対応している。科学および技術の進歩に伴い、ハードウェアデバイスの性能が向上する場合があり、データ処理能力が比較的弱い電子デバイスのデータ処理能力もより良好になり得る。したがって、前述の実装では、ハードウェアデバイス上で動作するソフトウェアモジュールの分割は、本出願に対するいかなる制限にもならない。当業者は、上記のソフトウェアモジュールの機能をさらに分割し、それらをクライアントまたはサーバーに配置して、適宜動作させ得る。ただし、実装される機能および効果は、それらが本明細書と同じまたは類似している限り、本出願の保護の範囲によってカバーされるものとする。
本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第1の音声データブロックと第2の音声データブロックとの間の相関係数に基づいて、第1の音声データブロック内のターゲット音声データセグメントおよび第2の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメント内のデータの少なくとも一部および補助音声データセグメント内のデータの一部が、同じ音源に由来し、相関係数が音声データセグメント間の類似度を示すために使用される、判定することと、ターゲット音声データセグメントおよび補助音声データセグメントに従って、第1の音声データブロックと第2の音声データブロックの基準時間差を判定することと、第1の音声データブロックの音声データセグメントと第2の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。
この実装において、コンピュータ記憶媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、キャッシュ、およびハードディスク(HDD)、またはメモリカードを含むが、これらに限定されない。
この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。
本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、コンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第1の音声データブロックと第2の音声データブロックとの間の相関係数に基づいて、第1の音声データブロック内のターゲット音声データセグメントおよび第2の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメントの少なくとも一部のデータおよび補助音声データセグメントの一部のデータが同じ音源に由来する、判定することと、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第1の音声データブロックと第2の音声データブロックとの間の基準時間差を判定することと、基準時間差、第1の音声データブロック、および第2の音声データブロックをサーバーに送信し、サーバーが、第1の音声データブロックの音声データセグメントと第2の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算し、また、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントが、クロストークデータを含んでいると判定できるようにすることと、を実施する。
この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。
本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第1の音声データブロック、第2の音声データブロック、および基準時間差を受信することであって、第1の音声データブロック、第2の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第1の音声データブロックの音声データセグメントと第2の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。
この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。
本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第1の音声データブロックと第2の音声データブロックとの間の相関係数に基づいて、第1の音声データ内のターゲット音声データセグメントおよび第2の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメント内の少なくともデータの一部および補助音声データセグメント内のデータの一部が同じ音源に由来する、判定することと、ターゲット音声データセグメント、補助音声データセグメント、第1の音声データブロック、および第2の音声データブロックをサーバーに送信し、サーバーが、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第1の音声データブロックと第2の音声データブロックとの間の基準時間差を判定できるようにすることと、第1の音声データブロックの音声データセグメントと第2の音声データデータブロックの対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。
この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。
本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、ターゲット音声データセグメント、補助音声データセグメント、第1の音声データブロック、および第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ、複数の音声データセグメントを含み、ターゲット音声データセグメントが第1の音声データブロックから選択され、また補助音声データセグメントが第2の音声データブロックから選択される、受信することと、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第1の音声データブロックと第2の音声データブロックとの間の基準時間差を判定することと、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データデータセグメントがクロストークデータを含んでいると判定することと、を実施する。
この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。
本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第1の音声データブロックおよび第2の音声データブロックをサーバーに送信し、サーバーが、第1の音声データブロックと第2の音声データブロックとの間の相関係数に基づいて、第1の音声データブロック内のターゲット音声データセグメントおよび第2の音声データブロック内の補助音声データセグメントを判定できるようにすることであって、ターゲット音声データセグメント内のデータの少なくとも一部および補助音声データセグメント内のデータの一部が同じ音源に由来する、判定できるようにすることと、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第1の音声データブロックと第2の音声データブロックの間の基準時間差を判定することと、第1の音声データブロック内の音声データセグメントと第2の音声データブロック内の対応する音声データとの間の音声セグメント時間差を計算することと、関連するセグメント時間差が基準時間差と一致しない場合、第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。
この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。
本明細書の様々な実装についての上の説明は、説明の目的で当業者に提供される。網羅的であること、または本発明を開示された実装に限定することを意図するものではない。上記のように、上記の技術が属する本明細書の様々な置き換えおよび変更は、当業者には明らかである。したがって、いくつかの実装が詳細に論じられてきたが、他の実装は明白であるか、または当業者によって比較的容易に得られる。本明細書は、本明細書で論じられる本発明のすべての代替、修正、および変更、ならびに本出願の趣旨および範囲内にある他の実装を含むことを意図している。
本明細書の様々な実装における「第1」および「第2」という表現は、様々なデータチャネルおよび音声データブロックを区別するためにのみ使用され、データチャネルおよび音声データブロックの数は本明細書では限定されない。複数の(ただし2つに限定されない)データチャネルおよび音声データブロックを含むことができる。
前述の実装の説明から、当業者であれば、本出願がソフトウェアおよび必要な一般的なハードウェアプラットフォームによって実装され得ることを明確に理解することができる。かかる理解に基づいて、本出願の技術的な解決策の本質、または既存の技術に貢献する部分が、ソフトウェア製品の形態で具体化することができる。かかるコンピュータソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に記憶され得、またコンピュータデバイス(それらはパーソナルコンピュータ、サーバー、またはネットワークデバイスなどであり得る)に、本出願の各実施形態で説明した方法または実装の一部を実行させるためのいくつかの命令を含む。
本明細書の様々な実装は漸進的な方法で記述されており、様々な実装間の同じまたは類似の部分を互いに参照することができる。各実装は、他の実装とは異なる態様に焦点を当てている。
本明細書は、いくつかの一般的または特別なコンピュータシステム環境または構成、例えば、パーソナルコンピュータ、サーバーコンピュータ、携帯デバイスまたはポータブルデバイス、タブレットデバイス、マイクロプロセッサベースシステム、セットトップボックス、プログラム可能消費者電子デバイス、ネットワークPC、小型コンピュータ、および上記のコンピューティング環境のいずれかを含む分散型システムなどで使用され得る。
本明細書は実装を使用して説明されてきたが、当業者であれば、本明細書の趣旨から逸脱することなく、本明細書に多くの変形および変更が存在することを知っている。添付の特許請求の範囲は、本明細書の精神から逸脱することなく、これらの変形および変更を含むことが意図されている。

Claims (18)

  1. クロストークデータを検出するための方法であって、
    第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが各々複数の音声データセグメントを含む、受信することと、
    相関係数のピーク値を取得するために、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
    前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を、基準時間差として設定することと、
    前記第1の音声データブロックの前記音声データセグメントの取得時間と前記第2の音声データブロックの対応する音声データセグメントとの時間差を、音声セグメント時間差として設定することと、
    関連付けられた音声セグメント時間差が、前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントが、クロストークデータを含んでいると判定することと、を含む、方法。
  2. 前記相関係数の前記ピーク値を取得するために、前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することが、
    前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することによって、相関係数組を形成することと、
    前記相関係数組内の最大値を前記ピーク値として使用することと、を含む、請求項1に記載の方法。
  3. 前記相関係数の前記ピーク値を取得するために、前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することにおいて、ピーク値の数が2つであり、
    これに対応して、前記ピーク値に対応する前記第1の音声データブロック内の前記音声データセグメントの前記取得時間と、前記第2の音声データブロック内の前記音声データセグメントの前記取得時間との前記時間差を前記基準時間差として設定することが、
    前記2つのピーク値に対応する、それぞれ第1の時間差および第2の時間差である、前記第1の音声データブロックの音声データセグメントの取得時間と、前記第2の音声データブロックの音声データセグメントの取得時間との時間差を別々に計算することを含み、前記第1の時間差および前記第2の時間差のうちの小さい方が前記基準時間差として設定される、請求項1に記載の方法。
  4. 前記第1の時間差および前記第2の時間差のうちの大きい方をクロストーク時間差として設定することと、
    前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含むと判定することと、をさらに含む、請求項3に記載の方法。
  5. 前記音声セグメント時間差が前記クロストーク時間差と一致することが、
    前記音声セグメント時間差が前記クロストーク時間差に等しいこと、または、
    前記音声セグメント時間差と前記クロストーク時間差との差が第1の指定された閾値未満であること、を含む、請求項4に記載の方法。
  6. 前記音声セグメント時間差が前記基準時間差と一致しないことが、
    前記音声セグメント時間差が前記基準時間差に等しくないこと、または、
    前記音声セグメント時間差と前記基準時間差との差が第2の指定された閾値より大きいこと、を含む、請求項1に記載の方法。
  7. 前記相関係数が定義された係数値よりも大きい場合、相関係数に対応する前記第1の音声データブロックの関連付けられた音声データセグメントを、有効なデータとしてラベル付けすることをさらに含み、
    これに対応して、前記第1の音声データブロックの前記音声データセグメントの前記取得時間と前記第2の音声データブロック内の前記対応する音声データセグメントの前記取得時間との時間差を前記音声セグメント時間差として設定する場合、前記音声データセグメントが有効なデータとしてマークされた場合にのみ、前記時間差が前記音声セグメント時間差とみなされる、請求項1に記載の方法。
  8. 前記相関係数の前記ピーク値を取得するために、前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することにおいて、ピーク値の数は1つであり、
    前記ピーク値に対応する前記第1の音声データブロック内の前記音声データセグメントの前記取得時間と前記第2の音声データブロック内の前記音声データセグメントの前記取得時間との時間差を前記基準時間差として設定することが、
    前記第1の音声データブロックの信号強度が前記第2の音声データブロックの信号強度よりも高い場合、前記時間差を前記基準時間差として判定すること、を含む、請求項1に記載の方法。
  9. 前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間で計算された前記相関係数が相関係数組を形成し、前記方法が、さらに、
    定義された係数値よりも大きい前記相関係数組内の前記相関係数の統計数をカウントすることを含み、
    これに対応して、前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度よりも高い場合、前記時間差を前記基準時間差として判定することが、データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度よりも高く、前記統計数が設定された閾値よりも大きい場合にのみ、前記時間差を前記基準時間差として判定することを含む、請求項8に記載の方法。
  10. 前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度より高いことが、
    前記第1の音声データブロックのエネルギーが前記第2の音声データブロックのエネルギーより大きいこと、または、
    前記第1の音声データブロックの音圧値が前記第2の音声データブロックの音圧値より大きいこと、を含む、請求項8に記載の方法。
  11. 前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度よりも弱い場合、前記時間差をクロストーク時間差として判定することと、
    前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含んでいると判定することと、をさらに含む、請求項8に記載の方法。
  12. 前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度より弱いことが、
    前記第1の音声データブロック内の音声データのエネルギーが前記第2の音声データブロック内の音声データのエネルギーより小さいこと、または、
    前記第1の音声データブロック内の前記音声データの音圧値が前記第2の音声データブロック内の前記音声データの音圧値より小さいこと、を含む、請求項11に記載の方法。
  13. 第1の音声データブロックを生成するように構成された第1の音検知デバイスであって、前記第1の音声データブロックが複数の音声データセグメントを含む、第1の音検知デバイスと、
    第2の音声データブロックを生成するように構成された第2の音検知デバイスであって、前記第2の音声データブロックが複数の音声データセグメントを含む、第2の音検知デバイスと、
    プロセッサであって、相関係数のピーク値を取得するために、前記第1の音声データブロックの前記複数の音声データセグメントと前記第2の音声データブロックの前記複数の音声データセグメントとの間の前記相関係数を計算し、前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用し、前記第1の音声データブロックの音声データセグメントの取得時間と前記第2の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、を含む電子デバイス。
  14. クロストークデータを検出する方法であって、
    第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
    相関係数のピーク値を取得するために、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
    前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用することと、
    サーバーが、前記第1の音声データブロックの音声データセグメントの取得時間と前記第2の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記基準時間差、前記第1の音声データブロック、および前記第2の音声データブロックを前記サーバーに送信することと、を含む方法。
  15. クロストークデータを検出する方法であって、
    第1の音声データブロック、第2の音声データブロック、および基準時間差を受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
    前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差として使用することと、
    前記音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの前記音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。
  16. クロストークデータを検出する方法であって、
    第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
    相関係数のピーク値を取得するために、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
    サーバーが、前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と、前記第2の音声データブロック内の音声データセグメントとの時間差を基準時間差として設定し、前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として設定し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記ピーク値、前記第1の音声データブロック、および前記第2の音声データブロックを前記サーバーに送信することと、を含む方法。
  17. クロストークデータを検出する方法であって、
    相関係数のピーク値、クライアントによって提供された、第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記ピーク値が、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の相関係数のピーク値である、受信することと、
    前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と、前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することと、
    前記第1の音声データブロック内の音声データセグメントの取得時間と、前記第2の音声データブロック内の対応する音声データセグメントの取得時間との時間差を、音声セグメント時間差として設定することと、
    関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。
  18. クロストークデータを検出する方法であって、
    第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
    サーバーが、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、前記相関係数のピーク値を取得できるようにするために、前記第1の音声データブロックおよび前記第2の音声データブロックを前記サーバーに送信することと、
    前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することと、
    前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差の取得時間として設定することと、
    関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。
JP2021500297A 2018-07-12 2019-07-03 クロストークデータ検出方法および電子デバイス Pending JP2021531685A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810763010.9 2018-07-12
CN201810763010.9A CN110718237B (zh) 2018-07-12 2018-07-12 串音数据检测方法和电子设备
PCT/CN2019/094530 WO2020011085A1 (zh) 2018-07-12 2019-07-03 串音数据检测方法和电子设备

Publications (1)

Publication Number Publication Date
JP2021531685A true JP2021531685A (ja) 2021-11-18

Family

ID=69141849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021500297A Pending JP2021531685A (ja) 2018-07-12 2019-07-03 クロストークデータ検出方法および電子デバイス

Country Status (4)

Country Link
US (1) US11551706B2 (ja)
JP (1) JP2021531685A (ja)
CN (1) CN110718237B (ja)
WO (1) WO2020011085A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718237B (zh) 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
CN113539269A (zh) * 2021-07-20 2021-10-22 上海明略人工智能(集团)有限公司 音频信息处理方法、系统和计算机可读存储介质
GB2613898A (en) * 2021-12-20 2023-06-21 British Telecomm Noise cancellation

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07336790A (ja) * 1994-06-13 1995-12-22 Nec Corp マイクロホンシステム
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP3750583B2 (ja) * 2001-10-22 2006-03-01 ソニー株式会社 信号処理方法及び装置、並びに信号処理プログラム
GB2391322B (en) * 2002-07-31 2005-12-14 British Broadcasting Corp Signal comparison method and apparatus
JP4510539B2 (ja) * 2004-07-26 2010-07-28 日本放送協会 特定話者音声出力装置及び特定話者判定プログラム
CN101346896B (zh) 2005-10-26 2012-09-05 日本电气株式会社 回声抑制方法及设备
US8260613B2 (en) * 2007-02-21 2012-09-04 Telefonaktiebolaget L M Ericsson (Publ) Double talk detector
WO2010092913A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
US20130156238A1 (en) 2011-11-28 2013-06-20 Sony Mobile Communications Ab Adaptive crosstalk rejection
EP2645362A1 (en) 2012-03-26 2013-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving the perceived quality of sound reproduction by combining active noise cancellation and perceptual noise compensation
CN103268766B (zh) * 2013-05-17 2015-07-01 泰凌微电子(上海)有限公司 双麦克风语音增强方法及装置
US9794888B2 (en) 2014-05-05 2017-10-17 Isco International, Llc Method and apparatus for increasing performance of a communication link of a communication node
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9747906B2 (en) 2014-11-14 2017-08-29 The Nielson Company (Us), Llc Determining media device activation based on frequency response analysis
US9672805B2 (en) 2014-12-12 2017-06-06 Qualcomm Incorporated Feedback cancelation for enhanced conversational communications in shared acoustic space
US9747656B2 (en) 2015-01-22 2017-08-29 Digimarc Corporation Differential modulation for robust signaling and synchronization
EP3257236B1 (en) 2015-02-09 2022-04-27 Dolby Laboratories Licensing Corporation Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants
CN104810025B (zh) * 2015-03-31 2018-04-20 天翼爱音乐文化科技有限公司 音频相似度检测方法及装置
US10839309B2 (en) * 2015-06-04 2020-11-17 Accusonus, Inc. Data training in multi-sensor setups
WO2017064840A1 (ja) * 2015-10-16 2017-04-20 パナソニックIpマネジメント株式会社 音源分離装置および音源分離方法
NZ750171A (en) * 2016-01-18 2022-04-29 Boomcloud 360 Inc Subband spatial and crosstalk cancellation for audio reproduction
CN107040843B (zh) * 2017-03-06 2021-05-18 联想(北京)有限公司 通过两个麦克风获取同一个音源的方法及采集设备
CN106997769B (zh) * 2017-03-25 2020-04-24 腾讯音乐娱乐(深圳)有限公司 颤音识别方法及装置
CN107316651B (zh) * 2017-07-04 2020-03-31 北京中瑞智科技有限公司 基于麦克风的音频处理方法和装置
CN110718237B (zh) 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备

Also Published As

Publication number Publication date
CN110718237A (zh) 2020-01-21
CN110718237B (zh) 2023-08-18
US11551706B2 (en) 2023-01-10
US20210090589A1 (en) 2021-03-25
WO2020011085A1 (zh) 2020-01-16

Similar Documents

Publication Publication Date Title
US11551706B2 (en) Crosstalk data detection method and electronic device
US10580411B2 (en) Talker change detection
EP2355097B1 (en) Signal separation system and method
JP7065070B2 (ja) 音波によるデータ送信/受信方法及びデータ伝送システム
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
CN110718238B (zh) 串音数据检测方法、客户端和电子设备
US9774743B2 (en) Silence signatures of audio signals
US20160247518A1 (en) Apparatus and method for improving a perception of a sound signal
KR20170120645A (ko) 채널 간 시간차 파라미터를 결정하기 위한 방법 및 디바이스
WO2022052965A1 (zh) 语音重放攻击检测方法、装置、介质、设备及程序产品
Zarazaga et al. Acoustic fingerprints for access management in ad-hoc sensor networks
US11265650B2 (en) Method, client, and electronic device for processing audio signals
JP2006227328A (ja) 音声処理装置
Al-Sheikh et al. Sound source direction estimation in horizontal plane using microphone array
Han et al. Online binaural speech separation of moving speakers with a Wavesplit network
CN114697790B (zh) 位置识别方法和耳机设备
Rodriguez et al. Lexa: A Liveness Detection Enabled Voice Assistant
Goli et al. Deep learning-based speech specific source localization by using binaural and monaural microphone arrays in hearing aids
US20160260439A1 (en) Voice analysis device and voice analysis system
Jia et al. Two-dimensional detection based LRSS point recognition for multi-source DOA estimation
Zhang et al. Speaker Orientation-Aware Privacy Control to Thwart Misactivation of Voice Assistants
JP6230969B2 (ja) 音声収音システム、ホスト装置及びプログラム
US10204638B2 (en) Integrated sensor-array processor
Mosayyebpour et al. Time delay estimation via minimum-phase and all-pass component processing
Tilbury et al. Evaluating a simple time-delay algorithm for the three-dimensional angle-of-arrival localization of sound

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240307

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240430