JP2021531685A - クロストークデータ検出方法および電子デバイス - Google Patents
クロストークデータ検出方法および電子デバイス Download PDFInfo
- Publication number
- JP2021531685A JP2021531685A JP2021500297A JP2021500297A JP2021531685A JP 2021531685 A JP2021531685 A JP 2021531685A JP 2021500297 A JP2021500297 A JP 2021500297A JP 2021500297 A JP2021500297 A JP 2021500297A JP 2021531685 A JP2021531685 A JP 2021531685A
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- data block
- time difference
- segment
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 90
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000002372 labelling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000005314 correlation function Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/002—Applications of echo suppressors or cancellers in telephonic connections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/46—Monitoring; Testing
- H04B3/487—Testing crosstalk effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/26—Arrangements for supervision, monitoring or testing with means for applying test signals or for measuring
- H04M3/34—Testing for cross-talk
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/003—Digital PA systems using, e.g. LAN or internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/009—Signal processing in [PA] systems to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
Description
Claims (18)
- クロストークデータを検出するための方法であって、
第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが各々複数の音声データセグメントを含む、受信することと、
相関係数のピーク値を取得するために、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を、基準時間差として設定することと、
前記第1の音声データブロックの前記音声データセグメントの取得時間と前記第2の音声データブロックの対応する音声データセグメントとの時間差を、音声セグメント時間差として設定することと、
関連付けられた音声セグメント時間差が、前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントが、クロストークデータを含んでいると判定することと、を含む、方法。 - 前記相関係数の前記ピーク値を取得するために、前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することが、
前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することによって、相関係数組を形成することと、
前記相関係数組内の最大値を前記ピーク値として使用することと、を含む、請求項1に記載の方法。 - 前記相関係数の前記ピーク値を取得するために、前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することにおいて、ピーク値の数が2つであり、
これに対応して、前記ピーク値に対応する前記第1の音声データブロック内の前記音声データセグメントの前記取得時間と、前記第2の音声データブロック内の前記音声データセグメントの前記取得時間との前記時間差を前記基準時間差として設定することが、
前記2つのピーク値に対応する、それぞれ第1の時間差および第2の時間差である、前記第1の音声データブロックの音声データセグメントの取得時間と、前記第2の音声データブロックの音声データセグメントの取得時間との時間差を別々に計算することを含み、前記第1の時間差および前記第2の時間差のうちの小さい方が前記基準時間差として設定される、請求項1に記載の方法。 - 前記第1の時間差および前記第2の時間差のうちの大きい方をクロストーク時間差として設定することと、
前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含むと判定することと、をさらに含む、請求項3に記載の方法。 - 前記音声セグメント時間差が前記クロストーク時間差と一致することが、
前記音声セグメント時間差が前記クロストーク時間差に等しいこと、または、
前記音声セグメント時間差と前記クロストーク時間差との差が第1の指定された閾値未満であること、を含む、請求項4に記載の方法。 - 前記音声セグメント時間差が前記基準時間差と一致しないことが、
前記音声セグメント時間差が前記基準時間差に等しくないこと、または、
前記音声セグメント時間差と前記基準時間差との差が第2の指定された閾値より大きいこと、を含む、請求項1に記載の方法。 - 前記相関係数が定義された係数値よりも大きい場合、相関係数に対応する前記第1の音声データブロックの関連付けられた音声データセグメントを、有効なデータとしてラベル付けすることをさらに含み、
これに対応して、前記第1の音声データブロックの前記音声データセグメントの前記取得時間と前記第2の音声データブロック内の前記対応する音声データセグメントの前記取得時間との時間差を前記音声セグメント時間差として設定する場合、前記音声データセグメントが有効なデータとしてマークされた場合にのみ、前記時間差が前記音声セグメント時間差とみなされる、請求項1に記載の方法。 - 前記相関係数の前記ピーク値を取得するために、前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することにおいて、ピーク値の数は1つであり、
前記ピーク値に対応する前記第1の音声データブロック内の前記音声データセグメントの前記取得時間と前記第2の音声データブロック内の前記音声データセグメントの前記取得時間との時間差を前記基準時間差として設定することが、
前記第1の音声データブロックの信号強度が前記第2の音声データブロックの信号強度よりも高い場合、前記時間差を前記基準時間差として判定すること、を含む、請求項1に記載の方法。 - 前記第1の音声データブロックの前記音声データセグメントと前記第2の音声データブロックの前記音声データセグメントとの間で計算された前記相関係数が相関係数組を形成し、前記方法が、さらに、
定義された係数値よりも大きい前記相関係数組内の前記相関係数の統計数をカウントすることを含み、
これに対応して、前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度よりも高い場合、前記時間差を前記基準時間差として判定することが、データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度よりも高く、前記統計数が設定された閾値よりも大きい場合にのみ、前記時間差を前記基準時間差として判定することを含む、請求項8に記載の方法。 - 前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度より高いことが、
前記第1の音声データブロックのエネルギーが前記第2の音声データブロックのエネルギーより大きいこと、または、
前記第1の音声データブロックの音圧値が前記第2の音声データブロックの音圧値より大きいこと、を含む、請求項8に記載の方法。 - 前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度よりも弱い場合、前記時間差をクロストーク時間差として判定することと、
前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含んでいると判定することと、をさらに含む、請求項8に記載の方法。 - 前記第1の音声データブロックの前記信号強度が前記第2の音声データブロックの前記信号強度より弱いことが、
前記第1の音声データブロック内の音声データのエネルギーが前記第2の音声データブロック内の音声データのエネルギーより小さいこと、または、
前記第1の音声データブロック内の前記音声データの音圧値が前記第2の音声データブロック内の前記音声データの音圧値より小さいこと、を含む、請求項11に記載の方法。 - 第1の音声データブロックを生成するように構成された第1の音検知デバイスであって、前記第1の音声データブロックが複数の音声データセグメントを含む、第1の音検知デバイスと、
第2の音声データブロックを生成するように構成された第2の音検知デバイスであって、前記第2の音声データブロックが複数の音声データセグメントを含む、第2の音検知デバイスと、
プロセッサであって、相関係数のピーク値を取得するために、前記第1の音声データブロックの前記複数の音声データセグメントと前記第2の音声データブロックの前記複数の音声データセグメントとの間の前記相関係数を計算し、前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用し、前記第1の音声データブロックの音声データセグメントの取得時間と前記第2の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、を含む電子デバイス。 - クロストークデータを検出する方法であって、
第1の音声データブロックおよび第2の音声データブロックを受信することであって、第1の音声データブロックおよび第2の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
相関係数のピーク値を取得するために、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用することと、
サーバーが、前記第1の音声データブロックの音声データセグメントの取得時間と前記第2の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記基準時間差、前記第1の音声データブロック、および前記第2の音声データブロックを前記サーバーに送信することと、を含む方法。 - クロストークデータを検出する方法であって、
第1の音声データブロック、第2の音声データブロック、および基準時間差を受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差として使用することと、
前記音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの前記音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。 - クロストークデータを検出する方法であって、
第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
相関係数のピーク値を取得するために、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
サーバーが、前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と、前記第2の音声データブロック内の音声データセグメントとの時間差を基準時間差として設定し、前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として設定し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記ピーク値、前記第1の音声データブロック、および前記第2の音声データブロックを前記サーバーに送信することと、を含む方法。 - クロストークデータを検出する方法であって、
相関係数のピーク値、クライアントによって提供された、第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記ピーク値が、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の相関係数のピーク値である、受信することと、
前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と、前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することと、
前記第1の音声データブロック内の音声データセグメントの取得時間と、前記第2の音声データブロック内の対応する音声データセグメントの取得時間との時間差を、音声セグメント時間差として設定することと、
関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。 - クロストークデータを検出する方法であって、
第1の音声データブロックおよび第2の音声データブロックを受信することであって、前記第1の音声データブロックおよび前記第2の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
サーバーが、前記第1の音声データブロックの音声データセグメントと前記第2の音声データブロックの音声データセグメントとの間の相関係数を計算して、前記相関係数のピーク値を取得できるようにするために、前記第1の音声データブロックおよび前記第2の音声データブロックを前記サーバーに送信することと、
前記ピーク値に対応する前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することと、
前記第1の音声データブロック内の音声データセグメントの取得時間と前記第2の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差の取得時間として設定することと、
関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第1の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810763010.9 | 2018-07-12 | ||
CN201810763010.9A CN110718237B (zh) | 2018-07-12 | 2018-07-12 | 串音数据检测方法和电子设备 |
PCT/CN2019/094530 WO2020011085A1 (zh) | 2018-07-12 | 2019-07-03 | 串音数据检测方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021531685A true JP2021531685A (ja) | 2021-11-18 |
Family
ID=69141849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021500297A Pending JP2021531685A (ja) | 2018-07-12 | 2019-07-03 | クロストークデータ検出方法および電子デバイス |
Country Status (4)
Country | Link |
---|---|
US (1) | US11551706B2 (ja) |
JP (1) | JP2021531685A (ja) |
CN (1) | CN110718237B (ja) |
WO (1) | WO2020011085A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718237B (zh) | 2018-07-12 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 串音数据检测方法和电子设备 |
CN113539269A (zh) * | 2021-07-20 | 2021-10-22 | 上海明略人工智能(集团)有限公司 | 音频信息处理方法、系统和计算机可读存储介质 |
GB2613898A (en) * | 2021-12-20 | 2023-06-21 | British Telecomm | Noise cancellation |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07336790A (ja) * | 1994-06-13 | 1995-12-22 | Nec Corp | マイクロホンシステム |
SE519981C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
JP3750583B2 (ja) * | 2001-10-22 | 2006-03-01 | ソニー株式会社 | 信号処理方法及び装置、並びに信号処理プログラム |
GB2391322B (en) * | 2002-07-31 | 2005-12-14 | British Broadcasting Corp | Signal comparison method and apparatus |
JP4510539B2 (ja) * | 2004-07-26 | 2010-07-28 | 日本放送協会 | 特定話者音声出力装置及び特定話者判定プログラム |
CN101346896B (zh) | 2005-10-26 | 2012-09-05 | 日本电气株式会社 | 回声抑制方法及设备 |
US8260613B2 (en) * | 2007-02-21 | 2012-09-04 | Telefonaktiebolaget L M Ericsson (Publ) | Double talk detector |
WO2010092913A1 (ja) * | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
KR101670313B1 (ko) * | 2010-01-28 | 2016-10-28 | 삼성전자주식회사 | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 |
US20130156238A1 (en) | 2011-11-28 | 2013-06-20 | Sony Mobile Communications Ab | Adaptive crosstalk rejection |
EP2645362A1 (en) | 2012-03-26 | 2013-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improving the perceived quality of sound reproduction by combining active noise cancellation and perceptual noise compensation |
CN103268766B (zh) * | 2013-05-17 | 2015-07-01 | 泰凌微电子(上海)有限公司 | 双麦克风语音增强方法及装置 |
US9794888B2 (en) | 2014-05-05 | 2017-10-17 | Isco International, Llc | Method and apparatus for increasing performance of a communication link of a communication node |
US10127006B2 (en) | 2014-09-09 | 2018-11-13 | Sonos, Inc. | Facilitating calibration of an audio playback device |
US9747906B2 (en) | 2014-11-14 | 2017-08-29 | The Nielson Company (Us), Llc | Determining media device activation based on frequency response analysis |
US9672805B2 (en) | 2014-12-12 | 2017-06-06 | Qualcomm Incorporated | Feedback cancelation for enhanced conversational communications in shared acoustic space |
US9747656B2 (en) | 2015-01-22 | 2017-08-29 | Digimarc Corporation | Differential modulation for robust signaling and synchronization |
EP3257236B1 (en) | 2015-02-09 | 2022-04-27 | Dolby Laboratories Licensing Corporation | Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants |
CN104810025B (zh) * | 2015-03-31 | 2018-04-20 | 天翼爱音乐文化科技有限公司 | 音频相似度检测方法及装置 |
US10839309B2 (en) * | 2015-06-04 | 2020-11-17 | Accusonus, Inc. | Data training in multi-sensor setups |
WO2017064840A1 (ja) * | 2015-10-16 | 2017-04-20 | パナソニックIpマネジメント株式会社 | 音源分離装置および音源分離方法 |
NZ750171A (en) * | 2016-01-18 | 2022-04-29 | Boomcloud 360 Inc | Subband spatial and crosstalk cancellation for audio reproduction |
CN107040843B (zh) * | 2017-03-06 | 2021-05-18 | 联想(北京)有限公司 | 通过两个麦克风获取同一个音源的方法及采集设备 |
CN106997769B (zh) * | 2017-03-25 | 2020-04-24 | 腾讯音乐娱乐(深圳)有限公司 | 颤音识别方法及装置 |
CN107316651B (zh) * | 2017-07-04 | 2020-03-31 | 北京中瑞智科技有限公司 | 基于麦克风的音频处理方法和装置 |
CN110718237B (zh) | 2018-07-12 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 串音数据检测方法和电子设备 |
-
2018
- 2018-07-12 CN CN201810763010.9A patent/CN110718237B/zh active Active
-
2019
- 2019-07-03 WO PCT/CN2019/094530 patent/WO2020011085A1/zh active Application Filing
- 2019-07-03 JP JP2021500297A patent/JP2021531685A/ja active Pending
-
2020
- 2020-12-03 US US17/111,341 patent/US11551706B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN110718237A (zh) | 2020-01-21 |
CN110718237B (zh) | 2023-08-18 |
US11551706B2 (en) | 2023-01-10 |
US20210090589A1 (en) | 2021-03-25 |
WO2020011085A1 (zh) | 2020-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551706B2 (en) | Crosstalk data detection method and electronic device | |
US10580411B2 (en) | Talker change detection | |
EP2355097B1 (en) | Signal separation system and method | |
JP7065070B2 (ja) | 音波によるデータ送信/受信方法及びデータ伝送システム | |
CN110148422B (zh) | 基于传声器阵列确定声源信息的方法、装置及电子设备 | |
CN110718238B (zh) | 串音数据检测方法、客户端和电子设备 | |
US9774743B2 (en) | Silence signatures of audio signals | |
US20160247518A1 (en) | Apparatus and method for improving a perception of a sound signal | |
KR20170120645A (ko) | 채널 간 시간차 파라미터를 결정하기 위한 방법 및 디바이스 | |
WO2022052965A1 (zh) | 语音重放攻击检测方法、装置、介质、设备及程序产品 | |
Zarazaga et al. | Acoustic fingerprints for access management in ad-hoc sensor networks | |
US11265650B2 (en) | Method, client, and electronic device for processing audio signals | |
JP2006227328A (ja) | 音声処理装置 | |
Al-Sheikh et al. | Sound source direction estimation in horizontal plane using microphone array | |
Han et al. | Online binaural speech separation of moving speakers with a Wavesplit network | |
CN114697790B (zh) | 位置识别方法和耳机设备 | |
Rodriguez et al. | Lexa: A Liveness Detection Enabled Voice Assistant | |
Goli et al. | Deep learning-based speech specific source localization by using binaural and monaural microphone arrays in hearing aids | |
US20160260439A1 (en) | Voice analysis device and voice analysis system | |
Jia et al. | Two-dimensional detection based LRSS point recognition for multi-source DOA estimation | |
Zhang et al. | Speaker Orientation-Aware Privacy Control to Thwart Misactivation of Voice Assistants | |
JP6230969B2 (ja) | 音声収音システム、ホスト装置及びプログラム | |
US10204638B2 (en) | Integrated sensor-array processor | |
Mosayyebpour et al. | Time delay estimation via minimum-phase and all-pass component processing | |
Tilbury et al. | Evaluating a simple time-delay algorithm for the three-dimensional angle-of-arrival localization of sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240307 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240430 |