JP2021531685A

JP2021531685A - クロストークデータ検出方法および電子デバイス

Info

Publication number: JP2021531685A
Application number: JP2021500297A
Authority: JP
Inventors: ユンフェン・シュ; タオ・ユ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-12
Filing date: 2019-07-03
Publication date: 2021-11-18
Also published as: CN110718237A; CN110718237B; US11551706B2; US20210090589A1; WO2020011085A1

Abstract

クロストークデータを検出する方法および電子デバイスが、本明細書に開示されている。クロストークデータを検出する方法は、音声データストリームがクロストークデータを含むかどうかを検出することができる。

Description

本出願は、２０１８年７月１２日に出願され、その全体が参照によって本明細書に組み込まれる「ＣｒｏｓｓｔａｌｋＤａｔａＤｅｔｅｃｔｉｏｎＭｅｔｈｏｄａｎｄＥｌｅｃｔｒｏｎｉｃＤｅｖｉｃｅ」と題された「中国出願第２０１８／１０７６３０１０．９号の優先権を主張する。

本発明は、コンピュータの技術分野、特にクロストークデータ検出方法および電子デバイスに関する。

実生活では、人々が集まってコミュニケーションを取り、問題について議論する。あるシナリオでは、マイクを使用して音源を増幅することができ、またサイト上の複数のマイクが、各人の音声データを収集できる。場合によっては、２つ以上のマイクが互いに非常に近接している場合、クロストークが発生し得る。

本明細書の実装は、クロストークデータを検出できるクロストークデータ検出方法および電子デバイスを提供する。

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として使用することと、第１の音声データブロックの１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロックの１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として使用することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む。

本明細書の実装は、電子デバイスを提供し、電子デバイスは、第１の音声データブロックを生成するように構成された第１の音検知デバイスであって、第１の音声データブロックが複数の音声データセグメントを含む、第１の音検知デバイスと、第２の音声データブロックを生成するように構成された第２の音検知デバイスであって、第２の音声データブロックが複数の音声データセグメントを含む、第２の音検知デバイスと、プロセッサであって、第１の音声データブロックの複数の音声データセグメントと第２の音声データブロックの複数の音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得し、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データの取得時間との間の時間差を基準時間差として使用し、第１の音声データブロックの１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロックの１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として使用し、そして関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、を含む。

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として使用することと、基準時間差、第１の音声データブロック、および第２の音声データブロックをサーバーに送信して、サーバーが、第１の音声データブロックの１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロックの１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声時間差として使用し、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定できるようにすることと、を含む。

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロック、第２の音声データブロック、および基準時間差を受信することであって、第１の音声データブロックと第２の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の対応する音声データセグメントとの間の時間差を音声セグメント時間差として使用することと、音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの音声データセグメントがクロストークデータを含んでいると判定することと、を含む。

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックが複数の音声データセグメントを別々に含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値、第１の音声データブロック、および第２の音声データブロックをサーバーに送信し、サーバーが、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントとの間の時間差を基準時間差として設定し、第１の音声データブロック内の１つ以上の音声データセグメントの１つ以上の取得時間と、第２の音声データブロック内の１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として設定し、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定できるようにすることと、を含む。

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、相関係数のピーク値、第１の音声データブロックおよびクライアントによって提供された第２の音声データブロックを受信することであって、ピーク値が、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数のピーク値である、受信することと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定することと、第１の音声データブロック内の１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロック内の１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として設定することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む。

本明細書の実装は、第１の音声データブロックおよび第２音声データブロックを受信することであって、第１の音声データブロックおよび第２音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックおよび第２の音声データブロックをサーバーに送信し、サーバーが、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することができるようにすることと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定することと、第１の音声データブロック内の１つ以上の音声データセグメントの１つ以上の時間差と第２の音声データブロック内の１つ以上の対応する音声データセグメントとの間の１つ以上の時間差を１つ以上の音声セグメント時間差の１つ以上の取得時間として設定することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む、クロストークデータを検出する方法を提供する。

本明細書の上記の実装によって提供される技術的解決策から分かるように、第１の音声データブロックと第２の音声データブロックとの間の基準時間差を判定することによって、基準時間差に基づいてクロストークデータの検出が達成される。音の遅延情報は音源とマイクの空間的位置に関係しているため、音声データブロックがクロストークデータを含んでいるかどうかが、遅延の時間差に基づいて効率的に検知され得る。

本明細書または既存の技術の実装における技術的解決策をより明確に説明するために、実装または既存の技術の説明に使用する必要のある図面を本明細書で簡単に説明する。明らかに、説明された図面は、本明細書に記録されているいくつかの実装のみを表している。当業者は、いかなる創造的な努力もすることなく、これらの図面に基づいて他の図面を取得することができる。
本明細書の実装により提供されるクロストークデータ検出システムの概略図である。本明細書の実装により提供される討論会のシナリオ下でのクロストークデータ検出システムの概略アプリケーションシナリオ図である。本明細書の実装により提供される音声データブロックの送信経路の概略図である。本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。

当業者が本明細書の技術的解決策をよりよく理解できるようにするために、本明細書の実装における技術的解決策を、本明細書の実装における図面を参照して以下に明確かつ完全に説明する。明らかに、説明される実装は、本明細書の実装のすべてではなく、一部のみを表している。本明細書の実装に基づいて、いかなる創造的な努力もすることなく、当業者によって取得される他のすべての実装は、本出願の保護の範囲内に含まれるべきである。

図１および図２を参照すると、例示的なシナリオでは、賛成側および反対側の４人の討論者が、討論シーンで長いテーブルの両端にそれぞれ座っている。長いテーブルにはそれぞれ２つのマイクが配置されており、討論者が発する音を検知するために使用され、マイクによって検知された音はパワーアンプによって増幅される。

この例示的なシナリオでは、第１の発言者がマイクＡの前で発言し、「私は、グローバリゼーションは発展途上国にとって有益だと思う」と話す。マイクＡとマイクＢとの間の距離が比較的短いため、マイクＢはまた、「私は、グローバリゼーションは開発途上国にとって有益だと思う」という声を検知し得る。同時に、討論者ＢはマイクＢの前で、「グローバリゼーションは貿易の発展に有益である」と話す。マイクＡはまた、「グローバリゼーションは貿易の発展に有益である」という声を検知し得る。したがって、マイクＡおよびマイクＢは、検知された音に従ってそれぞれの音声データストリームを生成し得る。

この例示的なシナリオでは、電子デバイスがセットアップされ得、電子デバイスは、受信モジュールを介してマイクＡおよびマイクロＢによって生成された音声データストリームを受信し、そして音声データストリームを処理し、音声データストリーム内のクロストークデータを検出し得る。

この例示的なシナリオでは、討論者ＡがマイクＡに向かって「私は、グローバリゼーションは発展途上国に有益だと思う」と話し、そして討論者ＢがマイクＢに向かって「グローバリゼーションは貿易の発展に有益である」と話したときに、電子デバイスは、マイクＡによって検知された音を受信し、音声データストリームを生成する。同時に、マイクＢもまた、それによって検知された音に基づいて音声データストリームを生成し得る。受信モジュールは、マイクの数に対応する複数のデータチャネルを有し得る。マイクＡはデータチャネルＡに対応し、マイクＢはデータチャネルＢに対応する。この例示的なシナリオでは、合計８つのマイクがあり得、また電子デバイスには８つのデータチャネルがあり得る。さらに、電子デバイスは、ＷＩＦＩによってデータチャネルを介してマイクによって入力された音声データストリームを受信し得る。

この例示的なシナリオでは、受信モジュールは、音声データストリームを音声データブロックに分割し得る。具体的には、データチャネルＡ内の音声データストリームを分割して第１の音声データブロックを取得し、またデータチャネルＢ内の音声データストリームを分割して第２の音声データブロックを取得し得る。

この例示的なシナリオでは、電子デバイスは、データチャネルＡによって入力された音声データストリームをターゲットとして使用し得、データチャネルＡ内の音声データストリームが、データチャネルＡおよびデータチャネルＢ内の音声データストリーム間の関連性に基づいてクロストークデータを有するかどうかを検出する。

この例示的なシナリオでは、第１の音声データブロックおよび第２の音声データブロックの各音声データブロックは、１０００ｍｓの単位でいくつかの音声データセグメントに分割され得る。

この例示的なシナリオでは、電子デバイスの係数計算モジュールは、第１の音声データブロックおよび第２の音声データブロックに対して別々にフーリエ変換を実行し得る。第１の音声データブロックおよび第２の音声データブロックのフーリエ変換に従って、相互相関関数が生成される。第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関は、相互相関関数に従って計算することができる。具体的には、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関を別々に計算することができ、また計算された相関の最大値を、第１の音声データブロック内の音声データセグメントと相関する最大値に対応する第２の音声データブロック内の音声データセグメントと見なすことができる。このように、最大値は、第１の音声データブロック内の音声データセグメントの最終的な相関係数と見なすことができる。

この例示的なシナリオでは、相互相関関数に従って、音声データブロック内の音声データセグメントに対応する相関係数を計算できる。同時に発言している人が２人いるために、音声データブロック内の音声データセグメントに対応する相関係数には、それぞれ０．３と０．５の２つのピークがあり得る。第１の相関係数として０．３、第２の相関係数として０．５を判定し得る。

この例示的なシナリオでは、閾値を設定することができ、そして音声データセグメントを閾値に従ってフィルタリングして、音声データブロック内の有効なデータを取得し得る。例えば、閾値は０．１であり得る。相関係数が０．１より大きい場合、相関係数に対応する第１の音声データブロック内の音声データセグメントは、第２の音声データブロック内の音声データセグメントと比較的類似度が高いと見なされ得る。これら２つの音声データセグメントは、同じ音源に由来すると見なされ、つまり、有効なデータと見なされ得る。相関係数が０．１未満の場合、相関係数に対応する、第１の音声データブロックおよび第２の音声データブロック内のそれぞれの音声データセグメント間の類似度は低いとみなされ、相関係数に対応する第１の音声データブロック内のそれぞれの音声データセグメントがノイズであリ得るとみなされ得る。この例示的なシナリオでは、ノイズと見なされる音声データセグメントに対してクロストーク検出が実行されない場合がある。第１の相関係数および第２の相関係数は、どちらも０．１より大きい０．３と０．４であるため、第１の相関係数および第２の相関係数に対応する音声データセグメントは有効なデータと見なされ得る。

この例示的なシナリオでは、係数計算モジュールは、第１の相関係数に対応する第１の音声データブロック内の音声データセグメントを第１のターゲット音声データセグメントとして判定し、第２の相関に対応する第１の音声データブロック内の音声データセグメントを第２のターゲット音声データセグメントとして判定し、第１の相関係数に対応する第２の音声データブロック内の音声データセグメントを第１の補助音声データセグメントとして判定し、そして、第２の相関係数に対応する第２の音声データブロック内の音声データセグメントを第２の補助音声データセグメントとして判定し得る。

この例示的なシナリオでは、電子デバイスの時間差判定モジュールは、第１のターゲット音声データセグメントと第１の補助音声データセグメントとの間の第１の時間差を計算し得る。例えば、第１の時間差は３０ｍｓであり得る。第２のターゲット音声データセグメントと第２の補助音声データセグメントとの間の第２の時間差が計算される。例えば、第２の時間差は６０ｍｓであり得る。

この例示的なシナリオでは、時間差判定モジュールは、第１の時間差と第２の時間差のうちの小さい方を基準時間差として、そして他方をクロストーク時間差として判定し得る。言い換えると、基準時間差は３０ｍｓと判定でき、またクロストーク時間差は６０ｍｓと判定できる。

この例示的なシナリオでは、電子デバイスの処理モジュールは、相関係数に従って、第１の音声データブロック内の各音声データセグメントに対応する第２の音声データブロック内のそれぞれの音声データセグメントを判定し、さらに第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算する。第１の音声データブロック内の音声データセグメントに対応する音声セグメント時間差が３０ｍｓに等しい場合、第１の音声データブロック内の音声データセグメントが主音声データであると判定される。音声セグメント時間差が６０ｍｓに等しい場合、第１の音声データブロック内の関連する音声データセグメントがクロストークデータであると判定される。

例示的なシナリオでは、討論者Ｂが発言し、そして討論者Ｂが目の前のマイクＢに向かって話し、「私は、グローバリゼーションは発展途上国にとって有益だと思う」と言う。マイクＡは比較的マイクＢに近いので、マイクＡもまた「私は、グローバリゼーションは発展途上国にとって有益だと思う」という声を検知できる。したがって、マイクＡとマイクＢの両方が、検知した声に従って対応する音声データストリームを生成できる。電子デバイスは、データチャネルＡおよびデータチャネルＢによって入力された音声データストリームに従って、第１の音声データブロックおよび第２の音声データブロックを生成し得る。

この例示的なシナリオでは、電子デバイスは、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関係数を計算し得る。第１の音声データブロック内の音声データセグメントは、相関係数に基づいてフィルタリングおよび選択され、そして有効なデータである１５０の音声データセグメントが第１の音声データブロックから取得される。さらに、電子デバイスは、第１の音声データブロックと第２の音声データブロックとの間の相関係数から０．４のピーク値を取得し、そして相関係数のピーク値０．４に対応する時間差は５０ｍｓである。

この例示的なシナリオでは、電子デバイスは、第１の音声データブロックおよび第２の音声データブロック内の各音声データセグメントの平滑化エネルギーを計算し、そして第２の音声データブロック内の音声データセグメントの平滑化エネルギーより大きな平滑化エネルギーを有する第１の音声データブロック内の音声データセグメントの数をカウントする。カウント数は５である。電子デバイスは、第２の音声データブロック内の音声データセグメントの平滑化エネルギーより大きな平滑化エネルギーを有する第１の音声データブロック内の音声データセグメントの数と、有効なデータの数との間の比率が、０．８より大きい場合、相関係数のピークに対応する時間差が基準時間差であると判定され、また、０．２未満である場合、相関関数のピークに対応する時間差がクロストーク時間差であると判定されるように設定し得る。１５０に対する５の比率は０，２未満であるため、５０ｍｓの時間差がクロストーク時間差であると判定される。

この例示的なシナリオでは、電子デバイスは、第１の音声データブロックの音声データセグメントに対応する時間差を計算し、そして計算された時間差が５０ｍｓに等しい場合、対応するボイスデータがクロストークデータであると判定する。

この例示的なシナリオでは、他のデータチャネルは、他のデータチャネルによって送信される音声データストリーム内のクロストークデータを検出するためのターゲットとして使用され得る。

この例示的なシナリオでは、討論過程全体で、検出されたクロストークデータをさらに取り除き、そしてクロストークが取り除かれた後に取得された音声データブロックを指定の音声ファイルに保存し、より明確な討論記録を生成する。

図１を参照すると、本明細書の実装は、クロストークデータ検出システムを提供する。クロストークデータ検出システムは、受信モジュール、係数計算モジュール、時間差判定モジュール、および処理モジュールを含み得る。本明細書の以下の説明は、機能モジュールを使用するクロストークデータ検出システムを紹介し、またクロストークデータ検出システムが実行されると、クロストークデータ検出方法が実施される。クロストークデータ検出方法は、以下の機能モジュールを参照することで理解でき、そして繰り返されない。

受信モジュールは、第１の音声データブロックおよび第２の音声データブロックを受信し、第１の音声データブロックおよび第２の音声データブロックはそれぞれ、複数の音声データセグメントを含む。

この実装では、受信モジュールは、第１のデータチャネルを介して入力された第１の音声データブロックおよび第２のデータチャネルを介して入力された第２の音声データブロックを受信し得る。具体的には、受信モジュールは、受信デバイス、またはデータ相互作用能力を備えた通信モジュールであり得る。受信モジュールは、第１のデータチャネルを介して入力された第１の音声データブロックおよび第２のデータチャネルを介して入力された第２の音声データブロックを有線で受信し得る。第１の音声データブロックおよび第１のデータチャネルを介して入力された第１の音声データブロックと、第１のデータチャネルを介して入力された第２の音声データブロックとを、ＨＴＴＰ、ＴＣＰ／ＩＰ、もしくはＦＴＰなどのネットワークプロトコルに基づいて、またはＷＩＦＩモジュール、ＺｉｇＢｅｅモジュール、Ｂｌｕｅｔｏｏｓモジュール、Ｚ−ｗａｖｅモジュールなどの無線通信モジュールを介して受信することも可能である。明らかに、受信モジュールはソフトウェアプログラムインターフェイスと呼ばれることもあり、コンピューティング能力を有する処理で動作できる。

この実装では、受信モジュールは、音検知デバイスの数に対応する複数のデータチャネルを有し得る。音検知デバイスは、音を検知して音声データストリームを生成し、音声データストリームをデータチャネルに入力することができるデバイスを含み得る。例としては、マイク、ボイスレコーダーなどがある。この実装では、データチャネルは、音声データブロック送信用のキャリアを含み得る。データチャネルは、物理チャネルまたは論理チャネルであり得る。音声データブロックの送信経路により、データチャネルが異なる場合がある。具体的には、例えば、２つのマイクが設けられている場合、音源は、これら２つのマイクによって検知される音を生成して音声データストリームを生成することができ、また各マイクが音声データストリームを送信するチャネルをデータチャネルと呼ぶことができる。明らかに、データチャネルは論理的に分割することもでき、これは、複数のマイクを介して入力された音声データストリームを混合するのではなく、様々なマイクを介して入力された音声データストリームを個別に処理する、つまり、マイクを介して入力された音声データストリームを独立して処理することと理解できる。

この実装では、第１の音声データブロックは、第１のデータチャネル内の音声データストリームに従って生成され得る。第２の音声データブロックは、第２のデータチャネル内の音声データストリームに従って生成され得る。音検知デバイスは、検知された音に従って、対応する音声データストリームを生成することができる。第１の音声データブロックおよび第２の音声データブロックは、様々な音検知デバイスに対応し得る。音検知デバイスの空間的位置は様々であり得るため、音源からの音を検知する様々な音検知デバイスによって生成される音声データストリームが様々である場合、時間もまた様々であり得る。

この実装では、第１の音声データブロックおよび第２の音声データブロックはそれぞれ、複数の音声データブロックを含み得る。受信モジュールは、第１のデータチャネルの音声データストリームおよび第２のデータチャネルの音声データストリームを一定のルールに従ってデータブロックに分割することができ、そして分割されたデータブロックは、音声データブロックであり得る。音声データストリームは、時間の長さまたは数に応じて音声データブロックに分割できる。具体的には、例えば、音声データストリームは、１０ｍｓの単位で音声データブロックに分割され得る。明らかに、音声データブロックは１０ｍｓに制限されないこともある。あるいは、音声データブロックは、データの量に従って分割され得る。例えば、各音声データブロックは最大１ＭＢを有し得る。あるいは、音声データストリームによって表される音声波形の連続状態に従って分割が実行される。例えば、エンドポイント検出の場合、２つの隣接する連続波形間に一定の時間差がある無声部分が存在し、各連続音声波形は音声データブロックとして区切られる。音声データブロックは、複数の音声データセグメントを含み得る。音声データセグメントは、処理の基本単位として使用できる。

係数計算モジュールは、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算し、相関係数のピーク値を取得するように構成されている。

この実装では、相関係数を使用して、音声データブロック間の関係の近さの程度を示すことができる。あるいは、相関係数を使用して、音声データブロック間の類似度を示すことができる。相関係数の値が大きいほど、２つの音声データブロック内に含まれる音声データセグメントがより類似していることを示し得る。逆に、相関係数の値が小さいほど、２つの音声データブロック内に含まれる音声データセグメントが異なることを示し得る。

この実装では、フーリエ変換は、ＧＣＣＰＨＡＴ法（位相変換加重一般化相互相関）に従って、音声データブロック内の音声データセグメントに対して個別に実行し得る。フーリエ変換後、第１の音声データブロック内の音声データセグメントおよび第２の音声データブロック内の音声データセグメントに基づいて相互相関関数が生成され、相関係数を取得し得る。明らかに、相関係数は、基本的な相互相関法、相互パワースペクトル位相法、および他の方法に従って計算することもできる。明らかに、当業者は、相関係数を取得するための本明細書の技術的本質の下で他の修正された解決策を採用することができ、それによって実装される機能および効果が本明細書と同じであるかまたは類似している限り、本明細書の保護の範囲内でカバーされるものとする。

この実装では、図３を参照すると、ある空間において、音を発する２つの音源があり得る。第１の音検知デバイスおよび第２の音検知デバイスは、音声データストリームを別々に生成し、そして、それらを対応する第１のデータチャネルおよび第２のデータチャネルに入力し得る。音源Ａで音を発してから第１の音検知デバイスで音を検知するまでにかかる時間の長さは時間１である。第１の音検知デバイスが音源Ａから発せられた音を検知してから第１のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間２である。音源Ａが音を発してから第２の音検知デバイスが音を検知するまでにかかる時間の長さは時間３である。第２の音検知デバイスが音源Ａから発せられた音を検知してから第２のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間４である。第１のデータチャネルおよび第２のデータチャネルにおいて、音源Ａが発した音によって形成される音声データストリームは、音声データセグメントを含む音声データブロックに分割され得、次いで、相関係数は、ＧＣＣＰＨＡＴなどの方法を使用して計算され得る。音源Ｂが音を発してから第１の音検知デバイスが音を検知するまでにかかる時間の長さは時間５である。第１の音検知デバイスが音源Ｂから発せられる音を検知してから第１のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間６である。音源Ｂが音を発してから第２の音検知デバイスが音を検知するまでにかかる時間の長さは時間７である。第２の音検知デバイスが音源Ｂから発せられる音を検知してから第２のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間８である。第１のデータチャネルおよび第２のデータチャネルにおいて、音源Ｂが発する音によって形成される音声データストリームは、音声データセグメントを含む音声データブロックに分割され得、次いで、相関係数は、ＧＣＣＰＨＡＴなどの方法を使用して計算され得る。したがって、２つの音源が空間内で音を発し、２つの相関係数が計算されて、取得され得る。

この実装では、各検知デバイスは１人のユーザに対応してもよく、それにより、各音検知デバイスを使用して、様々なユーザを区別することができる。さらに、各音検知デバイスによって入力された音声データストリームが処理され、最終的に各ユーザに対応する音声ファイルを取得できる。したがって、各音声ファイルは、ユーザの声をより正確に特徴付けることができる。

時間差判定モジュールは、ピーク値に対応する、第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定するように構成され得る。

この実装では、ピーク値に対応する、第１の音声データブロック内の音声データセグメントおよび第２の音声データブロック内の音声データセグメントは、最も類似している、またはほとんど同じ音源に由来する音声データを含んでいると見なされ得る。このようにして、相関係数のピーク値に対応する音声データセグメント間の時間差を使用して、同じ音源に由来する第１の音声データブロックおよび第２の音声データブロック内の音声データ間の時間差を特徴付け得る。時間差は、第１の音声データブロック内の音声データの一部がクロストークデータであるかどうかを判定するための参照として使用され得る。このように、時間差を基準時間差として使用することができる。

この実装では、音声データセグメントの取得時間は、音声検知デバイスにおける音声データセグメントの音声データの生成時間、または受信モジュールによって受信された音声データセグメントの音声データの受信時間であり得る。具体的には、例えば、第１の音声検知端末と第２の音声検知端末とは互いに非常に近接している。ユーザが発言するときに、ユーザの発言からの音が第１の音声検知端末および第２の音声検知端末に到達するのにかかる時間は非常に近い。したがって、第１の音声検知端末および第２の音声検知端末は、ユーザの音を別々に検知し、音声データを生成する。第１の音声検知端末が音を検知して第１の音声データブロックを生成し、そして第２の音声検知端末が音を検知して第２の音声データブロックを生成すると仮定することができる。このように、第１の音声データブロックと第２の音声データブロックの生成時間は比較的近い。しかしながら、ユーザから第１の音声検知端末および第２の音声検知端末までの距離が異なるため、第１の音声データブロックおよび第２の音声データブロックの生成時間は近い。

処理モジュールは、第１の音声データブロックの音声データセグメントの取得時間と第２の音声データブロック内の対応する音声データセグメント取得時間との間の時間差を音声セグメント時間差とし、そして、関連する音声セグメント時間差と基準時間差との間に不適合が存在する場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されている。

この実装では、第１の音声データブロック内の音声データセグメントおよび第２の音声データブロック内の音声データセグメントは、同じ音源に由来するかどうかに基づいて、互いに対応するかどうかを判定することができる。あるいは、上記の相関係数に基づいて、相関係数に対応する第１の音声データブロック内の音声データセグメントが、第２の音声データブロック内の音声データセグメントに対応すると見なすことができる。

この実装では、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することができる。音声セグメント時間差は、音波による音センサーの検出から、対応する音声データセグメントを生成するまでにかかる時間に基づいて基準となり得るか、または音声データセグメントを音センサーデバイスによってデータチャネルに入力することに基づくことができるか、または受信モジュールから音声データセグメントを受信する時間に基づくこともできる。具体的には、時間差を計算する方法は、基準時間差を計算する方法と同じであり得る。

この実装では、不一致には、音声セグメント時間差が基準時間差と等しくないことが含まれ得る。あるいは、第２の指定閾値を設定し、そして音声セグメント時間差と基準時間差との間の差の絶対値が第２の指定閾値より大きい場合、音声セグメント時間差が基準時間差と一致しないと判定することができる。具体的には、例えば、第２の指定閾値０．００２が設定されていて、音声セグメント時間差は０．０３であり、また基準時間差は０．０３５である。これら２つの間の差の絶対値は０．００５である。したがって、音声データセグメントはクロストークデータを含んでいると考えられ得る。

この実装では、様々な音源は様々な音検知デバイスに対応し、様々な時間差に対応し得る。図３を参照すると、音源Ａと第１の音検知デバイスとの間の距離は、音源Ａと第２の音検知デバイスとの間の距離よりも空間的に短い。その結果、時間１は時間６よりも短くなる。このようにして、第１のデータチャネルおよび第２のチャネル内の音源Ａに由来する音声データセグメント間の音声セグメント時間差は、例えば、時間６と時間１との差が存在する。音声セグメント時間差は、音源Ａに対応し、また音源Ａ、第１の音検知デバイス、および第２の音検知デバイスの空間的位置が変わらないままである場合、音声セグメント時間差の値も変わらない。同じことが音源Ｂにも当てはまる。第１のデータチャネルの音声データセグメントでは、一部は音源Ａに由来し、一部は音源Ｂに由来し得る。同様に、第２の音声データチャネルの音声データセグメントでは、一部は音源Ａに由来し、一部は音源Ｂに由来し得る。相関係数に対応する、第１のデータチャネル内の音声データセグメントと第２のデータデータチャネル内の音声データセグメントとの間の音声セグメント時間差を計算することによって、音声セグメント時間差を使用して、第１のデータチャネル内の音源Ａに由来する音声データセグメントと音源Ｂに由来する音声データセグメントとを区別し得る。クロストークデータは、第１のデータチャネル内の音源Ｂからの音声データセグメントがクロストークデータであると理解することができる。言い換えれば、クロストークデータは、ターゲット音源以外の音源に由来する音声データセグメントであり得る。

この実装では、音声セグメント時間差が基準時間差と一致する場合、第１の音声データブロック内の対応する音声データセグメントは、第１の音声データブロックが位置しているデータチャネルに対応する音源に由来すると見なすことができる。そのため、音声データセグメントは、さらなる処理および使用のために、取っておく必要がある。音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロック内の対応する音声データセグメントは、第１の音声データブロックが位置しているデータチャネルに対応する音源に由来するものではないと見なすことができる。その音声データセグメントは、第１の音声データブロックから取り除く必要がある。

ある実装において、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を得ることは、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの相関係数を計算して、相関係数組を形成することと、相関係数組内の最大値をピーク値として設定することと、を含み得る。

この実装では、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数組を形成することができる。相関係数の１つ以上のピーク値は、相関係数組から選択される。具体的には、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関は、相互相関関数に従って計算することができる。具体的には、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関を別々に計算することができる。計算された相関の最大値は、第１の音声データブロック内の音声データセグメントに対応する最大値に対応する第２の音声データブロック内の音声データセグメントとしてみなされ得る。このように、最大値は、最終的に、第１の音声データブロック内の音声データセグメントに対応する相関係数と見なすことができる。このように、第１の音声データブロック内の各音声データセグメントに対応する相関係数を得ることができ、そして第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の対応を、相関係数を介して形成することができる。

この実装では、１つ以上のピーク値は、相関係数組内の最大値であり得る。あるいは、相関係数は、対応する音声データセグメントの構成に従って構成され、その結果、相関係数が連続分布を形成し、１つ以上のピークおよび１つ以上の谷が、全体として表示され得るなど。１つ以上のピーク値は、１つ以上のピークによって表される１つ以上の相関係数であり得る。

ある実装において、係数計算モジュールは、相関係数の１つ以上のピーク値を計算することができ、ピーク値の数は、２つ以上になり得る。

これに対応して、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と、第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を、処理モジュールによって基準時間差として設定することは、それぞれが第１の時間差と第２の時間差であり、第１の時間差と第２の時間差のうちの小さい方が基準時間差として設定される、２つのピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データの取得時間との間の時間差を別々に計算することを含む。

この実装において、相関係数の２つ以上のピークは、相互相関関数に基づいて得られた第１の音声データブロックおよび第２の音声データブロックの相関係数の２つ以上のピークであり得る。あるいは、指定された間隔を相関係数組内に設定し得、そして指定された間隔内の２つの最大値をピーク値として使用する。あるいは、相関係数組内の１つの値をピーク値として設定し得、また特定のデータ間隔の後に、ピーク値に等しくなる傾向がある相関係数は別のピーク値である。あるいは、相関係数内の２つの２番目に大きなものをピーク値として設定する。

この実装では、相関係数内に２つ以上のピークが存在するが、これは、音声データブロック内の音声データが２つ以上の音源に由来し得ることを示し得る。具体的には、例えば、相関係数の２つのピーク値がそれぞれ第１の相関係数および第２の相関係数である相関係数組から選択される。第１の相関係数および第２の相関係数に対応する第１の音声データブロック内の音声データセグメントはそれぞれ第１のターゲット音声データセグメントおよび第２のターゲット音声データセグメントとして扱われ、また第２の音声データブロック内の対応する音声データセグメントは、第１の補助音声データセグメントおよび第２の補助音声データセグメントとして扱われる。このように、ターゲット音声データセグメントおよび対応する補助音声データセグメントとの間の時間差、すなわち、音声セグメント時間差をさらに別々に計算することができる。さらに、各音検知デバイスが１人のユーザに対応するシナリオでは、音検知デバイスと対応するユーザとの間の距離は、音検知デバイスと１人以上の他のユーザとの間の距離よりも短いと見なすことができる。このように、相関係数の複数のピークの場合、より小さな時間差に関連する相関係数に対応するターゲット音声データセグメントは、音検知デバイスの対応する音源に由来する傾向がある。したがって、計算された複数の時間差の中から、より小さな時差を基準時間差として使用することができる。

ある実装において、クロストークデータ検出システムは、さらに、第１の時間差と第２の時間差のうちの大きい方をクロストーク時間差としてみなすことを実施する。それに対応して、処理モジュールは、関連する音声セグメントの時間差がクロストーク時間差と一致する場合、音声データセグメントがクロストークデータを含んでいると判定し得る。

この実装において、音声セグメント時間差がクロストーク時間差と一致することは、音声セグメント時間差がクロストーク時間差に等しいことを含み得る。あるいは、第１の指定閾値が設定され、音声セグメント時間差とクロストーク時間差との間の差の絶対値が、第１の指定閾値よりも小さい場合、音声セグメント時間差はクロストーク時間差と一致すると見なされ得る。具体的には、第１の指定閾値は、例えば、０．００８に設定され得る。音声セグメント時間差が０．０４２であり、クロストーク時間差が０．０４０であり、これら２つの差の絶対値が０．００２（第１の指定閾値よりも小さい）である場合、関連する音声データセグメントがクロストークデータを含んでいると判定され得る。

この実装では、クロストーク時間差を判定することにより、第１の音声データブロック内のクロストークデータは、クロストーク時間差に従って検出される。音声セグメント時間差がクロストーク時間差と一致する場合、音声データセグメントはクロストークデータであると判定される。

ある実装において、システムは、ラベル付けモジュールをさらに含み得る。ラベル付けモジュールは、相関係数が定義された係数値よりも大きい場合、相関係数に対応する第１の音声データブロック内の音声データセグメントを有効なデータとしてラベル付けするように構成される。これに対応して、処理モジュールは、関連する音声データセグメントが有効なデータとしてラベル付けされている場合にのみ、時間差を音声セグメント時間差として使用する。

この実装では、相関係数を使用して、音声データブロック内のノイズデータを除去できる。比較的近接している２つの音検知デバイスは、同じ音源の音を検知して音声データストリームを生成する。その結果、２つの音検知デバイスによって出力された音声データストリームは、互いに比較的関連する音声データセグメントに分割される。計算して得られる相関係数は、比較的大きな値を持つ。第１の音声データブロック内の音声データセグメントが第２の音声データブロック内の対応する音声データセグメントより小さい相関係数を有する場合、これら２つの音声データセグメントの類似性は比較的少ないと見なすことができる。これら２つの音声データセグメントは、同じ音源に由来するものではないと見なされるか、または、音声データセグメントは、電子デバイス自体のノイズによって形成され得る。

この実装では、相関係数に定義された係数値を設定することにより、定義された係数値以上の相関係数を持つ音声データセグメントが、定義された係数値未満の相関係数を持つ音声データセグメントから分離される。このように、定義された係数値未満の相関係数を持つ音声データセグメントは、さらに計算処理することなくノイズデータとして扱うことができ、それによりシステムの計算コンプライアンスが低下する。

この実装において、定義された係数値を設定する方法は、プログラムを介して経験値を直接設定すること、または、音声データブロック内の音声データセグメントに対応する相関係数の分布を分析することと、相関係数の平均値に１未満の係数を掛けて、定義された係数値、例えば、相関係数の平均値の３分の１または４分１を得ることと、を含み得る。

ある実装では、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算することによって、係数計算モジュールによって得られる相関係数のピーク数は１であり得る。これに対応して、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定する場合、時間差判定モジュールは、第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも高い場合に、時間差を基準時間差として設定し得る。

この実装では、第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも大きいこと、第１の音声データブロックおよび第２の音声データブロックのそれぞれの音圧値またはエネルギーを計算することを含み得る。あるいは、本明細書の技術的本質の啓蒙の下で、当業者は、第１の音声データブロックおよび第２の音声データブロックの信号強度の特性を反映することができる他の計算を採用するが、反映される信号強度が本明細書と同じまたは類似している限り、本出願の保護の範囲内でカバーされるものとする。第１の音声データブロックの信号強度は、第２の音声データブロックと比較される。第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも大きい場合、取得された時間差を基準時間差として決定することができる。

この実装では、具体的には、エネルギー計算の観点を例として使用する。対応する第２の音声データブロックのエネルギーよりも大きい第１の音声データブロックのエネルギーは、第１の音声データブロック内の音声データのエネルギーを計算し、第１の音声データブロック内の計算されたエネルギーの平均値に基づいて第１の平均値を取得することと、第２の音声データブロック内の音声データのエネルギーを計算し、第２の音声データブロック内の計算されたエネルギーの平均値に基づいて第２の平均値を取得することと、を含み得る。第１の平均値は、第２の平均値と比較され得る。第１の平均値が第２の平均値よりも大きい場合、第１の音声データブロックのエネルギーは、対応する第２の音声データブロックのエネルギーよりも大きいと判定される。あるいは、閾値を設定することができる。第１の平均エネルギーから第２の平均エネルギーを引いたものが設定閾値よりも大きい場合、第１の音声データブロックのエネルギーは、対応する第２の音声データブロックのエネルギーよりも大きいと判定され得る。本明細書の技術的本質の啓蒙の下で、当業者は、第１の音声データブロックのエネルギーが、対応する第２の音声データブロックのエネルギーよりも大きいと判定できる他の方法を採用し、それは、判定された音声データブロック内の音声データのエネルギーが本明細書と同じまたは類似している限り、本出願の保護の範囲によってカバーされるものとする。

この実装では、音検知デバイスと対応する音源との間の距離は、概して、音検知デバイスと１つ以上の他の音源との間の１つ以上の距離よりも短い。音源から発せられた後、音はある程度まで距離とともに減衰する。このように、対応する音源によって生成され、音検知デバイスによって検知される音声データストリームによって表されるエネルギーまたは音圧値は、比較的大きい。場合によっては、第１の音声データブロック内の信号強度は、第２の音声データブロック内の信号強度よりも弱く、これは、第２の音声データブロックが位置しているデータチャネルに対応する、または第２の音声データブロックを生成する音検知デバイスに対応する、現在の音源として理解され得る。第１のデータチャネルに関して、第１の音声データブロック内に含まれる音声データは、第１のデータチャネルに対応する音源に由来しない場合があり、または第１の音声データブロック内の音声データセグメントの少なくとも一部は第１のデータチャネルに対応する音源に由来しないことが結論付けられ得る。上記の分析により、第１の音声データブロック内の音声データセグメントが、第１のデータチャネルに対応する音源に由来するかどうかを見分けることは、第１の音声データブロックおよび第２の音声データブロック内の信号強度によって行うことができる。

ある実装において、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関係数は、相関係数組を形成する。時間差判定モジュールはまた、定義された係数値よりも大きい相関係数組内の相関係数の統計数をカウントすることと、それに対応して、第１の音声データブロック内の信号強度が第２の音声データブロック内の信号強度よりも大きく、統計数が定義された数の閾値よりも大きい場合にのみ、時間差を基準時間差として設定することと、を実施し得る。

この実装では、相関係数によって、第１の音声データブロック内の音声データセグメントが、有効なデータであるかノイズデータであるかを区別することが可能である。具体的には、相関係数組内の相関係数を、定義された係数値と比較することができる。相関係数が定義された係数値よりも大きい場合、相関係数に対応する音声データセグメントが有効なデータであると判定することができる。

この実装では、定義された数の閾値よりも大きい統計数は、音声データブロック内の有効なデータ数が定義された数の閾値よりも大きいと理解することができる。場合によっては、統計数が定義された数の閾値よりも小さい場合、音声データブロック内の有効なデータは非常に少ないと見なすことができ、計算量を減らすためにさらなる処理が実行されない場合がある。

ある実装において、時間差判定モジュールは、第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも弱い場合、時間差をクロストーク時間差として判定することをさらに実施し得る。それに対応して、処理モジュールは、音声セグメント時間差がクロストーク時間差と一致する場合、音声データセグメントがクロストークデータを含んでいると判定する。

この実装において、第２の音声データブロックの信号強度よりも弱い第１の音声データブロックの信号強度は、対応する第２の音声データブロック未満の第１の音声データブロックのエネルギー、または対応する第２の音声データブロックの音圧値未満の第１の音声データブロックの音圧値を含み得る。

この実装では、クロストーク時間差を設定することにより、第１の音声データブロックの音声データセグメントで検出が直接実行され得る。したがって、第１の音声データブロック内の音声データセグメントが、第１のデータチャネルに対応しない音源に由来しているかどうかについて判定がなされる。

図４を参照すると、本明細書の実装は、クロストークデータ検出システムを提供する。クロストークデータ検出システムは、クライアントおよびサーバーを含み得る。

この実装では、クライアントは、データの送受信機能を備えた電子デバイスを含み得る。クライアントは、少なくとも２つの音検知デバイスおよびネットワーク通信ユニットを含み得る。

この実装では、音検知デバイスを使用して、音源から発せられる音を検知し、対応する音声データを生成し得る。具体的には、音検知デバイスは、音送信機または、音送信機を備えるマイクであり得る。音送信機を使用して、音を電気信号に変換して音声データストリームを得る。各検知デバイスはデータチャネルに対応でき、音検知デバイスは、音検知デバイスによって生成された音声データストリームを、データチャネルを介してネットワーク通信ユニットに提供し得る。具体的には、少なくとも２つの音検知デバイスは、第１の音検知デバイスおよび第２の音検知デバイスを含み得る。これに対応して、第１の音検知デバイスは、第１のデータチャネルに対応し得、また第２の音検知デバイスは、第２のデータチャネルに対応し得る。

この実装では、ネットワーク通信ユニットは、１つ以上のネットワーク通信プロトコルに従って、ネットワークデータ通信を実行するためのデバイスを含む。ネットワーク通信ユニットは、音検知デバイスによって提供される音声データを受信することができ、また、音声データをサーバーに送信し得る。ネットワーク通信ユニットは、受信した音声データを、データチャネルを介してサーバーに送信することができる。

この実装では、クライアントは比較的弱いデータ処理能力を有することがあり、またモノのインターネットデバイスなどの電子デバイスであり得る。クライアントは、受信モジュールと送信モジュールを有し得る。クライアントのネットワーク通信ユニットは、送信モジュールの機能を実装できる。

この実装では、サーバーは、ネットワーク通信ユニット、プロセッサ、メモリなどを有し得る特定の計算処理能力を備える電子デバイスを含み得る。明らかに、サーバーは、電子デバイスで実行されるソフトウェアを指すこともある。サーバーはまた、連携して動作する複数のプロセッサ、ネットワーク通信モジュールなどを備えたシステムであり得る分散型サーバーであってもよい。あるいは、サーバーはまた、いくつかのサーバーによって形成されるサーバークラスターであり得る。明らかに、サーバーはクラウドコンピューティング技術を使用して実装することもできる。言い換えれば、サーバーによって操作される機能モジュールは、クラウドコンピューティング技術を使用して操作される。

この実装では、ネットワーク通信ユニットは、１つ以上のネットワーク通信プロトコルに従って、ネットワークデータ通信を実行するデバイスであり得、またクライアントによって提供される音声データストリームを受信するように構成され得る。ネットワーク通信ユニットは、受信モジュールとして機能し得る。

この実装では、サーバーは、受信モジュール、係数計算モジュール、時間差判定モジュール、および処理モジュールを有し得る。ネットワーク通信ユニットは、受信モジュールの機能を実装し得る。サーバーの機能モジュールの内容の詳細を参照して、他の実装と比較し得る。

この実装では、プロセッサは任意の適切な方法で実装され得る。例えば、プロセッサは、マイクロプロセッサまたはプロセッサ、および（マイクロ）プロセッサによって実行可能なコンピュータ可読プログラムコード（ソフトウェアまたはファームウェアなど）を格納するコンピュータ可読媒体、論理ゲート、スイッチ、特殊用途集積回路（特定用途向け集積回路、ＡＳＩＣ）、プログラム可能論理コントローラ、埋め込みマイクロコントローラなどの形態をとり得る。

図５を参照すると、本明細書の実装は、クロストークデータ検出システムも提供する。クロストーク検出システムは、クライアントおよびサーバーを含み得る。

この実装では、クライアントは、少なくとも２つの音検知デバイス、プロセッサ、およびネットワーク通信ユニットを含み得る。この実装で説明されている少なくとも２つの音検知デバイスの機能の詳細については、他の実装を参照することができ、本明細書では繰り返されない。クライアントは、特定の処理能力を備えたデバイスであり得る。具体的には、例えば、クライアントは、ノートブックコンピュータ、またはスマート端末デバイスであり得る。ネットワーク通信ユニットは、受信モジュールを実装することができ、また係数計算モジュールは、プロセッサ内に位置し得る。ネットワーク通信ユニットは、１つ以上のネットワーク通信プロトコルに従ってネットワークデータ通信を実行するデバイスであり得る。

この実装では、サーバーのプロセッサは、上記の時間差判定モジュールおよび処理モジュールを実行し得る。実装の詳細は、他の実装を参照して、それらと比較することができる。

明らかに、図６を参照すると、この実装では、係数計算モジュールおよび時間差判定モジュールもクライアントで実行され得、そして基準時間差、第１の音声データブロック、および第２の音声データブロックがサーバーに送信される。サーバーは処理モジュールのみを実行し得る。

本明細書の実装はまた、クロストークデータ検出システムを提供する。これは、クロストークデータ検出システムの概略相互関係図である。クロストーク検出システムは、クライアントおよびサーバーを含み得る。

この実装では、クライアントは、少なくとも２つの音検知デバイスおよびプロセッサを含み得る。この実装で説明される少なくとも２つの音検知デバイスによって実装される機能の詳細については、他の実装を参照することができ、本明細書では繰り返されない。クライアントは強力な処理能力を持ち得る。プロセッサは、係数計算モジュール、時間差判定モジュール、および処理モジュールを実行し得る。このシナリオでは、サーバーと対話する必要はない。あるいは、処理モジュールによって処理された音声データブロックをサーバーに提供し得る。具体的には、例えば、クライアントは、比較的高性能の、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ワークステーションなどであり得る。

明らかに、上記はいくつかの電子デバイスの例にのみ対応している。科学および技術の進歩に伴い、ハードウェアデバイスの性能が向上する場合があり、データ処理能力が比較的弱い電子デバイスのデータ処理能力もより良好になり得る。したがって、前述の実装では、ハードウェアデバイス上で動作するソフトウェアモジュールの分割は、本出願に対するいかなる制限にもならない。当業者は、上記のソフトウェアモジュールの機能をさらに分割し、それらをクライアントまたはサーバーに配置して、適宜動作させ得る。ただし、実装される機能および効果は、それらが本明細書と同じまたは類似している限り、本出願の保護の範囲によってカバーされるものとする。

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第１の音声データブロックと第２の音声データブロックとの間の相関係数に基づいて、第１の音声データブロック内のターゲット音声データセグメントおよび第２の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメント内のデータの少なくとも一部および補助音声データセグメント内のデータの一部が、同じ音源に由来し、相関係数が音声データセグメント間の類似度を示すために使用される、判定することと、ターゲット音声データセグメントおよび補助音声データセグメントに従って、第１の音声データブロックと第２の音声データブロックの基準時間差を判定することと、第１の音声データブロックの音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。

この実装において、コンピュータ記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、キャッシュ、およびハードディスク（ＨＤＤ）、またはメモリカードを含むが、これらに限定されない。

この実装において、コンピュータ記憶媒体によって実装される機能の詳細は、他の実装を参照して説明することができる。

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、コンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第１の音声データブロックと第２の音声データブロックとの間の相関係数に基づいて、第１の音声データブロック内のターゲット音声データセグメントおよび第２の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメントの少なくとも一部のデータおよび補助音声データセグメントの一部のデータが同じ音源に由来する、判定することと、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第１の音声データブロックと第２の音声データブロックとの間の基準時間差を判定することと、基準時間差、第１の音声データブロック、および第２の音声データブロックをサーバーに送信し、サーバーが、第１の音声データブロックの音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算し、また、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントが、クロストークデータを含んでいると判定できるようにすることと、を実施する。

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第１の音声データブロック、第２の音声データブロック、および基準時間差を受信することであって、第１の音声データブロック、第２の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックと第２の音声データブロックとの間の相関係数に基づいて、第１の音声データ内のターゲット音声データセグメントおよび第２の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメント内の少なくともデータの一部および補助音声データセグメント内のデータの一部が同じ音源に由来する、判定することと、ターゲット音声データセグメント、補助音声データセグメント、第１の音声データブロック、および第２の音声データブロックをサーバーに送信し、サーバーが、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第１の音声データブロックと第２の音声データブロックとの間の基準時間差を判定できるようにすることと、第１の音声データブロックの音声データセグメントと第２の音声データデータブロックの対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、ターゲット音声データセグメント、補助音声データセグメント、第１の音声データブロック、および第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含み、ターゲット音声データセグメントが第１の音声データブロックから選択され、また補助音声データセグメントが第２の音声データブロックから選択される、受信することと、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第１の音声データブロックと第２の音声データブロックとの間の基準時間差を判定することと、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データデータセグメントがクロストークデータを含んでいると判定することと、を実施する。

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックおよび第２の音声データブロックをサーバーに送信し、サーバーが、第１の音声データブロックと第２の音声データブロックとの間の相関係数に基づいて、第１の音声データブロック内のターゲット音声データセグメントおよび第２の音声データブロック内の補助音声データセグメントを判定できるようにすることであって、ターゲット音声データセグメント内のデータの少なくとも一部および補助音声データセグメント内のデータの一部が同じ音源に由来する、判定できるようにすることと、ターゲット音声データセグメントおよび補助音声データセグメントに基づいて、第１の音声データブロックと第２の音声データブロックの間の基準時間差を判定することと、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の対応する音声データとの間の音声セグメント時間差を計算することと、関連するセグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。

本明細書の様々な実装についての上の説明は、説明の目的で当業者に提供される。網羅的であること、または本発明を開示された実装に限定することを意図するものではない。上記のように、上記の技術が属する本明細書の様々な置き換えおよび変更は、当業者には明らかである。したがって、いくつかの実装が詳細に論じられてきたが、他の実装は明白であるか、または当業者によって比較的容易に得られる。本明細書は、本明細書で論じられる本発明のすべての代替、修正、および変更、ならびに本出願の趣旨および範囲内にある他の実装を含むことを意図している。

本明細書の様々な実装における「第１」および「第２」という表現は、様々なデータチャネルおよび音声データブロックを区別するためにのみ使用され、データチャネルおよび音声データブロックの数は本明細書では限定されない。複数の（ただし２つに限定されない）データチャネルおよび音声データブロックを含むことができる。

前述の実装の説明から、当業者であれば、本出願がソフトウェアおよび必要な一般的なハードウェアプラットフォームによって実装され得ることを明確に理解することができる。かかる理解に基づいて、本出願の技術的な解決策の本質、または既存の技術に貢献する部分が、ソフトウェア製品の形態で具体化することができる。かかるコンピュータソフトウェア製品は、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスクなどの記憶媒体に記憶され得、またコンピュータデバイス（それらはパーソナルコンピュータ、サーバー、またはネットワークデバイスなどであり得る）に、本出願の各実施形態で説明した方法または実装の一部を実行させるためのいくつかの命令を含む。

本明細書の様々な実装は漸進的な方法で記述されており、様々な実装間の同じまたは類似の部分を互いに参照することができる。各実装は、他の実装とは異なる態様に焦点を当てている。

本明細書は、いくつかの一般的または特別なコンピュータシステム環境または構成、例えば、パーソナルコンピュータ、サーバーコンピュータ、携帯デバイスまたはポータブルデバイス、タブレットデバイス、マイクロプロセッサベースシステム、セットトップボックス、プログラム可能消費者電子デバイス、ネットワークＰＣ、小型コンピュータ、および上記のコンピューティング環境のいずれかを含む分散型システムなどで使用され得る。

本明細書は実装を使用して説明されてきたが、当業者であれば、本明細書の趣旨から逸脱することなく、本明細書に多くの変形および変更が存在することを知っている。添付の特許請求の範囲は、本明細書の精神から逸脱することなく、これらの変形および変更を含むことが意図されている。

Claims

クロストークデータを検出するための方法であって、
第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが各々複数の音声データセグメントを含む、受信することと、
相関係数のピーク値を取得するために、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を、基準時間差として設定することと、
前記第１の音声データブロックの前記音声データセグメントの取得時間と前記第２の音声データブロックの対応する音声データセグメントとの時間差を、音声セグメント時間差として設定することと、
関連付けられた音声セグメント時間差が、前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントが、クロストークデータを含んでいると判定することと、を含む、方法。
前記相関係数の前記ピーク値を取得するために、前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することが、
前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することによって、相関係数組を形成することと、
前記相関係数組内の最大値を前記ピーク値として使用することと、を含む、請求項１に記載の方法。
前記相関係数の前記ピーク値を取得するために、前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することにおいて、ピーク値の数が２つであり、
これに対応して、前記ピーク値に対応する前記第１の音声データブロック内の前記音声データセグメントの前記取得時間と、前記第２の音声データブロック内の前記音声データセグメントの前記取得時間との前記時間差を前記基準時間差として設定することが、
前記２つのピーク値に対応する、それぞれ第１の時間差および第２の時間差である、前記第１の音声データブロックの音声データセグメントの取得時間と、前記第２の音声データブロックの音声データセグメントの取得時間との時間差を別々に計算することを含み、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定される、請求項１に記載の方法。
前記第１の時間差および前記第２の時間差のうちの大きい方をクロストーク時間差として設定することと、
前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含むと判定することと、をさらに含む、請求項３に記載の方法。
前記音声セグメント時間差が前記クロストーク時間差と一致することが、
前記音声セグメント時間差が前記クロストーク時間差に等しいこと、または、
前記音声セグメント時間差と前記クロストーク時間差との差が第１の指定された閾値未満であること、を含む、請求項４に記載の方法。
前記音声セグメント時間差が前記基準時間差と一致しないことが、
前記音声セグメント時間差が前記基準時間差に等しくないこと、または、
前記音声セグメント時間差と前記基準時間差との差が第２の指定された閾値より大きいこと、を含む、請求項１に記載の方法。
前記相関係数が定義された係数値よりも大きい場合、相関係数に対応する前記第１の音声データブロックの関連付けられた音声データセグメントを、有効なデータとしてラベル付けすることをさらに含み、
これに対応して、前記第１の音声データブロックの前記音声データセグメントの前記取得時間と前記第２の音声データブロック内の前記対応する音声データセグメントの前記取得時間との時間差を前記音声セグメント時間差として設定する場合、前記音声データセグメントが有効なデータとしてマークされた場合にのみ、前記時間差が前記音声セグメント時間差とみなされる、請求項１に記載の方法。
前記相関係数の前記ピーク値を取得するために、前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することにおいて、ピーク値の数は１つであり、
前記ピーク値に対応する前記第１の音声データブロック内の前記音声データセグメントの前記取得時間と前記第２の音声データブロック内の前記音声データセグメントの前記取得時間との時間差を前記基準時間差として設定することが、
前記第１の音声データブロックの信号強度が前記第２の音声データブロックの信号強度よりも高い場合、前記時間差を前記基準時間差として判定すること、を含む、請求項１に記載の方法。
前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間で計算された前記相関係数が相関係数組を形成し、前記方法が、さらに、
定義された係数値よりも大きい前記相関係数組内の前記相関係数の統計数をカウントすることを含み、
これに対応して、前記第１の音声データブロックの前記信号強度が前記第２の音声データブロックの前記信号強度よりも高い場合、前記時間差を前記基準時間差として判定することが、データブロックの前記信号強度が前記第２の音声データブロックの前記信号強度よりも高く、前記統計数が設定された閾値よりも大きい場合にのみ、前記時間差を前記基準時間差として判定することを含む、請求項８に記載の方法。
前記第１の音声データブロックの前記信号強度が前記第２の音声データブロックの前記信号強度より高いことが、
前記第１の音声データブロックのエネルギーが前記第２の音声データブロックのエネルギーより大きいこと、または、
前記第１の音声データブロックの音圧値が前記第２の音声データブロックの音圧値より大きいこと、を含む、請求項８に記載の方法。
前記第１の音声データブロックの前記信号強度が前記第２の音声データブロックの前記信号強度よりも弱い場合、前記時間差をクロストーク時間差として判定することと、
前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含んでいると判定することと、をさらに含む、請求項８に記載の方法。
前記第１の音声データブロックの前記信号強度が前記第２の音声データブロックの前記信号強度より弱いことが、
前記第１の音声データブロック内の音声データのエネルギーが前記第２の音声データブロック内の音声データのエネルギーより小さいこと、または、
前記第１の音声データブロック内の前記音声データの音圧値が前記第２の音声データブロック内の前記音声データの音圧値より小さいこと、を含む、請求項１１に記載の方法。
第１の音声データブロックを生成するように構成された第１の音検知デバイスであって、前記第１の音声データブロックが複数の音声データセグメントを含む、第１の音検知デバイスと、
第２の音声データブロックを生成するように構成された第２の音検知デバイスであって、前記第２の音声データブロックが複数の音声データセグメントを含む、第２の音検知デバイスと、
プロセッサであって、相関係数のピーク値を取得するために、前記第１の音声データブロックの前記複数の音声データセグメントと前記第２の音声データブロックの前記複数の音声データセグメントとの間の前記相関係数を計算し、前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用し、前記第１の音声データブロックの音声データセグメントの取得時間と前記第２の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、を含む電子デバイス。
クロストークデータを検出する方法であって、
第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
相関係数のピーク値を取得するために、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用することと、
サーバーが、前記第１の音声データブロックの音声データセグメントの取得時間と前記第２の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記基準時間差、前記第１の音声データブロック、および前記第２の音声データブロックを前記サーバーに送信することと、を含む方法。
クロストークデータを検出する方法であって、
第１の音声データブロック、第２の音声データブロック、および基準時間差を受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差として使用することと、
前記音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの前記音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。
クロストークデータを検出する方法であって、
第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
相関係数のピーク値を取得するために、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の前記相関係数を計算することと、
サーバーが、前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と、前記第２の音声データブロック内の音声データセグメントとの時間差を基準時間差として設定し、前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として設定し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記ピーク値、前記第１の音声データブロック、および前記第２の音声データブロックを前記サーバーに送信することと、を含む方法。
クロストークデータを検出する方法であって、
相関係数のピーク値、クライアントによって提供された、第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記ピーク値が、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の相関係数のピーク値である、受信することと、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と、前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することと、
前記第１の音声データブロック内の音声データセグメントの取得時間と、前記第２の音声データブロック内の対応する音声データセグメントの取得時間との時間差を、音声セグメント時間差として設定することと、
関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。
クロストークデータを検出する方法であって、
第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
サーバーが、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、前記相関係数のピーク値を取得できるようにするために、前記第１の音声データブロックおよび前記第２の音声データブロックを前記サーバーに送信することと、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することと、
前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差の取得時間として設定することと、
関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。