JP6670224B2 - 音声信号処理システム - Google Patents

音声信号処理システム Download PDF

Info

Publication number
JP6670224B2
JP6670224B2 JP2016221225A JP2016221225A JP6670224B2 JP 6670224 B2 JP6670224 B2 JP 6670224B2 JP 2016221225 A JP2016221225 A JP 2016221225A JP 2016221225 A JP2016221225 A JP 2016221225A JP 6670224 B2 JP6670224 B2 JP 6670224B2
Authority
JP
Japan
Prior art keywords
signal
speaker
signal processing
waveform
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016221225A
Other languages
English (en)
Other versions
JP2018082225A (ja
Inventor
慶華 孫
慶華 孫
遼一 高島
遼一 高島
拓也 藤岡
拓也 藤岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016221225A priority Critical patent/JP6670224B2/ja
Priority to US15/665,691 priority patent/US20180137876A1/en
Priority to CN201710690196.5A priority patent/CN108074583B/zh
Publication of JP2018082225A publication Critical patent/JP2018082225A/ja
Application granted granted Critical
Publication of JP6670224B2 publication Critical patent/JP6670224B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声信号処理システムおよび装置に関するものである。
本技術分野の背景技術として、音声認識や遠隔会議などのシーンにおいて複数の音源から発生した音がマイクに入力された際に、そのマイク入力音から目的音声を抽出する技術がある。
例えば、複数デバイス(端末)を用いた音声信号処理システム(音声翻訳システム)では、デバイス使用者の発話が目的音声であるため、それ以外の音声(環境音、他のデバイス使用者の声、他のデバイスのスピーカ音)を除去する必要がある。同一デバイスのスピーカから発せられる音は、従来のエコーキャンセリング技術(特許文献1)でも、同一デバイスの中(通信を介さずに、すべてのマイクとスピーカが電気信号レベルで繋がっていることを前提に)複数のスピーカから発する音を除去することが可能である。
特開平07−007557号公報
しかしながら、特許文献1に記載されたエコーキャンセリング技術では、別のデバイスのスピーカから発せられる音を効果的に分離することが難しい。
そこで、本発明の目的は、複数のデバイスそれぞれのスピーカから発せられる音を効果的に分離することにある。
本発明に係る代表的な音声信号処理システムは、複数のデバイスと音声信号処理装置を備えた音声信号処理システムであって、前記複数のデバイスの中の第1のデバイスは、マイクと接続して、マイク入力信号を前記音声信号処理装置へ出力し、前記複数のデバイスの中の第2のデバイスは、スピーカと接続して、前記スピーカへ出力する信号と同じスピーカ出力信号を前記音声信号処理装置へ出力し、前記音声信号処理装置は、前記マイク入力信号に含まれる波形と、前記スピーカ出力信号に含まれる波形とを同期させ、前記マイク入力信号に含まれる波形から、前記スピーカ出力信号に含まれる波形を除去すること
を特徴とする。
本発明によれば、複数のデバイスそれぞれのスピーカから発せられる音を効果的に分離することが可能になる。
実施例1の音声信号処理装置の処理の流れの例を示す図である。 音声翻訳システムの例を示す図である。 音声信号処理装置を備えた音声翻訳システムの例を示す図である。 デバイスを含む音声信号処理装置の例を示す図である。 デバイスと音声信号処理装置を接続する例を示す図である。 デバイスを含む音声信号処理装置とデバイスを接続する例を示す図である。 マイク入力信号とスピーカ出力信号の例を示す図である。 スピーカ信号検出部における検出の例を示す図である。 スピーカ信号検出部における短い時間での検出の例を示す図である。 スピーカ信号検出部における提示音での検出の例を示す図である。 デバイスが音声生成装置を含む例を示す図である。 音声生成装置がデバイスに接続される例を示す図である。 サーバが音声信号処理装置と音声生成装置を含む例を示す図である。 各信号間時間同期部による再同期の例を示す図である。 実施例2の音声信号処理装置の処理の流れの例を示す図である。 人間共生ロボットの移動の例を示す図である。 音源からの距離と音声強度の関係の例を示す図である。
以下、図面を用いて、本発明に好適な実施例を説明する。以下の各実施例では、プロセッサがソフトウェアプログラムを実行する例を説明するが、これに限定されるものではなく、その実行の一部がハードウェアで実現されてもよい。また、システム、装置、部という表現で処理の単位を呼称するが、それらの表現に限定されるものではなく、さらに複数の装置や複数の部が1つの装置や1つの部となってもよいし、1つの装置や1つの部が複数の装置や複数の部となってもよい。
図2は、音声翻訳システム200の例を示す図である。マイクを備えたあるいはマイクに接続されたデバイス201−1は音声が入力され、音声を電気信号に変換したマイク入力信号202−1を雑音除去装置203−1へ出力する。雑音除去装置203−1は、マイク入力信号202−1に対して雑音除去を行い、信号204−1を音声翻訳装置205−1へ出力する。
音声翻訳装置205−1は、音声成分を含む信号204−1を音声翻訳する。そして、音声翻訳の結果は、音声翻訳装置205−1から、図示を省略したスピーカ出力信号として出力される。ここで、雑音除去と音声翻訳の処理内容は、後で説明する本実施例の構成とは関係ないため、その説明を省略するが、一般的に知られ行われている処理であってもよい。
デバイス201−2、201−Nはデバイス201−1と説明が同じであり、マイク入力信号202−2、202−Nはマイク入力信号202−1と説明が同じであり、雑音除去装置203−2、203−Nは雑音除去装置203−1と説明が同じであり、信号204−2、204−Nは信号204−1と説明が同じであり、音声翻訳装置205−2、205−Nは音声翻訳装置205−1と説明が同じであるので、説明を省略する。なお、Nは2以上の正の整数である。
音声翻訳システム200は、図2に示すように、デバイス201(デバイス201−1〜201−Nを特に識別することなく指し示す場合に、デバイス201と記載する。以下、他の符号を同じように記載する)と雑音除去装置203と音声翻訳装置205との組をN組備え、各組は独立している。
それぞれの組では、それぞれの第一言語音声が入力され、翻訳されたそれぞれの第二言語音声が出力される。このため、デバイス201がスピーカを備えあるいはスピーカに接続され、音声翻訳装置205で翻訳された第二言語音声が出力され、会議などで複数のデバイス201が近接して設置されている場合、第二言語音声が空中を伝搬して他の第一言語音声とともにマイクから入力される可能性がある。
すなわち、音声翻訳装置205−1から出力された第二言語音声が、デバイス201−1のスピーカから出力され、空中を伝搬して、近くに設置されたデバイス201−2のマイクに入力される可能性がある。マイク入力信号202−2に含まれる第二言語音声は、本来の信号である可能性もあるため、雑音除去装置203−2で除去することが難しく、音声翻訳装置205−2の翻訳精度に影響を与える可能性がある。
なお、デバイス201−1のスピーカから出力される第二言語音声だけでなく、デバイス201−Nのスピーカから出力される第二言語音声が、デバイス201−2のマイクに入力される可能性もある。
図3は、音声信号処理装置100を備えた音声翻訳システム300の例を示す図である。図2で既に説明したものには、図2と同じ符号を付けて説明を省略する。デバイス301−1はデバイス201−1と同種のデバイスであるが、マイクとスピーカを備えあるいは接続され、マイク入力信号202−1に加えてスピーカに出力するスピーカ出力信号302−1を出力する。
スピーカ出力信号302−1は、デバイス301−1のスピーカで出力される信号を例えば分岐した信号であり、その出力元はデバイス301−1の中にあってもよいし、外にあってもよい。スピーカ出力信号302−1の出力元については、図11〜13を用いて後でさらに説明する。
音声信号処理装置100−1は、マイク入力信号202−1とスピーカ出力信号302−1を入力し、エコーキャンセルの処理を実行して、処理結果の信号を雑音除去装置203−1へ出力する。エコーキャンセルの処理に関しては、後でさらに説明する。雑音除去装置203−1、信号204−1、音声翻訳装置205−1のそれぞれは、既に説明したとおりである。
デバイス301−2、301−Nはデバイス301−1と説明が同じであり、スピーカ出力信号302−2、302−Nはスピーカ出力信号302−1と説明が同じであり、音声信号処理装置100−2、100−Nは音声信号処理装置100−1と説明が同じである。また、図3に示すように、マイク入力信号202−1、202−2、202−Nのそれぞれは、音声信号処理装置100−1、100−2、100−Nのそれぞれに入力される。
これに対し、スピーカ出力信号302−1、302−2、302−Nは、音声信号処理装置100−1に入力される。すなわち、音声信号処理装置100−1は、複数のデバイス301から出力されるスピーカ出力信号302を入力することになる。そして、音声信号処理装置100−2、100−Nのそれぞれも、音声信号処理装置100−1と同じく、複数のデバイス301から出力されるスピーカ出力信号302を入力する。
これにより、音声信号処理装置100−1は、デバイス301−1のスピーカから空中に出力された音波に加えて、デバイス301−2、301−Nのスピーカから空中に出力された音波を、デバイス301−1のマイクが拾い、マイク入力信号202−1に影響が現れても、スピーカ出力信号302−1、302−2、302−Nを使用して、その影響を除去することが可能となる。音声信号処理装置100−2、100−Nも同じように動作する。
図4〜6を用いて、音声信号処理装置100とデバイス301のハードウェアの例を説明する。図4は、デバイス301を含む音声信号処理装置100aの例を示す図である。図3の例では、デバイス301と音声信号処理装置100とを別の物として示したが、別の物に限定されるものではなく、音声信号処理装置100が音声信号処理装置100aとしてデバイス301を含んでもよい。
CPU401aは一般的な中央演算ユニットあるいはプロセッサであってもよい。メモリ402aはCPU401aのメインメモリであって、プログラムとデータが格納される半導体メモリであってもよい。記憶装置403aは不揮発性の記憶装置であり、例えばHDD(ハードディスクドライブ)、SSD(ソリッドステートドライブ)、フラッシュメモリなどであってもよく、メモリ402aと重複してプログラムとデータが格納されてもよく、メモリ402aとの間でそれらが転送されてもよい。
音声入力I/F404aは、図示を省略したマイク(マイクロフォン)などの音声入力装置を接続するインタフェースである。音声出力I/F405aは、図示を省略したスピーカなどの音声出力装置を接続するインタフェースである。データ送信装置406aは、他の音声信号処理装置100aへデータを送信するための装置であり、データ受信装置407aは、他の音声信号処理装置100aからデータを受信するための装置である。
また、データ送信装置406aは、雑音除去装置203へデータを送信してもよいし、データ受信装置407aは、音声翻訳装置205などの後で説明する音声生成装置からデータを受信してもよい。以上で説明した各部は、バス408aによって相互に接続される。
記憶装置403aからメモリ402aへロードされたプログラムを、CPU401aが実行し、音声入力I/F404aで取得されたマイク入力信号202のデータをメモリ402aあるいは記憶装置403aに格納し、データ受信装置407aで受信したデータをメモリ402aあるいは記憶装置403aに格納する。CPU401aは、メモリ402aあるいは記憶装置403aの格納されたデータを使用してエコーキャンセルなどの処理を行い、データ送信装置406aで処理結果のデータを送信する。
また、デバイス301として、CPU401aは、データ受信装置407aで受信したデータあるいは記憶装置403aに格納されたスピーカ出力信号302のデータを音声出力I/F405aから出力する。
図5は、デバイス301と音声信号処理装置100bとを接続する例を示す図である。音声信号処理装置100bに備えられるCPU401b、メモリ402b、記憶装置403bのそれぞれは、CPU401a、メモリ402a、記憶装置403aで説明した動作をするものである。通信I/F511bはネットワーク510bを介してデバイス301b−1、301b−2と通信するインタフェースである。バス508bは、CPU401b、メモリ402b、記憶装置403b、通信I/F511bを相互に接続する。
デバイス301b−1に備えられるCPU501b−1、メモリ502b−1、音声入力I/F504b−1、音声出力I/F505b−1のそれぞれは、CPU401a、メモリ402a、音声入力I/F404a、音声出力I/F405aで説明した動作をするものである。
通信I/F512b−1は、ネットワーク510bを介して音声信号処理装置100bと通信するインタフェースであり、図示を省略した他の音声信号処理装置100bと通信してもよい。デバイス301b−1に備えられた各部は、バス513b−1によって相互に接続される。
デバイス301b−2に備えられるCPU501b−2、メモリ502b−2、音声入力I/F504b−2、音声出力I/F505b−2、通信I/F512b−2、バス513b−2のそれぞれは、CPU501b−1、メモリ502b−1、音声入力I/F504b−1、音声出力I/F505b−1、通信I/F512b−1、バス513b−1で説明した動作をするものである。デバイス301bは2台に限定されるものではなく、3台以上であってもよい。
ネットワーク510bは、有線ネットワークであってもよいし、無線ネットワークであってもよい。また、ネットワーク510bは、デジタルデータのネットワークであってもよいし、音声電気信号などが通信されるアナログデータのネットワークであってもよい。また、ネットワーク510bには、図示を省略した雑音除去装置203、音声翻訳装置205、あるいは何らかの音声信号あるいは音声データを出力する装置が接続されてもよい。
デバイス301bにおいて、CPU501bは、メモリ502bに格納されたプログラムを実行する。これによりCPU501bは、音声入力I/F504bで取得されたマイク入力信号202のデータを通信I/F512bからネットワーク510b経由で通信I/F511bへ送信する。
また、CPU501bは、ネットワーク510bを介して通信I/F512bで受信したスピーカ出力信号302のデータを、音声出力I/F505bで出力し、通信I/F512bでネットワーク510bを介して通信I/F511bへ送信する。これらのデバイス301bの処理は、デバイス301b−1とデバイス301b−2とで独立して実行される。
これに対し、音声信号処理装置100bにおいて、記憶装置403bからメモリ402bへロードされたプログラムを、CPU401bが実行する。これによりCPU401bは、通信I/F511bで受信したデバイス301b−1、301b−2からのマイク入力信号202のデータをメモリ402bあるいは記憶装置403bに格納し、通信I/F511bで受信したデバイス301b−1、301b−2からのスピーカ出力信号302のデータをメモリ402bあるいは記憶装置403bに格納する。
さらに、CPU401bは、メモリ402bあるいは記憶装置403bの格納されたデータを使用してエコーキャンセルなどの処理を行い、通信I/F511bで処理結果のデータを送信する。
図6は、デバイス301を含む音声信号処理装置100cとデバイス301cとを接続する例を示す図である。音声信号処理装置100cに備えられるCPU401c、メモリ402c、記憶装置403c、音声入力I/F404c、音声出力I/F405cのそれぞれは、CPU401a、メモリ402a、記憶装置403a、音声入力I/F404a、音声出力I/F405aで説明した動作をするものである。また、通信I/F511cは、通信I/F511bで説明した動作をするものである。音声信号処理装置100cに備えられる各部は、バス608cによって相互に接続される。
デバイス301c−1に備えられるCPU501c−1、メモリ502c−1、音声入力I/F504c−1、音声出力I/F505c−1、通信I/F512c−1、バス513c−1のそれぞれは、CPU501b−1、メモリ502b−1、音声入力I/F504b−1、音声出力I/F505b−1、通信I/F512b−1、バス513b−1で説明した動作をするものである。デバイス301c−1は1台に限定されるものではなく、2台以上であってもよい。
ネットワーク510cおよびネットワーク510cに接続される装置は、ネットワーク510bと同じ説明であるので、説明を省略する。デバイス301c−1のCPU501c−1による動作は、デバイス301bの動作と同じであり、特に、マイク入力信号202のデータとスピーカ出力信号302のデータを、通信I/F512c−1でネットワーク510cを介して通信I/F511cへ送信する。
これに対し、音声信号処理装置100cにおいて、記憶装置403cからメモリ402cへロードされたプログラムを、CPU401cが実行する。これによりCPU401cは、通信I/F511cで受信したデバイス301c−1からのマイク入力信号202のデータをメモリ402cあるいは記憶装置403cに格納し、通信I/F511cで受信したデバイス301c−1からのスピーカ出力信号302のデータをメモリ402cあるいは記憶装置403cに格納する。
また、CPU401cは、音声入力I/F404cで取得されたマイク入力信号202のデータをメモリ402cあるいは記憶装置403cに格納し、通信I/F511cで受信した音声信号処理装置100c自体で出力すべきスピーカ出力信号302のデータあるいは記憶装置403aに格納されたスピーカ出力信号302のデータを音声出力I/F405cから出力する。
そして、CPU401cは、メモリ402cあるいは記憶装置403cに格納されたデータを使用してエコーキャンセルなどの処理を行い、通信I/F511cで処理結果のデータを送信する。
以下では、図4〜6を用いて説明した音声信号処理装置100a〜100cを特に識別することなく指し示す場合に、音声信号処理装置100と記載し、デバイス301b−1、301c−1を特に識別することなく指し示す場合に、デバイス301−1と記載し、デバイス301b−1、301b−2、301c−1を特に識別することなく指し示す場合に、デバイス301と記載する。
次に、図1、7〜11を用いて音声信号処理装置100の動作をさらに説明する。図1は、音声信号処理装置100の処理の流れの例を示す図である。デバイス301、マイク入力信号202、スピーカ出力信号302は、既に説明したとおりである。図1では説明のために、図3に示した音声信号処理装置100−1を代表の音声信号処理装置100として示しているが、図1で図示を省略した音声信号処理装置100−2などが存在し、デバイス301−2からマイク入力信号202−2などが入力されてもよい。
図7は、マイク入力信号202とスピーカ出力信号302の例を示す図である。図7では理解しやすくするために、アナログ信号的な表現を用いているが、アナログ信号(デジタル化された後に再アナログ化されたアナログ信号)であってもよいし、デジタル信号であってもよい。マイク入力信号202は、デバイス301−1に備えられたマイクの電気信号あるいはその電気信号が増幅やデジタル化などの変換された信号であり、波形701のようになる。
また、スピーカ出力信号302は、デバイス301のスピーカで出力される電気信号あるいはその電気信号が増幅やデジタル化などの変換された信号であり、波形702のようになる。そして、既に説明したように、デバイス301のスピーカから空中に出力された音波も、デバイス301−1のマイクが拾い、波形701には波形703のような影響が現れる。
図7の例では、見やすいように太線の波形702と波形703を同じ形状としたが、波形703は合成された波形であるので、必ずしも同じ形状となるとは限らない。さらに、波形702を出力するデバイス301がデバイス301−2の場合、デバイス301−Nなどの他のデバイス301も同じ原理により波形701に影響する。
図1に示すデータ受信部101は、デバイス301がN個の場合、マイク入力信号202−1の1個の波形701と、スピーカ出力信号302−1〜302−NのN個の波形702を受信し、それぞれをサンプリング周波数変換部102へ出力する。なお、データ受信部101は、データ受信装置407a、通信I/F511b、あるいは通信I/F511cのいずれかとCPU401によるこれらの制御処理であってもよい。
一般に、マイクで入力された信号とスピーカで出力される信号は、それらを備える装置によってサンプリング周波数の異なることがある。そこで、サンプリング周波数変換部102は、データ受信部101から入力されたマイク入力信号202−1と複数のスピーカ出力信号302を、同じサンプリング周波数に変換する。
なお、スピーカ出力信号302のサンプリング周波数は、スピーカ出力信号302の基となる信号がマイクからの入力信号などのアナログ信号の場合は、そのアナログ信号のサンプリング周波数であり、スピーカ出力信号302の基となる信号が最初からデジタル信号の場合は、そのデジタル信号で表される連続する複数の音の間隔の逆数として定義された周波数であってもよい。
例えば、マイク入力信号202−1が16KHzであり、スピーカ出力信号302−2が22KHzであり、スピーカ出力信号302−Nが44KHzである場合、サンプリング周波数変換部102はスピーカ出力信号302−2、302−Nを16KHzに変換する。そして、サンプリング周波数変換部102は、変換した信号それぞれをスピーカ信号検出部103へ出力する。
スピーカ信号検出部103は、変換された信号の中で、マイク入力信号202−1の中からスピーカ出力信号302の影響を検出する。すなわち、図7に示した波形701の中から波形703を検出することであり、波形703は波形701の時間軸の一部に存在するため、波形701内の波形703の時刻的な位置を検出する。
図8は、スピーカ信号検出部103における検出の例を示す図である。波形701、703は、図7を用いて説明したとおりである。スピーカ信号検出部103は、予め設定された時間でマイク入力信号202−1(波形701)を遅延させ、波形701のその遅延させた時間より短いシフト時間712−1で遅延させたスピーカ出力信号302の波形702−1と波形701の信号間相関を計算し、計算した相関値を記録する。
スピーカ信号検出部103は、予め設定された時間単位で、シフト時間712−1からさらに遅延させ、例えばシフト時間712−2、シフト時間712−3とし、信号間相関を計算して、計算した相関値を記録することを繰り返す。ここで、シフト時間712−1、712−2、712−3と遅延させるため、波形702−1、波形702−2、波形702−3は同じ形状の波形であり、図7に示した波形702の形状である。
このため、波形702が合成された波形703と時刻的に近いシフト時間712−2の波形702−2と波形701との相関計算の結果である相関値が、波形702−1あるいは波形702−3と波形701との相関計算の結果よりも高い値となる。すなわち、シフト時間と相関値との関係はグラフ713のようになる。
スピーカ信号検出部103は、最も相関値の高いシフト時間712−2を、スピーカ出力信号302の影響の現れる時刻(あるいは予め設定された時刻からの時間)として特定する。ここでは、1つのスピーカ出力信号302について説明したが、スピーカ出力信号302−1、302−2、302−Nそれぞれについて、以上で説明した処理により、それぞれの時刻を特定し、スピーカ信号検出部103の出力とする。
相関計算に用いられる波形702の長さ、あるいは逆の見方をすると波形702の相関計算の対象となる時間が、長ければ長いほど、相関計算に時間がかかり、スピーカ信号検出部103での処理遅延が大きくなって、デバイス301−1のマイクに入力されてから音声翻訳装置205で翻訳されるまでのレスポンスすなわち翻訳のリアルタイム性が悪くなる。
レスポンスを良くするために、相関計算を短くするには、相関計算の対象となる時間を短くすればよいが、短すぎると、本来とは異なるシフト時間でも相関値の高くなる可能性がある。図9は、スピーカ信号検出部103における短い時間での検出の例を示す図である。波形714−1、714−2、714−3のそれぞれは同じ形状であり、図8に示した波形702−1、702−2、702−3より波形の時間が短い。
そして、図8を用いて説明したように、スピーカ信号検出部103は、シフト時間712−1、712−2、712−3と遅延させ、波形714−1、714−2、714−3のそれぞれと波形701とで相関計算する。しかしながら、波形714は、波形703より短いため、例えばシフト時間712−2における波形703の一部との相関計算では相関値が十分に高くならず、また、波形703以外の部分であっても波形714が短いということにより相関値の高くなる部分も発生し、グラフ715のようになる。
このため、スピーカ信号検出部103がスピーカ出力信号302の影響の現れる時刻を特定することが難しい。なお、図9では、波形そのものを短く表現したが、波形そのものは波形702−1、702−2、702−3と同じとして、相関計算の対象となる時間を短くしても、計算結果の相関値は同じである。
そこで、本実施例では、効率よくスピーカ出力信号302の影響の現れる時刻を特定するために、波形702あるいは波形714の先頭へ、検出しやすい短い波形を挿入し、レスポンスと検出精度を両立する。波形702あるいは波形714の先頭は、スピーカ出力信号302のスピーカの音の先頭であってもよく、このスピーカの音の先頭は、無音区間であるポーズの後の先頭、あるいはスピーカの合成音声における合成の先頭であってもよい。
また、検出しやすい短い波形としては、パルス波形やホワイトノイズの波形などでもよく、音声などの波形と相関の低い波形から成る機械音などでもよく、翻訳システムという性質からみると、カーナビの音声案内によく使用される「ポン」というような提示音が好ましい。図10は、スピーカ信号検出部103における提示音での検出の例を示す図である。
提示音の波形724は、波形725以外の波形701の部分と波形が大きく異なるため、図10のような図面上の表現としている。ここで、スピーカ出力信号302には、波形724に加えて、波形702あるいは波形714が含まれてもよいが、計算された相関値への影響は少ないため、波形702あるいは波形714の図示を省略する。波形724そのものは短く、相関計算の対象となる時間も短い。
そして、図8、9を用いて説明したように、スピーカ信号検出部103は、シフト時間722−1、722−2、722−3と遅延させ、波形724−1、724−2、724−3のそれぞれと波形701とで相関計算し、グラフ723の相関値を得る。これにより、レスポンスと検出精度の両立が可能となる。
レスポンスに関して、相関計算が開始されるまでの時間を短縮してもよい。このためには、波形703などのスピーカ出力信号302に対応する信号成分(波形成分)が、スピーカ信号検出部103に到達する時点で、スピーカ出力信号302の波形702が相関計算可能な状態になっていることが好ましい。
例えば、マイク入力信号202−1の波形701とスピーカ出力信号302の波形702との時間関係が図7のとおりであると、図8の波形703と波形702−1との時間関係にならないため、波形701を予め設定された時間で遅延させると説明したが、この波形701の遅延のために、相関計算を開始するまでの時間が遅くなる。
図7ではなく、波形702の入力時点から図8の波形703と波形702−1との時間関係、すなわちスピーカ出力信号302が、マイク入力信号202−1よりも早く、スピーカ信号検出部103へ到達していれば、波形701を遅延させる必要がなく、相関計算が開始されるまでの時間を短縮できる。図10の波形725と波形724−1との時間関係も波形703と波形702−1との時間関係と同じである。
図11は、デバイス301が音声生成装置802を含む例を示す図である。デバイス301−1は、既に説明したとおりであり、マイク801−1と接続され、マイク入力信号202−1を音声信号処理装置100へ出力する。デバイス301−2は、音声生成装置802−2を含み、音声生成装置802−2が生成した音声信号をスピーカ803−2へ出力し、スピーカ出力信号302−2として音声信号処理装置100へ出力する。
スピーカ803−2から出力された音波は、空中伝搬してマイク801−1から入力され、マイク入力信号202−1の波形701へ波形703として影響を与える。このように、音声生成装置802−2から音声信号処理装置100へ至る2つの経路が存在するが、各経路の伝達時間の関係が安定するとは限らない。特に、図5、6を用いて説明した構成ではネットワーク510の伝達時間の影響も受ける。
図12は、音声生成装置802がデバイス301に接続される例を示す図である。デバイス301−1、マイク801−1、マイク入力信号202−1、音声信号処理装置100は、図11を用いて説明したとおりであるので、同じ符号を付けて、説明を省略する。音声生成装置802−3は、音声生成装置802−2に相当し、音声の信号804−3をデバイス301−3へ出力する。
デバイス301−3は、信号804−3を入力すると、信号804−3をそのまま、あるいはスピーカ803−3に適合した信号形式に変換して、スピーカ803−3へ出力する。また、デバイス301−3は、信号804−3をそのまま、あるいはスピーカ出力信号302−2の信号形式に変換して、スピーカ出力信号302−2として音声信号処理装置100へ出力する。このように、図12に示した例でも、図11を用いて説明した経路と同じ経路となる。
図13は、サーバ805が音声信号処理装置100と音声生成装置804を含む例を示す図である。デバイス301−1、マイク801−1、マイク入力信号202−1、音声信号処理装置100は、図11を用いて説明したとおりであるので、同じ符号を付けて、説明を省略する。また、デバイス301−4、スピーカ803−4、信号804−4のそれぞれは、デバイス301−3、スピーカ803−3、信号804−3に相当するが、デバイス301−4は音声信号処理装置100へ出力しない。
音声生成装置802−4は、音声信号処理装置100と同じくサーバ805に含まれ、スピーカ出力信号302に相当する信号を音声信号処理装置100へ出力する。これにより、スピーカ出力信号302がマイク入力信号202より遅れないことが保証され、レスポンスを良くすることができる。図13では、音声信号処理装置100と音声生成装置802−4が1つのサーバ805に含まれる例を示したが、音声信号処理装置100と音声生成装置802との間のデータ転送速度が十分に高ければ、それぞれが独立した装置であってもよい。
なお、図11、12の構成であって、スピーカ出力信号302がマイク入力信号202より遅れても、図8を用いて既に説明したとおり、スピーカ信号検出部103がマイク入力信号202とスピーカ出力信号302の時間関係を特定することは可能である。
図1に戻り、各信号間時間同期部104は、スピーカ信号検出部103で特定されたマイク入力信号202とスピーカ出力信号302の時間関係の情報、およびこれらの信号を入力し、マイク入力信号202の波形とスピーカ出力信号302の波形との波形ごとの対応関係を修正して、同期させる。
サンプリング周波数変換部102により、マイク入力信号202とスピーカ出力信号302は同じサンプリング周波数となっているので、スピーカ信号検出部103で信号間相関を用いて特定された情報に基づいて、マイク入力信号202とスピーカ出力信号302に対して一度の同期処理を行った後、同期のずれることはないはずである。
しかしながら、同じサンプリング周波数となっても、スピーカへ出力するときのDA変換(デジタル−アナログ変換)の変換周波数(1つのデジタル信号から1つのアナログ信号への変換を繰り返す周期)と、マイクで入力するときのAD変換(アナログ−デジタル変換)のサンプリング周波数(1つのアナログ信号から1つのデジタル信号への変換を繰り返す周期)の誤差により、マイク入力信号202とスピーカ出力信号302の時間的な対応関係が少しずつずれる。
このずれは、スピーカ出力信号302のスピーカの音が短い場合に影響が小さいが、スピーカの音が長い場合に影響が大きくなる。なお、スピーカの音は、スピーカの合成音声においてまとめて合成される単位などであってもよい。このため、予め設定された時間よりスピーカの音が短い場合、各信号間時間同期部104は、スピーカ信号検出部103からの情報に基づいて同期した信号をそのままエコーキャンセリング実行部105へ出力してもよい。
また、例えば、スピーカ出力信号302の内容が構内放送である場合、構内放送のスピーカの音は長いため、各信号間時間同期部104は、スピーカ信号検出部103からの情報に基づいて同期した信号を、さらに定期的に再同期して、エコーキャンセリング実行部105へ出力する。
各信号間時間同期部104は、定期的な再同期として、予め設定された時間間隔で再同期してもよい。また、スピーカ信号検出部103からの情報に基づいて同期した後、予め設定された時間間隔で信号間相関を計算し、計算された相関値を常に監視して、予め設定された閾値より相関値が低くなった場合に再同期してもよい。
ただし、同期処理を行うと、波形を伸び縮みさせて、同期処理前後に音として不連続が生じるため、同期処理前後の音の雑音除去や音声認識に影響する可能性がある。そこで、各信号間時間同期部104は、スピーカの音のパワーを計測し、予め設定された閾値を超えるパワーの立ち上がり量を検出したタイミングで再同期を行ってもよく、これにより音の不連続を抑制でき、音声認識精度などの低下を防ぐことが可能になる。
図14は、各信号間時間同期部104による再同期の例を示す図である。スピーカ出力信号302は音声信号などであり、波形702のように、単語や文の切れ目や息継ぎなどにより、振幅の変化のない時間が存在する。この振幅の変化のない時間の後に、パワーが立ち上がるため、これを検出して、再同期811−1、811−2のタイミングで、各信号間時間同期部104は再同期の処理を実行する。
さらに、再同期のために、図10を用いて説明したような提示音の信号が、スピーカ出力信号302(とスピーカ出力信号302の影響としてマイク入力信号202)へ加えられてもよい。信号間で同期する場合、きれいな正弦波より、雑音成分の多く含まれる波形の方が、高い精度の得られることが知られている。このため、音声生成装置802が生成する音声に雑音成分を加えることにより、スピーカ出力信号302へ雑音成分が加えられ、高い時間同期精度が得られる。
また、スピーカ出力信号302の信号の周波数特性と、デバイス301−1の周囲の雑音の周波数特性とが近い場合は、周囲の雑音がマイク入力信号202に混入して、スピーカ信号検出部103および各信号間時間同期部104の処理精度と、エコーキャンセリング性能とを低下させる可能性があるので、このような場合は、スピーカ出力信号302の信号にフィルタをかけて、周囲の雑音の周波数特性と異なるものにすることが望ましい。
図1に戻り、エコーキャンセリング実行部105は、同期、あるいは同期と再同期されたマイク入力信号202の信号と各スピーカ出力信号302の信号を、各信号間時間同期部104から入力し、エコーキャンセリングを実行し、マイク入力信号202の信号から各スピーカ出力信号302の信号を分離、除去する。例えば、図7〜9では波形701から波形703を分離し、図10では波形701から波形703、725を分離する。
エコーキャンセリングの具体的な処理に関しては、本実施例の特徴となる部分ではなく、エコーキャンセリングという名称で既に広く知られ、広く行われている処理であるので、説明を省略する。エコーキャンセリング実行部105は、エコーキャンセリングの結果の信号をデータ送信部106へ出力する。
データ送信部106は、エコーキャンセリング実行部105から入力された信号を、音声信号処理装置100の外部の雑音除去装置203へ送信する。既に説明したとおり、雑音除去装置203は、一般的な雑音の除去すなわちデバイス301の周囲雑音や突発性雑音を除去し、音声翻訳装置205へ出力して、音声翻訳装置205が信号に含まれる音声を翻訳する。なお、雑音除去装置203は省略されてもよい。
音声翻訳装置205により翻訳された音声の信号は、デバイス301−1〜301−Nの一部へスピーカ出力信号として出力されてもよいし、スピーカ出力信号302−1〜302−Nの一部の代わりとしてデータ受信部101へ出力されてもよい。
以上で説明したように、他のデバイスのスピーカで出力される音の信号をスピーカ出力信号として確実に取得し、エコーキャンセリングへ適用できるため、不要な音を効果的に除去することができる。ここで、他のデバイスのスピーカで出力された音は空中伝搬してマイクに到達し、マイク入力信号となるため、マイク入力信号とスピーカ出力信号との間に時間差の発生する可能性もあるが、マイク入力信号とスピーカ出力信号を同期させるため、エコーキャンセリングでの除去率を高めることができる。
また、スピーカ出力信号を予め取得可能とすることにより、マイク入力信号とスピーカ出力信号との同期のための処理時間を短縮できる。さらに、スピーカ出力信号に提示音を加えることにより、マイク入力信号とスピーカ出力信号の同期の精度を向上して処理時間を短縮できる。そして、翻訳の対象となる音声以外の音を除去できるため、音声翻訳の精度の向上が可能になる。
実施例1では、会議などでの音声翻訳のための前処理の例を説明したが、実施例2では、人間共生ロボットによる音声認識のための前処理の例を説明する。本実施例における人間共生ロボットは、人間の近くに移動し、人間の発する音声を人間共生ロボットのマイクで収音して、音声を認識するものである。
このような人間共生ロボットでは、実環境下での高精度な音声認識が求められるため、音声認識精度に影響する要因の一つである特定音源からの音であって、人間共生ロボットの移動にともない変化する特定音源から音を除去することが有効である。実環境における特定音源としては、例えば、他の人間共生ロボットの発話、構内放送の音声、人間共生ロボット自体の内部雑音などがある。
図15は、音声信号処理装置900の処理の流れの例を示す図である。図1と同じ部分は同じ符号を付けて説明を省略する。音声信号処理装置900は、スピーカ信号強度予測部901を含むことにおいて、実施例1で説明した音声信号処理装置100と異なるが、これは処理が異なることを意味するので、例えば図4〜6、11〜13などの音声信号処理装置100とハードウェアとして同じであってもよい。
また、音声翻訳装置205の代わりに音声認識装置910が接続されるが、音声認識装置910は音声を認識して、人間共生ロボットの物理的な動作や発話を制御してもよいし、認識された音声を翻訳してもよい。デバイス301−1、音声信号処理装置900、雑音除去装置203および音声認識装置910のいずれかが人間共生ロボットに含まれてもよい。
特定音源の中で人間共生ロボット自体の内部雑音、特にモーター音は、マイク入力信号202へ大きく影響を与える。現在、動作音の小さな高性能モーターも存在するため、このような高性能モーターを使用することにより、マイク入力信号202への影響を軽減することも可能であるが、このような高性能モーターは高価であり、人間共生ロボットのコストが高くなってしまう。
これに対し、低価格なモーターを使用すれば、人間共生ロボットのコストを抑えることは可能であるが、低価格なモーターは動作音が大きく、マイク入力信号202への影響が大きい。さらに、モーターそのものの動作音の大きさに加え、モーターの動作音の基となる振動が人間共生ロボットの筐体に伝わり、複数のマイクに入力されるため、空気伝搬の音よりも除去しにくい。
そこで、モーターの近くにマイク(音声マイクあるいは振動マイク)を設け、マイクで取得した信号を複数のスピーカ出力信号302の中の一つとする。モーターの近くのマイクで取得された信号は、スピーカから出力される音の信号ではないが、マイク入力信号202に含まれる波形と相関の高い波形を含むため、エコーキャンセリングによる分離が可能になる。
このため、例えばデバイス301−Nの図示を省略したマイクが、モーターの近くに設置され、デバイス301−Nは、マイクで取得された信号をスピーカ出力信号302−Nに出力してもよい。
図16は、人間共生ロボットの移動の例を示す図である。ロボットA902とロボットB903は、それぞれ人間共生ロボットである。ロボットA902は位置dから位置Dへ移動する。ここで、位置dに存在した時点をロボットA902aとし、位置Dに存在した時点をロボットA902bとする。ロボットA902aとロボットA902bは存在する時刻が異なるものであり、物としては同じロボットA902である。
ロボットA902aとロボットB903とは距離eであったが、ロボットA902が位置dから位置Dへ移動すると、ロボットA902bとロボットB903とは距離Eとなり、距離eから距離Eへ距離が変化する。また、ロボットA902aと構内放送用スピーカ904とは距離fであったが、ロボットA902が位置dから位置Dへ移動すると、ロボットA902bと構内放送用スピーカ904とは距離Fとなり、距離fから距離Fへ距離が変化する。
このように、人間共生ロボット(ロボットA902)の場合は自由に移動するので、他の人間共生ロボット(ロボットB903)と固定的に設置されたデバイス301(構内放送用スピーカ904)との距離が変動し、マイク入力信号202に含まれるスピーカ出力信号302の波形の振幅が変わる。
マイク入力信号202に含まれるスピーカ出力信号302の波形の振幅が小さい場合、信号の同期とエコーキャンセリングの性能が悪くなる可能性もある。そこで、スピーカ信号強度予測部901は、複数のデバイス301それぞれの位置からデバイス301間の距離を計算し、マイク入力信号202に含まれるスピーカ出力信号302の波形の振幅が小さいと判定されたスピーカ出力信号302の信号に関するエコーキャンセリングを行わない。
スピーカ信号強度予測部901あるいはデバイス301は、電波あるいは音波などを使用して、スピーカ信号強度予測部901の位置すなわち人間共生ロボットの位置を測定する。電波あるいは音波などを使用しての位置の測定は、既に広く知られ行われていることであるので、処理の内容の説明は省略する。また、構内放送用スピーカ904などの固定的に設置された装置内のスピーカ信号強度予測部901は、位置を測定することなく、予め設定された位置を記憶してもよい。
測定された位置の情報は、人間共生ロボットや構内放送用スピーカ904などの間で通信されて互いに記憶され、位置の間隔から距離が計算されてもよい。また、位置を測定することなく、人間共生ロボットや構内放送用スピーカ904などは、互いに電波あるいは音波などを照射し合って、距離を測定してもよい。
例えば、実稼働する前の周囲に音のない状態で、人間共生ロボットや構内放送用スピーカ904などのスピーカそれぞれから順次に音を出し、音を出していない装置それぞれのスピーカ信号強度予測部901は、音を出している装置との距離とともにマイク入力信号202の音声強度(波形の振幅)を記録する。距離を変更しながら、この記録を繰り返して複数の距離それぞれにおける音声強度を記録する、あるいは空中の音波の減衰率から複数の距離それぞれにおける音声強度を計算し、図17に示すような音声減衰曲線905のグラフを表す情報を作成する。
図17は、音源からの距離と音声強度の関係の例を示す図である。人間共生ロボットが移動するごと(位置および距離が変化するごと)に、人間共生ロボットや構内放送用スピーカ904などのスピーカ信号強度予測部901は、他の装置との距離を計算し、図17に示す音声減衰曲線905それぞれに基づいて音声強度を求める。
そして、スピーカ信号強度予測部901は、予め設定された閾値以上の音声強度があるスピーカ出力信号302の信号をエコーキャンセリング実行部105へ出力し、予め設定された閾値未満の音声強度であるスピーカ出力信号302の信号をエコーキャンセリング実行部105へ出力しない。これにより、無用なエコーキャンセリングによる信号の劣化を防ぐことができる。
音声強度を求めるために、図16において、ロボットA902が位置dから位置Dへ移動すると、ロボットA902とロボットB903の距離が距離eから距離Eに変わり、図17に示す音声減衰曲線905からそれぞれの音声強度を求めることができる。ここで、距離eでは閾値以上の音声強度が得られてエコーキャンセリングされても、距離Eでは閾値未満の音声強度となるとエコーキャンセリングされない。
なお、さらに高精度に音声強度を予測するために、距離に加えて、伝達経路情報やスピーカの音量などを用いてもよい。また、マイクが接続されたデバイス301−1のスピーカと、モーターの近くに設置されたデバイス301−Nのマイクは、人間共生ロボットが移動しても、距離が変わらないため、スピーカ出力信号302−1とスピーカ出力信号302−Nをスピーカ信号強度予測部901の処理対象から外してもよい。
以上で説明したように、モーターで移動する人間共生ロボットであって、モーターの動作音を効果的に除去することが可能になる。また、移動により他の音源との距離が変化しても、他の音源からの音を効果的に除去することが可能になる。特に、必要以上な除去により、認識の対象となる音声の信号に影響を与えることがない。そして、認識の対象となる音声以外の音を除去できるので、音声の認識率の向上が可能になる。
100、900 音声信号処理装置
102 サンプリング周波数変換部
103 スピーカ信号検出部
104 各信号間時間同期部
105 エコーキャンセリング実行部
202 マイク入力信号
301 デバイス
302 スピーカ出力信号

Claims (10)

  1. 複数のデバイスと音声信号処理装置を備えた音声信号処理システムにおいて、
    前記音声信号処理装置に接続される音声翻訳装置をさらに備え、
    前記複数のデバイスの中の第1のデバイスは、マイクと接続して、マイク入力信号を前記音声信号処理装置へ出力し、
    前記複数のデバイスの中の第2のデバイスは、スピーカと接続して、前記スピーカへ出力する信号と同じスピーカ出力信号を前記音声信号処理装置へ出力し、
    前記音声信号処理装置は、
    前記マイク入力信号に含まれる波形と、前記スピーカ出力信号に含まれる波形とを同期させ、
    前記マイク入力信号に含まれる波形から、前記スピーカ出力信号に含まれる波形を除去し、
    前記スピーカ出力信号に含まれる波形が除去された前記マイク入力信号を前記音声翻訳装置へ出力し、
    前記音声翻訳装置は、
    前記スピーカ出力信号に含まれる波形が除去された前記マイク入力信号を前記音声信号処理装置から入力し、翻訳して音声を生成し、前記第2のデバイスへ出力し、
    前記第2のデバイスは、
    前記翻訳された音声を前記スピーカ出力信号とすること
    を特徴とする音声信号処理システム。
  2. 請求項1に記載の音声信号処理システムにおいて、
    前記複数のデバイスの中の第3のデバイスは、第3のスピーカと接続して、前記第3のスピーカへ出力する信号と同じ第3のスピーカ出力信号を前記音声信号処理装置へ出力し、
    前記音声信号処理装置は、
    前記マイク入力信号に含まれる波形と、前記第3のスピーカ出力信号に含まれる波形とをさらに同期させ、
    前記マイク入力信号に含まれる波形から、前記第3のスピーカ出力信号に含まれる波形をさらに除去し、
    前記第3のスピーカ出力信号に含まれる波形が除去された前記マイク入力信号を前記音声翻訳装置へ出力すること
    を特徴とする音声信号処理システム。
  3. 請求項1に記載の音声信号処理システムにおいて、
    前記音声信号処理装置は、
    前記マイク入力信号のサンプリング周波数と、前記スピーカ出力信号のサンプリング周波数が1つの周波数となるように、前記マイク入力信号あるいは前記スピーカ出力信号を変換し、
    前記変換されたマイク入力信号の波形と前記スピーカ出力信号の波形との相関計算に基づき、前記変換されたマイク入力信号の波形と前記スピーカ出力信号の波形との時間関係を特定し、あるいは前記マイク入力信号の波形と前記変換されたスピーカ出力信号の波形との相関計算に基づき、前記マイク入力信号の波形と前記変換されたスピーカ出力信号の波形との時間関係を特定し、
    前記特定された時間関係を用いて同期させること
    を特徴とする音声信号処理システム。
  4. 請求項3に記載の音声信号処理システムにおいて、
    前記音声信号処理装置は、
    前記スピーカ出力信号のパワーあるいは前記変換されたスピーカ出力信号のパワーを計測し、計測されたパワーをさらに使用して同期させること
    を特徴とする音声信号処理システム。
  5. 請求項4に記載の音声信号処理システムにおいて、
    前記第2のデバイスが出力する前記スピーカへの信号と前記スピーカ出力信号には、音声の波形と相関の低い波形から成る提示音の信号を含むこと
    を特徴とする音声信号処理システム。
  6. 請求項に記載の音声信号処理システムにおいて、
    前記第2のデバイスが出力する前記スピーカへの信号と前記スピーカ出力信号には、前記第1のデバイスの周囲の雑音とは異なる雑音成分を含む音声の信号を含むこと
    を特徴とする音声信号処理システム。
  7. 請求項3に記載の音声信号処理システムにおいて、
    前記第2のデバイスは、
    前記スピーカへ前記スピーカ出力信号を出力する前に、前記音声信号処理装置へ前記スピーカ出力信号を出力すること
    を特徴とする音声信号処理システム。
  8. 請求項7に記載の音声信号処理システムにおいて、
    前記音声信号処理装置と音声生成装置を含むサーバをさらに備え、
    前記第2のデバイスは、
    前記音声生成装置から前記スピーカ出力信号を入力し、
    前記音声生成装置は、
    前記第2のデバイスへ前記スピーカ出力信号を出力し、
    前記第2のデバイスの代わりに前記音声信号処理装置へ前記スピーカ出力信号を出力すること
    を特徴とする音声信号処理システム。
  9. 複数のデバイスと音声信号処理装置を備えた音声信号処理システムにおいて、
    前記複数のデバイスの中の第1のデバイスは、マイクと接続して、第1のマイク入力信号を前記音声信号処理装置へ出力し、
    前記複数のデバイスの中の第2のデバイスは、スピーカと接続して、前記スピーカへ出力する信号と同じ第2のスピーカ出力信号を前記音声信号処理装置へ出力し、
    前記音声信号処理装置は、
    前記第1のマイク入力信号に含まれる波形と、前記第2のスピーカ出力信号に含まれる波形とを同期させ、
    前記第1のマイク入力信号に含まれる波形から、前記第2のスピーカ出力信号に含まれる波形を除去し、
    前記第1のデバイスと第4のデバイスと移動用モーターを含むロボットをさらに備え、
    前記第4のデバイスは、
    前記移動用モーターの音を収集する第4のマイクと接続し、前記第4のマイクで入力された信号を、第4のスピーカ出力信号として、前記音声信号処理装置へ出力し、
    前記音声信号処理装置は、
    前記第1のマイク入力信号に含まれる波形と、前記第4のスピーカ出力信号に含まれる波形とをさらに同期させ、
    前記第1のマイク入力信号に含まれる波形から、前記第4のスピーカ出力信号に含まれる波形をさらに除去すること
    を特徴とする音声信号処理システム。
  10. 請求項に記載の音声信号処理システムにおいて、
    前記音声信号処理装置は、
    前記第1のデバイスと前記第2のデバイスの距離に応じて、前記第2のスピーカ出力信号に含まれる波形の振幅を特定し、前記第2のスピーカ出力信号に含まれる波形の除去の実行を判定すること
    を特徴とする音声信号処理システム。
JP2016221225A 2016-11-14 2016-11-14 音声信号処理システム Active JP6670224B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016221225A JP6670224B2 (ja) 2016-11-14 2016-11-14 音声信号処理システム
US15/665,691 US20180137876A1 (en) 2016-11-14 2017-08-01 Speech Signal Processing System and Devices
CN201710690196.5A CN108074583B (zh) 2016-11-14 2017-08-14 声音信号处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016221225A JP6670224B2 (ja) 2016-11-14 2016-11-14 音声信号処理システム

Publications (2)

Publication Number Publication Date
JP2018082225A JP2018082225A (ja) 2018-05-24
JP6670224B2 true JP6670224B2 (ja) 2020-03-18

Family

ID=62108038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016221225A Active JP6670224B2 (ja) 2016-11-14 2016-11-14 音声信号処理システム

Country Status (3)

Country Link
US (1) US20180137876A1 (ja)
JP (1) JP6670224B2 (ja)
CN (1) CN108074583B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
JP2019032400A (ja) * 2017-08-07 2019-02-28 富士通株式会社 発話判定プログラム、発話判定方法、及び発話判定装置
JP7028976B2 (ja) * 2018-07-10 2022-03-02 株式会社ソニー・インタラクティブエンタテインメント コントローラ装置、及びその制御方法
CN109389978B (zh) * 2018-11-05 2020-11-03 珠海格力电器股份有限公司 一种语音识别方法及装置
CN113168840A (zh) * 2018-11-30 2021-07-23 松下知识产权经营株式会社 翻译装置以及翻译方法
KR102569365B1 (ko) 2018-12-27 2023-08-22 삼성전자주식회사 가전기기 및 이의 음성 인식 방법
CN113903351A (zh) * 2019-03-18 2022-01-07 百度在线网络技术(北京)有限公司 回声消除方法、装置、设备及存储介质
JP7281788B2 (ja) * 2019-07-08 2023-05-26 パナソニックIpマネジメント株式会社 スピーカシステム、音処理装置、音処理方法及びプログラム
CN110401889A (zh) * 2019-08-05 2019-11-01 深圳市小瑞科技股份有限公司 基于usb控制的多路蓝牙麦克风系统和使用方法
JP6933397B2 (ja) * 2019-11-12 2021-09-08 ティ・アイ・エル株式会社 音声認識装置、管理システム、管理プログラム及び音声認識方法
JP7409122B2 (ja) * 2020-01-31 2024-01-09 ヤマハ株式会社 管理サーバー、音響管理方法、プログラム、音響クライアントおよび音響管理システム
US11776557B2 (en) 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof
US20220038769A1 (en) * 2020-07-28 2022-02-03 Bose Corporation Synchronizing bluetooth data capture to data playback
CN113096678A (zh) * 2021-03-31 2021-07-09 康佳集团股份有限公司 一种语音回声消除方法、装置、终端设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH066440A (ja) * 1992-06-17 1994-01-14 Oki Electric Ind Co Ltd 自動車電話用ハンドフリー電話機
JP2523258B2 (ja) * 1993-06-17 1996-08-07 沖電気工業株式会社 多地点間エコ―キャンセラ
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
JP3537962B2 (ja) * 1996-08-05 2004-06-14 株式会社東芝 音声収集装置及び音声収集方法
US7215786B2 (en) * 2000-06-09 2007-05-08 Japan Science And Technology Agency Robot acoustic device and robot acoustic system
US6820054B2 (en) * 2001-05-07 2004-11-16 Intel Corporation Audio signal processing for speech communication
JP2004350298A (ja) * 2004-05-28 2004-12-09 Toshiba Corp 通信端末装置
JP4536020B2 (ja) * 2006-03-13 2010-09-01 Necアクセステクニカ株式会社 雑音除去機能を有する音声入力装置および方法
JP2008085628A (ja) * 2006-09-27 2008-04-10 Toshiba Corp エコーキャンセル装置、エコーキャンセルシステムおよびエコーキャンセル方法
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体
US20090168673A1 (en) * 2007-12-31 2009-07-02 Lampros Kalampoukas Method and apparatus for detecting and suppressing echo in packet networks
CN102165708B (zh) * 2008-09-26 2014-06-25 日本电气株式会社 信号处理方法、信号处理装置及信号处理程序
US20100185432A1 (en) * 2009-01-22 2010-07-22 Voice Muffler Corporation Headset Wireless Noise Reduced Device for Language Translation
JP5251808B2 (ja) * 2009-09-24 2013-07-31 富士通株式会社 雑音除去装置
US9037458B2 (en) * 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
JP6064159B2 (ja) * 2011-07-11 2017-01-25 パナソニックIpマネジメント株式会社 エコーキャンセル装置、それを用いた会議システム、およびエコーキャンセル方法
US8761933B2 (en) * 2011-08-02 2014-06-24 Microsoft Corporation Finding a called party
US9491404B2 (en) * 2011-10-27 2016-11-08 Polycom, Inc. Compensating for different audio clocks between devices using ultrasonic beacon
JP5963077B2 (ja) * 2012-04-20 2016-08-03 パナソニックIpマネジメント株式会社 通話装置
US8958897B2 (en) * 2012-07-03 2015-02-17 Revo Labs, Inc. Synchronizing audio signal sampling in a wireless, digital audio conferencing system
US9251804B2 (en) * 2012-11-21 2016-02-02 Empire Technology Development Llc Speech recognition
TWI520127B (zh) * 2013-08-28 2016-02-01 晨星半導體股份有限公司 應用於音訊裝置的控制器與相關的操作方法
US20160283469A1 (en) * 2015-03-25 2016-09-29 Babelman LLC Wearable translation device
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication

Also Published As

Publication number Publication date
CN108074583A (zh) 2018-05-25
US20180137876A1 (en) 2018-05-17
CN108074583B (zh) 2022-01-07
JP2018082225A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
JP6670224B2 (ja) 音声信号処理システム
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
RU2648604C2 (ru) Способ и аппаратура для генерации сигнала речи
JP6090120B2 (ja) 信号処理システムおよび信号処理方法
JP5070873B2 (ja) 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
US8165317B2 (en) Method and system for position detection of a sound source
US8615394B1 (en) Restoration of noise-reduced speech
CN108604452B (zh) 声音信号增强装置
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
JP6646677B2 (ja) 音声信号処理方法および装置
JP5130895B2 (ja) 音声処理装置、音声処理システム、音声処理プログラム及び音声処理方法
JP2015019124A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP4960838B2 (ja) 距離測定装置、距離測定方法、距離測定プログラム、および記録媒体
US20220189498A1 (en) Signal processing device, signal processing method, and program
EP4360087A1 (en) Multi-encoder end-to-end automatic speech recognition (asr) for joint modeling of multiple input devices
JP6011188B2 (ja) エコー経路遅延測定装置、方法及びプログラム
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
US20140278432A1 (en) Method And Apparatus For Providing Silent Speech
JP2016158072A (ja) 集音装置、音声処理方法、および音声処理プログラム
US20130138431A1 (en) Speech signal transmission and reception apparatuses and speech signal transmission and reception methods
CN114424283A (zh) 音频信号处理设备、音频信号处理方法和存储介质
JP6973652B2 (ja) 音声処理装置、方法およびプログラム
JP2011259397A (ja) 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
CA3208159A1 (en) Methods and systems for voice control
CN117292691A (zh) 一种音频能量分析方法和相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200228

R150 Certificate of patent or registration of utility model

Ref document number: 6670224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150