JP2009539133A - 発話の区別 - Google Patents

発話の区別 Download PDF

Info

Publication number
JP2009539133A
JP2009539133A JP2009512723A JP2009512723A JP2009539133A JP 2009539133 A JP2009539133 A JP 2009539133A JP 2009512723 A JP2009512723 A JP 2009512723A JP 2009512723 A JP2009512723 A JP 2009512723A JP 2009539133 A JP2009539133 A JP 2009539133A
Authority
JP
Japan
Prior art keywords
voice
signal
parameter
parameters
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009512723A
Other languages
English (en)
Inventor
エス ハルマ,アキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009539133A publication Critical patent/JP2009539133A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

複数の声の間の区別のための方法であって、1)声の知覚的に有意な信号属性、たとえば平均ピッチおよびピッチ分散を解析する段階と、2)それぞれの声の信号属性を表すパラメータの組を決定する段階と、最後に、3)声のうちの少なくとも一部の修正された信号属性を表す声修正パラメータを抽出する段階とを有する、方法。これにより、声が前記声修正パラメータに従って修正されたときに、複数の声の間の相互パラメータ距離を、それにより声の間の知覚的な相違を増すことが可能である。好ましくは、一つのパラメータの修正量を限定するため、ほとんどまたは全部の声が修正される。好ましい信号属性尺度は:ピッチ、ピッチの時間的変動、声門波形、フォルマント周波数、信号振幅、有声および無声の発話セグメントの間のエネルギー差、発話の全体的なスペクトル輪郭に関係する特性、長い発話セグメントにおける一つまたは複数の尺度の動的変動に関係する特性である。本方法は、それぞれの声について判別された信号属性の修正に基づいているので、自然な音をもった自動声区別を許容する。

Description

本発明は信号処理、特に発話(speech)信号の処理の分野に関する。より特定的には、本発明は、第一および第二の声の間の区別(differentiation)のための方法ならびに該方法を実行するための信号プロセッサおよびデバイスに関する。
異なる話者の声の区別は、たとえば電話において、および電話会議システムにおいてよく知られた問題である。たとえば視覚的な手がかりのない電話会議システムでは、遠隔の聴取者は、同時に話す幾人かの話者の間の議論を追うのが困難になるであろう。たとえ一人の話者しか話していないとしても、遠隔のリスナーはその声を識別するのが、よって誰が話しているかを識別するのが困難であることがある。ノイズのある環境での移動電話でも、話者識別は問題になることがある。それは特に、いつもの通話者は、遺伝的および/または社会言語学的に近い関係のため、似通った声をもつ傾向があるという事実による。さらに、幾人かの話者に対して回線が開いている仮想職場の応用では、迅速かつ精確な話者識別が重要になることがある。
US2004/0013252は、電話会議の間、聴取者による発言者の区別を改善するための方法および装置を記載している。前記方法は、遠隔通信システムを通じて伝送される信号を使う。前記方法は複数の発言者の各々から聴取者への声を含む。聴取者に対して、インジケータが実際の発言者を示す。US2004/0013252は、聴取者が発言者を区別することをよりよく許容するための、もとのオーディオ信号の種々の修正に言及している。たとえば空間的区別では、それぞれの個々の発言者は、聴覚空間内で異なる見かけの方向にレンダリングされる。それはたとえば、異なる発言者に異なる頭部伝達関数(HRTF: Head Related Transfer Function)を適用するといったバイノーラル合成(binaural synthesis)を使うことによる。その動機となるのは、話者が異なる方向に感じられれば、発話信号がより理解しやすいという観察である。さらに、US2004/0013252は、聴取者による声認識を補助するために、似た声がさまざまな方法でわずかに変更されることができることに言及している。別の話者の声からの声のよりよい区別を許容するために、話者の声の一つにわずかな周波数シフトを与えるような、周波数変調に基づく「鼻音化(nasaling)」アルゴリズムが言及されている。
US2004/0013252で提案される発話区別の解決策はいくつかの欠点をもつ。話者の間の空間的分離のために、そのような方法は、聴取者に要求される空間的印象を与えるための二つ以上のオーディオ・チャネルを必要とする。よって、そのような方法は一つのオーディオ・チャネルしか利用可能でない応用には、たとえば移動電話のような普通の電話システムでは、好適でない。US2004/0013252で言及される「鼻音化」アルゴリズムは、空間的区別方法と組み合わせて使うことができる。しかしながら、前記アルゴリズムは不自然に聞こえる声を生じ、いくつかの似た声を区別するために使われる場合、すべての修正された声が知覚的に似通った「鼻音」品質を得るので、区別を改善しはしない。さらに、US2004/0013252は、話者の声の属性による「鼻音化」効果の自動制御のための手段を提供するものではない。
よって、声、たとえば電話で聞こえる声をすぐ識別することにおいて聴取者を支援する、すなわち聴取者がいくつかの既知の声を区別するのを支援する目的で発話信号を自動処理することのできる方法を提供することが一つの目的である。
この目的およびいくつかの他の目的は、本発明の第一の側面においては、第一および第二の声の間の区別のための方法であって、
1)それぞれ前記第一および第二の声を表す第一および第二の発話信号の信号属性を解析する段階と、
2)それぞれ前記第一および第二の発話信号の信号属性の尺度を表すそれぞれ第一および第二の組のパラメータを決定する段階と、
3)声修正アルゴリズムを制御するよう適応された声区別テンプレートを抽出する段階とを有しており、前記声区別テンプレートは、少なくとも前記第一の組のパラメータの少なくとも一つのパラメータの修正を表すよう抽出されるものであり、ここで、前記修正は、前記声区別テンプレートによって制御される修正アルゴリズムによる処理に際して、前記第一および第二の声の間の相互パラメータ距離を増すはたらきをする、
方法を提供することによって達成される。
「声区別テンプレート(voice differentiating template)」により、前記声修正アルゴリズムに入力してその声修正機能を制御するための声修正パラメータの組が了解されるものである。好ましくは、前記声修正アルゴリズムは、二つ以上の声パラメータの修正を実行でき、よって、前記声区別テンプレートは好ましくはこれらのパラメータを含む。前記声区別テンプレートは、前記第一および第二の声のそれぞれに割り当てられた異なる声修正パラメータを含んでいてもよく、三つ以上の声の場合には、前記声区別テンプレートは、それらの声の部分集合に割り当てられた、あるいはすべての声に割り当てられた声修正パラメータを含んでいてもよい。
この方法によれば、一組の声を表す発話信号の組を自動的に解析し、それらの声の特徴の属性に基づいて前記組の声の一つまたは複数に割り当てられる一つまたは複数の声区別テンプレートに到達することが可能である。対応する声修正アルゴリズムを個別に各声についてしかるべく適用することによって、自然な響きをもつが、それらの声の間の知覚距離が増し、よって聴取者がそれらの声の間の区別をするのを助けるような声を生成することが可能である。
前記方法の効果は、複数の声が、それらの声の自然な響きを保持しつつ、より異なるようにできるということである。これはまた、本方法が自動的に実行される場合にも可能である。これは、前記声修正テンプレートが信号属性、すなわち声自身の特性に基づいているという事実のためである。このように、前記方法は、合成的に響く効果を適用するのではなく、既存の相違を強調する、あるいは複数の声の間の知覚的に有意な相違を人工的に増大させることを指向する。
前記方法は、あるイベント、たとえば電話会議セッションについて別個に実行されることができる。この場合、声修正パラメータは、そのセッションについて、各参加者のために個別に選択される。あるいはまた、個々の通話者について声修正パラメータの持続的な設定であってもよい。この場合、声修正パラメータは、各通話者の識別情報(たとえば電話番号)と関連付けられたデバイスに記憶される。たとえば、携帯電話の電話帳に記憶される。
記載される前記方法は入力として、単一チャネルのオーディオ信号しか必要としないので、また前記方法は単一の出力チャネルで機能できるので、前記方法は、たとえば幅広い範囲の通信用途内、たとえば移動電話またはインターネット・プロトコルを通じた声(Voice over Internet Protocol)に基づく電話といった電話内で適用可能である。当然ながら、前記方法は、立体音響的なまたは多チャネルのオーディオ通信システムにおいて直接使われることもできる。
好ましくは、前記声区別テンプレートは、前記第一および第二の組両方のパラメータのうち少なくとも一つのパラメータの修正を表すよう抽出される。こうして、好ましくは、前記第一および第二の声の両方が修正される。すなわち一般に、前記声区別テンプレートは、前記方法に入力されるすべての声が少なくとも一つのパラメータに関して修正されるよう抽出されることが好ましいこともありうる。しかしながら、前記方法は、二つの声の間の相互パラメータ距離が所定の閾値を超えている場合には二つの声を修正することを排除するよう構成されてもよい。
好ましくは、前記声区別テンプレートは、少なくとも前記第一の組のパラメータのうちの二つ以上のパラメータの修正を表すよう抽出される。前記のパラメータの組に含まれるパラメータのすべてを修正することが好ましいことがありうる。こうして、より多くのパラメータを修正することによって、ある声の一つのパラメータを不自然に響く声につながるほど修正する必要なしに、二つの声の間の距離を増すことが可能である。
同じことは、声のうちのより多く、可能性としてはすべてが修正されるような、区別テンプレートを抽出する上述したサブ側面との組み合わせにもあてはまる。複数の声の大きな部分についてパラメータの少なくとも大きな部分を修正することによって、どの声のどのパラメータも不自然な音につながるほど修正する必要なく、それらの声の間の相互知覚距離をとることが可能である。
好ましくは、前記第一および第二の発話信号の信号属性の前記尺度は、前記信号の知覚的に有意な属性を表す。最も好ましくは、前記尺度は、少なくとも一つの尺度を含み、前記少なくとも一つの尺度は、好ましくは:ピッチ、ピッチの時間的変動、フォルマント周波数、声門波形(glottal pulse shape)、信号振幅、有声および無声の発話セグメントの間のエネルギー差、発話の全体的なスペクトル輪郭に関係する特性、長い発話セグメントにおける一つまたは複数の尺度の動的変動に関係する特性からなる群から選択される尺度のうちの二つ以上または全部である。
好ましくは、段階3)は、前記第一および第二のパラメータの組のパラメータのうちの少なくとも一部を考慮に入れて前記相互パラメータ距離を計算することを含む。ここで、計算される距離の型は、ユークリッド距離またはマハラノビス距離といった、二つのパラメータ・ベクトルの間の相違を特徴付けるいかなる計量でもよい。ユークリッド型の距離は単純な型の距離である一方、マハラノビス型の距離は、パラメータの変動性を考慮に入れる知的な方法であり、今の用途において有利な属性である。しかしながら、一般に、距離は数多くの方法で計算できることは理解されるものである。最も好ましくは、前記相互パラメータ距離は、ステップ1)で決定されるパラメータすべてを考慮に入れて計算される。相互パラメータ距離を計算することは一般に、n次元パラメータ空間における距離を計算する問題であることは理解されるものであり、よって、原理的には、そのような距離の尺度を得ることのできるいかなる方法を用いてもよい。
段階3)は、前記一つまたは複数の声についてのパラメータのうちの一つまたは複数に基づいて、それらの声の間の結果的な最小推定相互パラメータ距離が得られるよう、修正パラメータを与えることによって実行されてもよい。好ましくは、信号属性の尺度を表すパラメータは、各パラメータが前記声区別テンプレートのあるパラメータに対応するよう選択される。
任意的に、前記方法は、第三の声を表す第三の発話信号の信号属性を解析し、前記第三の発話信号の信号属性の尺度を表すパラメータの第三の組を決定し、パラメータの前記第一および第三の組の間の相互パラメータ距離を計算することを含む。前記第一の側面に基づく教示一般は、いくつの入力発話信号を実行するためにも適用可能であることは理解されるものである。
任意的に、前記方法はさらに、ユーザー入力を受け取り、それに基づいて前記声区別テンプレートを調整する段階を含んでいてもよい。そのようなユーザー入力はユーザー選好であってもよい。たとえば、ユーザーは、自分の親友の声に声修正を適用しないような情報を入力してもよい。
好ましくは、前記声区別テンプレートは、単一のオーディオ出力チャネルを与える声修正アルゴリズムを制御するよう構成される。しかしながら、好まれるならば、前記方法は、二つ以上のオーディオ・チャネルが利用可能なシステムにおいて適用されてもよく、よって前記方法は組み合わせにおいて使用されてもよく、たとえばさらに当技術分野で知られているような空間的区別アルゴリズムへの入力の役をして、それによりさらなる声区別を得てもよい。
好ましくは、前記方法は、前記声区別テンプレートによって制御される修正アルゴリズムを用いて前記オーディオ信号を処理し、処理されたオーディオ信号を表す修正されたオーディオ信号を生成することによって、少なくとも前記第一の声を表すオーディオ信号を修正する段階を含む。前記修正アルゴリズムは、当技術分野において知られている声修正アルゴリズムから選択されてもよい。
前記声区別テンプレートによって制御される修正アルゴリズムを走らせる段階を含み、前述した方法ステップのすべては、一つの位置で、たとえば一つの装置またはデバイスにおいて、実行されてもよい。しかしながら、たとえば少なくとも段階1)および2)は前記オーディオ信号を修正する段階に対して遠隔な位置で実行されてもよいことは理解されるものである。こうして、段階1)、2)および3)は個人のパーソナル・コンピュータ上で実行されてもよい。結果として得られる声区別テンプレートは次いで、その人の携帯電話のような別のデバイスに転送されることができ、そこで、前記声区別テンプレートによって制御される修正アルゴリズムを走らせる前記段階は実行される。
段階1)および2)は、オンラインまたはオフラインのいずれで実行されてもよい。すなわち、すぐに段階3)およびその後の声修正を実行する目的でもよいし、あるいは段階1)および2)そして可能性としては3)はのちの使用のために、いくつかの声を表すオーディオ信号のトレーニング集合に対して実行されてもよい。
前記方法のオンライン適用、たとえば電話会議適用では、関与する人の声の信号属性の長期的な統計に適応するために、段階1)、2)および3)が適応的に実行されることが好ましいことがある。オンライン適用、たとえば電話会議では、一つのオーディオ・チャネル上で伝送される単一のオーディオ信号に含まれるいくつかの声を分離することができるために、初期声認識段階を追加することが好ましいことがありうる。よって、記載される声区別方法に入力を提供するために、オーディオ信号をそれぞれ一つの声のみを含む、あるいは少なくとも主にはそれぞれ一つの声のみを含む部分に分割するための声認識手順が使用されることができる。
オフライン適用では、声の長期的な統計を考慮に入れることができるために、発話信号の長いトレーニング・シーケンスに対して少なくとも段階1)を実行することが好ましいことがありうる。そのようなオフライン適用は、たとえば、ある人の電話帳の各電話番号に割り当てられた修正パラメータをもつ声区別テンプレートの準備の間であってもよい。これは、所与の電話番号から電話のコールが受信されるのに際して声修正アルゴリズムのために適正な声修正パラメータの直接的な選択を許容することになるであろう。
前記第一の側面の上述した実施形態またはサブ側面のうちのどの二つ以上がいかなる仕方で組み合わされてもよいことは理解されるものである。
第二の側面では、本発明は信号プロセッサであって、
・それぞれ第一および第二の声を表す第一および第二の発話信号の信号属性を解析するよう構成された信号解析器と、
・少なくともそれぞれ前記第一および第二の発話信号の信号属性の尺度を表す第一および第二の組のパラメータを決定するよう構成されたパラメータ発生器と、
・声修正アルゴリズムを制御するよう適応された声区別テンプレートを抽出するよう構成された声区別テンプレート発生器とを有しており、前記声区別テンプレートは、少なくとも前記第一の組のパラメータの少なくとも一つのパラメータの修正を表すよう抽出されるものであり、ここで、前記修正は、前記声区別テンプレートによって制御される修正アルゴリズムによる処理に際して、前記第一および第二の声の間の相互パラメータ距離を増すはたらきをする、
信号プロセッサを提供する。
前記第一の側面について記載した同じ利点および同じ型の実施形態がこの第二の側面にも適用できることは理解されるものである。
前記第二の側面に基づく信号プロセッサは、好ましくは、信号プロセッサ・ユニットおよび付随するメモリを含む。前記信号プロセッサは、たとえばスタンドアローンの通信デバイス中への統合のために有利であるが、コンピュータまたはコンピュータ・システムの一部であってもよい。
第三の側面では、本発明は、前記第二の側面に基づく信号プロセッサを有するデバイスを提供する。前記デバイスは、電話、たとえば移動電話、インターネット・プロトコルを通じた声(Voice over Internet Protocol)に基づく通信(VoIP)デバイスまたは電話会議システムといった声通信デバイスであってもよい。上述したのと同じ利点および実施形態がこの第三の側面にも適用できる。
第四の側面では、本発明は、前記第一の側面に基づく方法を実行するよう適応されたコンピュータ実行可能なプログラム・コードを提供する。前記プログラム・コードは、汎用コンピュータ言語または信号プロセッサ専用の機械語であってもよい。上述したのと同じ利点および実施形態がこの第四の側面にも適用できる。
第五の側面では、本発明は、前記第四の側面に基づくコンピュータ実行可能なプログラム・コードを有するコンピュータ可読記憶媒体を提供する。前記記憶媒体はメモリースティック、メモリ・カードであってもよく、ディスク・ベースであってもよく、たとえばCD、DVDまたはブルーレイ・ベースのディスクまたはハードディスク、たとえばポータブル・ハードディスクであってもよい。上述したのと同じ利点および実施形態がこの第五の側面にも適用できる。
前記第一の側面について述べた利点および実施形態が本発明の第二、第三および第四の側面にも適用できることは理解されるものである。よって、本発明のどの一つの側面もそれぞれ、他の側面のどれと組み合わせてもよいことは理解されるものである。
本発明についてこれからあくまでも例として、付属の図面を参照しつつ説明する。
図1は、たとえば電話会議の三人の参加者である三人の話者A、B、Cの声の位置a、b、cを表している。ここで、xy平面における位置a、b、cは、三人の声の信号属性に関係する尺度を反映するパラメータxおよびyによって決定される。たとえば、パラメータxは基本周波数(すなわち平均ピッチ)を表し、一方パラメータyはピッチ分散を表すことができる。以下では、発話区別システムの好ましい機能について、この例に基づいて説明する。
簡単のため、参加者A、B、Cからの三つのもとの発話信号が発話区別システムのために利用可能であると想定する。その際、これらの信号に基づいて、信号解析が実行され、それに基づいて、人物Aの声のxy平面内での信号属性を表す一組のパラメータ(xa,ya)が人物Aの声について決定されている。人物BおよびCについても同様である。これは、発話信号の有声部分からピッチを見出すために使われるピッチ推定アルゴリズムによってなされる。本システムは、何らかの所定の期間にわたる平均ピッチおよびピッチの分散を含むピッチ推定の統計を収集する。ある点において、典型的には各参加者からの発話の数分後、収集された統計が、声の間の比較をするのに十分信頼できると決定される。形式的には、これは、各話者についてのピッチの収集された統計が、ある所定の確からしさで何らかの平均および分散をもつガウス分布に対応するといった、統計的な議論に基づいてでもよい。
次に、発話信号の比較が図1に示されている。この例では、話者A、B、Cの声は、二つのパラメータx、yの面で、互いに比較的近い。
よって、電話会議における話者の声に対する声修正を実行するために使われるための声区別テンプレートを抽出することが、あるいは換言すれば、これらのパラメータの面で話者の相違を際立たせる――あるいは修正された声の間の相互パラメータ距離がもとの声の間の相互パラメータ距離より大きくなるような、xy平面内でのマッピングを提供することが望まれる。
この例では、マッピングは初等的な幾何学的考察に基づいている:各話者A、B、Cは、中心点およびもとの位置を通る直線に沿って、中心点(x0,y0)から遠ざかるように、修正された位置a′、b′、c′、すなわち位置まで動かされる。中心点は多くの仕方で定義できる。今の例では、中心点は、
Figure 2009539133
によって与えられる話者A、B、Cの位置の重心として定義される。ここで、Kは話者の数である。前記修正は、下記の記法を使って同次座標(homogeneous coordinates)における行列演算として表せる。発言者kの位置を表すベクトル:
vk=[xk yk 1]T
を定義しよう。
ベクトル乗算によって位置を変えるためには、中心点をまず原点まで動かすことが便利である。重心は次のマッピング:
Figure 2009539133
によって原点まで動かせる。
するとパラメータの修正は行列乗算
Figure 2009539133
として実行できる。
乗数λxおよびλyが1より大きいとき、任意の二人の修正された発言者、たとえばmi′とmj′の間の距離がもとのパラメータvi′とvj′の間の距離よりも大きいということが成り立つ。修正の大きさ(もとの位置と修正された声の位置との間の距離)は、もとの点の中心点からの距離に依存する。ちょうど中心点にある発言者については、前記のマッピングは何の効果もない。これは、本方法の有益な性質である。というのも、中心点がちょうどある人物、たとえば近しい友達の位置にくるよう選び、それによりその友達の声を修正せずにおくことができるからである。
前記修正を実装するために、修正されたパラメータをもとの中心点の近傍にシフトして戻すことが必要である。これは、各ベクトルに、A-1で表される行列Aの逆行列を乗算することによって実行できる。まとめると、K人の話者のパラメータを中心点(x0,y0)に対して互いに遠ざかるように動かす動作は単一の行列演算:
[m1 m2 … mK]=A-1MA[v1 v2 … vK] (1)
として書ける。
(1)の行列表現は直接的に、各スピーカーが二つよりも多いパラメータのベクトルによって表される多次元の場合に一般化される。
今の例では、声区別テンプレートは、該声区別テンプレートで制御されて声修正アルゴリズムが実行されるときに、話者BおよびCの平均ピッチが上げられるが話者Aのピッチは下げられることを含意するであろうパラメータを含む。しかしながら、同時に、話者AとBのピッチの分散は上げられ、その一方、Cのピッチの分散は下げられ、それにより話者Cはより単調な話者のように響く。
一般に、話者の一部のみが修正が必要なほど互いに近い声パラメータをもつといったことがありうる。よって、そのような場合、話者修正アルゴリズムは、低い相互パラメータ距離をもつ声を有する話者の部分集合のみに適用されるのみであるべきである。好ましくは、話者の間の類似性を表すそのような相互パラメータ距離は、パラメータ空間における話者間のユークリッド距離またはマハラノビス距離を計算することによって決定される。
声区別テンプレート抽出では、二つ以上の中心点をもつことが可能である。たとえば、ピッチの低い発言者およびピッチの高い発言者について別個の中心点を決定できる。中心点は、重心を計算する以外の多くの代替的な方法によって決定してもよい。たとえば、中心点は、発話音(speech sound)の一般的属性の何らかの統計的解析に基づく、パラメータ空間内のあらかじめ定義された位置であってもよい。
上の例では、声区別テンプレートを与えるために、パラメータ・ベクトルの単純な乗算が使われている。これは線形修正の例であるが、代替的に、パラメータの修正は、他の型の線形または非線形マッピングを使って実行されることもできる。
発話信号の修正は、発話信号の種々の知覚可能な属性およびそれらの組み合わせを対象とするいくつかの代替的な技法に基づいていてもよい。ピッチは発話信号の重要な属性である。ピッチは、信号の有声部分から測定でき、比較的簡単に修正できる。他の多くの発話修正技法は発話信号の全体的な品質を変える。簡単のため、そのようなさまざまな変化は、音の音色の知覚される属性にしばしば関連付けられることができるので、音色の変化と呼ばれる。最後に、発話信号の異なる諸部分について効果が別個に制御されるような信号依存の仕方で発話修正を制御することが可能である。これらの効果はしばしば、発話音の韻律的な(prosodic)側面を変える。たとえば、ピッチの動的修正は発話のイントネーションを変える。
本質では、発話音の区別のための好ましい諸方法は、知覚的に有意な特徴を特徴付ける意味のある尺度を使って発話を解析し、個人間で尺度を比較し、声の相違をより際立たせるマッピングの組を定義し、最後に、信号に定義された変化を実施する声または発話修正技法を実行することを含むと見ることができる。
本システムの動作の時間スケールは、種々の用途で異なりうる。典型的な移動電話の使用では、一つの可能なシナリオは、解析データの統計が長い時間期間にわたって収集され、電話に記憶されている電話帳の個々の項目につなげられる。修正パラメータのマッピングはまた、時間の経過とともに動的に、たとえば何らかの定期的な間隔で、実行される。電話会議の用途では、修正マッピングは各セッションについて別個に導出できる。時間的挙動(または学習)の前記二つの方法は共存することもできる。
入力発話信号の解析は、当然ながら、その用途で使われる発話修正システムによって修正できる信号属性に関係している。典型的には、そうした属性はピッチ、より長い時間期間にわたるピッチの分散、フォルマント周波数または発話の有声部分と無声部分の間のエネルギー差を含みうる。
最後に、各話者は、発話または声修正アルゴリズムまたはシステムのためのパラメータの組と関連付けられる。所望される声修正アルゴリズムは本発明の範囲外であるが、いくつかの技法が当技術分野で知られている。上の例では、声修正はピッチをシフトさせるアルゴリズムに基づいている。平均ピッチとピッチの分散の両方を修正することが要求されるので、入力信号からのピッチの直接推定によってピッチ修正を制御することが必要である。
記載された諸方法は、ユーザーが話しやめるときに必ずしも接続を閉じないことが広まっているインターネット・プロトコルを通じた声(Voice over Internet Protocol)に基づく通信における使用のために有利である。オーディオ接続は二つの家の間の持続的なチャネルになり、電話セッションという概念は消滅する。互いに接続される人々は単に部屋を出て別のことをして、可能性としてはあとで戻ってきて議論を続けてもよいし、あるいはそれを使って夜寝るときに「おやすみ」を言ってもよい。こうして、ユーザーはいくつかの同時のオーディオ接続を開いていることがありうる。そこでは、発言者の識別は当然ながら問題になる。加えて、前記接続が連続的に開かれているとき、ユーザーが何か言いたいたびに電話をかけた人が自己紹介するのが通例である伝統的な電話の伝統的な識別慣行に従うことは普通ではない。
各パラメータについての修正の量を不自然に響く声につながらないようなレベルに制限するために、声の解析されたパラメータのそれぞれについて、修正の所定の最大の大きさを設けることが好ましいことがありうる。
好ましい方法を要約すると、該方法は、声の知覚的に有意な信号属性、たとえば平均ピッチおよびピッチ分散を解析し、それらの声の信号属性を表すパラメータの組を決定し、最後に、それらの声が修正アルゴリズムによって修正されたときにそれらの声の間の相互パラメータ距離を増し、それによりそれらの声の間の知覚的な相違を増すために、それらの声の少なくとも一部の修正された信号属性を表す声修正パラメータを抽出することを含む。
図2は、ある好ましいデバイス、たとえば携帯電話の信号プロセッサ10のブロック図を示している。信号解析器11は、いくつかの知覚的に有意な尺度に関するいくつかの異なる声を表す発話信号を解析する。発話信号は、記録された信号の組30から発してもよいし、あるいは着信通話のオーディオ部分20に基づいていてもよい。信号解析器11は解析結果をパラメータ発生器12に与え、パラメータ発生器12は応答して、それぞれの声について前記知覚的に有意な尺度を表すパラメータの組を発生させる。これらのパラメータの組は、声区別テンプレート発生器13に加えられ、声区別テンプレート発生器13は、上記のように動作して、声区別テンプレートをしかるべく抽出する。
声区別テンプレートはもちろん、声修正器14に直接加えられることもできるが、図2では、声区別テンプレートはメモリ15に、好ましくはその声が属する人物に関連付けられた電話番号と一緒に記憶されることが示されている。次いで、有意な声修正が着信通話のオーディオ部分20に対して実行される。次いで声修正器14からの出力オーディオ信号が聴取者に呈示される。
図2では、点線の矢印40は、代替的に、別個のデバイス、たとえばパーソナル・コンピュータまたは別の携帯電話で発生された声区別テンプレートがメモリ15に入力されてもよい、あるいは声修正器14に直接入力されてもよいことを示している。こうして、ひとたびある人が友人の電話帳についての声区別テンプレートを生成してしまえば、このテンプレートをその人の種々の通信デバイスに転送できる。
以上に記載された諸方法が、個別的に記載された以外の声通信に関係するいくつかの他の製品において使用されることができることは理解されるものである。
本発明は個別的な実施形態との関連で記載してきたが、本発明を本明細書に記載される個別的な形に限定することは意図されていない。むしろ、本発明の範囲は付属の請求項によってのみ限定される。請求項において、「有する」の語は他の要素やステップの存在を排除しない。さらに、個々の特徴が種々の請求項に含められてもよいが、これらは可能性としては有利に組み合わされてもよい。異なる請求項に含まれているということは、特徴の組み合わせが現実的でないおよび/または有利でないということを含意するものではない。さらに、単数形での言及は複数を排除しない。よって、「ある」「第一の」「第二の」などの言及は複数を排除しない。さらに、請求項に参照符号があったとしても、特許請求の範囲を限定するものと解釈してはならない。
三つの声に適用される、それらの声の信号属性尺度を表す二つのパラメータを使う本方法のある実施形態を示す図である。 デバイス実施形態を示す図である。

Claims (17)

  1. 第一および第二の声の間の区別のための方法であって、
    1)それぞれ前記第一および第二の声を表す第一および第二の発話信号の信号属性を解析する段階と、
    2)それぞれ前記第一および第二の発話信号の信号属性の尺度を表すそれぞれ第一および第二の組のパラメータを決定する段階と、
    3)声修正アルゴリズムを制御するよう適応された声区別テンプレートを抽出する段階とを有しており、前記声区別テンプレートは、少なくとも前記第一の組のパラメータの少なくとも一つのパラメータの修正を表すよう抽出されるものであり、ここで、前記修正は、前記声区別テンプレートによって制御される修正アルゴリズムによる処理に際して、前記第一および第二の声の間の相互パラメータ距離を増すはたらきをする、
    方法。
  2. 前記声区別テンプレートは、前記第一および第二の組両方のパラメータのうち少なくとも一つのパラメータの修正を表すよう抽出される、請求項1記載の方法。
  3. 前記声区別テンプレートは、少なくとも前記第一の組のパラメータのうちの二つ以上のパラメータの修正を表すよう抽出される、請求項1記載の方法。
  4. 前記第一および第二の発話信号の信号属性の前記尺度は、前記信号の知覚的に有意な属性を表す、請求項1記載の方法。
  5. 前記尺度は:ピッチ、ピッチの時間的変動、声門波形、信号振幅、フォルマント周波数、有声および無声の発話セグメントの間のエネルギー差、発話の全体的なスペクトル輪郭に関係する特性、長い発話セグメントにおける一つまたは複数の尺度の動的変動に関係する特性からなる群から選択される少なくとも一つの尺度を含む、請求項4記載の方法。
  6. 前記段階3)は、前記第一および第二のパラメータの組のパラメータのうちの少なくとも一部を考慮に入れて前記相互パラメータ距離を計算することを含み、計算される距離の型は:ユークリッド距離およびマハラノビス距離からなる群から選択される、請求項1記載の方法。
  7. 第三の声を表す第三の発話信号の信号属性を解析し、前記第三の発話信号の信号属性の尺度を表すパラメータの第三の組を決定し、前記第一および第三のパラメータの組の間の相互パラメータ距離を計算することをさらに含む、請求項1記載の方法。
  8. 信号プロセッサであって:
    ・それぞれ第一および第二の声を表す第一および第二の発話信号の信号属性を解析するよう構成された信号解析器と、
    ・少なくともそれぞれ前記第一および第二の発話信号の信号属性の尺度を表す、第一および第二の組のパラメータを決定するよう構成されたパラメータ発生器と、
    ・声修正アルゴリズムを制御するよう適応された声区別テンプレートを抽出するよう構成された声区別テンプレート発生器とを有しており、前記声区別テンプレートは、少なくとも前記第一の組のパラメータの少なくとも一つのパラメータの修正を表すよう抽出されるものであり、ここで、前記修正は、前記声区別テンプレートによって制御される修正アルゴリズムによる処理に際して、前記第一および第二の声の間の相互パラメータ距離を増すはたらきをする、
    信号プロセッサ。
  9. 前記声区別テンプレート発生器は、前記声区別テンプレートを、前記第一および第二の組両方のパラメータのうち少なくとも一つのパラメータの修正を表すよう抽出するよう構成されている、請求項8記載の信号プロセッサ。
  10. 前記声区別テンプレート発生器は、前記声区別テンプレートを、少なくとも前記第一の組のパラメータのうちの二つ以上のパラメータの修正を表すよう抽出するよう構成されている、請求項8記載の信号プロセッサ。
  11. 前記第一および第二の発話信号の信号属性の前記尺度は、前記信号の知覚的に有意な属性を表す、請求項8記載の信号プロセッサ。
  12. 前記パラメータ発生器は:ピッチ、ピッチの時間的変動、声門波形、信号振幅、フォルマント周波数、有声および無声の発話セグメントの間のエネルギー差、発話の全体的なスペクトル輪郭に関係する特性、長い発話セグメントにおける一つまたは複数の尺度の動的変動に関係する特性からなる群から選択される少なくとも一つの尺度を含むよう構成される、請求項11記載の信号プロセッサ。
  13. 前記声区別テンプレート発生器は、前記第一および第二のパラメータの組のパラメータのうちの少なくとも一部を考慮に入れて前記相互パラメータ距離を計算することを含み、計算される距離の型は:ユークリッド距離およびマハラノビス距離からなる群から選択される、請求項8記載の信号プロセッサ。
  14. 前記信号解析器が、第三の声を表す第三の発話信号の信号属性を解析するようさらに構成され、前記パラメータ発生器が、前記第三の発話信号の信号属性の尺度を表すパラメータの第三の組を生成するよう構成され、前記声区別テンプレート発生器が、前記第一および第三のパラメータの組の間の相互パラメータ距離を計算するよう構成されている、請求項8記載のプロセッサ。
  15. 請求項8記載の信号プロセッサを有する装置。
  16. 請求項1記載の方法を実行するよう適応されたコンピュータ実行可能なプログラム・コード。
  17. 請求項16記載のコンピュータ実行可能なプログラム・コードを有するコンピュータ可読記憶媒体。
JP2009512723A 2006-06-02 2007-05-15 発話の区別 Withdrawn JP2009539133A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06114887 2006-06-02
PCT/IB2007/051845 WO2007141682A1 (en) 2006-06-02 2007-05-15 Speech differentiation

Publications (1)

Publication Number Publication Date
JP2009539133A true JP2009539133A (ja) 2009-11-12

Family

ID=38535949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009512723A Withdrawn JP2009539133A (ja) 2006-06-02 2007-05-15 発話の区別

Country Status (9)

Country Link
US (1) US20100235169A1 (ja)
EP (1) EP2030195B1 (ja)
JP (1) JP2009539133A (ja)
CN (1) CN101460994A (ja)
AT (1) ATE456845T1 (ja)
DE (1) DE602007004604D1 (ja)
ES (1) ES2339293T3 (ja)
PL (1) PL2030195T3 (ja)
WO (1) WO2007141682A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013018092A1 (en) * 2011-08-01 2013-02-07 Steiner Ami Method and system for speech processing
CN104205212B (zh) * 2012-03-23 2016-09-07 杜比实验室特许公司 用于减轻听觉场景中的讲话者冲突的方法和装置
CN103366737B (zh) 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
JP2015002386A (ja) * 2013-06-13 2015-01-05 富士通株式会社 通話装置、音声変更方法、及び音声変更プログラム
CN106576388B (zh) * 2014-04-30 2020-10-23 摩托罗拉解决方案公司 用于在语音信号之间进行区分的方法和设备
KR20190138915A (ko) * 2018-06-07 2019-12-17 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 그 제어방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6002829A (en) * 1992-03-23 1999-12-14 Minnesota Mining And Manufacturing Company Luminaire device
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3317181B2 (ja) * 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置
US6021389A (en) 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6453284B1 (en) * 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
DE10063503A1 (de) * 2000-12-20 2002-07-04 Bayerische Motoren Werke Ag Vorrichtung und Verfahren zur differenzierten Sprachausgabe
US7054811B2 (en) * 2002-11-06 2006-05-30 Cellmax Systems Ltd. Method and system for verifying and enabling user access based on voice parameters
GB0209770D0 (en) 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
WO2004088632A2 (en) * 2003-03-26 2004-10-14 Honda Motor Co., Ltd. Speaker recognition using local models

Also Published As

Publication number Publication date
WO2007141682A1 (en) 2007-12-13
EP2030195B1 (en) 2010-01-27
DE602007004604D1 (de) 2010-03-18
ATE456845T1 (de) 2010-02-15
PL2030195T3 (pl) 2010-07-30
US20100235169A1 (en) 2010-09-16
CN101460994A (zh) 2009-06-17
ES2339293T3 (es) 2010-05-18
EP2030195A1 (en) 2009-03-04

Similar Documents

Publication Publication Date Title
Fu et al. End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks
Gabbay et al. Visual speech enhancement
CN102254556B (zh) 基于听者和说者的讲话风格比较估计听者理解说者的能力
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
CN105074822B (zh) 用于音频分类和处理的装置和方法
WO2020224217A1 (zh) 语音处理方法、装置、计算机设备及存储介质
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
EP2030195B1 (en) Speech differentiation
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
WO2020171868A1 (en) End-to-end speech conversion
Kavalekalam et al. Model-based speech enhancement for intelligibility improvement in binaural hearing aids
JP5051882B2 (ja) 音声対話装置、音声対話方法及びロボット装置
CN106572818B (zh) 一种具有用户特定编程的听觉系统
Manocha et al. SAQAM: Spatial audio quality assessment metric
CN105075294B (zh) 音频信号处理装置
Jokinen et al. The Use of Read versus Conversational Lombard Speech in Spectral Tilt Modeling for Intelligibility Enhancement in Near-End Noise Conditions.
Spille et al. Combining binaural and cortical features for robust speech recognition
Richard et al. Audio Signal Processing in the 21st Century: The important outcomes of the past 25 years
JP4240878B2 (ja) 音声認識方法及び音声認識装置
Wältermann et al. Perceptual dimensions of wideband-transmitted speech
US20220270503A1 (en) Pronunciation assessment with dynamic feedback
Yoon et al. Acoustic model combination incorporated with mask-based multi-channel source separation for automatic speech recognition
Spille et al. Identifying the human-machine differences in complex binaural scenes: What can be learned from our auditory system
EP4329609A1 (en) Methods and devices for hearing training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100512

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20110322