JP2008146054A

JP2008146054A - 話者の音声特徴情報を利用した話者情報獲得システム及びその方法

Info

Publication number: JP2008146054A
Application number: JP2007307828A
Authority: JP
Inventors: Hye Jin Kim; キム、ヘイ、ジン; Kyung Sook Bae; ベ、キュン、ソク; Keun Chang Kwak; カク、キュン‐チャン; Su Young Chi; チ、ス、ヤン
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2006-12-06
Filing date: 2007-11-28
Publication date: 2008-06-26
Anticipated expiration: 2027-11-28
Also published as: JP4717872B2

Abstract

【課題】話者の音声特徴情報を利用した話者情報獲得システム及びその方法を提供する。
【解決手段】入力される話者別の音声特徴情報に対するＧＭＭを生成するＧＭＭ生成部と、ＧＭＭと意思決定ツリーの各節に構築されたＵＢＭとから特定の音声特徴を有する特定の話者に関する情報を導出する話者情報導出部と、を備える話者の音声特徴情報を利用した話者情報獲得システムである。
【選択図】図１Ａ

Description

本発明は、話者の音声特徴情報を利用した話者情報獲得システム及びその方法に係り、特に話者の音声からその音声の特徴情報を抽出して、その情報から話者に関連した情報を獲得する話者の音声特徴情報を利用した話者情報獲得システム及びその方法に関する〔本発明は、情報通信部及び情報通信研究振興院のＩＴ戦略技術開発事業の一環として行った研究から導出されたものである。課題管理番号：２００５−Ｓ−０３３−０２、課題名：ＵＲＣのための内装型コンポーネント技術開発及び標準化〕。

人格体として待遇されようとする人間の欲望は、現代サービス産業の根幹をなす重要な要素である。しかし、環境的、社会的与件など諸与件は、機械を通じてサービスを受ける場合が多いが、自販機、コンピュータ、インターネット、今後ロボットがそのようなものである。かかる機械的サービスをユーザとの相互作用を通じてユーザがさらに人格的に受けられるならば、さらに良好なサービスを提供できるということは自明である。

話者の認識及び認証は、顔、指紋などの生体情報と共に話者を識別する次元として主に適用されてきた。認証サービスと関連した従来技術は、特定の事業者が提供する情報をサービスユーザが利用しようとする場合、サービスユーザが成人であるか否かを判別するために、ユーザが入力した住民登録番号に対する話者認識及び音声認識を通じて本人認証を行う方案がある。また、インターネットブラウザ及びコンピュータプログラムの実行時、ＩＤとパスワードとを入力せねばならない煩わしさを減らし、音声命令、話者認証及び指紋認証を併合してユーザを簡便に認識できる認証技術も提示された。

また、話者認識において、性別及び年齢を基準とする色々な技術が紹介された。性別識別に関し、男女別のピッチ値とＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）情報とを利用してＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）で話者の性別を識別する方法が紹介され、話者の特徴をよく表す単語群を通じてネットワーク基盤の話者学習及び話者確認方法も紹介された。また、携帯電話で話者独立型の音声認識のための性別区分システムが紹介されたが、このシステムは、音高平均値の臨界値を利用して、その平均値が臨界値より大きければ女性、低ければ男性の発声者と判断している。

本発明の目的は、話者の識別ないし認証に集中的に使われてきた話者の音声情報を話者合わせ型サービスを提供するための方式の一つで話者の音声情報を使用しようとするためのものであって、話者の音声からその音声の特徴情報を抽出して、その情報から話者に関する色々な情報の獲得を可能にする話者情報獲得システム及びその方法を提供することである。

本発明の目的を達成するために、本明細書で開示する話者の音声特徴情報を利用した話者情報獲得システムは、入力される話者別の音声特徴情報に対するＧＭＭを生成するＧＭＭ生成部と、前記ＧＭＭと意思決定ツリーの各節に構築されたＵＢＭ（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ）とから特定の音声特徴を有する特定の話者に関する情報を導出する話者情報導出部と、を備える。

本発明の目的を達成するために、本明細書で開示する話者の音声特徴情報を利用した話者情報の獲得方法は、（ａ）入力される話者別の音声特徴情報に対するＧＭＭを生成するステップと、（ｂ）前記ＧＭＭと意思決定ツリーの各節に構築されたＵＢＭとから特定の音声特徴を有する特定の話者に関する情報を導出するステップと、を含む。

既存の話者認識及び認証システムは、話者が誰なのかを識別するのに焦点を合わせている一方、本発明は、話者識別だけでなく、音声から話者の性別、年齢、健康状態などの話者固有の情報を把握できる。話者情報は、話者を識別しなくても分かり、この情報を通じて話者の選好度を把握できるので、さらに話者が所望するサービスを提供できる。

以下、本発明の技術的思想を明確化するための発明の構成を、本発明の実施形態に基づいて添付図面を参照して詳細に説明するが、図面の構成要素への参照番号の付与において、同じ構成要素に対しては、たとえ他の図面上にあるとしても、同じ参照番号を付与し、該図面についての説明時に、必要な場合、他の図面の構成要素を引用しうる。

図１Ａ及び図１Ｂは、本発明の構成及び望ましい一実施形態を示す図面である。

音声特徴情報抽出部１０による話者別の音声特徴情報の抽出（Ｓ１０）は、まず、話者別のデジタル化された音声を所定の長さほどスライシングし、終点検出を通じて話者を認識するのに必要な音声を検出する。このように検出された音声は、音声改善を通じてノイズが除去され、黙音区間が除去されて音声特徴情報ｘの抽出が行われる。

かかる音声特徴情報ｘの抽出は、訓練（学習）を通じて構築される音声ＤＢ１３からピッチを検出するか、またはＭＦＣＣを算出するか、またはＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）を行うなどからなり、したがって、前記抽出される音声特徴情報ｘは、ピッチ情報、ＭＦＣＣ情報、ＬＰＣ情報などの多様な音声情報形式で表現される。

ＧＭＭ生成部１１は、前記抽出された話者別の音声特徴情報ｘから話者別の音声特徴情報ｘのＧＭＭを生成するが（Ｓ１１）、これは、話者別の音声特徴情報ｘのＧＭＭ確率を求める過程である。

ＧＭＭ生成の第一のステップで、ミクスチャー確率算出部１１１は、話者別の音声特徴情報ｘに該当するミクスチャーの確率Ｐ_ｉ（ｘ）を求める（Ｓ１１１）。ミクスチャーの確率は、下記数式１のように表れる。ＧＭＭは、色々な統計資料のガウス分布のミクスチャー数を利用して具現されるが、本発明においては、話者別の音声特徴情報をＧＭＭモデリングするために、話者別の音声特徴情報の統計資料に対するガウス分布を混合してモデリングし、ガウス分布の混合の数を通常１，２，２^２，２^３，２^４，…，２^１０，…に増やしつつ適切なモデルの混合の数、すなわちミクスチャー数を探す。

ここで、Ｄは、音声特徴情報ベクトルの次元、ｘは、前記抽出された音声特徴情報（ベクトルで表現される）、ｉは、各ミクスチャーのインデックスである。μ_ｉは、音声ＤＢに構築された学習データの平均、Σ_ｉは、その共分散である。

Ｐ_ｉ（ｘ）が算出されれば、ＧＭＭ確率算出部１１２は、Ｐ_ｉ（ｘ）に各ミクスチャーの加重値ｗ_ｉを付与して音声特徴情報ｘに対するＧＭＭ確率を算出する（Ｓ１１２）。各ミクスチャーの確率Ｐ_ｉ（ｘ）及びｗ_ｉは、ミクスチャーの個数Ｍほど存在するが、ユーザが任意に決めたＭ値によって話者別の音声特徴情報に対する確率、すなわちＧＭＭ確率は、Ｍ個の確率の組み合わせでなされる。前記Ｍ個の確率の組み合わせは、各ミクスチャーの加重値であるｗ_ｉとＰ_ｉ（ｘ）との積の和から求められるが、これがＧＭＭ確率に該当する。

一方、加重値ｗ_ｉは、話者別の音声特徴情報によって付与されるが、話者個人の音声特徴が最適化されるように（最もよく反映されるように）付与される。

加重値ｗ_ｉを反映したＧＭＭ確率Ｐ（ｘ｜λ）は、

で表される。このとき、各ミクスチャーの加重値の和は１という条件を満足せねばならない。そして、λ＝（μ_ｉ，Σ_ｉ）、平均μ_ｉ、共分散Σ_ｉ、加重値ｗ_ｉは、ＧＭＭのパラメータである。パラメータλは、学習（訓練）により獲得されるが、ＧＭＭ確率Ｐ（ｘ｜λ）は、このλに基づいた音声特徴情報ｘに対する確率を意味する。

一方、ＧＭＭのパラメータλは、さらに詳しくは、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムにより得られる。ＥＭアルゴリズムは、ＧＭＭのパラメータλを求めるアルゴリズムのうち一つであって、多量の音声特徴情報からパラメータであるμ_ｉ，Σ_ｉ，ｗ_ｉの値を測定するステップと、ｐ（ｘ｜λ）を最大化させるステップとで構成される。ＥＭアルゴリズムの流れは、既に公知されているので、これについての具体的な説明は省略する。

ＧＭＭの生成後、話者情報導出部１２は、特定の音声特徴を有した特定の話者に関する情報を導出するが（Ｓ１２）、かかる話者情報の導出は、まず、前記特定の話者を識別し（Ｓ１２１）、識別された特定の話者に対して認証することが先行される（Ｓ１２２）。

話者識別部１２１は、入力される話者別音声に対する前記生成されたＧＭＭ別に数式２により算出された確率のログ値ｌｏｇ［ｐ（ｘ｜λ_ｈｙｐ）］を求めて、このログ値の最も大きい話者の音声モデルが特定の話者の音声と一致することによって、特定の話者を識別する（Ｓ１２１）。

話者認証部１２２は、前記識別された特定の話者を認証するが（Ｓ１２２）、具体的には次のように認証する。
［数３］
Λ(x)=log[p(x|λ_hyp)]-log[p(x|λ_ubm)]
ここで、λ_ｈｙｐは、前述したパラメータλを意味するが、λは、仮定した仮設に基づいて獲得される値であって、音声特徴情報ｘから得られたものである。λ_ｕｂｍは、前記仮設の逆になる仮設から得られるパラメータ値を意味し、後述するＵＢＭを作る時に使用する音声特徴情報のサンプルから得られる。

Λ（ｘ）は、特定の話者の認証如何に直接関連する値であって、その値は、数式３に示したようにＧＭＭ確率のログ尤度の差である。特定の話者を識別した後、本格的な認証が開始されるが、話者認証では、ｌｏｇ［ｐ（Ｘ｜λ_ｈｙｐ）］からｌｏｇ［ｐ（Ｘ｜λ_ｕｂｍ）］を差し引いて話者音声モデルごとにΛ（ｘ）を獲得する。Λ（ｘ）が最も大きい場合の話者音声モデルを入力される話者（特定の話者）の音声で識別するが、このΛ（ｘ）が所定の臨界値と比較して臨界値より高ければ、話者と認証し、臨界値より低ければ、話者を詐称した者として認証を拒絶する（Ｓ１２２）。これは、仮定λ_ｈｙｐ下でのＧＭＭには特定の話者の音声特性がよく反映されているため、逆になる仮定λ_ｕｂｍ下でのＧＭＭとの差が大きくて始めて特定の話者と見られるという意味である。

話者と認証されれば、話者情報抽出部１２３は、ＵＢＭ１４、訓練（学習）過程を通じて習得された前記各音声特徴情報の臨界値を参照して特定の話者に関する情報を抽出するが（Ｓ１２３）、まず、ＵＢＭ１４を利用して意思決定ツリーの分析法を通じて特定の話者が属した節を抽出することから始まる（Ｓ１２３１）。

意思決定ツリーの分析法は、意思決定規則を図表化して関心対象となる集団を幾つかの小集団に分類するか、または予測を行う計量的な分析法である。この分析法は、３段論法の方法である‘条件Ａと条件Ｂとを満足すれば、Ｃ集団’という規則のように分析結果を導出し、計量的な方法で条件を分析できる。

図２Ａ及び図２Ｂは、意思決定ツリーの一例を示す図面である。

図２Ａ及び図２Ｂに示すように、意思決定ツリーの最も上位に位置する節を根節と呼び、分類対象の母集団を意味する。また、上位節が多数の下位節に分化されるとき、その上位節は、下位節の親節となり、下位節は、息子節となる。上位節から下位節への分化が進められ続けて、それ以上分化されない節は終端節である。

意思決定ツリーの分析法による意思決定ツリーは、まず、根節に該当する母集団の性格を最もよく反映できる節の分化基準を探せねばならない。この基準によって下位節への分化が行われ、かかる分化基準によって分化された下位節が他の下位節に分化可能であるまで分化が行われる。本発明の望ましい一実施形態によれば、最上位節に該当する話者の音声特徴情報を図２Ａのように性別を基準として第１下位節（Ｆｅｍａｌｅ、Ｍａｌｅ）に分離する。もちろん、図２Ｂのように、第１下位節を他の基準で分離できるが、分離基準は選択的事項といえる。

特定の話者に関する情報の具体的な抽出は、意思決定ツリーの分析法により分化された各節に構築されたＵＢＭを利用して、まず、特定の話者が属した節を抽出することから始まる。ＵＢＭは、話者の独立的な特性を有する一つの大きいＧＭＭの一種であって、多数の話者の音声データでＧＭＭを構築したものである。かかるＵＢＭから特定の話者が属した節、例えば性別節、年齢節、健康状態節などの個別情報が得られる。

このように得られた個別情報にそれぞれ訓練（学習）過程を通じて習得された各音声特徴情報の臨界値を適用して、意思決定ツリーから各節別に特定の話者に関する情報を最終的に取得する（Ｓ１２３２）。

本方法発明は、また、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムにより読み取られるデータが保存されるあらゆる種類の記録装置を含む。

コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ、磁気テープ、フレキシブルディスク、光データ保存装置などがあり、またキャリアウェーブ（例えば、インターネットを通じた伝送）の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータで読み取り可能なコードが保存されて実行されうる。

以上、本発明について、その望ましい実施形態を中心に述べた。当業者は、本発明が、本発明の本質的な特性から逸脱しない範囲で、変形された形態に具現可能であるということを理解できるであろう。

したがって、開示された実施形態は、限定的な観点ではなく、説明的な観点で考慮されねばならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に表れており、それと同等な範囲内にあるあらゆる相違点は、本発明に含まれていると解釈されねばならない。

本発明は、基本的に出入管理システムなど話者の音声特徴から特定人に対する認証が必要なシステムに利用され、さらに、話者の音声特徴から推論される話者に関連した色々な情報を利用する話者（ユーザ）合わせ型サービスが必要な産業関連の技術分野に利用されうる。

本発明の構成及び望ましい一実施形態を示す図面である。本発明の構成及び望ましい一実施形態を示す図面である。意思決定ツリーの一例を示す図面である。意思決定ツリーの一例を示す図面である。

符号の説明

１０音声特徴情報抽出部
１１ＧＭＭ生成部
１２話者情報導出部
１３音声ＤＢ
１４ＵＢＭ
１１１ミクスチャー確率算出部
１１２ＧＭＭ確率算出部
１２１話者識別部
１２２話者認証部
１２３話者情報抽出部

Claims

入力される話者別の音声特徴情報に対するＧＭＭを生成するＧＭＭ生成部と、
前記ＧＭＭと意思決定ツリーの各節に構築されたＵＢＭとから特定の音声特徴を有する特定の話者に関する情報を導出する話者情報導出部と、を備えることを特徴とする話者の音声特徴情報を利用した話者情報獲得システム。
前記ＧＭＭ生成部は、
前記話者別の音声特徴情報に該当するミクスチャーの確率を求めるミクスチャー確率算出部と、
前記ミクスチャーの確率に前記話者別の音声特徴を最適化させる加重値を付与して、前記話者別の音声特徴情報のＧＭＭ確率を求めるＧＭＭ確率算出部と、を備えることを特徴とする請求項１に記載の話者の音声特徴情報を利用した話者情報獲得システム。
前記話者情報導出部は、
前記算出されたＧＭＭ確率の最も大きい話者の音声モデルが前記特定の話者の音声と一致するか否かを判断して、前記特定の話者を識別する話者識別部と、
前記特定の話者が識別された場合、前記ＧＭＭ確率と前記ＧＭＭ確率を求めるための仮定と逆になる仮定下で求めたＧＭＭ確率との差から前記特定の話者を認証する話者認証部と、
前記特定の話者が認証された場合、前記ＵＢＭを参照して前記特定の話者が属した節を抽出し、前記抽出された節に訓練（学習）過程を通じて習得された前記音声特徴情報の臨界値を適用して、前記特定の話者に関する最終情報を抽出する話者情報抽出部と、を備えることを特徴とする請求項２に記載の話者の音声特徴情報を利用した話者情報獲得システム。
（ａ）入力される話者別の音声特徴情報に対するＧＭＭを生成するステップと、
（ｂ）前記ＧＭＭと意思決定ツリーの各節に構築されたＵＢＭとから特定の音声特徴を有する特定の話者に関する情報を導出するステップと、を含むことを特徴とする話者の音声特徴情報を利用した話者情報の獲得方法。
前記（ａ）のステップは、
（ａ１）前記話者別の音声特徴情報に該当するミクスチャーの確率を求めるステップと、
（ａ２）前記ミクスチャーの確率に前記話者別の音声特徴を最適化させる加重値を付与して、前記話者別の音声特徴情報のＧＭＭ確率を求めるステップと、を含むことを特徴とする請求項４に記載の話者の音声特徴情報を利用した話者情報の獲得方法。
前記（ｂ）のステップは、
（ｂ１）前記算出されたＧＭＭ確率の最も大きい話者の音声モデルが前記特定の話者の音声と一致するか否かを判断するステップと、
（ｂ２）一致する場合、前記ＧＭＭ確率と前記ＧＭＭ確率を求めるための仮定と逆になる仮定下で求めたＧＭＭ確率との差が所定値以上であるか否かを判断して、その以上である場合、前記特定の話者を認証するステップと、
（ｂ３）前記特定の話者が認証された場合、前記ＵＢＭを参照して前記特定の話者が属した節を抽出するステップと、
（ｂ４）前記抽出された節に訓練（学習）過程を通じて習得された前記音声特徴情報の臨界値を適用して、前記特定の話者に関する最終情報を抽出するステップと、を含むことを特徴とする請求項５に記載の話者の音声特徴情報を利用した話者情報の獲得方法。