JP2020126125A

JP2020126125A - 音声処理プログラム、音声処理方法および音声処理装置

Info

Publication number: JP2020126125A
Application number: JP2019017950A
Authority: JP
Inventors: 太郎外川; Taro Togawa; 紗友梨中山; Sayuri Nakayama; 高橋　潤; Jun Takahashi; 潤高橋; 森岡　清訓; Kiyonori Morioka; 清訓森岡
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-04
Filing date: 2019-02-04
Publication date: 2020-08-20
Anticipated expiration: 2039-02-04
Also published as: JP7230545B2; US11721357B2; US20200251129A1

Abstract

【課題】話者の感情が変化する場合に、複数の話者に含まれる１人の話者と、音声データに含まれる音声とを対応付けること。【解決手段】音声処理装置は、複数の話者の音声が含まれる入力音から複数の音声区間を検出する。音声処理装置は、複数の音声区間から特徴量をそれぞれ算出する。音声処理装置は、複数の音声区間に対する話者の感情をそれぞれ判定する。音声処理装置は、第１の感情と判定された音声区間の特徴量から、第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする。【選択図】図２

Description

本発明は、音声処理プログラム等に関する。

近年、音声データをテキストデータに変換する技術がある。たとえば、企業内において、会議での音声を録音し、録音した音声データをテキストデータに変換することで、議事録の作成が容易になる。

ここで、複数の話者が参加する会議では、音声データに複数の話者の発話が混在するため、音声データに含まれる音声が誰の音声であるのかを特定する技術が求められている。これに対して、音響的な類似度が高い発話同士を同一のクラスタに結合する処理を繰り返してクラスタリングすることで、各発話に対する話者を識別する従来技術がある。

特開２０１７−１１１７６０号公報特開２０１２−１３７６８０号公報

陳伯翰、北岡教英、武田一哉「クラスタ選定によるボトムアップ話者ダイアライゼーションの高精度化」、情報処理学会研究報告音声言語情報処理（SLP）2012-SLP-94(27)、1-6.

しかしながら、上述した従来技術では、話者の感情が変化する場合に、複数の話者に含まれる１人の話者と、音声データに含まれる音声とを対応付けることができないという問題がある。

図１８は、従来技術の問題を説明するための図である。図１８では、特徴量空間の簡易説明のため、１０２４次元の特徴量を主成分分析で２次元（特徴量（１）、特徴量（２））の特徴量空間に圧縮して、各話者の音声の特徴量（特徴量により定まる特徴量空間上の点）を表示する。図１８のグラフの横軸は特徴量（１）に対応する軸であり、縦軸は特徴量（２）に対応する軸である。

図１８に示すように、話者の感情変化に伴い、音声の特徴量が変動する。たとえば、話者１の感情が「平常」である場合、音声の各特徴量は、領域１ａに含まれる。話者１の感情が「平常」から「悲しみ」に変化すると、音声の各特徴量は、領域１ａから領域１ｂに移行する。一方、話者１の感情が「平常」から「怒り」に変化すると、音声の各特徴量は、領域１ａから領域１ｃに移行する。

たとえば、話者２の感情が「平常」である場合、音声の各特徴量は、領域２ａに含まれる。話者２の感情が「平常」から「悲しみ」に変化すると、音声の各特徴量は、領域２ａから領域２ｂに移行する。一方、話者２の感情が「平常」から「怒り」に変化すると、音声の各特徴量は、領域２ａから領域２ｃに移行する。

たとえば、話者３の感情が「平常」である場合、音声の各特徴量は、領域３ａに含まれる。話者３の感情が「平常」から「悲しみ」に変化すると、音声の各特徴量は、領域３ａから領域３ｂに移行する。一方、話者３の感情が「平常」から「怒り」に変化すると、音声の各特徴量は、領域３ａから領域３ｃに移行する。

図１８に示すように、話者１〜３の音声の特徴量は、話者の感情変化に伴い分散するため、従来技術では、クラスタリング性能が低下し、音声に対する話者を精度よく対応付けることができない。たとえば、領域１ａの話者１の音声の特徴量と、領域２ｂの話者２の音声の特徴量とが同一のクラスタに分類されると、話者１の音声と話者２の音声とを、同一の話者の音声と判定されてしまう。

１つの側面では、本発明は、話者の感情が変化する場合に、複数の話者に含まれる１人の話者と音声データに含まれる音声とを対応付けることができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、複数の話者の音声が含まれる入力音から複数の音声区間を検出する。コンピュータは、複数の音声区間から特徴量をそれぞれ算出する。コンピュータは、複数の音声区間に対する話者の感情をそれぞれ判定する。コンピュータは、第１の感情と判定された音声区間の特徴量から、第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする。

話者の感情が変化する場合でも、複数の話者に含まれる１人の話者と音声データに含まれる音声とを対応付けることができる。

図１は、本実施例１に係る音声処理装置の処理の一例を説明するための図（１）である。図２は、本実施例１に係る音声処理装置の処理の一例を説明するための図（２）である。図３は、本実施例１に係るシステムの一例を示す図である。図４は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図５は、スペクトルの自己相関の一例を示す図である。図６は、波形の自己相関の一例を示す図である。図７は、本実施例１に係るクラスタリング部の処理を説明するための図である。図８は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図９は、本実施例２に係るシステムの一例を示す図である。図１０は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１１は、本実施例２に係るクラスタリング部の処理を説明するための図（１）である。図１２は、本実施例２に係るクラスタリング部の処理を説明するための図（２）である。図１３は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１４は、本実施例３に係るシステムの一例を示す図である。図１５は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１６は、本実施例３に係る音声処理装置の処理手順を示すフローチャートである。図１７は、本実施例に係る音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１８は、従来技術の問題を説明するための図である。

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１および図２は、本実施例１に係る音声処理装置の処理の一例を説明するための図である。図１および図２では、特徴量空間の簡易説明のため、１０２４次元の特徴量を主成分分析で２次元（特徴量（１）、特徴量（２））の特徴量空間に圧縮して、各話者の音声の特徴量（特徴量により定まる特徴量空間上の点）を表示する。図１および図２のグラフ５の横軸は特徴量（１）に対応する軸であり、縦軸は特徴量（２）に対応する軸である。たとえば、音声処理装置は、下記のステップＳ１〜Ｓ３を実行する。

図１のステップＳ１について説明する。音声処理装置は、入力音から複数の音声区間を検出し、各音声区間について、特徴量を抽出すると共に、各音声区間に対する話者の感情をそれぞれ判定する。音声処理装置は、話者の感情が「平常」であると判定した各音声区間の特徴量について、クラスタリングを実行することで、複数の特徴量を、クラスタ１０ａ，１０ｂ，１０ｃに分類する。たとえば、音声処理装置は、クラスタ１０ａを「話者１」に対応付け、クラスタ１０ｂを「話者２」に対応付け、クラスタ１０ｃを「話者３」に対応付ける。

音声処理装置は、話者の感情が「悲しみ」であると判定した各音声区間の特徴量について、クラスタリングを実行することで、複数の特徴量を、クラスタ１１ａ，１１ｂ，１１ｃに分類する。音声処理装置は、話者の感情が「怒り」であると判定した各音声区間の特徴量について、クラスタリングを実行することで、複数の特徴量を、クラスタ１２ａ，１２ｂ，１２ｃに分類する。

図１のステップＳ２について説明する。本実施例に係る音声処理装置は「感情に伴う特徴量変化の方向は、話者によらず概ね類似する」ことに着目して、クラスタ１０ａ〜１０ｃと、クラスタ１１ａ〜１１ｃとの対応付けを行う。また、音声処理装置は、クラスタ１０ａ〜１０ｃと、クラスタ１２ａ〜１２ｃとの対応付けを行う。

音声処理装置は、クラスタ１０ａ〜１０ｃから未選択の一つの始点のクラスタを選択し、クラスタ１１ａ〜１１ｃから未選択の一つの終点のクラスタを選択し、選択した始点のクラスタと終点のクラスタとを結ぶ「変化ベクトル」を特定する。音声処理装置は、上記の処理を繰り返し実行することで、複数の変化ベクトルを特定する。たとえば、クラスタ１０ａ〜１０ｃと、クラスタ１１ａ〜１１ｃとを基に特定される各変化ベクトルのパターンは、６パターンとなる。ここでは説明の便宜上、２つのパターンに対応する各変化ベクトルについて示す。

たとえば、パターン１では、変化ベクトル５ａａ，５ｂｃ，５ｃｂが特定される。変化ベクトル５ａａは、始点のクラスタ１０ａと終点のクラスタ１１ａとを結ぶベクトルである。変化ベクトル５ｂｃは、始点のクラスタ１０ｂと終点のクラスタ１１ｃとを結ぶベクトルである。変化ベクトル５ｃｂは、始点のクラスタ１０ｃと終点のクラスタ１１ｂとを結ぶベクトルである。

パターン２では、変化ベクトル５ａａ，５ｂｂ，５ｃｃが特定される。変化ベクトル５ａａは、始点のクラスタ１０ａと終点のクラスタ１１ａとを結ぶベクトルである。変化ベクトル５ｂｂは、始点のクラスタ１０ｂと終点のクラスタ１１ｂとを結ぶベクトルである。変化ベクトル５ｃｃは、始点のクラスタ１０ｃと終点のクラスタ１１ｃとを結ぶベクトルである。

図示を省略するが、音声処理装置は、残りのパターンについても、各変化ベクトルを特定する。音声処理装置は、各パターンについて、各変化ベクトルの方向の類似性を評価し、最も類似性の高いパターンを特定する。そうすると、他のパターンと比較して、パターン２で示した変化ベクトル５ａａ，５ｂｂ，５ｃｃの方向の類似性が最も大きくなる。これによって、音声処理装置は、変化ベクトル５ａａでクラスタ１０ａと結ばれるクラスタ１１ａを、話者１に対応付ける。音声処理装置は、変化ベクトル５ｂｂでクラスタ１０ａと結ばれるクラスタ１１ｂを、話者２に対応付ける。音声処理装置は、変化ベクトル５ｃｃでクラスタ１０ａと結ばれるクラスタ１１ｃを、話者３に対応付ける。

図２のステップＳ３について説明する。音声処理装置は、クラスタ１０ａ〜１０ｃから未選択の一つの始点のクラスタを選択し、クラスタ１２ａ〜１２ｃから未選択の一つの終点のクラスタを選択する。音声処理装置は、選択した始点のクラスタと終点のクラスタとを結ぶ変化ベクトルを特定する。音声処理装置は、上記の処理を繰り返し実行することで、複数の変化ベクトルを特定する。たとえば、クラスタ１０ａ〜１０ｃと、クラスタ１２ａ〜１２ｃとを基に特定される各変化ベクトルのパターンは、６パターンとなる。このでは説明の便宜上、２つのパターンに対応する各変化ベクトルについて示す。

たとえば、パターン１では、変化ベクトル６ａａ，６ｂｃ，６ｃｂが特定される。変化ベクトル６ａａは、始点のクラスタ１０ａと終点のクラスタ１２ａとを結ぶベクトルである。変化ベクトル６ｂｃは、始点のクラスタ１０ｂと終点のクラスタ１２ｃとを結ぶベクトルである。変化ベクトル６ｃｂは、始点のクラスタ１０ｃと終点のクラスタ１２ｂとを結ぶベクトルである。

パターン２では、変化ベクトル６ａａ，６ｂｂ，６ｃｃが特定される。変化ベクトル６ａａは、始点のクラスタ１０ａと終点のクラスタ１２ａとを結ぶベクトルである。変化ベクトル６ｂｂは、始点のクラスタ１０ｂと終点のクラスタ１２ｂとを結ぶベクトルである。変化ベクトル６ｃｃは、始点のクラスタ１０ｃと終点のクラスタ１２ｃとを結ぶベクトルである。

図示を省略するが、音声処理装置は、残りのパターンについても、各変化ベクトルを特定する。音声処理装置は、各パターンについて、各変化ベクトルの方向の類似性を評価し、最も類似性の高いパターンを特定する。そうすると、他のパターンと比較して、パターン２で示した変化ベクトル６ａａ，６ｂｂ，６ｃｃの方向の類似性が最も大きくなる。これによって、音声処理装置は、変化ベクトル６ａａでクラスタ１０ａと結ばれるクラスタ１２ａを、話者１に対応付ける。音声処理装置は、変化ベクトル６ｂｂでクラスタ１０ａと結ばれるクラスタ１２ｂを、話者２に対応付ける。音声処理装置は、変化ベクトル６ｃｃでクラスタ１０ａと結ばれるクラスタ１２ｃを、話者３に対応付ける。

図２のステップＳ３について説明する。上記のように、音声処理装置は「感情に伴う特徴量変化の方向は、話者によらず概ね類似する」ことに着目して、変化ベクトルの方向の類似性に基づき、クラスタの対応付けを行う。具体的には、音声処理装置は、クラスタ１０ａと、クラスタ１１ａ，１２ａを対応付け、クラスタ１０ａ，１１ａ，１２ａに分類された特徴量の音声を、話者１の音声と判定する。音声処理装置は、クラスタ１０ｂと、クラスタ１１ｂ，１２ｂを対応付け、クラスタ１０ｂ，１１ｂ，１２ｂに分類された特徴量の音声を、話者２の音声と判定する。音声処理装置は、クラスタ１０ｃと、クラスタ１１ｃ，１２ｃを対応付け、クラスタ１０ｃ，１１ｃ，１２ｃに分類された特徴量の音声を、話者３の音声と判定する。これによって、音声処理装置は、話者の感情が変化する場合でも、複数の話者に含まれる１人の話者と、音声データに含まれる音声とを対応付けることができる。

次に、本実施例１に係るシステムの一例について説明する。図３は、本実施例１に係るシステムの一例を示す図である。図３に示すように、このシステムは、スマートスピーカ２１と、サーバ２６と、音声処理装置１００とを有する。スマートスピーカ２１、サーバ２６、音声処理装置１００は、ネットワーク２５に接続される。

スマートスピーカ２１は、マイク２１ａおよびスピーカ２１ｂを有する。スマートスピーカ２１は、マイク２１ａを用いて集音した各話者の音声を入力音声情報に変換し、入力音声情報を、音声処理装置１００に送信する。また、スマートスピーカ２１は、入力音声情報に対応する応答音声情報を、サーバ２６から受信すると、受信した応答音声情報をスピーカ２１ｂに出力する。

音声処理装置１００は、スマートスピーカ２１から入力音声情報を受信すると、入力音声情報の音声区間毎に、特徴量を抽出し、話者の感情を判定する。音声処理装置１００は、感情変化に伴う特徴量の変化ベクトルを基にして、複数の特徴量をクラスタリングし、クラスタリング結果を基にして、音声区間毎に音声と話者との対応付けを行う。音声処理装置１００は、各音声区間の音声と、話者識別情報とをそれぞれ対応付けたユーザ音声情報を、サーバ２６に送信する。

サーバ２６は、ユーザ音声情報を受信すると、ユーザ音声情報を解析して、ユーザ音声情報に応答するための応答音声情報を生成する。サーバ２６は、応答音声情報を、スマートスピーカ２１に送信する。

次に、図３に示した音声処理装置１００の構成の一例について説明する。図４は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図４に示すように、この音声処理装置１００は、取得部１１０と、検出部１２０と、算出部１３０と、判定部１４０と、クラスタリング部１５０と、送信部１６０とを有する。各処理部１１０〜１６０は、たとえば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、音声処理装置１００の内部に記憶されたプログラムがＲＡＭ（Random Access Memory）等を作業領域として実行されることにより実現される。また、各処理部１１０〜１６０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

取得部１１０は、スマートスピーカ２１から入力音声情報を取得する処理部である。取得部１１０は、取得した入力音声情報を、検出部１２０に出力する。入力音声情報は、入力音の一例である。

検出部１２０は、入力音声情報から複数の音声区間を検出する処理部である。たとえば、検出部１２０は、入力音声情報のパワーを特定し、パワーが閾値未満となる無音区間に挟まれた区間を、音声区間として検出する。検出部１２０は、国際公開第２００９／１４５１９２号に開示された技術を用いて、音声区間を検出してもよい。

たとえば、検出部１２０は、音声区間によって区切られる入力音声情報を、固定長のフレームに分割し、各フレームを、算出部１３０および判定部１４０に出力する。検出部１２０は、各フレームに対して、時系列にフレーム番号を割り当てる。また、検出部１２０は、後述する算出部１３０にＳＮＲ（Signal-Noise Ratio）を算出されるために、無音区間を含む入力音声情報を、算出部１３０に出力してもよい。

算出部１３０は、フレームに含まれる音声信号を基にして特徴量を算出する処理部である。たとえば、算出部１３０は、特徴量として、スペクトルの自己相関、フォルマント周波数、波形の自己相関、ピッチ周波数、フレームパワー、ＳＮＲ、スペクトルの平均パワーをそれぞれ算出する。かかる特徴量は、音声信号の調波性、周期性または信号強度に関する特徴量といえる。

算出部１３０が、特徴量として「スペクトルの自己相関（自己相関係数）」を算出する処理の一例について説明する。たとえば、算出部１３０は、式（１）に基づいて、所定範囲のシフト量における最大の自己相関値ＡＣ２（ｎ）を算出する。ｎは、フレーム番号を示す。式（１）においてＰ（ｆ，ｎ）は、フレーム番号「ｎ」のフレームに含まれる音声信号の周波数「ｆ」におけるスペクトルを示す。算出部１３０は、音声信号Ｃ（ｔ）に対して、ＦＦＴ（Fast Fourier Transform）等を適用し、スペクトルＰ（ｆ，ｎ）を算出する。たとえば、周波数範囲の境界値のうち、下限値Ｆｍｉｎには、１００Ｈｚが設定されると共に、上限値Ｆｍａｘには、２０００Ｈｚが設定される。

図５は、スペクトルの自己相関の一例を示す図である。図５の横軸は周波数のシフト量に対応する軸であり、縦軸はスペクトルの自己相関に対応する軸である。図５に示す例では、予め設定される所定範囲Ｔ１において、周波数のシフト量ｊ＝ｊａとなる場合に、自己相関の値が最大となっている。すなわち、フレーム番号「ｎ」のフレームについて、スペクトルの自己相関値ＡＣ２（ｎ）は、シフト量ｊ＝ｊａとなる場合の自己相関の値となる。

算出部１３０が、特徴量として「フォルマント周波数」を算出する処理の一例について説明する。フォルマント周波数が所定範囲に含まれているか否かにより、音声らしさを評価できる。

算出部１３０は、フレームに含まれる音声信号Ｃ（ｔ）に対して線形予測（Linear Prediction Coding）分析を行い、複数のピークを抽出することで、複数のフォルマント周波数を算出する。たとえば、算出部１３０は、周波数の低い順に、第１フォルマント周波数：Ｆ１、第２フォルマント周波数：Ｆ２、第３フォルマント周波数：Ｆ３を算出する。算出部１３０は、特開昭６２−５４２９７号公報に開示された技術を用いて、フォルマント周波数を算出してもよい。

算出部１３０が、特徴量として「波形の自己相関（自己相関係数）」を算出する処理の一例について説明する。たとえば、算出部１３０は、式（２）に基づいて、所定範囲のシフト量における最大の自己相関値ＡＣ（ｎ）を算出する。ｎは、フレーム番号を示す。式（２）においてＣ（ｔ）は、音声信号の時間「ｔ」における大きさを示す。「Ｍ」は、１フレームの時間長である。たとえば、１フレームの時間長を２０ｍｓとする。

図６は、波形の自己相関の一例を示す図である。図６の横軸は時間方向のシフト量に対応する軸であり、縦軸は波形の自己相関に対応する軸である。図６に示す例では、予め設定される所定範囲Ｔ２において、シフト量ｊ＝ｊｂとなる場合に、自己相関の値が最大となっている。すなわち、フレーム番号「ｎ」のフレームについて、波形の自己相関値ＡＣ（ｎ）は、シフト量ｊ＝ｊｂとなる場合の自己相関の値となる。

算出部１３０が、特徴量として「ピッチ周波数」を算出する処理の一例について説明する。ピッチ周波数が所定範囲（たとえば、１００〜４００Ｈｚ）に含まれているか否かに基づいて、音声らしさを評価することができる。

算出部１３０は、ＲＡＰＴ（A Robust Algorithm for Pitch Tracking）の推定手法を用いて、フレームに含まれる音声信号のピッチ周波数ｐ（ｎ）を算出する。算出部１３０は、「D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis,W.B. Kleijn and K. K. Pailwal (Eds.),Elsevier,pp.495−518,1995」に記載された技術を用いて、ピッチ周波数を算出してもよい。

算出部１３０が、特徴量として「フレームパワー」を算出する処理の一例について説明する。たとえば、算出部１３０は、式（３）に基づいて、所定長のフレームにおけるパワーＳ（ｎ）を算出する。式（３）において、「ｎ」はフレーム番号を示し、「Ｍ」は１フレームの時間長（たとえば、２０ｍｓ）を示し、「ｔ」は時間を示す。なお、算出部１３０は、所定の平滑化係数を用いて、時間平滑化したパワーを、フレームパワーとして算出してもよい。

算出部１３０が、特徴量として「ＳＮＲ」を算出する処理の一例について説明する。算出部１３０は、入力音声情報を複数のフレームに区切り、各フレームについて、パワーＳ（ｎ）を算出する。算出部１３０は、式（３）を基にして、パワーＳ（ｎ）を算出する。算出部１３０は、パワーＳ（ｎ）に基づいて発話区間の有無を判定する。

算出部１３０は、パワーＳ（ｎ）が閾値ＴＨ１よりも大きい場合、フレーム番号ｎのフレームに発話が含まれていると判定し、ｖ（ｎ）＝１に設定する。一方、算出部１３０は、パワーＳ（ｎ）が閾値ＴＨ１以下となる場合、フレーム番号ｎのフレームに発話が含まれていないと判定し、ｖ（ｎ）＝０に設定する。

算出部１３０は、発話区間の判定結果ｖ１（ｎ）に応じて、雑音レベルＮを更新する。算出部１３０は「ｖ（ｎ）＝１」となる場合、式（４）を基にして、雑音レベルＮ（ｎ）を更新する。一方、算出部１３０は「ｖ（ｎ）＝０」となる場合、式（５）を基にして、雑音レベルＮ（ｎ）を更新する。なお、下記の式（４）および下記の式（５）における「ｃｏｅｆ」は、忘却係数を指し、例えば、０．９などの値が採用される。

Ｎ（ｎ）＝Ｎ（ｎ−１）＊ｃｏｅｆ＋Ｓ（ｎ）＊（１−ｃｏｅｆ）・・・（４）
Ｎ（ｎ）＝Ｎ（ｎ−１）・・・（５）

算出部１３０は、式（６）を基にして、ＳＮＲ（ｎ）を算出する。

ＳＮＲ（ｎ）＝Ｓ（ｎ）−Ｎ（ｎ）・・・（６）

算出部１３０が、特徴量として「スペクトルの平均パワー」を算出する処理の一例について説明する。算出部１３０は、フレームに含まれる音声信号Ｃ（ｔ）に対してＦＦＴなどを適用し、スペクトルＰ（ｆ，ｎ）を算出する。算出部１３０は、式（７）を基にして、スペクトルの平均パワーＰ＿ａｖｅ（ｎ）を算出する。式（５）において、「ｆ」は、周波数を指す。また、上記の帯域には、音声に対応する周波数範囲が設定される。たとえば、周波数範囲の境界値のうち、下限値Ｆｍｉｎには、１００Ｈｚが設定されると共に、上限値Ｆｍａｘには、２０００Ｈｚが設定される。なお、算出部１３０は、周波数軸をメルスケールに変換してもよい。

算出部１３０は、フレーム毎に上記の特徴量を算出し、算出した特徴量をクラスタリング部１５０に出力する。算出部１３０は、フレーム番号と、このフレーム番号のフレームから算出された特徴量とを対応付けた「特徴量情報」を、クラスタリング部１５０に出力する。たとえば、算出部１３０は、フレーム毎に特徴量情報を生成し、複数の特徴量情報を、クラスタリング部１５０に出力する。

判定部１４０は、フレームに含まれる音声信号を基にして、話者の感情を判定する処理部である。たとえば、判定部１４０は、音声信号から音声の強度、音声の出現速度を示すテンポ、音声の各単語内の強度変化パターンを示す抑揚をそれぞれ検出する。判定部１４０は、音声の強度、音声のテンポ、音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、フレームに含まれる音声信号の感情が、平常、悲しみ、怒りのいずれであるのかを判定する。たとえば、判定部１４０は、特開２００２−９１４８２号公報に記載された技術を用いて、感情を判定してもよい。

判定部１４０は、フレーム番号と、このフレーム番号のフレームから判定された感情とを対応付けた「感情情報」を、クラスタリング部１５０に出力する。たとえば、判定部１４０は、フレーム毎に感情情報を生成し、複数の感情情報を、クラスタリング部１５０に出力する。

クラスタリング部１５０は、平常の感情と判定された音声区間の特徴量から、悲しみまたは怒りの感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする処理部である。クラスタリング部１５０は、クラスタリングの結果を基にして、特徴量を算出した音声区間と、話者とを対応付ける。

たとえば、クラスタリング部１５０は、事前クラスタリング処理、ベクトル算出処理、類似性評価処理、話者対応付け処理を実行する。

クラスタリング部１５０が実行する「事前クラスタリング処理」の一例について説明する。クラスタリング部１５０は、複数の特徴量情報と、複数の感情情報とを基にして、感情が「平常」と判定されたフレームから抽出された特徴量をそれぞれ検出する。以下の説明では、感情が「平常」と判定されたフレームから抽出された特徴量を「第１特徴量」と表記する。

クラスタリング部１５０は、検出した複数の第１特徴量に対して、ｋ近傍法等を用いて、クラスタリングする。図７は、本実施例１に係るクラスタリング部の処理を説明するための図である。図７では、特徴量空間の簡易説明のため、１０２４次元の特徴量を主成分分析で２次元（特徴量（１）、特徴量（２））の特徴量空間に圧縮して、第１特徴量（特徴量により定まる特徴量空間上の点）を表示する。図７のグラフ３０の横軸は特徴量（１）に対応する軸であり、縦軸は特徴量（２）に対応する軸である。

図７に示すように、クラスタリング部１５０が、複数の第１特徴量に対して、ｋ近傍法等を用いて、クラスタリングすると、複数の第１特徴量は、クラスタ３０ａ，３０ｂ，３０ｃに分類される。クラスタリング部１５０は、各話者１，２，３の音声の特徴量を予め保持しているものとする。クラスタリング部１５０は、各話者１〜３の音声の特徴量と、各クラスタ３０ａ〜３０ｃ（クラスタの重心）との距離に基づいて、クラスタに対する話者の対応付けを行う。

たとえば、クラスタリング部１５０は、話者１の音声の特徴量と、クラスタ３０ｃの重心との距離が、他のクラスタ３０ａ，３０ｃの重心との距離よりも近いものとすると、クラスタ３０ｃと話者１とを対応付ける。クラスタリング部１５０は、話者２の音声の特徴量と、クラスタ３０ｂの重心との距離が、他のクラスタ３０ａ，３０ｃの重心との距離よりも近いものとすると、クラスタ３０ｂと話者２とを対応付ける。クラスタリング部１５０は、話者３の音声の特徴量と、クラスタ３０ａの重心との距離が、他のクラスタ３０ｂ，３０ｃの重心との距離よりも近いものとすると、クラスタ３０ａと話者３とを対応付ける。

クラスタリング部１５０が実行する「ベクトル算出処理」の一例について説明する。クラスタリング部１５０は、複数の特徴量情報と、複数の感情情報とを基にして、感情が「悲しみ」と判定されたフレームから抽出された特徴量をそれぞれ検出する。以下の説明では、感情が「悲しみ」と判定されたフレームから抽出された特徴量を「第２特徴量」と表記する。

クラスタリング部１５０は、式（８）を基にして、話者毎に、第１特徴量の平均を基準とした、複数の第２特徴量の「変化ベクトル」をそれぞれ算出する。式（８）において、ｉは、発話区間インデックス（フレーム番号）に対応し、∀ｉ∈｛１，２，・・・，Ｎ｝により定義される。ｓｐ（ｉ）は、発話区間に対する話者割当に対応し、話者が３人の場合には、∀ｓｐ（ｉ）∈｛１，２，３｝により定義される。変化ベクトルは、発話区間インデックスと、話者の人数に応じた数だけ算出される。

同様にして、クラスタリング部１５０は、複数の特徴量情報と、複数の感情情報とを基にして、感情が「怒り」と判定されたフレームから抽出された特徴量をそれぞれ検出する。以下の説明では、感情が「怒り」と判定されたフレームから抽出された特徴量を「第３特徴量」と表記する。

クラスタリング部１５０は、式（８）を基にして、話者毎に、第１特徴量の平均を基準とした、複数の第３特徴量の「変化ベクトル」をそれぞれ算出する。変化ベクトルは、発話区間インデックスと、話者の人数に応じた数だけ算出される。

クラスタリング部１５０が実行する「類似性評価処理」の一例について説明する。クラスタリング部１５０は、複数の変化ベクトルの方向の類似性を評価する。複数の変化ベクトルの方向の類似性は、式（９）に示す目的関数Ｓｉｍによって評価され、目的関数Ｓｉｍの値が大きいほど、変化ベクトルの方向が類似していることを示す。式（９）において、「ｓｐ」は話者を示すものであり、「ｆ」は感情を示すものである。式（９）のｃｏｓ（Ｖ_{ｉ，ｓｐ（ｉ）}，Ｖ_{ｊ，ｓｐ（ｊ）}）は、コサイン類似度を示すものであり、コサイン類似度は、式（１０）により定義される。

クラスタリング部１５０が実行する「話者対応付け処理」の一例について説明する。クラスタリング部１５０は、変化ベクトルの方向性の類似度が最大となる基準で、フレーム（音声区間）に含まれる話者の割当てを選択する。類似度は、式（９）で算出される。クラスタリング部１５０は、式（１１）に基づいて、話者の割当てを選択する。話者が３人の場合には、∀ｓｐ（ｉ）∈｛１，２，３｝により定義される。

式（８）で算出される変化ベクトルは、特徴量（第２特徴量、第３特徴量）と話者（話者に対応付けられるクラスタ）との組み合わせに応じたパターンがある。たとえば、ある１つの第２特徴量を終点とする変化ベクトルは、始点を話者１とする変化ベクトル、始点を話者２とする変化ベクトル、始点を話者３とする変化ベクトルがある。

クラスタリング部１５０は、式（９）に示されるように各パターンについて、各変化ベクトルによるコサイン類似度を算出し、コサイン類似度が最大となるパターンを、各特徴量（第２特徴量、第３特徴量）について特定する。クラスタリング部１５０は、特定したパターンに基づき、特徴量の話者を判定する。たとえば、特定されたパターンの変化ベクトルが、話者１を始点するものであれば、係る変化ベクトルの終点となる特徴量の算出元となるフレームに、話者１が割り当てられる。クラスタリング部１５０は、各第２特徴量、各第３特徴量について、上記処理を実行することで、各フレームに話者を割り当てる。

クラスタリング部１５０は、各フレームと、各話者の識別情報とを対応付けたユーザ音声情報を生成し、送信部１６０に出力する。なお、クラスタリング部１５０は、図１、図２で説明したように、第２特徴量、第３特徴量に関してクラスタリングを行った後に、変化ベクトルを設定し、各フレームに話者を割り当てる処理を行ってもよい。

送信部１６０は、ユーザ音声情報を、サーバ２６に送信する処理部である。

続いて、本実施例１に係る音声処理装置１００の処理手順の一例について説明する。図８は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図８に示すように、音声処理装置１００の取得部１１０は、入力音声情報を取得する（ステップＳ１０１）。音声処理装置１００の検出部１２０は、入力音声情報に含まれる音声区間を検出する（ステップＳ１０２）。

音声処理装置１００の算出部１３０は、音声区間の特徴量を算出する（ステップＳ１０３）。音声処理装置１００の判定部１４０は、音声区間に対する感情を判定する（ステップＳ１０４）。音声処理装置１００のクラスタリング部１５０は、平常感情と判定された各音声区間の特徴量をクラスタリングし、各クラスタに対して話者を対応付ける（ステップＳ１０５）。

クラスタリング部１５０は、平常以外の感情の音声区間の特徴量に対して、平常感情の特徴量を基準（始点）とした変化ベクトルを算出する（ステップＳ１０６）。クラスタリング部１５０は、音声区間の特徴量と話者との組み合わせに対して、変化ベクトルの方向性の類似性を評価する（ステップＳ１０７）。

クラスタリング部１５０は、変化ベクトルの方向の類似性が最大となる組み合わせを特定し、音声区間に対する話者を対応付ける（ステップＳ１０８）。音声処理装置１００の送信部１６０は、ユーザ音声情報をサーバ２６に送信する（ステップＳ１０９）。

次に、本実施例１に係る音声処理装置１００の効果について説明する。音声処理装置１００は、入力音声情報から音声区間を検出し、各音声区間から特徴量を算出すると共に、話者の感情を判定する。音声処理装置１００は、感情変化に伴う特徴量の変化ベクトルを算出し、変化ベクトルの方向の類似性が最大となる特徴量と話者との組み合わせを判定し、特徴量の算出元となる音声区間と、話者とを対応付ける。これによって、話者の感情が変化する場合でも、複数の話者に含まれる１人の話者と、音声区間の音声とを対応付けることができる。

音声処理装置１００は、平常時の第１特徴量をクラスタリングし、各クラスタの特徴量の平均を始点とし、平常時以外の特徴量（第２特徴量、第３特徴量）を始点とする複数の変化ベクトルを、話者と特徴量との組み合わせに応じて算出する。音声処理装置１００は、複数の変化ベクトルの方向の類似性が最大となる話者と特徴量の組み合わせに基づいて、特徴量の算出元となる音声区間と話者とを対応付ける。これによって、複数話者による感情変化を含む音声でも、各話者の音声区間を精度よく特定ができる。また、複数の話者の発話を含む入力音声情報について、いつ誰が話したかを特定することができる。

音声処理装置１００は、音声区間の特徴量として、調波性、周期性または信号強度に関する特徴量を算出する。たとえば、音声処理装置１００は、音声区間の特徴量として、スペクトルの自己相関、フォルマント周波数、波形の自己相関、ピッチ周波数、フレームパワー、ＳＮＲ、スペクトルの平均パワーをそれぞれ算出する。かかる特徴量を用いることで、話者の感情変化に伴う変化ベクトルを精度よく算出することができる。

ところで、本実施例１に係る音声処理装置１００は、複数の変化ベクトルの方向の類似性を算出する場合に、コサイン類似度を用いたがこれに限定されるものではない。音声処理装置１００は、ピアソンの相関係数を基にして、複数の変化ベクトルの方向の類似性を算出してもよい。

図９は、本実施例２に係るシステムの一例を示す図である。図９に示すように、このシステムは、収録機器４０ａと、ディスプレイ４０ｂと、サーバ４５と、音声処理装置２００とを有する。収録機器４０ａ、ディスプレイ４０ｂ、サーバ４５、音声処理装置２００は、ネットワーク２５に接続される。

収録機器４０ａは、カメラ１ｃａ，２ｃａ，３ｃａと、マイク１ｍ，２ｍ，３ｍに接続される。カメラ１ｃａは、話者１の顔画像を撮影するカメラである。カメラ２ｃａは、話者２の顔画像を撮影するカメラである。カメラ３ｃａは、話者３の顔画像を撮影するカメラである。マイク１ｍ〜３ｍは、話者１〜３の会話を集音するマイクである。

収録機器４０ａは、マイク１ｍ〜３ｍを用いて集音した音声を入力音声情報に変換する。本実施例２では一例として、収録機器４０ａは、マイク１ｍ〜３ｍのうち、いずれかの一つのマイクが集音した音声を入力音声情報に変換し、入力音声情報を、音声処理装置２００に送信する。

収録機器４０ａは、カメラ１ｃａ〜３ｃａによって撮影された各顔画像と、話者識別情報とを対応付けた顔画像情報を生成する。たとえば、収録機器４０ａは、カメラ１ｃａによって撮影された顔画像と、話者１の話者識別情報とを対応付ける。収録機器４０ａは、カメラ２ｃａによって撮影された顔画像と、話者２の話者識別情報とを対応付ける。収録機器４０ａは、カメラ３ｃａによって撮影された顔画像と、話者３の話者識別情報とを対応付ける。収録機器４０ａは、顔画像情報を、音声処理装置２００に送信する。

音声処理装置２００は、収録機器４０ａから入力音声情報および顔画像情報を受信すると、入力音声情報の音声区間毎に、特徴量を抽出する。また、音声処理装置２００は、顔画像情報を基にして、話者の感情を判定する。音声処理装置２００は、感情変化に伴う特徴量の変化ベクトルを基にして、複数の特徴量をクラスタリングし、クラスタリング結果を基にして、音声区間毎に音声と話者との対応付けを行う。音声処理装置２００は、各音声区間の音声と、話者識別情報とをそれぞれ対応付けたユーザ音声情報を、サーバ４５に送信する。

サーバ４５は、ユーザ音声情報を受信すると、ユーザ音声情報を解析して、ユーザ音声情報に応答するための応答音声情報を生成する。サーバ４５は、応答音声情報を、ディスプレイ４０ｂに送信する。ディスプレイ４０ｂは、応答音声情報に対応するテキスト情報等を表示する。

次に、図９に示した音声処理装置２００の構成の一例について説明する。図１０は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１０に示すように、この音声処理装置２００は、取得部２１０と、検出部２２０と、算出部２３０と、判定部２４０と、クラスタリング部２５０と、送信部２６０とを有する。各処理部２１０〜２６０は、たとえば、ＣＰＵやＭＰＵ等によって、音声処理装置２００の内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、各処理部２１０〜２６０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

取得部２１０は、収録機器４０ａから入力音声情報および顔画像情報を取得する処理部である。取得部２１０は、取得した入力音声情報を、検出部２２０に出力する。取得部２１０は、取得した顔画像情報を、判定部２４０に出力する。

検出部２２０は、入力音声情報から複数の音声区間を検出する処理部である。たとえば、検出部２２０は、音声区間によって区切られる入力音声情報を、固定長のフレームに分割し、各フレームを、算出部２３０に出力する。検出部２２０は、各フレームに対して、時系列にフレーム番号を割り当てる。検出部２２０に関するその他の処理は、実施例１の検出部１２０の処理と同様である。

算出部２３０は、フレームに含まれる音声信号を基にして特徴量を算出する処理部である。算出部２３０が特徴量を算出する処理は、実施例１の算出部２３０が特徴量を算出する処理と同様である。算出部２３０は、フレーム毎に特徴量情報を生成し、複数の特徴量情報を、クラスタリング部２５０に出力する。

判定部２４０は、顔画像情報を基にして、話者の感情を判定する処理部である。判定部２４０は、顔画像を入力した際に、感情が「平常」、「悲しみ」、「怒り」のいずれかを判定する学習済みのニューラルネットワークを用いて、各話者の感情を判定する。

たとえば、判定部２４０は、各話者の感情の判定結果を集計し、「平常」、「悲しみ」、「怒り」について多数決を行い、代表の感情を判定する。たとえば、判定部２４０は、話者１，２の感情が「平常」、話者３の感情が「悲しみ」と判定された場合には、平常の数が最も多いため、代表の感情を「平常」と判定する。判定部２４０は判定結果（代表の感情の判定結果）を、クラスタリング部２５０に出力する。たとえば、判定部２４０は、特開２００８−１４６３１８号公報に開示された技術を用いて、話者毎の感情を判定してもよい。判定部２４０は、所定時間毎に、顔画像情報を取得し、話者の感情を判定する。

クラスタリング部２５０は、平常の感情と判定された際の音声区間の特徴量から、悲しみまたは怒りの感情と判定された際の音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする処理部である。クラスタリング部２５０は、クラスタリングの結果を基にして、特徴量を算出した音声区間と、話者とを対応付ける。

たとえば、クラスタリング部２５０は、事前クラスタリング処理、ベクトル算出処理、類似性評価処理、特徴量補正処理、話者対応付け処理を実行する。

クラスタリング部２５０が実行する「事前クラスタリング処理」の一例について説明する。クラスタリング部１５０は、複数の特徴量情報と、感情の判定結果とを基にして、感情が「平常」と判定されている間のフレームから算出された特徴量をそれぞれ検出する。たとえば、クラスタリング部２５０は、話者１〜３の感情の判定結果が「平常」と判定されている間に、算出部２３０から取得した各特徴量情報のフレームを、感情が「平常」と判定されたフレームとして扱う。以下の説明では、感情が「平常」と判定されたフレームから抽出された特徴量を「第１特徴量」と表記する。

クラスタリング部２５０は、検出した複数の第１特徴量に対して、ｋ近傍法等を用いて、クラスタリングする。クラスタリング部２５０は、各話者１，２，３の音声の特徴量を予め保持しており、各クラスタと各話者１〜３の音声の特徴量との距離に基づいて、クラスタに対する話者の対応付けを行う。

クラスタリング部２５０が実行する「ベクトル算出処理」の一例について説明する。クラスタリング部２５０は、複数の特徴量情報と、感情の判定結果とを基にして、感情が「悲しみ」と判定されている間のフレームから抽出された特徴量をそれぞれ検出する。たとえば、クラスタリング部２５０は、話者１〜３の感情のいずれかの判定結果が「悲しみ」と判定されて、「怒り」と判定されていない間に、算出部２３０から取得した各特徴量情報のフレームを、感情が「悲しみ」と判定されたフレームとして扱う。以下の説明では、感情が「悲しみ」と判定されたフレームから抽出された特徴量を「第２特徴量」と表記する。クラスタリング部２５０は、式（８）を基にして、話者毎に、第１特徴量の平均を基準（始点）とした、複数の第２特徴量の「変化ベクトル」をそれぞれ算出する。

クラスタリング部２５０は、複数の特徴量情報と、感情の判定結果とを基にして、感情が「怒り」と判定されたフレームから抽出された特徴量をそれぞれ検出する。たとえば、クラスタリング部２５０は、話者１〜３の感情のいずれかの判定結果が「怒り」と判定されて、「悲しみ」と判定されていない間に、算出部２３０から取得した各特徴量情報のフレームを、感情が「怒り」と判定されたフレームとして扱う。以下の説明では、感情が「怒り」と判定されたフレームから抽出された特徴量を「第３特徴量」と表記する。クラスタリング部２５０は、式（８）を基にして、話者毎に、第１特徴量の平均を基準（始点）とした、複数の第３特徴量の「変化ベクトル」をそれぞれ算出する。

クラスタリング部２５０が実行する「類似性評価処理」の一例について説明する。クラスタリング部２５０は、複数の変化ベクトルの方向の類似性を評価する。複数の変化ベクトルの方向の類似性は、式（９）に示す目的関数Ｓｉｍによって評価され、目的関数Ｓｉｍの値が大きいほど、変化ベクトルの方向が類似していることを示す。

クラスタリング部２５０は、式（９）に示されるように話者と特徴量の組み合わせに応じた各パターンについて、各変化ベクトルによるコサイン類似度を算出し、コサイン類似度が最大となるパターンを、各特徴量（第２特徴量、第３特徴量）について特定する。

クラスタリング部２５０が実行する「特徴量補正処理」の一例について説明する。クラスタリング部２５０は、コサイン類似度が最大となる各話者と各第２特徴量との組み合わせにより特定される複数の変化ベクトルを平均することで、第１平均ベクトルを算出する。また、クラスタリング部２５０は、コサイン類似度が最大となる各話者と各第３特徴量との組み合わせにより特定される複数の変化ベクトルを平均することで、第２平均ベクトルを算出する。たとえば、クラスタリング部２５０は、式（１２）に基づいて平均ベクトル（第１平均ベクトル、第２平均ベクトル）を算出する。

式（１２）において、ｉは、発話区間インデックス（フレーム番号）に対応し、∀ｉ∈｛１，２，・・・，Ｎ｝により定義される。ｓｐ（ｉ）は、発話区間に対する話者割当に対応し、話者が３人の場合には、∀ｓｐ（ｉ）∈｛１，２，３｝により定義される。ｆは、感情（悲しみまたは怒り）を示すものであり、∀ｆ∈｛１，２｝により定義される。

図１１は、本実施例２に係るクラスタリング部の処理を説明するための図（１）である。図１１のグラフ５０は「補正前の特徴量」を示し、グラフ６０は「補正後の特徴量」を示す。図１１では、特徴量空間の簡易説明のため、１０２４次元の特徴量を主成分分析で２次元（特徴量（１）、特徴量（２））の特徴量空間に圧縮して、第１特徴量（特徴量により定まる特徴量空間上の点）を表示する。図１１のグラフ５０，６０の横軸は特徴量（１）に対応する軸であり、縦軸は特徴量（２）に対応する軸である。

たとえば、図１１のグラフ５０において、クラスタ５０ａに含まれる各特徴量は、話者３に対応付けられた音声区間の第１特徴量である。クラスタ５０ｂに含まれる各特徴量は、話者２に対応付けられた音声区間の第２特徴量である。クラスタ５０ｃに含まれる各特徴量は、話者１に対応付けられた音声区間の第２特徴量である。

領域５１ａに含まれる各特徴量は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルのうち、話者３の第１特徴量を始点する変化ベクトルであって、かかる変化ベクトルの終点となる第２特徴量である。ベクトル７ａは、クラスタ５０ａの重心から、領域５１ａの各第２特徴量に至る複数の変化ベクトルを平均した第１平均ベクトルである。

領域５１ｂに含まれる各特徴量は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルのうち、話者２の第１特徴量を始点する変化ベクトルであって、かかる変化ベクトルの終点となる第２特徴量である。ベクトル７ｂは、クラスタ５０ｂの重心から、領域５１ｂの各第２特徴量に至る複数の変化ベクトルを平均した第１平均ベクトルである。

領域５１ｃに含まれる各特徴量は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルのうち、話者１の第１特徴量を始点する変化ベクトルであって、かかる変化ベクトルの終点となる第２特徴量である。ベクトル７ｃは、クラスタ５０ｃの重心から、領域５１ｃの各第２特徴量に至る複数の変化ベクトルを平均した第１平均ベクトルである。

領域５２ａに含まれる各特徴量は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルのうち、話者３の第１特徴量を始点する変化ベクトルであって、かかる変化ベクトルの終点となる第３特徴量である。ベクトル８ａは、クラスタ５０ａの重心から、領域５２ａの各第３特徴量に至る複数の変化ベクトルを平均した第２平均ベクトルである。

領域５２ｂに含まれる各特徴量は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルのうち、話者２の第１特徴量を始点する変化ベクトルであって、かかる変化ベクトルの終点となる第３特徴量である。ベクトル８ｂは、クラスタ５０ｂの重心から、領域５２ｂの各第３特徴量に至る複数の変化ベクトルを平均した第２平均ベクトルである。

領域５２ｃに含まれる各特徴量は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルのうち、話者１の第１特徴量を始点する変化ベクトルであって、かかる変化ベクトルの終点となる第３特徴量である。ベクトル８ｃは、クラスタ５０ｃの重心から、領域５２ｃの各第２特徴量に至る複数の変化ベクトルを平均した第２平均ベクトルである。

クラスタリング部２５０は、領域５１ａに含まれる各第２特徴量を、ベクトル７ａの逆方向に移動させる補正を行う。クラスタリング部２５０は、領域５１ｂに含まれる各第２特徴量を、ベクトル７ｂの逆方向に移動させる補正を行う。クラスタリング部２５０は、領域５１ｃに含まれる各第２特徴量を、ベクトル７ｃの逆方向に移動させる補正を行う。

クラスタリング部２５０は、領域５２ａに含まれる各第３特徴量を、ベクトル８ａの逆方向に移動させる補正を行う。クラスタリング部２５０は、領域５２ｂに含まれる各第２特徴量を、ベクトル８ｂの逆方向に移動させる補正を行う。クラスタリング部２５０は、領域５２ｃに含まれる各第２特徴量を、ベクトル８ｃの逆方向に移動させる補正を行う。

クラスタリング部２５０が、上記の補正を行うことで、グラフ５０に含まれる各特徴量は、グラフ６０に示す各特徴量に補正される。

クラスタリング部２５０が実行する「話者対応付け処理」の一例について説明する。クラスタリング部２５０は、補正した各特徴量のうち、悲しみ、または、怒りと判定された音声区間の特徴量に対して、ｋ近傍法等を用いて、クラスタリングする。図１２は、本実施例２に係るクラスタリング部の処理を説明するための図（２）である。図１２では、特徴量空間の簡易説明のため、１０２４次元の特徴量を主成分分析で２次元（特徴量（１）、特徴量（２））の特徴量空間に圧縮して、補正後の特徴量を表示する。図１２のグラフ３０の横軸は特徴量（１）に対応する軸であり、縦軸は特徴量（２）に対応する軸である。

図１２に示すように、クラスタリング部２５０が、複数の特徴量に対して、ｋ近傍法等を用いて、クラスタリングすると、複数の特徴量は、クラスタ６１ａ，６１ｂ，６１ｃに分類される。クラスタリング部２５０は、各話者１，２，３の音声の特徴量を予め保持しているものとする。クラスタリング部２５０は、各話者１〜３の音声の特徴量と、各クラスタ６１ａ〜６１ｃ（クラスタの重心）との距離に基づいて、クラスタに対する話者の対応付けを行う。

たとえば、クラスタリング部２５０は、話者１の音声の特徴量と、クラスタ６１ｃの重心との距離が、他のクラスタ６１ａ，６１ｃの重心との距離よりも近いものとすると、クラスタ６１ｃと話者１とを対応付ける。クラスタリング部２５０は、話者２の音声の特徴量と、クラスタ６１ｂの重心との距離が、他のクラスタ６１ａ，６１ｃの重心との距離よりも近いものとすると、クラスタ６１ｂと話者２とを対応付ける。クラスタリング部２５０は、話者３の音声の特徴量と、クラスタ６１ａの重心との距離が、他のクラスタ６１ｂ，６１ｃの重心との距離よりも近いものとすると、クラスタ６１ａと話者３とを対応付ける。

クラスタリング部２５０は、クラスタ６１ｃに含まれる各特徴量を算出した各フレーム（音声区間）と、話者１とを対応付ける。クラスタリング部２５０は、クラスタ６１ｂに含まれる各特徴量を算出した各フレーム（音声区間）と、話者２とを対応付ける。クラスタリング部２５０は、クラスタ６１ａに含まれる各特徴量を算出した各フレーム（音声区間）と、話者１とを対応付ける。クラスタリング部２５０は、各フレームと、各話者の識別情報とを対応付けたユーザ音声情報を生成し、送信部２６０に出力する。

送信部２６０は、ユーザ音声情報を、サーバ４５に送信する処理部である。

次に、本実施例１に係る音声処理装置２００の処理手順の一例について説明する。図１３は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１３に示すように、音声処理装置２００の取得部２１０は、入力音声情報および顔画像情報を取得する（ステップＳ２０１）。

音声処理装置２００の検出部２２０は、入力音声情報に含まれる音声区間を検出する（ステップＳ２０２）。算出部２３０は、音声区間の特徴量を算出する（ステップＳ２０３）。音声処理装置２００の判定部２４０は、顔画像情報を基にして感情を判定する（ステップＳ２０４）。

音声処理装置２００のクラスタリング部２５０は、平常感情と判定されている間の音声区間の特徴量をクラスタリングし、各クラスタに対して話者を対応付ける（ステップＳ２０５）。クラスタリング部２５０は、平常以外の感情の各音声区間の特徴量に対して、平常感情の特徴量を基準とした変化ベクトルを算出する（ステップＳ２０６）。

クラスタリング部２５０は、音声区間の特徴量と話者との組み合わせに対して、変化ベクトルの方向の類似性を評価する（ステップＳ２０７）。クラスタリング部２５０は、変化ベクトルの方向の類似性が最大となる組み合わせを特定し、複数の変化ベクトルの平均ベクトルを算出する（ステップＳ２０８）。

クラスタリング部２５０は、平均ベクトルを適用して、平常以外の感情の各音声区間の特徴量を補正する（ステップＳ２０９）。クラスタリング部２５０は、補正した各特徴量をクラスタリングし、各クラスタに対して話者を対応付ける（ステップＳ２１０）。音声処理装置２００の送信部２６０は、ユーザ音声情報をサーバ４５に送信する（ステップＳ２１１）。

次に、本実施例２に係る音声処理装置２００の効果について説明する。音声処理装置２００は、話者の顔画像を基にして、話者の感情を判定するため、入力音声情報を用いた感情の判定が難しい場合でも、各音声区間に対応する感情を判定することができる。

音声処理装置２００は、類似度評価処理で特定された類似度が最大となる複数の変化ベクトルを用いて、平均ベクトルを算出し、この平均ベクトルを用いて、平常以外の感情の特徴量を補正する。そして、音声処理装置２００は、補正した特徴量をクラスタリングすることで、特徴量と話者とを対応付ける。これによって、話者の感情が変化する場合でも、複数の話者に含まれる１人の話者と、音声区間の音声とを対応付けることができる。

なお、本実施例２では一例として、音声処理装置２００は、顔画像情報を基にして、話者の感情を判定したが、これに限定されるものではなく、実施例１と同様にして、入力音声情報の音声区間を基にして、感情を判定してもよい。また、音声処理装置２００は、顔画像情報と、入力音声情報とを用いて、話者の感情を判定してもよい。たとえば、顔画像情報と、入力音声情報とに優先度をそれぞれ設定しておき、顔画像情報と、入力音声情報との判定結果が異なる場合に、優先度の高い情報の判定結果を優先するなどの処理を行ってもよい。

図１４は、本実施例３に係るシステムの一例を示す図である。図１４に示すように、このシステムは、収録機器７０と、ディスプレイ４０ｂと、サーバ４５と、音声処理装置３００とを有する。収録機器７０、ディスプレイ４０ｂ、サーバ４５、音声処理装置３００は、ネットワーク２５に接続される。

収録機器７０は、カメラ１ｃａ，２ｃａ，３ｃａと、マイク１ｍ，２ｍ，３ｍ、生体センサ１ｓ，２ｓ，３ｓに接続される。カメラ１ｃａは、話者１の顔画像を撮影するカメラである。カメラ２ｃａは、話者２の顔画像を撮影するカメラである。カメラ３ｃａは、話者３の顔画像を撮影するカメラである。マイク１ｍ〜３ｍは、話者１〜３の会話を集音するマイクである。

生体センサ１ｓは、話者１の心拍等の生体情報を測定するセンサである。生体センサ２ｓは、話者２の心拍等の生体情報を測定するセンサである。生体センサ３ｓは、話者３の心拍等の生体情報を測定するセンサである。

収録機器７０は、マイク１ｍ〜３ｍを用いて集音した音声を入力音声情報に変換する。本実施例３では一例として、収録機器７０は、マイク１ｍ〜３ｍのうち、いずれかの一つのマイクが集音した音声を入力音声情報に変換し、入力音声情報を、音声処理装置３００に送信する。

収録機器７０は、カメラ１ｃａ〜３ｃａによって撮影された各顔画像と、話者識別情報とを対応付けた「顔画像情報」を生成する。たとえば、収録機器７０は、カメラ１ｃａによって撮影された顔画像と、話者１の話者識別情報とを対応付ける。収録機器７０は、カメラ２ｃａによって撮影された顔画像と、話者２の話者識別情報とを対応付ける。収録機器７０は、カメラ３ｃａによって撮影された顔画像と、話者３の話者識別情報とを対応付ける。収録機器７０は、顔画像情報を、音声処理装置３００に送信する。

収録機器７０は、生体センサ１ｓ〜３ｓによって測定された各生体情報と、話者識別情報とを対応付けた「生体センサ情報」を生成する。たとえば、収録機器７０は、生体センサ１ｓによって測定された生体情報と、話者１の話者識別情報とを対応付ける。収録機器７０は、生体センサ２ｓによって測定された生体情報と、話者２の話者識別情報とを対応付ける。収録機器７０は、生体センサ３ｓによって測定された生体情報と、話者３の話者識別情報とを対応付ける。収録機器７０は、生体センサ情報を、音声処理装置３００に送信する。

音声処理装置３００は、収録機器７０から入力音声情報、顔画像情報、生体センサ情報を受信すると、入力音声情報の音声区間毎に、特徴量を抽出する。また、音声処理装置３００は、顔画像情報および生体センサ情報を基にして、話者の感情を判定する。音声処理装置３００は、感情変化に伴う特徴量の変化ベクトルを基にして、複数の特徴量をクラスタリングし、クラスタリング結果を基にして、音声区間毎に音声と話者との対応付けを行う。音声処理装置３００は、各音声区間の音声と、話者識別情報とをそれぞれ対応付けたユーザ音声情報を、サーバ４５に送信する。

次に、図１４に示した音声処理装置３００の構成の一例について説明する。図１５は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１５に示すように、この音声処理装置３００は、取得部３１０と、検出部３２０と、算出部３３０と、判定部３４０と、クラスタリング部３５０と、送信部３６０とを有する。各処理部３１０〜３６０は、たとえば、ＣＰＵやＭＰＵ等によって、音声処理装置３００の内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、各処理部３１０〜３６０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

取得部３１０は、収録機器７０から入力音声情報、顔画像情報、生体センサ情報を取得する処理部である。取得部３１０は、取得した入力音声情報を、検出部３２０に出力する。取得部３１０は、取得した顔画像情報および生体センサ情報を、判定部３４０に出力する。

検出部３２０は、入力音声情報から複数の音声区間を検出する処理部である。たとえば、検出部３２０は、音声区間によって区切られる入力音声情報を、固定長のフレームに分割し、各フレームを、算出部３３０に出力する。検出部３２０は、各フレームに対して、時系列にフレーム番号を割り当てる。検出部３２０に関するその他の処理は、実施例１の検出部１２０の処理と同様である。

算出部３３０は、フレームに含まれる音声信号を基にして特徴量を算出する処理部である。たとえば、算出部３３０は、ニューラルネットワーク（ＮＮ：Neural Network）に音響特徴パラメータを入力することで、特徴量を算出する。ニューラルネットワークは、深層学習モデルの一例である。

音響特徴パラメータには、スペクトル、ピッチ周波数、フォルマント周波数等が含まれる。算出部３３０が、スペクトル、ピッチ周波数、フォルマント周波数を算出する処理は、実施例１の算出部１３０が、スペクトル、ピッチ周波数、フォルマント周波数を算出する処理と同様である。

算出部３３０が用いるＮＮは、学習済みのＮＮを用いる。係るＮＮは、音響特徴パラメータと、話者の正解データとを対応付けた学習データを用いて、学習装置（図示略）によって事前に学習される。ＮＮは、入力層、隠れ層、出力層からなる。音響特徴パラメータを入力層に入力すると、出力層から、音響特徴パラメータに対応する話者の確率が出力される。算出部３３０は、音響特徴パラメータをＮＮの入力層に入力した際に、出力層よりも一つ前の層から出力される情報を、音響特徴パラメータの特徴量として取得する。算出部３３０は、特開２０１８−１３９０７１号公報に開示された技術を用いて、ＮＮの学習を行ってもよい。

算出部３３０は、フレーム毎に上記の特徴量を算出し、算出した特徴量をクラスタリング部３５０に出力する。算出部３３０は、フレーム番号と、このフレーム番号のフレームから算出された特徴量とを対応付けた「特徴量情報」を、クラスタリング部３５０に出力する。

判定部３４０は、顔画像情報および生体センサ情報を基にして、話者の感情を判定する処理部である。まず、判定部３４０は、顔画像情報を基にして各話者の感情を判定し、生体センサ情報を基にして各話者の感情を判定し、最終的な感情の判定を行う。判定部３４０が、顔画像情報を基にして、各話者の感情を判定する処理は、実施例２で説明した判定部２４０の処理と同様である。

判定部３４０が、生体センサ情報を基にして、各話者の感情を判定する処理について説明する。判定部３４０は、生体センサ情報に含まれる話者の心拍の特徴を基にして、話者の覚醒度の度合い、および、快適さの度合いを算出する。判定部３４０は、覚醒度の度合い、および、快適さの度合いと、感情とを対応付けたテーブル等を基にして、話者の感情を判定する。なお、判定部３４０は、特開２０１７−１４４２２２号公報に開示された技術を用いて、話者毎の感情を判定してもよい。

判定部３４０は、顔画像情報により求めた各話者の感情の判定結果と、生体センサ情報により求めた各話者の感情の判定結果とを集計し、「平常」、「悲しみ」、「怒り」について多数決を行い、代表の感情を判定する。たとえば、顔画像情報により判定された話者１，２の感情が「平常」、話者３の感情が「悲しみ」とし、生体センサ情報により判定された話者１，３の感情が「平常」、話者２の感情が「怒り」とする。この場合には、平常の数が最も多いため、判定部３４０は、代表の感情を「平常」と判定する。判定部３４０は判定結果（代表の感情の判定結果）を、クラスタリング部３５０に出力する。

クラスタリング部３５０は、平常の感情と判定された際の音声区間の特徴量から、悲しみまたは怒りの感情と判定された際の音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする処理部である。クラスタリング部３５０は、クラスタリングの結果を基にして、特徴量を算出した音声区間と、話者とを対応付ける。クラスタリング部３５０は、各音声区間（フレーム）と、各話者の識別情報とを対応付けたユーザ音声情報を生成し、送信部３６０に出力する。クラスタリング部３５０の処理は、実施例２で説明したクラスタリング部２５０の処理と同様である。

送信部３６０は、ユーザ音声情報を、サーバ４５に送信する処理部である。

次に、本実施例３に係る音声処理装置３００の処理手順の一例について説明する。図１６は、本実施例３に係る音声処理装置の処理手順を示すフローチャートである。図１６に示すように、音声処理装置３００の取得部３１０は、入力音声情報、顔画像情報、生体センサ情報を取得する（ステップＳ３０１）。

音声処理装置３００の検出部３２０は、入力音声情報に含まれる音声区間を検出する（ステップＳ３０２）。算出部３３０は、音声区間の音響特徴パラメータを算出する（ステップＳ３０３）。算出部３３０は、音声区間の音響特徴パラメータをＮＮに入力し、特徴量を算出する（ステップＳ３０４）。音声処理装置３００の判定部３４０は、顔画像情報および生体センサ情報を基にして感情を判定する（ステップＳ３０５）。

音声処理装置３００のクラスタリング部３５０は、平常感情と判定されている間の音声区間の特徴量をクラスタリングし、各クラスタに対して話者を対応付ける（ステップＳ３０６）。クラスタリング部３５０は、平常以外の感情の各音声区間の特徴量に対して、平常感情の特徴量を基準とした変化ベクトルを算出する（ステップＳ３０７）。

クラスタリング部３５０は、音声区間の特徴量と話者との組み合わせに対して、変化ベクトルの方向の類似性を評価する（ステップＳ３０８）。クラスタリング部３５０は、変化ベクトルの方向の類似性が最大となる組み合わせを特定し、複数の変化ベクトルの平均ベクトルを算出する（ステップＳ３０９）。

クラスタリング部３５０は、平均ベクトルを適用して、平常以外の感情の各音声区間の特徴量を補正する（ステップＳ３１０）。クラスタリング部３５０は、補正した各特徴量をクラスタリングし、各クラスタに対して話者を対応付ける（ステップＳ３１１）。音声処理装置３００の送信部３６０は、ユーザ音声情報をサーバ４５に送信する（ステップＳ３１２）。

次に、本実施例３に係る音声処理装置３００の効果について説明する。音声処理装置３００は、話者の顔画像および生体情報を基にして、話者の感情を判定するため、入力音声情報を用いた感情の判定が難しい場合でも、各音声区間に対応する感情を判定することができる。

音声処理装置３００は、音声区間の特徴量を算出する場合に、学習済みのＮＮを用いる。このため、入力音声情報に含まれるノイズ等の不確定要素を、ＮＮによって吸収した特徴量を算出することができる。

なお、本実施例３では一例として、音声処理装置３００は、顔画像情報および生体センサ情報を基にして、話者の感情を判定したが、これに限定されるものではなく、実施例１と同様にして、入力音声情報の音声区間を基にして、感情を判定してもよい。また、音声処理装置３００は、入力音声情報と、顔画像情報と、生体センサ情報とを用いて、話者の感情を判定してもよい。たとえば、音声処理装置３００は、顔画像情報の感情の判定結果と、生体センサ情報の感情の判定結果と、入力音声情報との感情の判定結果とについて多数決を行い、総合的な感情を判定してもよい。

音声処理装置３００の算出部３３０は、ＮＮを用いて音声区間の特徴量を算出していたがこれに限定されるものではなく、実施例１で説明した算出部１３０と同様にして、特徴量を算出してもよい。

次に、本実施例に示した音声処理装置１００（２００，３００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１７は、本実施例に係る音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１７に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータの入力を受け付ける入力装置４０２と、ディスプレイ４０３とを有する。また、コンピュータ４００は、記憶媒体からプログラム等を読み取る読み取り装置４０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置４０５とを有する。コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０６と、ハードディスク装置４０７とを有する。そして、各装置４０１〜４０７は、バス４０８に接続される。

ハードディスク装置４０７は、取得プログラム４０７ａ、検出プログラム４０７ｂ、算出プログラム４０７ｃ、判定プログラム４０７ｄ、クラスタリングプログラム４０７ｅ、送信プログラム４０７ｆを有する。ＣＰＵ４０１は、取得プログラム４０７ａ、検出プログラム４０７ｂ、算出プログラム４０７ｃ、判定プログラム４０７ｄ、クラスタリングプログラム４０７ｅ、送信プログラム４０７ｆを読み出してＲＡＭ４０６に展開する。

取得プログラム４０７ａは、取得プロセス４０６ａとして機能する。検出プログラム４０７ｂは、検出プロセス４０６ｂとして機能する。算出プログラム４０７ｃは、算出プロセス４０６ｃとして機能する。判定プログラム４０７ｄは、判定プロセス４０６ｄとして機能する。クラスタリングプログラム４０７ｅは、クラスタリングプロセス４０６ｅとして機能する。送信プログラム４０７ｆは、送信プロセス４０６ｆとして機能する。

取得プロセス４０６ａの処理は、取得部１１０，２１０，３１０の処理に対応する。検出プロセス４０６ｂの処理は、検出部１２０，２２０，３２０の処理に対応する。算出プロセス４０６ｃの処理は、算出部１３０，２３０，３３０の処理に対応する。判定プロセス４０６ｄの処理は、判定部１４０，２４０，３４０の処理に対応する。クラスタリングプロセス４０６ｅの処理は、クラスタリング部１５０，２５０，３５０の処理に対応する。送信プロセス４０６ｆの処理は、送信部１６０，２６０，３６０の処理に対応する。

なお、各プログラム４０７ａ〜４０７ｆについては、必ずしも最初からハードディスク装置４０７に記憶させておかなくてもよい。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ４００が各プログラム４０７ａ〜４０７ｆを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）コンピュータに、
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第１の感情と判定された音声区間の特徴量から、前記第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行させることを特徴とする音声処理プログラム。

（付記２）前記クラスタリングする処理は、前記第１の感情と判定された各音声区間の第１特徴量を複数のクラスタに分類し、前記複数のクラスタのうち一つのクラスタと、前記第２の感情と判定された各音声区間の複数の第２特徴量のうち一つの第２特徴量とを結ぶ変化ベクトルを、前記クラスタと前記第２特徴量との組み合わせに基づいて生成し、複数の変化ベクトルの方向の類似性が最大となるクラスタと第２特徴量との組み合わせを特定することを特徴とする付記１に記載の音声処理プログラム。

（付記３）前記変化ベクトルを基にして、前記第２の感情と判定された各音声区間の特徴量を補正する処理を更に実行し、前記クラスタリングする処理は、前記第１の感情と判定された各音声区間の特徴量、および、補正された各特徴量をクラスタリングすることを特徴とする付記１または２に記載の音声処理プログラム。

（付記４）前記クラスタリングする処理は、平常感情と判定された各音声区間の複数の特徴量に対してクラスタリングしたクラスタのうち一つのクラスタと、平常感情以外の感情と判定された各音声区間の複数の特徴量のうち一つの特徴量とを結ぶことで、前記変化ベクトルを生成することを特徴とする付記１、２または３に記載の音声処理プログラム。

（付記５）前記クラスタリングの結果を基にして、特徴量に対応する音声区間と、話者とを対応付ける処理を更に実行することを特徴とする付記１〜４のいずれか一つに記載の音声処理プログラム。

（付記６）前記クラスタリングする処理は、前記複数の変化ベクトル間のコサイン類似度またはピアソンの相関係数を基にして、前記類似性を評価することを特徴とする付記２に記載の音声処理プログラム。

（付記７）前記判定する処理は、前記音声区間に含まれる音声の特徴量を基にして、前記話者の感情を判定することを特徴とする付記１〜６のいずれか一つに記載の音声処理プログラム。

（付記８）前記判定する処理は、話者の顔画像を基にして、前記話者の感情を判定することを特徴とする付記１〜７のいずれか一つに記載の音声処理プログラム。

（付記９）前記判定する処理は、話者の生体情報を基にして、前記話者の感情を判定することを特徴とする付記１〜８のいずれか一つに記載の音声処理プログラム。

（付記１０）前記算出する処理は、前記音声区間の特徴量として、調波性、周期性または信号強度に関する特徴量を算出することを特徴とする付記１〜９のいずれか一つに記載の音声処理プログラム。

（付記１１）前記算出する処理は、前記音声区間の特徴量として、前記入力音のスペクトルの相関性、フォルマント周波数、前記入力音の自己相関係数、ピッチ周波数、前記入力音のパワー、ＳＮＲ（Signal-Noise ratio）、スペクトルパワーのいずれかを抽出することを特徴とする付記１０に記載の音声処理プログラム。

（付記１２）前記算出する処理は、前記音声区間の情報と話者とを対応付けた学習データを用いて学習された深層学習モデルを基にして、特徴量を算出することを特徴とする付記１〜１１のいずれか一つに記載の音声処理プログラム。

（付記１３）コンピュータが実行する音声処理方法であって、
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第１の感情と判定された音声区間の特徴量から、前記第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行することを特徴とする音声処理方法。

（付記１４）複数の話者の音声が含まれる入力音から複数の音声区間を検出する検出部と、
前記複数の音声区間から特徴量をそれぞれ算出する算出部と、
前記複数の音声区間に対する話者の感情をそれぞれ判定する判定部と、
第１の感情と判定された音声区間の特徴量から、前記第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングするクラスタリング部と
を有することを特徴とする音声処理装置。

２１スマートスピーカ
２１ａマイク
２１ｂスピーカ
２５ネットワーク
２６，４５サーバ
１００，２００，３００音声処理装置
１１０，２１０，３１０取得部
１２０，２２０，３２０検出部
１３０，２３０，３３０算出部
１４０，２４０，３４０判定部
１５０，２５０，３５０クラスタリング部
１６０，２６０，３６０送信部

Claims

コンピュータに、
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第１の感情と判定された音声区間の特徴量から、前記第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行させることを特徴とする音声処理プログラム。
前記クラスタリングする処理は、前記第１の感情と判定された各音声区間の第１特徴量を複数のクラスタに分類し、前記複数のクラスタのうち一つのクラスタと、前記第２の感情と判定された各音声区間の複数の第２特徴量のうち一つの第２特徴量とを結ぶ変化ベクトルを、前記クラスタと前記第２特徴量との組み合わせに基づいて生成し、複数の変化ベクトルの方向の類似性が最大となるクラスタと第２特徴量との組み合わせを特定することを特徴とする請求項１に記載の音声処理プログラム。
前記変化ベクトルを基にして、前記第２の感情と判定された各音声区間の特徴量を補正する処理を更に実行し、前記クラスタリングする処理は、前記第１の感情と判定された各音声区間の特徴量、および、補正された各特徴量をクラスタリングすることを特徴とする請求項１または２に記載の音声処理プログラム。
前記クラスタリングする処理は、平常感情と判定された各音声区間の複数の特徴量に対してクラスタリングしたクラスタのうち一つのクラスタと、平常感情以外の感情と判定された各音声区間の複数の特徴量のうち一つの特徴量とを結ぶことで、前記変化ベクトルを生成することを特徴とする請求項１、２または３に記載の音声処理プログラム。
前記クラスタリングの結果を基にして、特徴量に対応する音声区間と、話者とを対応付ける処理を更に実行することを特徴とする請求項１〜４のいずれか一つに記載の音声処理プログラム。
前記クラスタリングする処理は、前記複数の変化ベクトル間のコサイン類似度またはピアソンの相関係数を基にして、前記類似性を評価することを特徴とする請求項２に記載の音声処理プログラム。
前記判定する処理は、前記音声区間に含まれる音声の特徴量を基にして、前記話者の感情を判定することを特徴とする請求項１〜６のいずれか一つに記載の音声処理プログラム。
前記判定する処理は、話者の顔画像を基にして、前記話者の感情を判定することを特徴とする請求項１〜７のいずれか一つに記載の音声処理プログラム。
前記判定する処理は、話者の生体情報を基にして、前記話者の感情を判定することを特徴とする請求項１〜８のいずれか一つに記載の音声処理プログラム。
前記算出する処理は、前記音声区間の特徴量として、調波性、周期性または信号強度に関する特徴量を算出することを特徴とする請求項１〜９のいずれか一つに記載の音声処理プログラム。
前記算出する処理は、前記音声区間の特徴量として、前記入力音のスペクトルの相関性、フォルマント周波数、前記入力音の自己相関係数、ピッチ周波数、前記入力音のパワー、ＳＮＲ（Signal-Noise Ratio）、スペクトルパワーのいずれかを抽出することを特徴とする請求項１０に記載の音声処理プログラム。
前記算出する処理は、前記音声区間の情報と話者とを対応付けた学習データを用いて学習された深層学習モデルを基にして、特徴量を算出することを特徴とする請求項１〜１１のいずれか一つに記載の音声処理プログラム。
コンピュータが実行する音声処理方法であって、
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第１の感情と判定された音声区間の特徴量から、前記第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行することを特徴とする音声処理方法。
複数の話者の音声が含まれる入力音から複数の音声区間を検出する検出部と、
前記複数の音声区間から特徴量をそれぞれ算出する算出部と、
前記複数の音声区間に対する話者の感情をそれぞれ判定する判定部と、
第１の感情と判定された音声区間の特徴量から、前記第１の感情とは異なる第２の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングするクラスタリング部と
を有することを特徴とする音声処理装置。