JP6394709B2

JP6394709B2 - 話者識別装置および話者識別用の登録音声の特徴量登録方法

Info

Publication number: JP6394709B2
Application number: JP2016563500A
Authority: JP
Inventors: 川戸　正裕; 正裕川戸
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-12-11
Filing date: 2015-12-07
Publication date: 2018-09-26
Anticipated expiration: 2035-12-07
Also published as: WO2016092807A1; JPWO2016092807A1; US20170323644A1

Description

本発明は、話者識別装置等に関し、例えば、入力される音声が予め登録された登録話者の誰によるものかを識別するものに関する。

話者識別（または話者認識）は、人間の声から個人を認識（識別や認証）するコンピュータによる処理をいう。具体的には、話者識別では、音声から特徴を抽出し、モデル化し、モデル化されたデータを用いて個人の声を識別する。

話者識別サービスは、話者識別を提供するサービスであって、入力した音声データの話者を識別するサービスである。

この話者識別サービスでは、識別対象の話者の音声などのデータを事前に登録し、その後識別対象のデータを登録済みのデータと照合するという手順が広く用いられている。話者登録は、エンロール (enroll)、訓練、またはトレーニング(training)とも呼ばれる。

図９Ａおよび図９Ｂは、一般的な話者識別サービスを説明するための図である。図９Ａおよび図９Ｂに示されるように、一般的な話者識別サービスは、２段階で動作し、登録フェーズと識別フェーズの２つのフェーズを有する。図９Ａは、登録フェーズの内容を模式的に示す図である。図９Ｂは、識別フェーズの内容を模式的に示す図である。

図９Ａに示されるように、登録フェーズでは、まず、利用者は、話者識別サービスに対して、登録音声（実際には、話者名と登録音声）を入力する。次に、話者識別サービスは、登録音声から特徴量を抽出する。そして、話者識別サービスは、辞書登録として、話者名と特徴量の組を話者識別辞書に格納する。

図９Ｂに示されるように、識別フェーズでは、まず、利用者は、話者認識サービスに対して、音声(具体的には、識別対象音声)を入力する。次に、話者識別サービスは、識別対象音声から特徴量を抽出する。そして、話者識別サービスは、抽出した特徴量と、話者識別辞書に登録されている特徴量とを照合することにより、識別対象音声と同一の特徴量を持つ登録音声を特定する。最後に、話者識別サービスは、特定された登録音声に付加されている話者名を、識別結果として、利用者に返却する。

図９Ａおよび図９Ｂに記載の話者識別サービスでは、話者識別の精度が登録音声の品質に依存していた。すわなち、たとえば、登録音声が母音しか含まない場合や、登録対象の話者以外の声が混在している場合や、雑音レベルが高い場合などの条件下では、理想的な条件で登録された場合よりも精度が低下する。このため、識別辞書に格納されたデータの内容によって、実用的な識別精度を得ることができない場合があった。

なお、図９Ａおよび図９Ｂに示される特徴量には、たとえば、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient, MFCC)、ガウス混合モデル (Gaussian Mixture Model, GMM)が、知られている。

登録フェーズにおいて、識別辞書に格納するデータは、これらの特徴量そのものであるとは限らない。たとえば、特徴量データの集合を用いてサポートベクトルマシン(Support Vector Machine)などの分類器を生成し、その分類器のパラメータを識別辞書に登録するという手法も知られている(たとえば、特許文献１)。

また、特許文献１では、以前にデータベースに登録されたデータと、新規にデータベースに登録するデータとの類似度を算出し、類似度が基準値未満である場合に限り登録を許可している。特許文献１に記載の技術では、類似したデータが複数登録された場合に、入力音声 (識別対象の音声)との類似度をより厳密に算出するための二次識別を行う。

ただし、特許文献１に記載の技術では、新規にデータベースに登録するデータが十分な情報を含んでいない場合に、新規に登録するデータと登録済みデータとの間の類似度が低い傾向がある。このため、類似した特徴をもつデータが予めデータベースに登録されているにもかかわらず、新規に登録しようとするデータがデータベースへの登録に成功してしまうことがあった。この結果、照合時に誤って音声識別されることがあった。

一方、特許文献２には、データベースに予め登録された生体情報との類似度を用いた評価手段が、開示されている。特許文献２に記載の技術では、新規に登録しようとする生体情報と、データベースに登録済みの生体情報のそれぞれとの間で尤度(類似度)を算出し、すべての登録済み生体情報との間で尤度が基準値未満である場合に限って、登録を許可する。

この手法により、例えばＡとＢの２人の話者がデータベースに登録されている場合に、ＡがＢと誤認識される可能性を減らすことができ、逆にＢがＡと誤認識される可能性も減らすことができる。

また、例えば、特許文献３〜５にも、本発明の関連する技術が、開示されている。

国際公開第２０１４／１１２３７５号特許第４５８８０６９号公報特開２００３−１７７７７９号公報（特に、段落［０００９］、［００１０］、［００１１］）特開２００３−０５８１８５号公報特開平１１−３４４９９２号公報

しかしながら、特許文献２に記載の評価技術では、登録済みの生体情報との類似度を判断基準としているために、評価対象の音声が、登録済みの生体情報とは差異が大きいが、十分な情報を含んでいない場合に、誤って別人が同一人物と判定されたり、本人を識別できなかったりするという問題があった。

本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる話者識別装置等を提供することにある。

本発明の話者識別装置は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する音声認識手段と、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する登録音声評価手段と、前記登録音声評価手段の評価結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する辞書登録手段とを備えている。

本発明の話者識別用の登録音声の特徴量登録方法は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する。

本発明の記憶媒体は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する処理をコンピュータに実行させるプログラムを記憶する。

本発明にかかる話者識別装置等によれば、登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。

本発明の第１の実施の形態における話者識別サーバを含む話者識別システムの構成を示す図である。本発明の第１の実施の形態における話者識別処理の原理を説明するための図である。本発明の第１の実施の形態における話者識別サーバの登録フェーズの動作フローを示す図である。登録音声評価部によるスコア算出処理を説明するための図である。登録音声評価部によるスコア算出処理を説明するための図である。音声一時記録部に格納された情報を示す図である。本発明の第１の実施の形態における話者識別サーバの識別フェーズの動作フローを示す図である。本発明の第３の実施の形態における話者識別サーバの構成を示す図である。一般的な話者識別サービスを説明するための図である。一般的な話者識別サービスを説明するための図である。

＜第１の実施の形態＞
本発明の第１の実施の形態における話者識別サーバ１００を含む話者識別システム１０００の構成について説明する。

話者識別システム１０００の構成を説明する前に、話者識別処理の原理を図２に基づいて説明する。図２は、本発明の第１の実施の形態における話者識別処理の原理を説明するための図である。話者識別装置５００は、本発明の話者識別装置に対応する。

図２に示されるように、話者識別装置５００は、登録対象テキストデータ５０１を利用者６００に提示する。この際、話者識別装置５００は、利用者６００に対して、登録対象テキストデータ５０１の読み上げを依頼する（処理１）。なお、話者識別装置５００は、本発明の話者識別装置に対応し、図１の話者識別サーバ１００の機能を模式的に示すブロックに相当する。

次に、端末（図２にて不図示）に設けられたマイク（図２にて不図示）は、利用者６００により読み上げられた声を集音する。そして、利用者６００により読み上げられた声は、登録音声５０２として、話者識別装置５００に入力される（処理２）。

次に、話者識別装置５００は、音声認識により、登録音声５０２から抽出テキストデータ５０３を抽出する（処理３）。

次に、話者識別装置５００は、処理３で抽出された抽出テキストデータ５０３（テキスト抽出結果）と、登録対象テキストデータ５０１とを比較し、両者が一致している部分の割合（類似度）を基にスコアを算出する（処理４）。

最後に、話者識別装置５００は、処理４で得られるスコアが基準値以上である場合、登録音声５０２から抽出した特徴量と話者名の組を話者識別辞書５０４に登録する（処理５）。一方、話者識別装置５００は、処理４で得られるスコアが基準値以上でない場合、処理２以降の処理を再試行する。

なお、登録対象テキスト全体を複数の部分テキスト(例えば文単位)に分割し、それぞれの部分テキストについて処理１〜４の手順を繰り返し実行し、すべての部分テキストについてスコアが基準値を超えた時点で、該当ユーザについて処理５の登録処理を行うようにしても良い。

このように、登録フェーズにおいて音声認識を用いて登録音声の品質を評価し、十分な品質を持つ特徴量のみ登録することで、安定した識別精度を得ることができる。

以上、話者識別処理の原理を図２に基づいて説明した。

次に、話者識別システム１０００の構成を説明する。図１は、話者識別サーバ１００を含む話者識別システム１０００の構成を示す図である。話者識別サーバ１００は、本発明の話者識別装置に対応する。

図１に示されるように、話者識別システム１０００は、話者識別サーバ１００と、端末２００とから構成される。話者識別サーバ１００および端末２００は、ネットワーク３００を介して、互いに通信できるように接続されている。

図１に示されるように、話者識別サーバ１００は、ネットワーク３００に接続されている。話者識別サーバ１００は、ネットワーク３００を介して、１以上の端末２００に通信接続する。より具体的には、話者識別サーバ１００は、ネットワーク３００経由で、端末２００により入力された音声データに対して、話者識別を行うサーバ装置である。１台の話者識別サーバに対して、１台以上の任意の台数の端末２００を接続することができる。

図１に示されるように、話者識別サーバ１００は、テキスト提示部１０１と、音声認識部１０２と、登録音声評価部１０３と、辞書登録部１０４と、話者識別部１０５と、登録対象テキスト記録部１０６と、音声一時記録部１０７と、話者識別辞書１０８とを備えている。

図１に示されるように、テキスト提示部１０１は、音声認識部１０２、登録音声評価部１０３、辞書登録部１０４および登録対象テキスト記録部１０６に接続されている。テキスト提示部１０１は、予め設定されたテキストデータである登録対象テキストデータ（文字または記号を含むデータ）を登録話者に提供する。より具体的には、テキスト提示部１０１は、ネットワーク３００を介して、端末２００を利用する登録話者に、登録対象テキストデータを提供し、登録話者に登録対象テキストデータの読み上げを促す。なお、登録話者は、端末２００の利用者であって、自身の音声を話者識別サーバ１００に登録する者である。登録対象テキストデータは、予め設定されたテキストデータであって、基準となるテキストデータである。登録対象テキストデータは、事前に任意に設定することができる。

図１に示されるように、音声認識部１０２は、テキスト提示部１０１、登録音声評価部１０３および辞書登録部１０４に接続されている。音声認識部１０２は、登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。すなわち、登録話者が端末２００を用いて基準テキストデータを読み上げると、端末２００は、登録話者により読み上げられることにより入力される音声を、登録音声として、ネットワーク３００を介して、話者識別サーバ１００へ送信する。そして音声認識部１０２は、音声認識（speech-to-text）により、登録対象テキストデータの読み上げ結果である登録音声からテキストデータを、抽出テキストデータとして抽出する。

図１に示されるように、登録音声評価部１０３は、テキスト提示部１０１、音声認識部１０２、辞書登録部１０４、登録対象テキスト記録部１０６および音声一時記録部１０７に接続されている。登録音声評価部１０３は、音声認識部１０２により抽出された抽出テキストデータと、登録対象テキストデータとの間の類似度を示す登録音声スコアを、登録話者毎に算出する。すなわち、登録音声評価部１０３は、登録音声からのテキスト抽出結果（抽出テキストデータ）と、登録対象テキストデータとを比較することにより、登録音声の品質を示す指標として、登録音声スコアを算出する。

図１に示されるように、辞書登録部１０４は、テキスト提示部１０１、音声認識部１０２、登録音声評価部１０３、話者識別部１０５および話者識別辞書１０８に接続されている。辞書登録部１０４は、登録音声評価部１０３の評価結果に応じて、話者識別辞書１０８に、登録音声の特徴量を登録する。より具体的には、登録音声評価部１０３により算出された登録音声スコアが所定の基準値より大きい場合、辞書登録部１０４は話者識別辞書１０８に登録音声の特徴量を登録する。すなわち、辞書登録部１０４は、登録音声評価部１０３により算出された登録音声スコアが基準値以上である登録音声から特徴量を抽出し、この抽出情報を話者識別辞書１０８に登録する。

図１に示されるように、話者識別部１０５は、辞書登録部１０４および話者識別辞書１０８に接続されている。話者識別部１０５は、端末２００により入力される識別対象音声に基づいて、話者識別辞書１０８を参照して、識別対象音声の主がどの登録話者なのかを識別する。

図１に示されるように、登録対象テキスト記録部１０６は、テキスト提示部１０１および登録音声評価部１０３に接続されている。登録対象テキスト記録部１０６は、ストレージ装置（または、ストレージ装置内の一部の領域）であって、登録対象テキストデータを記憶する。登録対象テキストデータは、テキスト提示部１０１により参照される。

図１に示されるように、音声一時記録部１０７は、登録音声評価部１０３に接続されている。音声一時記録部１０７は、ストレージ装置（または、ストレージ装置内の一部の領域）であって、端末２００により入力される登録音声を一時的に記録する。

図１に示されるように、話者識別辞書１０８は、辞書登録部１０４および話者識別部１０５に接続されている。話者識別辞書１０８は、登録話者毎に登録音声の特徴量を登録するための辞書である。

図１に示されるように、端末２００は、ネットワーク３００に接続されている。端末２００は、ネットワーク３００を介して、話者識別サーバ１００に通信接続する。端末２００は、マイク等の入力装置（図１にて不図示）と、液晶ディズプレイ等の出力装置（図１にて不図示）を備えている。また、端末２００は、ネットワーク３００を介して話者識別サーバ１００と情報の送受を行う送受信機能を有する。端末２００は、たとえば、ＰＣ（Personal Computer）、電話機、携帯電話機、スマートフォンなどである。

以上、話者識別システム１０００の構成について説明した。

次に、話者識別サーバ１００の動作について説明する。話者識別サーバ１００の動作は、登録フェーズと識別フェーズの２種類の動作を含んでいる。

まず、話者識別サーバ１００の登録フェーズの動作について説明する。登録フェーズは、登録話者により端末２００に対して行われる話者登録操作を起点に、開始される。以下の説明では、登録対象テキストは、複数個のテキストにより構成されるものとする。

図３は、話者識別サーバ１００の登録フェーズの動作フローを示す図である。

図３に示されるように、まず、話者識別サーバ１００は、端末２００により送信される話者登録要求に応答して、登録対象テキストデータを端末２００に送信する（ステップ（ＳＴＥＰ：以下、単にＳと称する。）１１）。このとき、テキスト提示部１０１は、登録対象テキスト記録部１０６に予め格納された登録対象テキストデータを取得し、この登録対象テキストデータを、端末２００の利用者である登録話者に提供する。このＳ１１の処理は、図２のテキスト提示処理（処理１）に対応する。

次に、端末２００は、テキスト提示部１０１により提供された登録対象テキストデータを受信し、端末２００の利用者である登録話者に対して、登録対象テキストデータの読み上げを依頼する。登録話者が登録対象テキストデータを読み上げると、端末２００は、登録話者が読み上げた結果の音声データを、登録音声として、話者識別サーバ１００へ送信する。この処理は、図２の音声入力処理（処理２）に対応する。

なお、Ｓ１１において、話者サーバ１００から端末２００に登録対象テキストデータを電文として送信するか、あるいは事前に登録対象テキストデータを紙に印刷した形(以下、登録対象テキスト紙)で利用者に配付しても良い。後者の場合、登録対象テキスト紙には、個々の登録対象テキストに番号を付加した形で印刷しておき、本ステップでは話者識別サーバから端末に対して読み上げ対象の番号を送信する。

次に、話者識別サーバ１００は、端末２００により送信された登録音声を受信する（Ｓ１２）。ここでは、端末２００から話者識別サーバ１００に入力される登録音声の信号は、ＰＣＭ(Pulse Code Modulation)やＧ．７２９などの符号化方式で表現されたデジタル信号、またはアナログ音声信号のいずれでも良い。また、ここで入力される音声信号をＳ１３以降の処理に先立って変換しても良い。例えば、話者識別サーバ１００は、Ｇ．７２９符号化方式による音声信号を受理し、Ｓ１２とＳ１３の間で音声信号をリニアＰＣＭに変換した後で、これを音声認識処理（Ｓ１３）および辞書登録処理(Ｓ１８)に適合するように構成しても良い。

音声認識部１０２は、音声認識により、登録音声から抽出テキストデータを抽出する（Ｓ１３）。このＳ１３の処理では、既知の音声認識技術を用いる。音声認識技術には、利用者の事前登録(エンロール、enroll) を必要とするものとしないものがあるが、本発明では事前登録を必要としない技術を用いる。このＳ１３の処理は、図２のテキスト抽出処理（処理３）に対応する。

次に、登録音声評価部１０３は、音声認識部１０２により抽出された抽出テキストデータと、登録対象テキストデータとを比較して、両者間の類似度を示す登録音声スコアを登録話者毎に算出する（Ｓ１４）。このＳ１４処理は、図２の比較→スコア算出処理（処理４）に対応する。

ここで、Ｓ１４のスコア算出処理について、図４および図５に基づいて、具体的に説明する。

図４および図５は、登録音声評価部１０３によるスコア算出処理を説明するための図である。

図４は、登録対象テキストデータが日本語の場合を示している。図４の上段には、正解テキストとして、［Ａ］登録対象テキストデータを示す。図４の下段には、［Ｂ］登録音声からのテキスト抽出結果（抽出テキストデータ）を示す。

既知の音声認識技術では、音声認識結果[Ｂ]は、辞書を用いて、単語単位で、かな漢字交じりの文章として、表現される。

正解テキストとして用いる登録対象テキスト[Ａ]は、これに合わせて事前に、単語単位に分割した状態で、登録対象テキスト記録部１０６に記録しておく。Ｓ１４では、登録音声評価部１０３は、単語ごとに、登録対象テキストデータ[Ａ]と抽出テキストデータ[Ｂ]を比較する。そして、登録音声評価部１０３は、登録対象テキストデータ[Ａ]と抽出テキストデータ[Ｂ]の比較結果に基づいて、登録対象テキストデータ[Ａ]中の全単語数のうち、抽出テキストデータ[Ｂ]と一致した単語数の割合を登録音声スコアとして算出する。図４の例では、４単語中３単語が一致しているので、スコアは３／４＝０．７５となる。

図５は、登録対象テキストが英語の場合を示している。図５の上段には、正解テキストとして、［Ａ］登録対象テキストデータを示す。図５の下段には、［Ｂ］登録音声からのテキスト抽出結果（抽出テキストデータ）を示す。

図４の例と同様に、登録音声評価部１０３は、単語ごとに、登録対象テキストデータ[Ａ]と抽出テキストデータ[Ｂ]を比較する。そして、登録音声評価部１０３は、登録対象テキストデータ[Ａ]と抽出テキストデータ[Ｂ]の比較結果に基づいて、登録対象テキストデータ[Ａ]中の全単語数のうち、抽出テキストデータ[Ｂ]と一致した単語数の割合を登録音声スコアとして算出する。図５の例では、４単語中３単語が一致しているので、スコアは３／４＝０．７５となる。

図３に戻って、辞書登録部１０４は、登録音声評価部１０３により算出された登録音声スコアが所定の閾値（基準値）より大きいか否かを判断する（Ｓ１５）。

登録音声評価部１０３により算出された登録音声スコアが所定の閾値（基準値）より大きい場合（Ｓ１５、ＹＥＳ）、辞書登録部１０４は話者識別辞書１０８に登録音声を音声一時記録部１０７に登録する（Ｓ１６）。

登録音声評価部１０３により算出された登録音声スコアが所定の閾値（基準値）より大きくない場合（Ｓ１５、ＮＯ）、話者識別サーバ１００は、Ｓ１１の処理以降の処理を繰り返す。

話者識別サーバ１００は、登録対象の利用者（登録話者）について、すべての登録対象テキストデータに対応する登録音声が、音声一時記録部１０７に格納されたか否かを判断する（Ｓ１７）。

登録対象の利用者（登録話者）について、すべての登録対象テキストデータに対応する登録音声が音声一時記録部１０７に格納された場合（Ｓ１７、ＹＥＳ）、辞書登録部１０４は話者識別辞書１０８に登録音声を登録する（Ｓ１８）。このＳ１８は、図２の辞書登録処理（処理５）に対応する。

登録対象の利用者（登録話者）について、すべての登録対象テキストデータに対応する登録音声が音声一時記録部１０７に格納されていない場合（Ｓ１７、ＮＯ）、話者識別サーバ１００は、Ｓ１１の処理に戻り、他の登録対象テキストデータに対する処理を行う。

このＳ１７における繰り返しの制御について、図６を用いて、具体例を説明する。図６は、音声一時記録部１０７に格納された情報を示す図である。

図６では、ユーザ（登録話者）のＩＤ「０００１４５」と、登録対象テキストデータＩＤ１〜５の組のそれぞれについて、対応する登録音声が音声一時記録部１０７に格納済みか否か(true/false)を示している。この例では、登録対象テキストデータ１および２については格納済みで、登録対象テキストデータ３〜５については未格納であるため、話者識別サーバ１００は、登録対象テキストデータ３〜５のいずれかを対象としてＳ１１以降の処理を繰り返し行う。

図３に戻って、最後に、登録対象の利用者（登録話者）について、音声一時記録部１０７に格納された登録音声全てを削除する（Ｓ１９）。

以上、話者識別サーバ１００の登録フェーズの動作について説明した。

次に、話者識別サーバ１００の識別フェーズの動作について説明する。図７は、話者識別サーバ１００の登録フェーズの動作フローを示す図である。なお、話者識別サーバ１００の識別フェーズは、図８の登録フェーズの処理と同様である。

図７に示されるように、まず、話者識別サーバ１００は、端末２００から送信される話者識別要求を受信する（Ｓ２１）。話者識別要求には、パラメータとして、端末２００により録音された音声データ（識別対象音声）が含まれている。

次に、話者識別サーバ１００の話者識別部１０５は、話者識別辞書１０８を参照して登録話者を識別する（Ｓ２２）。すなわち、話者識別部１０５は、Ｓ２１で得られた識別対象音声の特徴量と、話者識別辞書１０８に登録された登録音声の特徴量とを照合する。これにより、話者識別部１０５は、識別対象音声が話者識別辞書１０８内のいずれかのユーザＩＤ（Identifier）の登録音声とマッチするか否かを判定する。

最後に、話者識別サーバ１００は、話者識別部１０５の識別結果を、端末２００へ送信する（Ｓ２３）。

以上、話者識別サーバ１００の識別フェーズの動作について説明した。

以上の通り、本発明の第１の実施の形態における話者識別サーバ１００（話者識別装置）は、音声認識部１０２と、登録音声評価部１０３と、辞書登録部１０４とを備えている。音声認識部１０２は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価部１０３は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を、登録話者毎に算出する。辞書登録部１０４は、登録音声評価部１０３の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書１０８に、登録音声の特徴量を登録する。

このように、話者識別サーバ１００（話者識別装置）では、登録対象テキストデータが登録話者により読み上げられて得られる登録音声からテキスト抽出を行う。そして、テキスト抽出結果である抽出テキストデータと登録対象テキストデータの類似度を示すスコアの算出結果に基づいて、登録音声の特徴量を話者識別辞書１０８に登録する。テキスト抽出結果である抽出テキストデータが、登録対象テキストデータと高い割合で一致する場合、この抽出テキストデータに対応する登録音声は明瞭に発音され、かつ、雑音レベルも十分に低いと推定できる。また、登録音声評価部１０３は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を算出し、辞書登録部１０４は、登録音声評価部１０３の評価結果に応じて、登録話者毎に話者識別辞書１０８に、登録音声の特徴量を登録する。これにより、登録音声評価部１０３の評価結果が好ましい場合の登録音声は、話者識別辞書１０８に登録されるが、登録音声評価部１０３の評価結果が好ましくない場合の登録音声は、話者識別辞書１０８に登録されない。したがって、話者識別辞書１０８には、十分な品質の登録音声のみを登録することができる。これにより、不十分な品質の登録音声に起因する識別誤りを抑制することができる。

このように、本発明の第１の実施の形態における話者識別サーバ１００（話者識別装置）によれば、不十分な品質の登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。よって、特許文献２に記載の評価技術のように、誤って別人が同一人物と判定されたり、本人を識別できなかったりすることは低減された。

また、本発明の第１の実施の形態における話者識別サーバ１００（話者識別装置）において、辞書登録部１０４は、スコア（登録音声スコア）が所定の基準値より大きい場合、話者識別辞書１０８に、登録音声の特徴量を登録する。

このように、話者識別辞書１０８に登録音声の特徴量を登録する判断基準であるスコア（登録音声スコア）を定量的に判断することにより、話者識別辞書１０８に登録される登録音声の品質をより定量的に高めることができる。したがって、不十分な品質の登録音声に起因する識別誤りをより効果的に抑制し、より安定して正確に話者を識別することができる。

本発明の第１の実施の形態における話者識別サーバ１００（話者識別装置）は、テキスト提示部１０１を備えている。テキスト提示部１０１は、登録対象テキストデータを登録話者に提供する。これにより、登録対象テキストデータをより円滑に登録話者に提供することができる。

本発明の第１の実施の形態における話者識別サーバ１００（話者識別装置）において、登録音声評価部１０３は、単語毎に、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を、登録話者毎に算出する。このように、単語毎にスコアを算出するので、抽出テキストデータと登録対象テキストデータとをより精度高く比較することができる。

本発明の第１の実施の形態における話者識別サーバ１００（話者識別装置）において、辞書登録部１０４は、単語毎のスコアの全てが所定の基準値より大きい場合、話者識別辞書１０８に、登録音声の特徴量を登録する。これにより、話者識別辞書１０８に登録される登録音声の品質をより高めることができる。

本発明の第１の実施の形態における話者識別用の登録音声の特徴量登録方法は、音声認識ステップと、登録音声評価ステップと、辞書登録ステップとを含む。音声認識ステップでは、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価ステップでは、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を、登録話者毎に算出する。辞書登録ステップでは、登録音声評価ステップの評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。この方法によっても、前述した話者識別サーバ１００（話者識別装置）の効果と同様の効果を奏することができる。

本発明の第１の実施の形態における話者識別用の登録音声の特徴量登録プログラムは、前述の音声認識ステップと、前述の登録音声評価ステップと、前述の辞書登録ステップとを含む処理をコンピュータに実行させる。このプログラムによっても、前述した話者識別サーバ１００（話者識別装置）の効果と同様の効果を奏することができる。

本発明の第１の実施の形態における記憶媒体は、前述の音声認識ステップと、前述の登録音声評価ステップと、前述の辞書登録ステップとを含む処理をコンピュータに実行させるプログラムを記憶する。この記憶媒体によっても、前述した話者識別サーバ１００（話者識別装置）の効果と同様の効果を奏することができる。

＜第２の実施の形態＞
次に、本発明の第２の実施の形態における話者識別サーバの構成について、説明する。

第１の実施の形態では、登録音声の評価基準として、登録音声から音声認識により抽出したテキストデータと、正解テキストとして登録対象テキストデータとの比較を用いていた。ここで、正解テキストとしての登録対象テキストデータは、図３のＳ１１における登録対象テキストデータを指す。

この第２の実施の形態では、登録音声の評価基準として、登録音声に含まれる音素 (例: a, i, u, e, o, k, s, …) の種類を用いる。具体的には、登録音声を音声認識した結果抽出される各音素の出現回数をカウントし、すべての種類の音素について出現回数が基準回数 (例えば５回)に達していれば、十分な情報を含むと判定する。この条件を満たさない場合に、利用者に対して追加の登録音声の入力を依頼し、前回までの登録音声に含まれる音素数と合算して基準回数（基準音素数）に達しているか否かを判定しても良い。

本発明の第２の実施の形態における話者識別サーバ（話者識別装置）において、登録音声評価部は、抽出テキストデータに含まれる音素の数を、予め設定された基準音素数と比較する。

これにより、スコアの算出に正解テキスト(すなわち登録対象テキスト)を無くすことができる。このため、登録話者は、話者登録時に任意の文章を読み上げることができる。

＜第３の実施の形態＞
本発明の第３の実施の形態における話者識別サーバ１００Ａの構成について説明する。図８は、本発明の第３の実施の形態における話者識別サーバ１００Ａの構成を示す図である。なお、図８では、図１〜図７で示した各構成要素と同等の構成要素には、図１〜図７に示した符号と同等の符号を付している。

図８に示されるように、話者識別サーバ１００Ａは、音声認識部１０２と、登録音声評価部１０３と、辞書登録部１０４とを備えている。図１のように図示しないが、音声認識部１０２と登録音声評価部１０３と辞書登録部１０４は、互いに接続されている。音声認識部１０２、登録音声評価部１０３および辞書登録部１０４は、第１の実施の形態における話者識別サーバ１００に含まれる構成要素と同一である。すなわち、話者識別サーバ１００Ａは、話者識別サーバ１００の一部の構成要素のみで構成されている。

音声認識部１０２は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。

登録音声評価部１０３は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコアを、登録話者毎に算出する。

辞書登録部１０４は、登録音声評価部１０３の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。

以上の通り、本発明の第３の実施の形態における話者識別サーバ１００（話者識別装置）は、音声認識部１０２と、登録音声評価部１０３と、辞書登録部１０４とを備えている。音声認識部１０２は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価部１０３は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を、登録話者毎に算出する。辞書登録部１０４は、登録音声評価部１０３の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。

このように、話者識別サーバ１００Ａ（話者識別装置）では、登録対象テキストデータが登録話者により読み上げられて得られる登録音声からテキスト抽出を行う。そして、テキスト抽出結果である抽出テキストデータと登録対象テキストデータの類似度を示すスコアの算出結果に基づいて、登録音声の特徴量を話者識別辞書に登録する。テキスト抽出結果である抽出テキストデータが、登録対象テキストデータと高い割合で一致する場合、この抽出テキストデータに対応する登録音声は明瞭に発音され、かつ、雑音レベルも十分に低いと推定できる。また、登録音声評価部１０３は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を算出し、辞書登録部１０４は、登録音声評価部１０３の評価結果に応じて、登録話者毎に話者識別辞書に、登録音声の特徴量を登録する。これにより、登録音声評価部１０３の評価結果が好ましい場合の登録音声は、話者識別辞書に登録されるが、登録音声評価部１０３の評価結果が好ましくない場合の登録音声は、話者識別辞書に登録されない。したがって、話者識別辞書には、十分な品質の登録音声のみを登録することができる。これにより、不十分な品質の登録音声に起因する識別誤りを抑制することができる。

このように、本発明の第３の実施の形態における話者識別サーバ１００Ａ（話者識別装置）によれば、不十分な品質の登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。よって、特許文献２に記載の評価技術のように、誤って別人が同一人物と判定されたり、本人を識別できなかったりすることは低減された。

本発明の実施の形態１〜３における話者識別技術は、話者識別の応用分野全般への利用が可能である。具体例として、次のものを含む。（１）電話などの音声通話において、通話音声から通話相手を識別するサービス、（２）声の特徴を利用して建物や部屋への入退場を管理する装置、（３）電話会議・テレビ会議・映像作品において、発言者名と発言内容の組をテキストとして抽出するサービス。

なお、特許文献３〜５と本発明の対比は、以下の通りである。

特許文献３には、音声認識結果（音声認識の結果得られるテキスト）と正解テキスト（比較の基準となるテキスト）との比較や、認識信頼度に基づいて、スコアを算出する技術が、開示されている（特に、段落［０００９］、［００１１］、［００１３］）。しかし、特許文献３に記載の技術は、音声認識の結果を評価するための一般的な方法であり、本発明と直接的には関係ない。また、特許文献３には、スコア算出結果が閾値未満である場合、話者登録学習を適用し、登録対象の話者に対して、特定の単語について発声を促し、その結果を用いて発音辞書を更新するという処理が、開示されている。

しかし、少なくとも、登録音声評価部１０３が単語毎に抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を登録話者毎に算出する技術は、特許文献３には開示されていない。

すなわち、既知の話者識別技術では、同一話者について、単語単位などの短い音声を逐次的に識別辞書に登録するのではなく、ある程度の長さ (典型的には数分程度) を持つ音声を一度に登録する必要がある。

特許文献４には、ユーザが発声した音声と、それに対応するテキストを入力させ、前者について話者性を取り除いた後の音声特徴量と、後者のテキストの対応関係を認識辞書に記憶するという動作が、開示されている（特に段落［００２４］）。また、音声認識の対象となる音声信号について、話者認識の結果である話者ラベルを用いて、適用すべき正規化パラメータを特定する処理が開示されている（特に［００４０］）。しかしながら、少なくとも、登録音声評価部１０３が単語毎に抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア（登録音声スコア）を登録話者毎に算出する技術は、特許文献４には開示されていない。

特許文献５には、新規登録ユーザにランダムなテキストを提示して、それに対応する音声入力を促し、その結果を用いて個人用辞書を作成する動作が、開示されている（段落［００１６］）。また、不特定話者音声辞書と音声データとの照合結果である照合スコアを算出し、個人用辞書の一部として登録する動作が、開示されている（特に段落［００２２］）。

しかしながら、特許文献５には、同一話者について複数の部分テキストを提示する技術は開示されていない。

さらに、特許文献５には、正規化スコアと閾値との大小関係により、本人か否かを判定する動作が開示されている（特に段落［００２４］）。これは話者照合における一般的な動作(本件の図８に記載した技術の「識別フェーズ」に相当)である。

以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１４年１２月１１日に出願された日本出願特願２０１４−２５０８３５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００、１００Ａ話者識別サーバ
１０１テキスト提示部
１０２音声認識部
１０３登録音声評価部
１０４辞書登録部
１０５話者識別部
１０６登録対象テキスト記録部
１０７音声一時記録部
１０８話者識別辞書
２００端末
３００ネットワーク

Claims

事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する音声認識手段と、
前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する登録音声評価手段と、
前記登録音声評価手段の評価結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する辞書登録手段とを備えた話者識別装置。
前記辞書登録手段は、前記スコアが所定の基準値より大きい場合、前記話者識別辞書に、前記登録音声の特徴量を登録する請求項１に記載の話者識別装置。
前記登録対象テキストデータを前記登録話者に提供するテキスト提供手段を備えた請求項１または２に記載の話者識別装置。
前記登録音声評価手段は、単語毎に、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する請求項１〜３のいずれか１項に記載の話者識別装置。
前記辞書登録手段は、前記単語毎の前記スコアの全てが所定の基準値より大きい場合、前記話者識別辞書に、前記登録音声の特徴量を登録する請求項４に記載の話者識別装置。
前記登録音声評価手段は、前記抽出テキストデータに含まれる音素の数と、予め設定された基準音素数と比較する請求項１に記載の話者識別装置。
事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、
前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、
前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する話者識別用の登録音声の特徴量登録方法。
事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、
前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、
前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する処理をコンピュータに実行させるプログラム。