JP2020067566A

JP2020067566A - 情報処理方法、情報処理装置、及び、プログラム

Info

Publication number: JP2020067566A
Application number: JP2018200354A
Authority: JP
Inventors: 美沙貴辻川; Misaki Tsujikawa
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2020-04-30
Anticipated expiration: 2038-10-24
Also published as: US20200135211A1; JP7376985B2; US11417344B2

Abstract

【課題】話者識別の精度を向上できる情報処理方法等を提供する。【解決手段】音声入力部に入力された音声の音声区間を検出する検出ステップ（Ｓ１０）と、検出された音声区間から、音声の話者を特定できる第１特徴量を抽出する特徴量抽出ステップ（Ｓ１１）と、抽出された第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第２特徴量とを比較する比較処理を行う比較ステップ（Ｓ１２）と、連続する複数の音声区間のそれぞれごとに比較処理を行い、所定条件下において、記憶部に保存されている第２特徴量のうち第１特徴量との類似度が閾値以下である１以上の第２特徴量を削除することで１以上の第２特徴量から特定される登録話者を削除する登録話者決定ステップとを含む（Ｓ１３）。【選択図】図４

Description

本開示は、情報処理方法、情報処理装置、及び、プログラムに関し、特に話者識別における登録話者を決定するための情報処理方法、情報処理装置、及び、プログラムに関する。

話者識別技術は、人間の音声の特徴から、コンピュータで発話者を識別する技術である。

例えば特許文献１には、話者識別の精度を高める技術が提案されている（例えば特許文献１）。特許文献１に開示される技術では、音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度に基づいて、人間の音声の音響的特徴である認識特徴量を補正することで、話者識別の精度を高めることができる。

特開２０１６−０７５７４０号公報

Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798.

ところで、例えば会議などにおいて、会話での話者識別を行うためには、事前に話者の登録を行うなどにより会議への参加者を明確にした上で話者認識を行う。しかしながら、上記特許文献１で提案される方法でも、識別対象の話者数が多いと、話者識別の精度が低下してしまうという課題がある。話者識別は登録話者数が多ければ多いほど誤識別が多くなるからである。

本開示は、上述の事情を鑑みてなされたもので、話者識別の精度を向上できる情報処理方法、情報処理装置及びプログラムを提供することを目的とする。

本開示の一態様に係る情報処理方法は、コンピュータが行う情報処理方法であって、音声入力部に入力された音声の音声区間を検出する検出ステップと、検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出ステップと、抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第２特徴量とを比較する比較処理を行う比較ステップと、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下である１以上の第２特徴量を削除することで前記１以上の第２特徴量から特定される登録話者を削除する登録話者決定ステップとを含む。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示の情報処理方法等によれば、話者識別の精度を向上できる。

実施の形態１に係る登録話者推定システムの使用場面の一例を示す図である。実施の形態１に係る登録話者推定システムの構成の一例を示すブロック図である。実施の形態１に係る検出部が検出した音声区間の一例を示す図である。実施の形態１に係る情報処理装置の動作の概要を示すフローチャートである。実施の形態１に係る情報処理装置の詳細動作の一態様を示すフローチャートである。実施の形態１に係る情報処理装置の詳細動作の別の態様を示すフローチャートである。実施の形態１に係る事前登録の処理を示すフローチャートである。実施の形態２に係る登録話者推定システムの構成の一例を示すブロック図である。実施の形態２に係る情報処理装置の動作の概要を示すフローチャートである。実施の形態２に係るステップＳ３０の詳細動作の一態様を示すフローチャートである。実施の形態２に係る情報処理装置が検出した音声区間の一例を示す図である。

（本開示の基礎となった知見）
従来、例えば会議などにおいて、会話での話者識別を行うためには、事前に話者の登録を行うなどにより会議への参加者を明確にした上で話者認識を行っていた。しかし、話者識別は登録話者数が多ければ多いほど誤識別が多くなり、話者識別の精度が低下する傾向があった。つまり、識別対象の話者数が多いと、話者識別の精度が低下してしまう。

一方、多人数が参加する会議では、人によって発話タイミングが限られることが経験的に知られている。したがって、全ての参加者を常に識別対象とする必要がないと想到するに至った。換言すると、適切な登録話者を取捨選択することにより、話者識別の精度が低下することが抑制できるので、話者識別の精度の向上を図ることができることを想到するに至った。

ここで、本開示の一態様に係る情報処理方法は、コンピュータが行う情報処理方法であって、音声入力部に入力された音声の音声区間を検出する検出ステップと、検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出ステップと、抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第２特徴量とを比較する比較処理を行う比較ステップと、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下である１以上の第２特徴量を削除することで前記１以上の第２特徴量から特定される登録話者を削除する登録話者決定ステップとを含む。

本態様によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。

また、例えば、前記登録話者決定ステップでは、さらに、前記比較処理の結果、前記記憶部に保存されているすべての前記第２特徴量と前記第１特徴量との類似度が前記閾値以下であった場合、前記第１特徴量を、新たな登録話者の音声を特定できる特徴量として、前記記憶部に保存するとしてもよい。

また、例えば、前記登録話者決定ステップでは、さらに、前記記憶部に保存されている前記第２特徴量のうち、前記第１特徴量との類似度が前記閾値より高い第２特徴量があった場合、前記閾値より高い第２特徴量を、前記閾値より高い第２特徴量と前記第１特徴量とを合わせた特徴量に更新することで、前記記憶部に保存されている、前記閾値より高い第２特徴量から特定される登録話者を更新するとしてもよい。

また、例えば、前記記憶部には、予め前記第２特徴量が保存されているとしてもよい。

また、例えば、さらに、前記登録話者決定ステップをコンピュータが行う前に、登録話者の対象者それぞれに第１音声を発せさせることで前記音声入力部に前記第１音声を入力させ、入力させた前記第１音声の第１音声区間を検出し、検出した前記第１音声区間から、前記登録話者の対象者それぞれを特定できる発話の特徴量を抽出し、抽出した特徴量を前記第２特徴量として前記記憶部に保存する登録話者登録ステップを含むとしてもよい。

また、例えば、前記登録話者決定ステップでは、前記所定条件下として、連続した前記音声区間におけるｍ（ｍは２以上の整数）回の前記比較処理を通して、前記第１特徴量との類似度が閾値より以下である１以上の第２特徴量があった場合、前記１以上の第２特徴量から特定される登録話者を削除するとしてもよい。

また、例えば、前記登録話者決定ステップでは、前記記憶部に、前記第２特徴量として、話者識別の対象である２以上の登録話者それぞれを特定できる第２特徴量が保存されている場合に、前記１以上の第２特徴量から特定される登録話者を削除する処理を行うとしてもよい。

また、例えば、前記検出ステップでは、前記音声入力部に入力された音声の音声区間を時系列に連続して検出するとしてもよい。

また、例えば、前記検出ステップでは、前記音声入力部に入力された音声の音声区間を所定間隔で検出するとしてもよい。

本開示の一態様に係る情報処理装置は、音声入力部に入力された音声の音声区間を検出する検出部と、検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出部と、抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第２特徴量とを比較する比較処理を行う比較部と、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下の１以上の第２特徴量から特定される登録話者を削除する登録話者決定部とを備える。

また、本開示の一態様に係るプログラムは、音声入力部に入力された音声の音声区間を検出する検出ステップと、検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出ステップと、抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第２特徴量とを比較する比較処理を行う比較ステップと、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下の１以上の第２特徴量から特定される登録話者を削除する登録話者決定ステップとを含む情報処理方法をコンピュータに実行させる。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
以下では、図面を参照しながら、実施の形態１における情報処理等の説明を行う。

［登録話者推定システム１］
図１は、実施の形態１に係る登録話者推定システム１の使用場面の一例を示す図である。図２は、実施の形態１に係る登録話者推定システム１の構成の一例を示すブロック図である。

図１に示すように、本実施の形態に係る登録話者推定システム１（不図示）は、例えば話者Ａ、話者Ｂ、話者Ｃ及び話者Ｄで示される４人が参加する会議などにおいて用いられる。なお、会議に参加する人数は４人に限らない。２人以上であればよい。図１には、登録話者推定システム１を構成する音声入力部１１として会議用マイクロフォンが設置されている例が示されている。

図２に示すように、本実施の形態に係る登録話者推定システム１は、情報処理装置１０と、音声入力部１１と、保存装置１２と、記憶部１３と、を備える。以下、各構成要素について説明する。

［音声入力部１１］
音声入力部１１は、例えばマイクロフォンからなり、話し手が発話した音声が入力される。音声入力部１１は、入力された音声を音声信号に変換して情報処理装置１０に出力する。

［情報処理装置１０］
情報処理装置１０は、例えば、プロセッサ（マイクロプロセッサ）、メモリ、通信インタフェース等を備えるコンピュータで実現される。情報処理装置１０は、サーバに含まれて動作するとしてもよいし、情報処理装置１０の一部構成がクラウドサーバに含まれ動作するとしてもよい。情報処理装置１０は、識別対象の登録話者を取捨選択する処理を行う。

本実施の形態では、情報処理装置１０は、図２に示すように、検出部１０１と、特徴量抽出部１０２と、比較部１０３と、登録話者決定部１０４とを備える。ここで、情報処理装置１０は、記憶部１３及び保存装置１２をさらに備えるとしてもよいが、必須の構成でない。

＜検出部１０１＞
図３は、実施の形態１に係る検出部１０１が検出した音声区間の一例を示す図である。

検出部１０１は、音声入力部１１に入力された音声の音声区間を検出する。より具体的には、検出部１０１は、音声区間検出技術を用いて、音声入力部１１から取得した音声信号から、音声が発話された区間である音声区間を検出する。ここで、音声区間検出技術は、音声と雑音とが含まれる信号から音声が存在する区間とそれ以外の区間とを判別する技術である。また、音声入力部１１が出力する音声信号は、一般的に、音声と雑音とを含む信号となる。

本実施の形態では、検出部１０１は、例えば図３に示すように、音声入力部１１から取得した音声信号から、一定の発話区間で区切った音声区間１、…、音声区間ｎ、音声区間ｎ+１を検出する。音声区間１、…、音声区間ｎ+１はそれぞれ例えば２秒間である。なお、検出部１０１は、音声入力部１１に入力された音声の音声区間を時系列に連続して検出してもよい。この場合、情報処理装置１０はリアルタイムに適切な登録話者を取捨選択できる。また、検出部１０１は、音声入力部１１に入力された音声の音声区間を所定間隔で検出してもよい。この場合、所定間隔を２秒などに設定してもよい。これにより、情報処理装置１０は、リアルタイムではないものの、話者の発話タイミングに応じて、適切な登録話者を取捨選択できる。そして、情報処理装置１０は、演算コストを抑制することができる。

＜特徴量抽出部１０２＞
特徴量抽出部１０２は、検出部１０１により検出された音声区間から、その音声の話者を特定できる第１特徴量を抽出する。より具体的には、特徴量抽出部１０２は、検出部１０１が検出した音声信号を取得することによって、その音声信号に示される発話を取得する。つまり、特徴量抽出部１０２は、発話を音声信号として取得する。そして、特徴量抽出部１０２は、取得した発話から、その発話の特徴量を抽出する。この特徴量は、例えば、特徴ベクトルであって、より具体的には、話者認識手法の一つとして用いられるｉ−Ｖｅｃｔｏｒである。なお、特徴量は、このような特徴ベクトルに限定されるものではない。

特徴量がｉ−Ｖｅｃｔｏｒとして表される場合、特徴量抽出部１０２は、ｉ−Ｖｅｃｔｏｒと呼ばれる式Ｍ＝ｍ＋Ｔｗで求められる特徴量ｗを、話者固有の特徴量として抽出する。

ここで、上記式におけるＭは、入力される話者個人を示す特徴量である。このＭは、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）及びＧＭＭスーパーベクトルなどを用いて表すことができる。ＧＭＭは、例えばＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）という音声の周波数スペクトルを分析して得られる数値列を正規分布の重なりで表現する手法である。また、ｍには、多数の話者音声からＭと同様にして得られる特徴量を使用して表すことができる。このｍにおけるＧＭＭはＵＢＭ（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ）と呼ばれる。ＴはＭで求められた一般的な話者の特徴量空間を網羅することができる基底ベクトルである。

＜比較部１０３＞
比較部１０３は、特徴量抽出部１０２により抽出された第１特徴量と、記憶部１３に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第２特徴量とを比較する比較処理を行う。比較部１０３は、連続する複数の音声区間のそれぞれごとに比較処理を行う。

本実施の形態では、比較部１０３は、例えば検出部１０１により検出された音声区間ｎから特徴量抽出部１０２が抽出した特徴量（第１特徴量）と、記憶部１３に保存されている、話者１モデル、話者２モデル、…、話者ｋモデルの第２特徴量とを比較する。ここで、話者１モデルは、第１話者の発話の特徴量（第２特徴量）のモデルである。同様に、話者２モデルは、第２話者の発話の特徴量のモデルであり、…、話者ｋモデルは、第ｋ話者の発話の特徴量のモデルである。第１話者〜第ｋ話者は、例えば図１に示す話者Ａ〜話者Ｄに示すように、会議などに参加している者である。

ここで、比較部１０３は、比較処理として、例えば音声区間ｎ+１から抽出された第１特徴量と記憶部１３に保存されている話者モデルの第２特徴量との類似度を算出する。第１特徴量及び第２特徴量がｉ−Ｖｅｃｔｏｒとして表される場合、第１特徴量及び第２特徴量は数百程度の数値列となる。この場合、比較部１０３は、例えば非特許文献１で示されるＣｏｓｉｎｅｄｉｓｔａｎｃｅｓｃｏｒｉｎｇによって簡易に類似度を算出することができる。Ｃｏｓｉｎｅｄｉｓｔａｎｃｅｓｃｏｒｉｎｇは類似度が高い場合は１に近い値となり、類似度が低い場合には−１に近い値となる。なお、類似度の算出手法は上記に限定されない。

同様に、比較部１０３は、例えば検出部１０１により検出された音声区間ｎ+１から抽出された第１特徴量と、記憶部１３に保存されている、話者１モデル、話者２モデル、…、話者ｋモデルの第２特徴量とを比較する。このようにして、比較部１０３は、記憶部１３に登録されている登録話者を示す話者モデルとの比較処理を繰り返す。

なお、比較部１０３は、比較処理として、特徴量抽出部１０２により抽出された第１特徴量と保存装置１２に保存されている、登録された登録話者の第２特徴量との類似度を算出してもよい。図２に示す例では、比較部１０３は、例えば検出部１０１により検出された音声区間ｎから特徴量抽出部１０２が抽出した第１特徴量と、保存装置１２に保存されている、話者１モデル、話者２モデル、…、話者ｎモデルの第２特徴量との類似度を算出して比較する。同様に、比較部１０３は、例えば検出部１０１により検出された音声区間ｎ+１から抽出された第１特徴量と、保存装置１２に保存されている、話者１モデル、話者２モデル、…、話者ｎモデルの第２特徴量との類似度を算出して比較する。このようにして、比較部１０３は、保存装置１２に保存されている登録話者を示す話者モデルとの比較処理を繰り返す。

＜登録話者決定部１０４＞
登録話者決定部１０４は、所定条件下において、記憶部１３に保存されている第２特徴量のうち第１特徴量との類似度が閾値以下である１以上の第２特徴量を削除することで、１以上の第２特徴量から特定される登録話者を削除する。ここで、登録話者決定部１０４は、所定条件下として、連続した音声区間におけるｍ（ｍは２以上の整数）回の比較処理を通して、第１特徴量との類似度が閾値以下である１以上の第２特徴量があった場合、当該１以上の第２特徴量から特定される登録話者を削除してもよい。また、登録話者決定部１０４は、所定条件下として、所定時間に行われた比較処理を通して、第１特徴量との類似度が閾値以下である１以上の第２特徴量がある場合、当該１以上の第２特徴量から特定される登録話者を削除してもよい。つまり、登録話者決定部１０４は、比較部１０３の比較処理が繰り返され、識別対象となる登録話者のうち１以上の登録話者の第２特徴量が抽出される音声区間が一定回数以上または一定時間連続して現れない場合、記憶部１３から当該１以上の登録者を削除してよい。

なお、登録話者決定部１０４は、記憶部１３に、話者識別の対象である２以上の登録話者それぞれを特定できる第２特徴量が保存されている場合に、１以上の第２特徴量から特定される登録話者を削除する処理を行ってよい。つまり、登録話者決定部１０４は、記憶部１３を参照し、識別対象となる登録話者が２人以上であれば、削除する処理を行ってもよい。

また、登録話者決定部１０４は、さらに、記憶部１３に保存されている第２特徴量のすべてと第１特徴量との類似度が閾値以下であった場合、第１特徴量を、識別対象となる新たな登録話者の音声を特定できる特徴量として記憶部１３に保存してもよい。つまり、登録話者決定部１０４は、比較処理がされた結果、ある音声区間において特徴量抽出部１０２により抽出された第１特徴量と、記憶部１３に保存されている、識別対象となる登録話者すべての第２特徴量との類似度が特定の値以下であったとする。この場合、当該第１特徴量を、第２特徴量とし記憶部１３に保存することで、当該第１特徴量で特定される話者を新たな登録話者として増やすことができる。なお、また、ある音声区間から抽出された第１特徴量と一致または特定の類似度よりも高い第２特徴量を有する話者モデルが保存装置１２に保存されているとする。この場合、登録話者決定部１０４は、保存装置１２に保存されている話者モデルを、識別対象となる新たな登録話者として記憶部１３に記憶してもよい。ある音声区間から抽出された第１特徴量と一致または特定の類似度よりも高い第２特徴量を有する話者モデルが保存装置１２に保存されているか否かは、上記の比較処理により判定することができる。

また、登録話者決定部１０４は、さらに、記憶部１３に保存されている第２特徴量のうちに、第１特徴量との類似度が閾値より高い第２特徴量があった場合、この閾値より高い第２特徴量を、閾値より高い第２特徴量と第１特徴量とを合わせた特徴量に更新してもよい。これにより、記憶部１３に保存されている、閾値より高い第２特徴量から特定される登録話者が更新される。つまり、登録話者決定部１０４は、比較処理がされた結果、記憶部１３に保存されている登録話者の第２特徴量のうち、ある音声区間において特徴量抽出部１０２により抽出された第１特徴量との類似度が特定の値以上の第２特徴量があった場合、当該第２特徴量を更新する。なお、記憶部１３に保存されている話者モデルとして、第２特徴量とともに当該第２特徴量が抽出された音声区間が保存されている場合もある。この場合、登録話者決定部１０４は、ある音声区間と、話者モデルとして保存されている音声区間とを合わせた音声区間を保存するとともに、合わせた音声区間から抽出した特徴量をその話者モデルの第２特徴量として保存（更新）してもよい。

［保存装置１２］
保存装置１２は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録された登録話者を記憶する。本実施の形態では、保存装置１２は、登録された登録話者として、登録話者それぞれに対応する話者モデルを記憶する。話者モデルは、対応する登録話者を識別（特定）するために用いられる、当該登録話者の発話の特徴量（第２特徴量）のモデルである。保存装置１２には、記憶部１３に一度以上登録された登録話者の話者モデルが保存されている。

図２に示す例では、保存装置１２は、第１話者の発話の第２特徴量のモデルである第１話者モデル、第２話者の発話の第２特徴量のモデルである第２話者モデル、…、第ｎ話者の発話の第２特徴量のモデルである第ｎ話者モデルが記憶されている。

［記憶部１３］
記憶部１３は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される記憶媒体であり、予め第２特徴量が保存されている。本実施の形態では、記憶部１３は、識別対象の登録話者を記憶する。より具体的には、記憶部１３は、識別対象の登録話者として、登録話者それぞれに対応する話者モデルを記憶する。つまり、記憶部１３には、識別対象とされる登録話者の話者モデルが記憶されている。

図２に示す例では、記憶部１３は、第１話者の発話の第２特徴量のモデルである話者１モデル、第２話者の発話の第２特徴量のモデルである話者２モデル、…、第ｋ話者の発話の第２特徴量のモデルである話者ｋモデルが記憶されている。これらの話者モデルの第２特徴量は予め保存すなわち事前登録されている。

［情報処理装置１０の動作］
次に、以上のように構成された情報処理装置１０の動作について説明する。

図４は、実施の形態１に係る情報処理装置１０の動作の概要を示すフローチャートである。

まず、情報処理装置１０は、音声入力部１１に入力された音声の音声区間を検出する（Ｓ１０）。次に、情報処理装置１０は、ステップＳ１０で検出した音声区間から、その音声の話者を特定できる第１特徴量を抽出する（Ｓ１１）。次に、情報処理装置１０は、ステップＳ１１で抽出した第１特徴量と、記憶部１３に保存されている、話者識別の対象である登録話者それぞれを特定できる第２特徴量とを比較する比較処理を行う（Ｓ１２）。次に、情報処理装置１０は、連続する複数の音声区間のそれぞれごとに比較処理を行い、登録話者を決定する（Ｓ１３）。

続いて、図５及び図６を用いてステップＳ１３等の詳細動作について説明する。図５は、実施の形態１に係る情報処理装置１０の詳細動作の一態様を示すフローチャートである。

まず、ステップＳ１０では、例えば、情報処理装置１０は、音声入力部１１に入力された音声の音声区間ｐを検出する（Ｓ１０１）。

次に、ステップＳ１１では、例えば、情報処理装置１０は、ステップＳ１０１で検出した音声区間ｐから、話者を特定できる第１特徴量として特徴量ｐを抽出する（Ｓ１１１）。

次に、ステップＳ１２では、情報処理装置１０は、ステップＳ１１１で抽出した特徴量ｐと、記憶部１３に保存されている第２特徴量である、話者識別の対象である登録話者に対応するｋ個の特徴量とを比較する比較処理を行う（Ｓ１２１）。

次に、ステップＳ１３では、まず、情報処理装置１０は、記憶部１３に保存されているｋ個の特徴量の中に特定の類似度より高いものがあるかを判定する（Ｓ１３１）。換言すると、情報処理装置１０は、記憶部１３に保存されているｋ個の特徴量の中に、音声区間ｐから抽出した特徴量ｐと一致するような、特徴量ｐとの類似度が閾値以上の特徴量ｍがあるかを判定する。

ステップＳ１３１において、記憶部１３に保存されているｋ個の特徴量の中に、特定の類似度より高い特徴量ｍがあった場合（Ｓ１３１でＹｅｓ）、記憶部１３に保存されている特徴量ｍを、特徴量ｐと特徴量ｍとを合わせたものに更新する（Ｓ１３２）。なお、記憶部１３に保存されている特徴量ｍのモデルである話者ｍモデルとして、特徴量ｍとともに特徴量ｍが抽出された音声区間ｍが保存されている場合もある。この場合、情報処理装置１０は、音声区間ｍと音声区間ｐとを合わせた音声区間ｍ＋ｐを保存するとともに、音声区間ｍ＋ｐから抽出した特徴量ｍ＋ｐを話者ｍモデルの第２特徴量として保存してもよい。

一方、ステップＳ１３１において、記憶部１３に保存されているｋ個の特徴量の中に、特定の類似度より高いものがなかった場合（Ｓ１３１でＮｏ）、新たな話者ｋ＋１モデルの第２特徴量として、記憶部１３に特徴量ｐを保存する（Ｓ１３３）。つまり、情報処理装置１０は、比較処理により、音声区間ｐから抽出される第１特徴量が、記憶部１３に保存されている識別対象の登録話者の第２特徴量に該当しなかった場合、この第１特徴量を記憶部１３に保存することで、新たに識別対象の登録話者を保存する。

図５に示す態様では、情報処理装置１０は、音声区間ごとに比較処理を行い、音声区間から抽出した第１特徴量との類似度が閾値（特定の類似度）よりも高い、識別対象の登録話者の第２特徴量があった場合、第２特徴量を第１特徴量と第２特徴量とを合わせたものに更新する。このようにして、第２特徴量を更新することで、第２特徴量の情報量が多くなり、第２特徴量を用いて登録話者を識別する際の精度すなわち、話者識別の精度を向上することができる。また、図５に示す態様では、情報処理装置１０は、音声区間ごとに比較処理を行い、音声区間から抽出した第１特徴量との類似度が閾値よりも高い第２特徴量が記憶部１３にない場合、第１特徴量を記憶部１３に保存する。これにより、識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。つまり、後述する処理により識別対象の登録話者が減らされたとしても、必要に応じて、再度識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。

図６は、実施の形態１に係る情報処理装置１０の詳細動作の別の態様を示すフローチャートである。図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

ステップＳ１３では、まず、情報処理装置１０は、記憶部１３に保存されているｋ個の特徴量の中のうちで、現れない特徴量ｇがあるかを判定する（Ｓ１３４）。より具体的には、情報処理装置１０は、音声区間ｐでの比較処理において、第１特徴量との類似度が閾値以下である１以上の第２特徴量すなわち特徴量ｇがあるかを判定する。

ステップＳ１３４において、現れない特徴量ｇがあった場合（Ｓ１３４でＹｅｓ）、所定条件を満たすか否かを判定する（Ｓ１３５）。本実施の形態では、情報処理装置１０は、所定条件下として、連続した音声区間におけるｍ（ｍは２以上の整数）回の比較処理を通して、特徴量ｇが現れていないか否かを判定してもよい。また、所定条件下として、所定時間に行われた比較処理を通して、特徴量ｇがあったかを判定してもよい。換言すると、情報処理装置１０は、比較処理が繰り返され、記憶部１３に保存されている識別対象となる登録話者のうち１以上の登録話者の第２特徴量が抽出される音声区間が一定回数以上または一定時間連続して現れなかったかを判定する。

ステップＳ１３５において、所定条件を満たす場合には（Ｓ１３５でＹｅｓ）、記憶部１３から特徴量ｇを削除することにより、特徴量ｇで特定される話者モデルを記憶部１３から削除し（Ｓ１３６）、処理を終了する。なお、ステップＳ１３５において、所定条件を満たさない場合には（Ｓ１３５でＮｏ）、情報処理装置１０は、ステップＳ１０に戻り、次の音声区間ｐ＋１を検出する。

一方、ステップＳ１３４において、現れない特徴量ｇがなかった場合（Ｓ１３４でＮｏ）、記憶部１３に保存されている、識別対象となる登録話者に変更がないとして（Ｓ１３７）、処理を終了する。

図６に示す態様では、情報処理装置１０は、連続する複数の音声区間のそれぞれごとに比較処理を行い、所定条件下において、記憶部１３に保存されている第２特徴量のうち第１特徴量との類似度が閾値以下である１以上の第２特徴量を削除する。これにより、情報処理装置１０は、所定条件下で発話していない登録話者を減らすなど識別対象として不要な話者を減らすことができる。したがって、発話している話者など、適切な登録話者数において話者識別できるので、話者識別の精度を向上できる。

図７は、実施の形態１に係る事前登録の処理を示すフローチャートである。

図７では、会議などにおいて、情報処理装置１０に図５及び図６で説明した動作を行わせる前に登録話者の音声を特定できる第２特徴量を記憶部１３に保存させる処理が示されている。なお、事前登録は、情報処理装置１０を用いて行ってもよいし、検出部１０１及び特徴量抽出部１０２を有していれば情報処理装置１０と異なる装置を用いて行ってもよい。

まず、会議に参加する者など、登録話者の対象者それぞれに第１音声を発せさせることで音声入力部１１に第１音声を入力する（Ｓ２１）。次に、コンピュータは、検出部１０１に音声入力部１１に入力された第１音声の第１音声区間を検出させる（Ｓ２２）。次に、コンピュータは、特徴量抽出部１０２に、ステップＳ２２で検出した第１音声区間から、第１音声の登録話者の対象者それぞれを特定できる特徴量を抽出させる（Ｓ２３）。コンピュータは、特徴量抽出部１０２に、ステップＳ２３で抽出した特徴量を、登録話者の対象者を示す話者モデルそれぞれの第２特徴量として記憶部１３に保存する（Ｓ２４）。

このようにして、事前登録として、登録話者すなわち識別対象の話者を示す話者モデルの第２特徴量を記憶部１３に保存させることができる。

［効果等］
以上のように、本実施の形態の情報処理装置１０等によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。

また、本実施の形態の情報処理装置１０によれば、音声区間ごとに比較処理を行い、音声区間から抽出した第１特徴量と略一致する第２特徴量があった場合、記憶部１３に保存している第２特徴量を、第１特徴量と第２特徴量とを合わせたものに更新する。このようにして、第２特徴量を更新することで、第２特徴量の情報量が多くなり、第２特徴量を用いて登録話者を識別する際の精度すなわち、話者識別の精度を向上することができる。

また、本実施の形態の情報処理装置１０によれば、音声区間ごとに比較処理を行い、音声区間から抽出した第１特徴量と略一致する第２特徴量が記憶部１３にない場合、第１特徴量を、識別対象の登録話者を示す話者モデルの特徴量として記憶部１３に保存する。これにより、識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。つまり、必要に応じて、識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。

また、本実施の形態の情報処理装置１０によれば、所定条件下で発話していない登録話者を減らすなど、識別対象として不要な話者を減らすことができる。これにより、発話していない話者を減らした適切な登録話者数において話者識別できるので、話者識別の精度を向上できる。

このようにして、本実施の形態の情報処理装置１０は、適切な登録話者を取捨選択することができるので、話者識別の精度が低下することを抑制し、話者識別の精度の向上を図ることができる。

（実施の形態２）
実施の形態１では、登録話者を示す話者モデルの第２特徴量は、予め記憶部１３に保存されているとして説明したが、これに限らない。情報処理装置１０が識別対象の登録話者を取捨選択する処理を行う前に、情報処理装置１０が登録話者を示す話者モデルの第２特徴量を記憶部１３に保存するとしてもよい。以下、この場合を実施の形態２として説明する。なお、以下では、実施の形態１と異なる点を中心に説明する。

図８は、実施の形態２に係る登録話者推定システム１の構成の一例を示すブロック図である。図２と同様の要素には同一の符号を付しており、詳細な説明は省略する。

図８に示す登録話者推定システム１は、実施の形態１に係る登録話者推定システム１に対して、情報処理装置１０Ａの構成が異なる。

［情報処理装置１０Ａ］
情報処理装置１０Ａも、例えば、プロセッサ（マイクロプロセッサ）、メモリ、通信インタフェース等を備えるコンピュータで実現され、識別対象の登録話者を取捨選択する処理を行う。本実施の形態では、情報処理装置１０Ａは、図８に示すように検出部１０１と、特徴量抽出部１０２と、比較部１０３と、登録話者決定部１０４と、登録部１０５を備える。ここでも、情報処理装置１０Ａは、記憶部１３及び保存装置１２をさらに備えてもよいが、必須の構成でない。

図８に示す情報処理装置１０Ａは、実施の形態１に係る情報処理装置１０に対して、登録部１０５が追加された点で構成が異なる。

＜登録部１０５＞
登録部１０５は、情報処理装置１０の動作の最初に、登録話者を示す話者モデルの第２特徴量を記憶部１３に保存する。より具体的には、登録部１０５は、登録話者決定部１０４が動作する前に、登録話者の対象者それぞれに第１音声を発せさせることで音声入力部１１に第１音声を入力させる。続いて、登録部１０５は、入力させた第１音声の第１音声区間を検出し、検出した第１音声区間から、登録話者の対象者それぞれを特定できる特徴量を抽出し、抽出した特徴量を第２特徴量として記憶部１３に保存する。なお、登録部１０５は、これらの処理を検出部１０１及び特徴量抽出部１０２を制御することで行ってもよい。すなわち、登録部１０５は、検出部１０１を制御して、音声入力部１１に入力させた第１音声の第１音声区間を検出させてもよい。また、登録部１０５は、特徴量抽出部１０２を制御して、検出部１０１に検出させた第１音声区間から、登録話者の対象者それぞれを特定できる特徴量を抽出させてもよい。登録部１０５は、特徴量抽出部１０２が抽出した特徴量を第２特徴量として記憶部１３に保存してもよいし、特徴量抽出部１０２を制御して、特徴量抽出部１０２が抽出した特徴量を第２特徴量として記憶部１３に保存させてもよい。

なお、登録部１０５は、登録話者の対象者により入力された音声の音声区間が複数ある場合、複数の音声区間を合わせたものから抽出した特徴量または複数の音声区間それぞれから抽出した特徴量を合わせたものを、第２特徴量として記憶部１３に保存してもよい。

［情報処理装置１０Ａの動作］
次に、以上のように構成された情報処理装置１０Ａの動作について説明する。

図９は、実施の形態２に係る情報処理装置１０Ａの動作の概要を示すフローチャートである。図４と同様の要素には同一の符号を付しており、詳細な説明は省略する。

まず、情報処理装置１０Ａは、登録話者の対象者を最初に登録する（Ｓ３０）。具体的な処理は、情報処理装置１０Ａが動作の最初において行う点を除いて、図７に示す事前登録と同様である。すなわち、図７を流用して説明すると、まず、会議に参加する者など、登録話者の対象者それぞれに第１音声を発せさせることで音声入力部１１に第１音声を入力する（Ｓ２１）。すると、登録部１０５は、検出部１０１に音声入力部１１に入力された第１音声の第１音声区間を検出させ（Ｓ２２）、特徴量抽出部１０２に、ステップＳ２２で検出した第１音声区間から、第１音声の登録話者の対象者それぞれを特定できる特徴量を抽出させる（Ｓ２３）。最後に、登録部１０５は、特徴量抽出部１０２に、ステップＳ２３で抽出した特徴量を、登録話者の対象者を示す話者モデルそれぞれの第２特徴量として記憶部１３に保存する（Ｓ２４）。

このようにして、情報処理装置１０Ａの動作の最初において登録話者の対象者を登録する。

以降のステップＳ１０〜ステップＳ１３は上述した通りであるので説明を省略する。

次に、図１０を用いてステップＳ３０の詳細動作の一例について説明する。

図１０は、実施の形態２に係るステップＳ３０の詳細動作の一態様を示すフローチャートである。図１１は、実施の形態２に係る情報処理装置１０Ａが検出した音声区間の一例を示す図である。図１０では、会議に参加する話者を話者１と話者２との二人として説明する。

図１０において、まず、登録話者の対象者である話者１に音声を発せさせ、音声入力部１１に音声を入力させたとする。

すると、登録部１０５は、検出部１０１に音声入力部１１に入力された音声の音声区間１及び音声区間２を検出させる（Ｓ３０１）。ここでは、検出部１０１は、例えば図１１に示すように、音声入力部１１から取得した音声信号から、一定の発話区間で区切った音声区間１及び音声区間２を検出している。

次に、登録部１０５は、特徴量抽出部１０２に、ステップＳ３０１で検出した音声区間１から、その音声の話者１を特定できる特徴量１を抽出させ（Ｓ３０２）、抽出した特徴量１を話者１を示す話者モデルの第２特徴量として記憶部１３に保存する（Ｓ３０３）。

次に、登録部１０５は、特徴量抽出部１０２に、ステップＳ３０１で検出した音声区間２から、その音声の話者を特定できる特徴量２を抽出させ、抽出した特徴量２と保存した特徴量１とを比較する（Ｓ３０４）。

次に、登録部１０５は、特徴量１と特徴量２との類似度が特定の類似度より高いかを判定する（Ｓ３０５）。

ステップＳ３０５において、特定の類似度（閾値）より高い場合（Ｓ３０５でＹｅｓ）、音声区間１と音声区間２とを合わせた音声区間の特徴量を抽出し、第２特徴量として保存する（Ｓ３０６）。すなわち、登録部１０５は、音声区間１及び音声区間２の両方が話者１により入力された音声によるものである場合、記憶部１３に保存した特徴量１を、特徴量１と特徴量２とを合わせたものに更新する。これにより、話者１を示す話者の第２特徴量を用いてより精度よく話者１を識別できる。

一方、ステップＳ３０５において、特定の類似度（閾値）以下の場合（Ｓ３０５でＮｏ）、話者１と異なる話者２を示す新たな話者モデルの第２特徴量として、記憶部１３に特徴量２を保存する（Ｓ３０７）。すなわち、登録部１０５は、音声区間２が話者２により入力された音声によるものである場合、特徴量２を話者２を示す話者モデルの第２特徴量として保存する。このようにして、話者１と異なる話者２も同時に登録できる。

［効果等］
以上のように、本実施の形態の情報処理装置１０Ａ等によれば、識別対象の登録話者を取捨選択させる処理を行わせる前に、登録話者を示す話者モデルの第２特徴量を記憶部１３に保存させることができる。また、本実施の形態の情報処理装置１０Ａ等によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。

これにより、情報処理装置１０Ａのユーザに、登録話者を別途、事前に登録する事前登録をしていなくてもよいので、ユーザに負担がかかることなく話者識別の精度を向上することができる。

以上、実施の形態に係る情報処理装置について説明したが、本開示は、この実施の形態に限定されるものではない。

例えば、上記実施の形態に係る情報処理装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、本開示は、情報処理装置により実行される発話継続判定方法として実現されてもよい。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、一つまたは複数の態様に係る情報処理装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

本開示は、情報処理方法、情報処理装置及びプログラムに利用でき、例えば、ＡＩスピーカ、議事録システムなど、会話音声について話者識別を用いる機能を必要とする情報処理方法、情報処理装置及びプログラムに利用できる。

１登録話者推定システム
１０、１０Ａ情報処理装置
１１音声入力部
１２保存装置
１３記憶部
１０１検出部
１０２特徴量抽出部
１０３比較部
１０４登録話者決定部
１０５登録部

Claims

コンピュータが行う情報処理方法であって、
音声入力部に入力された音声の音声区間を検出する検出ステップと、
検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出ステップと、
抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第２特徴量とを比較する比較処理を行う比較ステップと、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下である１以上の第２特徴量を削除することで前記１以上の第２特徴量から特定される登録話者を削除する登録話者決定ステップとを含む、
情報処理方法。
前記登録話者決定ステップでは、さらに、前記比較処理の結果、前記記憶部に保存されているすべての前記第２特徴量と前記第１特徴量との類似度が前記閾値以下であった場合、前記第１特徴量を、新たな登録話者の音声を特定できる特徴量として、前記記憶部に保存する、
請求項１に記載の情報処理方法。
前記登録話者決定ステップでは、さらに、前記記憶部に保存されている前記第２特徴量のうち、前記第１特徴量との類似度が前記閾値より高い第２特徴量があった場合、前記閾値より高い第２特徴量を、前記閾値より高い第２特徴量と前記第１特徴量とを合わせた特徴量に更新することで、前記記憶部に保存されている、前記閾値より高い第２特徴量から特定される登録話者を更新する、
請求項１または２に記載の情報処理方法。
前記記憶部には、予め前記第２特徴量が保存されている、
請求項１〜３のいずれか１項に記載の情報処理方法。
さらに、前記登録話者決定ステップをコンピュータが行う前に、登録話者の対象者それぞれに第１音声を発せさせることで前記音声入力部に前記第１音声を入力させ、入力させた前記第１音声の第１音声区間を検出し、検出した前記第１音声区間から、前記登録話者の対象者それぞれを特定できる発話の特徴量を抽出し、抽出した特徴量を前記第２特徴量として前記記憶部に保存する登録話者登録ステップを含む、
請求項１〜４のいずれか１項に記載の情報処理方法。
前記登録話者決定ステップでは、
前記所定条件下として、連続した前記音声区間におけるｍ（ｍは２以上の整数）回の前記比較処理を通して、前記第１特徴量との類似度が閾値より以下である１以上の第２特徴量があった場合、前記１以上の第２特徴量から特定される登録話者を削除する、
請求項１〜５のいずれか１項に記載の情報処理方法。
前記登録話者決定ステップでは、
前記所定条件下として、所定時間に行われた前記比較処理を通して、前記第１特徴量との類似度が閾値以下である１以上の第２特徴量がある場合、前記１以上の第２特徴量から特定される登録話者を削除する、
請求項１〜５のいずれか１項に記載の情報処理方法。
前記登録話者決定ステップでは、前記記憶部に、前記第２特徴量として、話者識別の対象である２以上の登録話者それぞれを特定できる第２特徴量が保存されている場合に、前記１以上の第２特徴量から特定される登録話者を削除する処理を行う、
請求項１〜７のいずれか１項に記載の情報処理方法。
前記検出ステップでは、前記音声入力部に入力された音声の音声区間を時系列に連続して検出する、
請求項１〜８のいずれか１項に記載の情報処理方法。
前記検出ステップでは、前記音声入力部に入力された音声の音声区間を所定間隔で検出する、
請求項１〜８のいずれか１項に記載の情報処理方法。
音声入力部に入力された音声の音声区間を検出する検出部と、
検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出部と、
抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第２特徴量とを比較する比較処理を行う比較部と、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下の１以上の第２特徴量から特定される登録話者を削除する登録話者決定部とを備える、
情報処理装置。
音声入力部に入力された音声の音声区間を検出する検出ステップと、
検出された前記音声区間から、前記音声の話者を特定できる第１特徴量を抽出する特徴量抽出ステップと、
抽出された前記第１特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第２特徴量とを比較する比較処理を行う比較ステップと、
連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第２特徴量のうち前記第１特徴量との類似度が閾値以下の１以上の第２特徴量から特定される登録話者を削除する登録話者決定ステップとを含む情報処理方法をコンピュータに実行させる、
プログラム。