JP2020067566A - 情報処理方法、情報処理装置、及び、プログラム - Google Patents

情報処理方法、情報処理装置、及び、プログラム Download PDF

Info

Publication number
JP2020067566A
JP2020067566A JP2018200354A JP2018200354A JP2020067566A JP 2020067566 A JP2020067566 A JP 2020067566A JP 2018200354 A JP2018200354 A JP 2018200354A JP 2018200354 A JP2018200354 A JP 2018200354A JP 2020067566 A JP2020067566 A JP 2020067566A
Authority
JP
Japan
Prior art keywords
feature amount
speaker
voice
registered
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018200354A
Other languages
English (en)
Other versions
JP7376985B2 (ja
Inventor
美沙貴 辻川
Misaki Tsujikawa
美沙貴 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2018200354A priority Critical patent/JP7376985B2/ja
Priority to US16/658,769 priority patent/US11417344B2/en
Publication of JP2020067566A publication Critical patent/JP2020067566A/ja
Application granted granted Critical
Publication of JP7376985B2 publication Critical patent/JP7376985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】話者識別の精度を向上できる情報処理方法等を提供する。【解決手段】音声入力部に入力された音声の音声区間を検出する検出ステップ(S10)と、検出された音声区間から、音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップ(S11)と、抽出された第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップ(S12)と、連続する複数の音声区間のそれぞれごとに比較処理を行い、所定条件下において、記憶部に保存されている第2特徴量のうち第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含む(S13)。【選択図】図4

Description

本開示は、情報処理方法、情報処理装置、及び、プログラムに関し、特に話者識別における登録話者を決定するための情報処理方法、情報処理装置、及び、プログラムに関する。
話者識別技術は、人間の音声の特徴から、コンピュータで発話者を識別する技術である。
例えば特許文献1には、話者識別の精度を高める技術が提案されている(例えば特許文献1)。特許文献1に開示される技術では、音声信号に含まれる音の種類に関するばらつきの程度を表す音響多様度に基づいて、人間の音声の音響的特徴である認識特徴量を補正することで、話者識別の精度を高めることができる。
特開2016−075740号公報
Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798.
ところで、例えば会議などにおいて、会話での話者識別を行うためには、事前に話者の登録を行うなどにより会議への参加者を明確にした上で話者認識を行う。しかしながら、上記特許文献1で提案される方法でも、識別対象の話者数が多いと、話者識別の精度が低下してしまうという課題がある。話者識別は登録話者数が多ければ多いほど誤識別が多くなるからである。
本開示は、上述の事情を鑑みてなされたもので、話者識別の精度を向上できる情報処理方法、情報処理装置及びプログラムを提供することを目的とする。
本開示の一態様に係る情報処理方法は、コンピュータが行う情報処理方法であって、音声入力部に入力された音声の音声区間を検出する検出ステップと、検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで前記1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含む。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示の情報処理方法等によれば、話者識別の精度を向上できる。
実施の形態1に係る登録話者推定システムの使用場面の一例を示す図である。 実施の形態1に係る登録話者推定システムの構成の一例を示すブロック図である。 実施の形態1に係る検出部が検出した音声区間の一例を示す図である。 実施の形態1に係る情報処理装置の動作の概要を示すフローチャートである。 実施の形態1に係る情報処理装置の詳細動作の一態様を示すフローチャートである。 実施の形態1に係る情報処理装置の詳細動作の別の態様を示すフローチャートである。 実施の形態1に係る事前登録の処理を示すフローチャートである。 実施の形態2に係る登録話者推定システムの構成の一例を示すブロック図である。 実施の形態2に係る情報処理装置の動作の概要を示すフローチャートである。 実施の形態2に係るステップS30の詳細動作の一態様を示すフローチャートである。 実施の形態2に係る情報処理装置が検出した音声区間の一例を示す図である。
(本開示の基礎となった知見)
従来、例えば会議などにおいて、会話での話者識別を行うためには、事前に話者の登録を行うなどにより会議への参加者を明確にした上で話者認識を行っていた。しかし、話者識別は登録話者数が多ければ多いほど誤識別が多くなり、話者識別の精度が低下する傾向があった。つまり、識別対象の話者数が多いと、話者識別の精度が低下してしまう。
一方、多人数が参加する会議では、人によって発話タイミングが限られることが経験的に知られている。したがって、全ての参加者を常に識別対象とする必要がないと想到するに至った。換言すると、適切な登録話者を取捨選択することにより、話者識別の精度が低下することが抑制できるので、話者識別の精度の向上を図ることができることを想到するに至った。
ここで、本開示の一態様に係る情報処理方法は、コンピュータが行う情報処理方法であって、音声入力部に入力された音声の音声区間を検出する検出ステップと、検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで前記1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含む。
本態様によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。
また、例えば、前記登録話者決定ステップでは、さらに、前記比較処理の結果、前記記憶部に保存されているすべての前記第2特徴量と前記第1特徴量との類似度が前記閾値以下であった場合、前記第1特徴量を、新たな登録話者の音声を特定できる特徴量として、前記記憶部に保存するとしてもよい。
また、例えば、前記登録話者決定ステップでは、さらに、前記記憶部に保存されている前記第2特徴量のうち、前記第1特徴量との類似度が前記閾値より高い第2特徴量があった場合、前記閾値より高い第2特徴量を、前記閾値より高い第2特徴量と前記第1特徴量とを合わせた特徴量に更新することで、前記記憶部に保存されている、前記閾値より高い第2特徴量から特定される登録話者を更新するとしてもよい。
また、例えば、前記記憶部には、予め前記第2特徴量が保存されているとしてもよい。
また、例えば、さらに、前記登録話者決定ステップをコンピュータが行う前に、登録話者の対象者それぞれに第1音声を発せさせることで前記音声入力部に前記第1音声を入力させ、入力させた前記第1音声の第1音声区間を検出し、検出した前記第1音声区間から、前記登録話者の対象者それぞれを特定できる発話の特徴量を抽出し、抽出した特徴量を前記第2特徴量として前記記憶部に保存する登録話者登録ステップを含むとしてもよい。
また、例えば、前記登録話者決定ステップでは、前記所定条件下として、連続した前記音声区間におけるm(mは2以上の整数)回の前記比較処理を通して、前記第1特徴量との類似度が閾値より以下である1以上の第2特徴量があった場合、前記1以上の第2特徴量から特定される登録話者を削除するとしてもよい。
また、例えば、前記登録話者決定ステップでは、前記所定条件下として、連続した前記音声区間におけるm(mは2以上の整数)回の前記比較処理を通して、前記第1特徴量との類似度が閾値より以下である1以上の第2特徴量があった場合、前記1以上の第2特徴量から特定される登録話者を削除するとしてもよい。
また、例えば、前記登録話者決定ステップでは、前記記憶部に、前記第2特徴量として、話者識別の対象である2以上の登録話者それぞれを特定できる第2特徴量が保存されている場合に、前記1以上の第2特徴量から特定される登録話者を削除する処理を行うとしてもよい。
また、例えば、前記検出ステップでは、前記音声入力部に入力された音声の音声区間を時系列に連続して検出するとしてもよい。
また、例えば、前記検出ステップでは、前記音声入力部に入力された音声の音声区間を所定間隔で検出するとしてもよい。
本開示の一態様に係る情報処理装置は、音声入力部に入力された音声の音声区間を検出する検出部と、検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出部と、抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較部と、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定部とを備える。
また、本開示の一態様に係るプログラムは、音声入力部に入力された音声の音声区間を検出する検出ステップと、検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含む情報処理方法をコンピュータに実行させる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
以下では、図面を参照しながら、実施の形態1における情報処理等の説明を行う。
[登録話者推定システム1]
図1は、実施の形態1に係る登録話者推定システム1の使用場面の一例を示す図である。図2は、実施の形態1に係る登録話者推定システム1の構成の一例を示すブロック図である。
図1に示すように、本実施の形態に係る登録話者推定システム1(不図示)は、例えば話者A、話者B、話者C及び話者Dで示される4人が参加する会議などにおいて用いられる。なお、会議に参加する人数は4人に限らない。2人以上であればよい。図1には、登録話者推定システム1を構成する音声入力部11として会議用マイクロフォンが設置されている例が示されている。
図2に示すように、本実施の形態に係る登録話者推定システム1は、情報処理装置10と、音声入力部11と、保存装置12と、記憶部13と、を備える。以下、各構成要素について説明する。
[音声入力部11]
音声入力部11は、例えばマイクロフォンからなり、話し手が発話した音声が入力される。音声入力部11は、入力された音声を音声信号に変換して情報処理装置10に出力する。
[情報処理装置10]
情報処理装置10は、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現される。情報処理装置10は、サーバに含まれて動作するとしてもよいし、情報処理装置10の一部構成がクラウドサーバに含まれ動作するとしてもよい。情報処理装置10は、識別対象の登録話者を取捨選択する処理を行う。
本実施の形態では、情報処理装置10は、図2に示すように、検出部101と、特徴量抽出部102と、比較部103と、登録話者決定部104とを備える。ここで、情報処理装置10は、記憶部13及び保存装置12をさらに備えるとしてもよいが、必須の構成でない。
<検出部101>
図3は、実施の形態1に係る検出部101が検出した音声区間の一例を示す図である。
検出部101は、音声入力部11に入力された音声の音声区間を検出する。より具体的には、検出部101は、音声区間検出技術を用いて、音声入力部11から取得した音声信号から、音声が発話された区間である音声区間を検出する。ここで、音声区間検出技術は、音声と雑音とが含まれる信号から音声が存在する区間とそれ以外の区間とを判別する技術である。また、音声入力部11が出力する音声信号は、一般的に、音声と雑音とを含む信号となる。
本実施の形態では、検出部101は、例えば図3に示すように、音声入力部11から取得した音声信号から、一定の発話区間で区切った音声区間1、…、音声区間n、音声区間n+1を検出する。音声区間1、…、音声区間n+1はそれぞれ例えば2秒間である。なお、検出部101は、音声入力部11に入力された音声の音声区間を時系列に連続して検出してもよい。この場合、情報処理装置10はリアルタイムに適切な登録話者を取捨選択できる。また、検出部101は、音声入力部11に入力された音声の音声区間を所定間隔で検出してもよい。この場合、所定間隔を2秒などに設定してもよい。これにより、情報処理装置10は、リアルタイムではないものの、話者の発話タイミングに応じて、適切な登録話者を取捨選択できる。そして、情報処理装置10は、演算コストを抑制することができる。
<特徴量抽出部102>
特徴量抽出部102は、検出部101により検出された音声区間から、その音声の話者を特定できる第1特徴量を抽出する。より具体的には、特徴量抽出部102は、検出部101が検出した音声信号を取得することによって、その音声信号に示される発話を取得する。つまり、特徴量抽出部102は、発話を音声信号として取得する。そして、特徴量抽出部102は、取得した発話から、その発話の特徴量を抽出する。この特徴量は、例えば、特徴ベクトルであって、より具体的には、話者認識手法の一つとして用いられるi−Vectorである。なお、特徴量は、このような特徴ベクトルに限定されるものではない。
特徴量がi−Vectorとして表される場合、特徴量抽出部102は、i−Vectorと呼ばれる式M=m+Twで求められる特徴量wを、話者固有の特徴量として抽出する。
ここで、上記式におけるMは、入力される話者個人を示す特徴量である。このMは、GMM(Gaussian Mixture Model)及びGMMスーパーベクトルなどを用いて表すことができる。GMMは、例えばMFCC(Mel Frequency Cepstral Coefficient)という音声の周波数スペクトルを分析して得られる数値列を正規分布の重なりで表現する手法である。また、mには、多数の話者音声からMと同様にして得られる特徴量を使用して表すことができる。このmにおけるGMMはUBM(Universal Background Model)と呼ばれる。TはMで求められた一般的な話者の特徴量空間を網羅することができる基底ベクトルである。
<比較部103>
比較部103は、特徴量抽出部102により抽出された第1特徴量と、記憶部13に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う。比較部103は、連続する複数の音声区間のそれぞれごとに比較処理を行う。
本実施の形態では、比較部103は、例えば検出部101により検出された音声区間nから特徴量抽出部102が抽出した特徴量(第1特徴量)と、記憶部13に保存されている、話者1モデル、話者2モデル、…、話者kモデルの第2特徴量とを比較する。ここで、話者1モデルは、第1話者の発話の特徴量(第2特徴量)のモデルである。同様に、話者2モデルは、第2話者の発話の特徴量のモデルであり、…、話者kモデルは、第k話者の発話の特徴量のモデルである。第1話者〜第k話者は、例えば図1に示す話者A〜話者Dに示すように、会議などに参加している者である。
ここで、比較部103は、比較処理として、例えば音声区間n+1から抽出された第1特徴量と記憶部13に保存されている話者モデルの第2特徴量との類似度を算出する。第1特徴量及び第2特徴量がi−Vectorとして表される場合、第1特徴量及び第2特徴量は数百程度の数値列となる。この場合、比較部103は、例えば非特許文献1で示されるCosine distance scoringによって簡易に類似度を算出することができる。Cosine distance scoringは類似度が高い場合は1に近い値となり、類似度が低い場合には−1に近い値となる。なお、類似度の算出手法は上記に限定されない。
同様に、比較部103は、例えば検出部101により検出された音声区間n+1から抽出された第1特徴量と、記憶部13に保存されている、話者1モデル、話者2モデル、…、話者kモデルの第2特徴量とを比較する。このようにして、比較部103は、記憶部13に登録されている登録話者を示す話者モデルとの比較処理を繰り返す。
なお、比較部103は、比較処理として、特徴量抽出部102により抽出された第1特徴量と保存装置12に保存されている、登録された登録話者の第2特徴量との類似度を算出してもよい。図2に示す例では、比較部103は、例えば検出部101により検出された音声区間nから特徴量抽出部102が抽出した第1特徴量と、保存装置12に保存されている、話者1モデル、話者2モデル、…、話者nモデルの第2特徴量との類似度を算出して比較する。同様に、比較部103は、例えば検出部101により検出された音声区間n+1から抽出された第1特徴量と、保存装置12に保存されている、話者1モデル、話者2モデル、…、話者nモデルの第2特徴量との類似度を算出して比較する。このようにして、比較部103は、保存装置12に保存されている登録話者を示す話者モデルとの比較処理を繰り返す。
<登録話者決定部104>
登録話者決定部104は、所定条件下において、記憶部13に保存されている第2特徴量のうち第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで、1以上の第2特徴量から特定される登録話者を削除する。ここで、登録話者決定部104は、所定条件下として、連続した音声区間におけるm(mは2以上の整数)回の比較処理を通して、第1特徴量との類似度が閾値以下である1以上の第2特徴量があった場合、当該1以上の第2特徴量から特定される登録話者を削除してもよい。また、登録話者決定部104は、所定条件下として、所定時間に行われた比較処理を通して、第1特徴量との類似度が閾値以下である1以上の第2特徴量がある場合、当該1以上の第2特徴量から特定される登録話者を削除してもよい。つまり、登録話者決定部104は、比較部103の比較処理が繰り返され、識別対象となる登録話者のうち1以上の登録話者の第2特徴量が抽出される音声区間が一定回数以上または一定時間連続して現れない場合、記憶部13から当該1以上の登録者を削除してよい。
なお、登録話者決定部104は、記憶部13に、話者識別の対象である2以上の登録話者それぞれを特定できる第2特徴量が保存されている場合に、1以上の第2特徴量から特定される登録話者を削除する処理を行ってよい。つまり、登録話者決定部104は、記憶部13を参照し、識別対象となる登録話者が2人以上であれば、削除する処理を行ってもよい。
また、登録話者決定部104は、さらに、記憶部13に保存されている第2特徴量のすべてと第1特徴量との類似度が閾値以下であった場合、第1特徴量を、識別対象となる新たな登録話者の音声を特定できる特徴量として記憶部13に保存してもよい。つまり、登録話者決定部104は、比較処理がされた結果、ある音声区間において特徴量抽出部102により抽出された第1特徴量と、記憶部13に保存されている、識別対象となる登録話者すべての第2特徴量との類似度が特定の値以下であったとする。この場合、当該第1特徴量を、第2特徴量とし記憶部13に保存することで、当該第1特徴量で特定される話者を新たな登録話者として増やすことができる。なお、また、ある音声区間から抽出された第1特徴量と一致または特定の類似度よりも高い第2特徴量を有する話者モデルが保存装置12に保存されているとする。この場合、登録話者決定部104は、保存装置12に保存されている話者モデルを、識別対象となる新たな登録話者として記憶部13に記憶してもよい。ある音声区間から抽出された第1特徴量と一致または特定の類似度よりも高い第2特徴量を有する話者モデルが保存装置12に保存されているか否かは、上記の比較処理により判定することができる。
また、登録話者決定部104は、さらに、記憶部13に保存されている第2特徴量のうちに、第1特徴量との類似度が閾値より高い第2特徴量があった場合、この閾値より高い第2特徴量を、閾値より高い第2特徴量と第1特徴量とを合わせた特徴量に更新してもよい。これにより、記憶部13に保存されている、閾値より高い第2特徴量から特定される登録話者が更新される。つまり、登録話者決定部104は、比較処理がされた結果、記憶部13に保存されている登録話者の第2特徴量のうち、ある音声区間において特徴量抽出部102により抽出された第1特徴量との類似度が特定の値以上の第2特徴量があった場合、当該第2特徴量を更新する。なお、記憶部13に保存されている話者モデルとして、第2特徴量とともに当該第2特徴量が抽出された音声区間が保存されている場合もある。この場合、登録話者決定部104は、ある音声区間と、話者モデルとして保存されている音声区間とを合わせた音声区間を保存するとともに、合わせた音声区間から抽出した特徴量をその話者モデルの第2特徴量として保存(更新)してもよい。
[保存装置12]
保存装置12は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録された登録話者を記憶する。本実施の形態では、保存装置12は、登録された登録話者として、登録話者それぞれに対応する話者モデルを記憶する。話者モデルは、対応する登録話者を識別(特定)するために用いられる、当該登録話者の発話の特徴量(第2特徴量)のモデルである。保存装置12には、記憶部13に一度以上登録された登録話者の話者モデルが保存されている。
図2に示す例では、保存装置12は、第1話者の発話の第2特徴量のモデルである第1話者モデル、第2話者の発話の第2特徴量のモデルである第2話者モデル、…、第n話者の発話の第2特徴量のモデルである第n話者モデルが記憶されている。
[記憶部13]
記憶部13は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される記憶媒体であり、予め第2特徴量が保存されている。本実施の形態では、記憶部13は、識別対象の登録話者を記憶する。より具体的には、記憶部13は、識別対象の登録話者として、登録話者それぞれに対応する話者モデルを記憶する。つまり、記憶部13には、識別対象とされる登録話者の話者モデルが記憶されている。
図2に示す例では、記憶部13は、第1話者の発話の第2特徴量のモデルである話者1モデル、第2話者の発話の第2特徴量のモデルである話者2モデル、…、第k話者の発話の第2特徴量のモデルである話者kモデルが記憶されている。これらの話者モデルの第2特徴量は予め保存すなわち事前登録されている。
[情報処理装置10の動作]
次に、以上のように構成された情報処理装置10の動作について説明する。
図4は、実施の形態1に係る情報処理装置10の動作の概要を示すフローチャートである。
まず、情報処理装置10は、音声入力部11に入力された音声の音声区間を検出する(S10)。次に、情報処理装置10は、ステップS10で検出した音声区間から、その音声の話者を特定できる第1特徴量を抽出する(S11)。次に、情報処理装置10は、ステップS11で抽出した第1特徴量と、記憶部13に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う(S12)。次に、情報処理装置10は、連続する複数の音声区間のそれぞれごとに比較処理を行い、登録話者を決定する(S13)。
続いて、図5及び図6を用いてステップS13等の詳細動作について説明する。図5は、実施の形態1に係る情報処理装置10の詳細動作の一態様を示すフローチャートである。
まず、ステップS10では、例えば、情報処理装置10は、音声入力部11に入力された音声の音声区間pを検出する(S101)。
次に、ステップS11では、例えば、情報処理装置10は、ステップS101で検出した音声区間pから、話者を特定できる第1特徴量として特徴量pを抽出する(S111)。
次に、ステップS12では、情報処理装置10は、ステップS111で抽出した特徴量pと、記憶部13に保存されている第2特徴量である、話者識別の対象である登録話者に対応するk個の特徴量とを比較する比較処理を行う(S121)。
次に、ステップS13では、まず、情報処理装置10は、記憶部13に保存されているk個の特徴量の中に特定の類似度より高いものがあるかを判定する(S131)。換言すると、情報処理装置10は、記憶部13に保存されているk個の特徴量の中に、音声区間pから抽出した特徴量pと一致するような、特徴量pとの類似度が閾値以上の特徴量mがあるかを判定する。
ステップS131において、記憶部13に保存されているk個の特徴量の中に、特定の類似度より高い特徴量mがあった場合(S131でYes)、記憶部13に保存されている特徴量mを、特徴量pと特徴量mとを合わせたものに更新する(S132)。なお、記憶部13に保存されている特徴量mのモデルである話者mモデルとして、特徴量mとともに特徴量mが抽出された音声区間mが保存されている場合もある。この場合、情報処理装置10は、音声区間mと音声区間pとを合わせた音声区間m+pを保存するとともに、音声区間m+pから抽出した特徴量m+pを話者mモデルの第2特徴量として保存してもよい。
一方、ステップS131において、記憶部13に保存されているk個の特徴量の中に、特定の類似度より高いものがなかった場合(S131でNo)、新たな話者k+1モデルの第2特徴量として、記憶部13に特徴量pを保存する(S133)。つまり、情報処理装置10は、比較処理により、音声区間pから抽出される第1特徴量が、記憶部13に保存されている識別対象の登録話者の第2特徴量に該当しなかった場合、この第1特徴量を記憶部13に保存することで、新たに識別対象の登録話者を保存する。
図5に示す態様では、情報処理装置10は、音声区間ごとに比較処理を行い、音声区間から抽出した第1特徴量との類似度が閾値(特定の類似度)よりも高い、識別対象の登録話者の第2特徴量があった場合、第2特徴量を第1特徴量と第2特徴量とを合わせたものに更新する。このようにして、第2特徴量を更新することで、第2特徴量の情報量が多くなり、第2特徴量を用いて登録話者を識別する際の精度すなわち、話者識別の精度を向上することができる。また、図5に示す態様では、情報処理装置10は、音声区間ごとに比較処理を行い、音声区間から抽出した第1特徴量との類似度が閾値よりも高い第2特徴量が記憶部13にない場合、第1特徴量を記憶部13に保存する。これにより、識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。つまり、後述する処理により識別対象の登録話者が減らされたとしても、必要に応じて、再度識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。
図6は、実施の形態1に係る情報処理装置10の詳細動作の別の態様を示すフローチャートである。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
ステップS13では、まず、情報処理装置10は、記憶部13に保存されているk個の特徴量の中のうちで、現れない特徴量gがあるかを判定する(S134)。より具体的には、情報処理装置10は、音声区間pでの比較処理において、第1特徴量との類似度が閾値以下である1以上の第2特徴量すなわち特徴量gがあるかを判定する。
ステップS134において、現れない特徴量gがあった場合(S134でYes)、所定条件を満たすか否かを判定する(S135)。本実施の形態では、情報処理装置10は、所定条件下として、連続した音声区間におけるm(mは2以上の整数)回の比較処理を通して、特徴量gが現れていないか否かを判定してもよい。また、所定条件下として、所定時間に行われた比較処理を通して、特徴量gがあったかを判定してもよい。換言すると、情報処理装置10は、比較処理が繰り返され、記憶部13に保存されている識別対象となる登録話者のうち1以上の登録話者の第2特徴量が抽出される音声区間が一定回数以上または一定時間連続して現れなかったかを判定する。
ステップS135において、所定条件を満たす場合には(S135でYes)、記憶部13から特徴量gを削除することにより、特徴量gで特定される話者モデルを記憶部13から削除し(S136)、処理を終了する。なお、ステップS135において、所定条件を満たさない場合には(S135でNo)、情報処理装置10は、ステップS10に戻り、次の音声区間p+1を検出する。
一方、ステップS134において、現れない特徴量gがなかった場合(S134でNo)、記憶部13に保存されている、識別対象となる登録話者に変更がないとして(S137)、処理を終了する。
図6に示す態様では、情報処理装置10は、連続する複数の音声区間のそれぞれごとに比較処理を行い、所定条件下において、記憶部13に保存されている第2特徴量のうち第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除する。これにより、情報処理装置10は、所定条件下で発話していない登録話者を減らすなど識別対象として不要な話者を減らすことができる。したがって、発話している話者など、適切な登録話者数において話者識別できるので、話者識別の精度を向上できる。
図7は、実施の形態1に係る事前登録の処理を示すフローチャートである。
図7では、会議などにおいて、情報処理装置10に図5及び図6で説明した動作を行わせる前に登録話者の音声を特定できる第2特徴量を記憶部13に保存させる処理が示されている。なお、事前登録は、情報処理装置10を用いて行ってもよいし、検出部101及び特徴量抽出部102を有していれば情報処理装置10と異なる装置を用いて行ってもよい。
まず、会議に参加する者など、登録話者の対象者それぞれに第1音声を発せさせることで音声入力部11に第1音声を入力する(S21)。次に、コンピュータは、検出部101に音声入力部11に入力された第1音声の第1音声区間を検出させる(S22)。次に、コンピュータは、特徴量抽出部102に、ステップS22で検出した第1音声区間から、第1音声の登録話者の対象者それぞれを特定できる特徴量を抽出させる(S23)。コンピュータは、特徴量抽出部102に、ステップS23で抽出した特徴量を、登録話者の対象者を示す話者モデルそれぞれの第2特徴量として記憶部13に保存する(S24)。
このようにして、事前登録として、登録話者すなわち識別対象の話者を示す話者モデルの第2特徴量を記憶部13に保存させることができる。
[効果等]
以上のように、本実施の形態の情報処理装置10等によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。
また、本実施の形態の情報処理装置10によれば、音声区間ごとに比較処理を行い、音声区間から抽出した第1特徴量と略一致する第2特徴量があった場合、記憶部13に保存している第2特徴量を、第1特徴量と第2特徴量とを合わせたものに更新する。このようにして、第2特徴量を更新することで、第2特徴量の情報量が多くなり、第2特徴量を用いて登録話者を識別する際の精度すなわち、話者識別の精度を向上することができる。
また、本実施の形態の情報処理装置10によれば、音声区間ごとに比較処理を行い、音声区間から抽出した第1特徴量と略一致する第2特徴量が記憶部13にない場合、第1特徴量を、識別対象の登録話者を示す話者モデルの特徴量として記憶部13に保存する。これにより、識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。つまり、必要に応じて、識別対象の登録話者を増やすことができるので、話者識別の精度を向上できる。
また、本実施の形態の情報処理装置10によれば、所定条件下で発話していない登録話者を減らすなど、識別対象として不要な話者を減らすことができる。これにより、発話していない話者を減らした適切な登録話者数において話者識別できるので、話者識別の精度を向上できる。
このようにして、本実施の形態の情報処理装置10は、適切な登録話者を取捨選択することができるので、話者識別の精度が低下することを抑制し、話者識別の精度の向上を図ることができる。
(実施の形態2)
実施の形態1では、登録話者を示す話者モデルの第2特徴量は、予め記憶部13に保存されているとして説明したが、これに限らない。情報処理装置10が識別対象の登録話者を取捨選択する処理を行う前に、情報処理装置10が登録話者を示す話者モデルの第2特徴量を記憶部13に保存するとしてもよい。以下、この場合を実施の形態2として説明する。なお、以下では、実施の形態1と異なる点を中心に説明する。
図8は、実施の形態2に係る登録話者推定システム1の構成の一例を示すブロック図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
図8に示す登録話者推定システム1は、実施の形態1に係る登録話者推定システム1に対して、情報処理装置10Aの構成が異なる。
[情報処理装置10A]
情報処理装置10Aも、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現され、識別対象の登録話者を取捨選択する処理を行う。本実施の形態では、情報処理装置10Aは、図8に示すように検出部101と、特徴量抽出部102と、比較部103と、登録話者決定部104と、登録部105を備える。ここでも、情報処理装置10Aは、記憶部13及び保存装置12をさらに備えてもよいが、必須の構成でない。
図8に示す情報処理装置10Aは、実施の形態1に係る情報処理装置10に対して、登録部105が追加された点で構成が異なる。
<登録部105>
登録部105は、情報処理装置10の動作の最初に、登録話者を示す話者モデルの第2特徴量を記憶部13に保存する。より具体的には、登録部105は、登録話者決定部104が動作する前に、登録話者の対象者それぞれに第1音声を発せさせることで音声入力部11に第1音声を入力させる。続いて、登録部105は、入力させた第1音声の第1音声区間を検出し、検出した第1音声区間から、登録話者の対象者それぞれを特定できる特徴量を抽出し、抽出した特徴量を第2特徴量として記憶部13に保存する。なお、登録部105は、これらの処理を検出部101及び特徴量抽出部102を制御することで行ってもよい。すなわち、登録部105は、検出部101を制御して、音声入力部11に入力させた第1音声の第1音声区間を検出させてもよい。また、登録部105は、特徴量抽出部102を制御して、検出部101に検出させた第1音声区間から、登録話者の対象者それぞれを特定できる特徴量を抽出させてもよい。登録部105は、特徴量抽出部102が抽出した特徴量を第2特徴量として記憶部13に保存してもよいし、特徴量抽出部102を制御して、特徴量抽出部102が抽出した特徴量を第2特徴量として記憶部13に保存させてもよい。
なお、登録部105は、登録話者の対象者により入力された音声の音声区間が複数ある場合、複数の音声区間を合わせたものから抽出した特徴量または複数の音声区間それぞれから抽出した特徴量を合わせたものを、第2特徴量として記憶部13に保存してもよい。
[情報処理装置10Aの動作]
次に、以上のように構成された情報処理装置10Aの動作について説明する。
図9は、実施の形態2に係る情報処理装置10Aの動作の概要を示すフローチャートである。図4と同様の要素には同一の符号を付しており、詳細な説明は省略する。
まず、情報処理装置10Aは、登録話者の対象者を最初に登録する(S30)。具体的な処理は、情報処理装置10Aが動作の最初において行う点を除いて、図7に示す事前登録と同様である。すなわち、図7を流用して説明すると、まず、会議に参加する者など、登録話者の対象者それぞれに第1音声を発せさせることで音声入力部11に第1音声を入力する(S21)。すると、登録部105は、検出部101に音声入力部11に入力された第1音声の第1音声区間を検出させ(S22)、特徴量抽出部102に、ステップS22で検出した第1音声区間から、第1音声の登録話者の対象者それぞれを特定できる特徴量を抽出させる(S23)。最後に、登録部105は、特徴量抽出部102に、ステップS23で抽出した特徴量を、登録話者の対象者を示す話者モデルそれぞれの第2特徴量として記憶部13に保存する(S24)。
このようにして、情報処理装置10Aの動作の最初において登録話者の対象者を登録する。
以降のステップS10〜ステップS13は上述した通りであるので説明を省略する。
次に、図10を用いてステップS30の詳細動作の一例について説明する。
図10は、実施の形態2に係るステップS30の詳細動作の一態様を示すフローチャートである。図11は、実施の形態2に係る情報処理装置10Aが検出した音声区間の一例を示す図である。図10では、会議に参加する話者を話者1と話者2との二人として説明する。
図10において、まず、登録話者の対象者である話者1に音声を発せさせ、音声入力部11に音声を入力させたとする。
すると、登録部105は、検出部101に音声入力部11に入力された音声の音声区間1及び音声区間2を検出させる(S301)。ここでは、検出部101は、例えば図11に示すように、音声入力部11から取得した音声信号から、一定の発話区間で区切った音声区間1及び音声区間2を検出している。
次に、登録部105は、特徴量抽出部102に、ステップS301で検出した音声区間1から、その音声の話者1を特定できる特徴量1を抽出させ(S302)、抽出した特徴量1を話者1を示す話者モデルの第2特徴量として記憶部13に保存する(S303)。
次に、登録部105は、特徴量抽出部102に、ステップS301で検出した音声区間2から、その音声の話者を特定できる特徴量2を抽出させ、抽出した特徴量2と保存した特徴量1とを比較する(S304)。
次に、登録部105は、特徴量1と特徴量2との類似度が特定の類似度より高いかを判定する(S305)。
ステップS305において、特定の類似度(閾値)より高い場合(S305でYes)、音声区間1と音声区間2とを合わせた音声区間の特徴量を抽出し、第2特徴量として保存する(S306)。すなわち、登録部105は、音声区間1及び音声区間2の両方が話者1により入力された音声によるものである場合、記憶部13に保存した特徴量1を、特徴量1と特徴量2とを合わせたものに更新する。これにより、話者1を示す話者の第2特徴量を用いてより精度よく話者1を識別できる。
一方、ステップS305において、特定の類似度(閾値)以下の場合(S305でNo)、話者1と異なる話者2を示す新たな話者モデルの第2特徴量として、記憶部13に特徴量2を保存する(S307)。すなわち、登録部105は、音声区間2が話者2により入力された音声によるものである場合、特徴量2を話者2を示す話者モデルの第2特徴量として保存する。このようにして、話者1と異なる話者2も同時に登録できる。
[効果等]
以上のように、本実施の形態の情報処理装置10A等によれば、識別対象の登録話者を取捨選択させる処理を行わせる前に、登録話者を示す話者モデルの第2特徴量を記憶部13に保存させることができる。また、本実施の形態の情報処理装置10A等によれば、会話を一定の区間で区切って音声の特徴量を抽出し、比較を繰り返すことで、識別対象として不要な話者を減らすことができるので、話者識別の精度を向上できる。
これにより、情報処理装置10Aのユーザに、登録話者を別途、事前に登録する事前登録をしていなくてもよいので、ユーザに負担がかかることなく話者識別の精度を向上することができる。
以上、実施の形態に係る情報処理装置について説明したが、本開示は、この実施の形態に限定されるものではない。
例えば、上記実施の形態に係る情報処理装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、またはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、本開示は、情報処理装置により実行される発話継続判定方法として実現されてもよい。
また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
以上、一つまたは複数の態様に係る情報処理装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本開示は、情報処理方法、情報処理装置及びプログラムに利用でき、例えば、AIスピーカ、議事録システムなど、会話音声について話者識別を用いる機能を必要とする情報処理方法、情報処理装置及びプログラムに利用できる。
1 登録話者推定システム
10、10A 情報処理装置
11 音声入力部
12 保存装置
13 記憶部
101 検出部
102 特徴量抽出部
103 比較部
104 登録話者決定部
105 登録部

Claims (12)

  1. コンピュータが行う情報処理方法であって、
    音声入力部に入力された音声の音声区間を検出する検出ステップと、
    検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、
    抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者の音声それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、
    連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下である1以上の第2特徴量を削除することで前記1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含む、
    情報処理方法。
  2. 前記登録話者決定ステップでは、さらに、前記比較処理の結果、前記記憶部に保存されているすべての前記第2特徴量と前記第1特徴量との類似度が前記閾値以下であった場合、前記第1特徴量を、新たな登録話者の音声を特定できる特徴量として、前記記憶部に保存する、
    請求項1に記載の情報処理方法。
  3. 前記登録話者決定ステップでは、さらに、前記記憶部に保存されている前記第2特徴量のうち、前記第1特徴量との類似度が前記閾値より高い第2特徴量があった場合、前記閾値より高い第2特徴量を、前記閾値より高い第2特徴量と前記第1特徴量とを合わせた特徴量に更新することで、前記記憶部に保存されている、前記閾値より高い第2特徴量から特定される登録話者を更新する、
    請求項1または2に記載の情報処理方法。
  4. 前記記憶部には、予め前記第2特徴量が保存されている、
    請求項1〜3のいずれか1項に記載の情報処理方法。
  5. さらに、前記登録話者決定ステップをコンピュータが行う前に、登録話者の対象者それぞれに第1音声を発せさせることで前記音声入力部に前記第1音声を入力させ、入力させた前記第1音声の第1音声区間を検出し、検出した前記第1音声区間から、前記登録話者の対象者それぞれを特定できる発話の特徴量を抽出し、抽出した特徴量を前記第2特徴量として前記記憶部に保存する登録話者登録ステップを含む、
    請求項1〜4のいずれか1項に記載の情報処理方法。
  6. 前記登録話者決定ステップでは、
    前記所定条件下として、連続した前記音声区間におけるm(mは2以上の整数)回の前記比較処理を通して、前記第1特徴量との類似度が閾値より以下である1以上の第2特徴量があった場合、前記1以上の第2特徴量から特定される登録話者を削除する、
    請求項1〜5のいずれか1項に記載の情報処理方法。
  7. 前記登録話者決定ステップでは、
    前記所定条件下として、所定時間に行われた前記比較処理を通して、前記第1特徴量との類似度が閾値以下である1以上の第2特徴量がある場合、前記1以上の第2特徴量から特定される登録話者を削除する、
    請求項1〜5のいずれか1項に記載の情報処理方法。
  8. 前記登録話者決定ステップでは、前記記憶部に、前記第2特徴量として、話者識別の対象である2以上の登録話者それぞれを特定できる第2特徴量が保存されている場合に、前記1以上の第2特徴量から特定される登録話者を削除する処理を行う、
    請求項1〜7のいずれか1項に記載の情報処理方法。
  9. 前記検出ステップでは、前記音声入力部に入力された音声の音声区間を時系列に連続して検出する、
    請求項1〜8のいずれか1項に記載の情報処理方法。
  10. 前記検出ステップでは、前記音声入力部に入力された音声の音声区間を所定間隔で検出する、
    請求項1〜8のいずれか1項に記載の情報処理方法。
  11. 音声入力部に入力された音声の音声区間を検出する検出部と、
    検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出部と、
    抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較部と、
    連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定部とを備える、
    情報処理装置。
  12. 音声入力部に入力された音声の音声区間を検出する検出ステップと、
    検出された前記音声区間から、前記音声の話者を特定できる第1特徴量を抽出する特徴量抽出ステップと、
    抽出された前記第1特徴量と、記憶部に保存されている、話者識別の対象である登録話者それぞれを特定できる第2特徴量とを比較する比較処理を行う比較ステップと、
    連続する複数の前記音声区間のそれぞれごとに前記比較処理を行い、所定条件下において、前記記憶部に保存されている第2特徴量のうち前記第1特徴量との類似度が閾値以下の1以上の第2特徴量から特定される登録話者を削除する登録話者決定ステップとを含む情報処理方法をコンピュータに実行させる、
    プログラム。
JP2018200354A 2018-10-24 2018-10-24 情報処理方法、情報処理装置、及び、プログラム Active JP7376985B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018200354A JP7376985B2 (ja) 2018-10-24 2018-10-24 情報処理方法、情報処理装置、及び、プログラム
US16/658,769 US11417344B2 (en) 2018-10-24 2019-10-21 Information processing method, information processing device, and recording medium for determining registered speakers as target speakers in speaker recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018200354A JP7376985B2 (ja) 2018-10-24 2018-10-24 情報処理方法、情報処理装置、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2020067566A true JP2020067566A (ja) 2020-04-30
JP7376985B2 JP7376985B2 (ja) 2023-11-09

Family

ID=70327189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018200354A Active JP7376985B2 (ja) 2018-10-24 2018-10-24 情報処理方法、情報処理装置、及び、プログラム

Country Status (2)

Country Link
US (1) US11417344B2 (ja)
JP (1) JP7376985B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7376985B2 (ja) * 2018-10-24 2023-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置、及び、プログラム
KR20210095431A (ko) * 2020-01-23 2021-08-02 삼성전자주식회사 전자 장치 및 그 제어 방법
US11955127B2 (en) * 2021-02-24 2024-04-09 Kyndryl, Inc. Cognitive correlation of group interactions
CN115579000B (zh) * 2022-12-07 2023-03-03 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287201A (ja) * 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2006025079A (ja) * 2004-07-07 2006-01-26 Nec Tokin Corp ヘッドセット及び無線通信システム
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
JP2009145924A (ja) * 2006-03-27 2009-07-02 Pioneer Electronic Corp 話者認識システム及びコンピュータプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US11600269B2 (en) * 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
US10325601B2 (en) * 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US11417343B2 (en) * 2017-05-24 2022-08-16 Zoominfo Converse Llc Automatic speaker identification in calls using multiple speaker-identification parameters
CN111095402A (zh) * 2017-09-11 2020-05-01 瑞典爱立信有限公司 对用户简档的声控管理
GB2567503A (en) * 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
JP7376985B2 (ja) * 2018-10-24 2023-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置、及び、プログラム
US11315550B2 (en) * 2018-11-19 2022-04-26 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
JP7266448B2 (ja) * 2019-04-12 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識方法、話者認識装置、及び話者認識プログラム
US11580989B2 (en) * 2019-08-23 2023-02-14 Panasonic Intellectual Property Corporation Of America Training method of a speaker identification model based on a first language and a second language

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287201A (ja) * 2003-03-24 2004-10-14 Seiko Epson Corp 議事録作成装置及び方法、ならびに、コンピュータプログラム
JP2006025079A (ja) * 2004-07-07 2006-01-26 Nec Tokin Corp ヘッドセット及び無線通信システム
JP2009145924A (ja) * 2006-03-27 2009-07-02 Pioneer Electronic Corp 話者認識システム及びコンピュータプログラム
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム

Also Published As

Publication number Publication date
US20200135211A1 (en) 2020-04-30
JP7376985B2 (ja) 2023-11-09
US11417344B2 (en) 2022-08-16

Similar Documents

Publication Publication Date Title
JP6800946B2 (ja) 音声区間の認識方法、装置及び機器
JP7376985B2 (ja) 情報処理方法、情報処理装置、及び、プログラム
US9947324B2 (en) Speaker identification method and speaker identification device
US10490194B2 (en) Speech processing apparatus, speech processing method and computer-readable medium
JP5172973B2 (ja) 音声認識装置
KR20160106270A (ko) 음성 인식 장치 및 방법
US9424839B2 (en) Speech recognition system that selects a probable recognition resulting candidate
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US20220383880A1 (en) Speaker identification apparatus, speaker identification method, and recording medium
WO2019244298A1 (ja) 属性識別装置、属性識別方法、およびプログラム記録媒体
KR20150093059A (ko) 화자 검증 장치 및 방법
CN109065026B (zh) 一种录音控制方法及装置
CN111108551A (zh) 一种声纹鉴定方法和相关装置
JP5105097B2 (ja) 音声分類装置、音声分類方法及びプログラム
JP2005221727A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP5342621B2 (ja) 音響モデル生成装置、音響モデル生成方法、プログラム
JP6711343B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
JP2005173008A (ja) 音声解析処理およびそれを用いた音声処理装置および媒体
CN109559759B (zh) 具备增量注册单元的电子设备及其方法
CN117501365A (zh) 发音异常检测方法、发音异常检测装置以及程序
JP4297349B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231027

R150 Certificate of patent or registration of utility model

Ref document number: 7376985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150