JP2024034016A - 音声取得装置および音声取得方法 - Google Patents

音声取得装置および音声取得方法 Download PDF

Info

Publication number
JP2024034016A
JP2024034016A JP2022138001A JP2022138001A JP2024034016A JP 2024034016 A JP2024034016 A JP 2024034016A JP 2022138001 A JP2022138001 A JP 2022138001A JP 2022138001 A JP2022138001 A JP 2022138001A JP 2024034016 A JP2024034016 A JP 2024034016A
Authority
JP
Japan
Prior art keywords
likelihood
audio signal
voice
audio
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022138001A
Other languages
English (en)
Inventor
昭博 垂口
亮太 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2022138001A priority Critical patent/JP2024034016A/ja
Publication of JP2024034016A publication Critical patent/JP2024034016A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者識別により適した音声信号を取得する。【解決手段】音声取得装置は、話者の第1音声信号を取得する取得部と、第1音声信号に含まれるノイズを除去して第2音声信号を生成するノイズ除去部と、第1音声信号に人間の音声が含まれている確からしさを示す第1尤度と、第2音声信号に人間の音声が含まれている確からしさを示す第2尤度とを算出する尤度算出部と、話者の認証に用いられる認証音声信号を決定する音声決定部と、を備え、音声決定部は、第1尤度が第2尤度以上であると判定した場合には、第1音声信号を認証音声信号に決定し、第1尤度が第2尤度以上でないと判定した場合には、第2音声信号を認証音声信号に決定する。【選択図】図1

Description

本開示は、音声取得装置および音声取得方法に関する。
特許文献1には、騒音がある環境において音声を認識する音声認識装置が開示されている。音声認識装置は、認識の対象となる音声と音声以外の音からなる音声とを含む音声信号から雑音成分を互いに異なる強度で除去して、SN比が良い第1の音声除去信号および音声成分の劣化が少ない第2の雑音除去信号を生成し、第1の雑音除去信号の信号パターンに基づいて、音声信号のうち音声成分が存在する区間を検出し、第2の雑音除去信号から区間に対応する区間の信号を抽出して、周波数変換を行い、周波数変換が行われた第2の雑音除去信号と、予め準備された音声パターン信号との類似度を求める。
特開2006-330389号公報
しかしながら、音声認識装置は、音声認識に使用される第2の雑音除去信号に雑音除去を行うため、雑音とともにユーザの音声成分が除去され、音声認識精度が低下する可能性があった。
本開示は、上述した従来の状況に鑑みて案出され、話者識別により適した音声信号を取得する音声取得装置および音声取得方法を提供することを目的とする。
本開示は、話者の第1音声信号を取得する取得部と、前記第1音声信号に含まれるノイズを除去して第2音声信号を生成するノイズ除去部と、前記第1音声信号に人間の音声が含まれている確からしさを示す第1尤度と、前記第2音声信号に前記人間の音声が含まれている確からしさを示す第2尤度とを算出する尤度算出部と、前記話者の認証に用いられる認証音声信号を決定する音声決定部と、を備え、前記音声決定部は、前記第1尤度が前記第2尤度以上であると判定した場合には、前記第1音声信号を前記認証音声信号に決定し、前記第1尤度が前記第2尤度以上でないと判定した場合には、前記第2音声信号を前記認証音声信号に決定する、音声取得装置を提供する。
また、本開示は、音声信号に基づく話者認証を実行するコンピュータが実行する音声取得方法であって、話者の第1音声信号を取得し、前記第1音声信号に含まれるノイズを除去して第2音声信号を生成し、前記第1音声信号に人間の音声が含まれている確からしさを示す第1尤度と、前記第2音声信号に前記人間の音声が含まれている確からしさを示す第2尤度とを算出し、前記第1尤度が前記第2尤度以上であると判定した場合には、前記第1音声信号を前記話者の認証に用いられる認証音声信号に決定し、前記第1尤度が前記第2尤度以上でないと判定した場合には、前記第2音声信号を前記認証音声信号に決定する、音声取得方法を提供する。
本開示によれば、話者識別により適した音声信号を取得できる。
実施の形態1に係る音声識別システムの内部構成例を示すブロック図 実施の形態1における端末装置の動作手順例1を説明するフローチャート 実施の形態1における端末装置の動作手順例2を説明するフローチャート 実施の形態1の変形例に係る音声識別システムの内部構成例を示すブロック図
以下、適宜図面を参照しながら、本開示に係る音声取得装置および音声取得方法を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
まず、図1を参照して、実施の形態1に係る音声識別システム100について説明する。図1は、実施の形態1に係る音声識別システム100の内部構成例を示すブロック図である。
実施の形態1に係る音声識別システム100は、音声信号取得装置P2により取得された音声信号の話者を端末装置P1によって識別する。音声識別システム100は、端末装置P1と、音声信号取得装置P2とを含む。なお、音声信号取得装置P2は、図1に示す端末装置P1と別体で構成される例を示すが、一体的に構成されてもよい。
コンピュータの一例としての端末装置P1は、音声信号取得装置P2から送信された話者の音声信号を取得し、取得された音声信号(以降、「入力音声」と表記)にノイズ除去処理を実行する。端末装置P1は、入力音声と、ノイズ除去処理された音声信号(以降、「ノイズ除去音声」と表記)とのうちいずれか話者識別(認証)により適した音声信号を選定し、選定された音声信号(つまり、入力音声またはノイズ除去音声)を用いて話者識別を実行する。
なお、端末装置P1は、入力音声およびノイズ除去音声のそれぞれが、共に話者識別(認証)に適した音声信号でないと判定した場合には、話者識別処理を中止してもよい。
端末装置P1は、例えば、PC(Personal Computer),ノートPC,タブレット端末,スマートフォン等により実現される。端末装置P1は、通信部10と、プロセッサ11と、メモリ12と、表示部13と、データベースDBとを含む。
取得部の一例としての通信部10は、音声信号取得装置P2との間で有線通信によりデータ送受信可能に接続される。通信部10は、音声信号取得装置P2から送信された入力音声をプロセッサ11に出力する。
なお、通信部10は、USB(Universal Serial Bus)等のインターフェースを介して音声信号取得装置P2との間でデータ送受信を実行してもよい。
プロセッサ11は、例えばCPU(Central Processing Unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ12と協働して、各種の処理および制御を行う。具体的には、プロセッサ11は、メモリ12に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、ノイズ除去部111,尤度算出部112,尤度判定部113,ノイズ除去動作切替部114,話者識別部115,表示制御部116等の各部の機能を実現する。
ノイズ除去部111は、通信部10から出力された入力音声に含まれるノイズを除去して、ノイズ除去音声を生成する。なお、ここでいうノイズは、環境音、人間以外の音声(例えば、動物の鳴き声等)等を示す。ノイズ除去部111は、生成されたノイズ除去音声を尤度算出部112に出力する。
ノイズ除去部111は、ノイズ除去動作切替部114によりノイズ除去機能のオン/オフ制御が実行される。ノイズ除去部111は、ノイズ除去動作切替部114によりノイズ除去機能がオフされた場合、同一話者の識別処理を実行する間、入力音声のノイズ除去処理を中止し、ノイズ除去音声の生成を停止する。
尤度算出部112は、同一話者の入力音声とノイズ除去音声とを取得する。尤度算出部112は、メモリ12に記録された学習モデルを用いて、入力音声に含まれる音声の人間の声である確からしさ(以降、「第1尤度」と表記)を評価する。また、尤度算出部112は、メモリ12に記録された学習モデルを用いて、ノイズ除去音声に含まれる音声の人間の声である確からしさ(以降、「第2尤度」と表記)を評価する。
なお、第1尤度および第2尤度のそれぞれは、尤度の評価基準,評価精度のばらつきを抑制するために同一の学習モデルを用いて評価されることが望ましいが、これに限定されず、異なる学習モデルが用いられてもよい。
尤度算出部112は、算出された第1尤度および第2尤度のそれぞれを尤度判定部113に出力する。
音声決定部の一例としての尤度判定部113は、尤度算出部112から出力された第1尤度と第2尤度とを比較し、入力音声またはノイズ除去音声のいずれがより高い尤度を有するかを判定する。尤度判定部113は、より高い尤度を有する音声信号(入力音声またはノイズ除去音声)の情報をノイズ除去動作切替部114および話者識別部115のそれぞれに出力する。
ノイズ除去動作切替部114は、尤度判定部113から出力された音声信号の情報に基づいて、ノイズ除去部111により実行されるノイズ除去機能のオン/オフを切り替える。
具体的に、ノイズ除去動作切替部114は、音声信号の情報に基づいて、第1尤度が第2尤度以上であると判定した場合、ノイズ除去後のノイズ除去音声よりもノイズが除去されていない入力音声の方が話者識別により適した音声信号であると判定し、同一話者の識別(認証)を実行する間、ノイズ除去部111により実行されるノイズ除去機能をオフにする。
一方、ノイズ除去動作切替部114は、音声信号の情報に基づいて、第1尤度が第2尤度以上でないと判定した場合、ノイズが除去されていない入力音声よりもノイズ除去後のノイズ除去音声の方が話者識別により適した音声信号であると判定し、同一話者の識別(認証)を実行する間、ノイズ除去部111により実行されるノイズ除去機能をオンにする。
音声決定部の一例としての話者識別部115は、尤度判定部113から出力された音声信号の情報に基づいて、話者識別に用いられる音声信号(入力音声またはノイズ除去音声)を選定する。
なお、話者識別部115は、尤度判定部113から出力された音声信号の情報に対応する第1尤度または第2尤度が規定値以上であるか否かを判定し、判定結果に基づいて、話者識別に用いられる音声信号を選定してもよい。話者識別部115は、第1尤度または第2尤度が規定値以上でないと判定した場合、話者識別処理を中止する。
これにより、話者識別部115は、第1尤度または第2尤度と規定値との比較により、話者識別に適した音声信号であるか否かを判定できる。また、話者識別部115は、話者識別に適した音声信号でないと判定した場合、話者識別処理を省略でき、話者識別精度の低下をより効果的に抑制できる。
なお、第1尤度および第2尤度のそれぞれは、話者識別に適する音声信号の評価(選定)基準のばらつきを抑制するために同一の規定値を用いて評価(比較)されることが望ましいが、これに限定されず、異なる規定値が用いられてもよい。
話者識別部115は、選定された音声信号の情報を取得し、この音声信号の情報に対応する音声信号(入力音声またはノイズ除去音声)と、データベースDBに登録された1以上の音声信号のそれぞれとを照合し、音声信号の話者を識別する。話者識別部115は、話者識別結果を表示制御部116に出力する。
なお、話者識別部115により実行される話者識別処理は、上述した例に限定されず、公知である任意の話者識別処理が採用されてもよい。例えば、話者識別部115は、音声信号(入力音声またはノイズ除去音声)に含まれる話者の個人性を示す特徴量と、データベースDBに登録された特徴量とを照合することで話者識別を実行してもよい。
表示制御部116は、話者識別部115から出力された話者識別結果に基づいて、話者あるいは端末装置P1を管理,操作する管理者に話者識別結果を通知する識別結果画面(不図示)を生成する。表示制御部116は、生成された識別結果画面を表示部13に出力して表示させる。
メモリ12は、例えばプロセッサ11の各処理を実行する際に用いられるワークメモリとしてのRAM(Random Access Memory)と、プロセッサ11の動作を規定したプログラムおよびデータを格納するROM(Read Only Memory)とを有する。RAMには、プロセッサ11により生成あるいは取得されたデータもしくは情報が一時的に保存される。ROMには、プロセッサ11の動作を規定するプログラムが書き込まれている。メモリ12は、第1尤度および第2尤度のそれぞれの評価(算出)に用いられる学習モデルを記憶する。
なお、プロセッサ11は、学習データを生成したり、外部装置(不図示)から送信された新たな学習モデルを取得したりすることにより、メモリ12に記憶された学習モデルを更新可能であってもよい。学習データを生成して学習モデルを更新する場合、プロセッサ11は、入力音声およびノイズ除去音声のそれぞれを学習データとして機械学習を実行し、第1尤度および第2尤度のそれぞれを評価するための学習モデルを更新してもよい。
ここで、学習データを生成するための機械学習は、1つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器(Linear Classifiers)、サポートベクターマシン(Support Vector Machines)、二次分類器(Quadratic Classifiers)、カーネル密度推定(Kernel Estimation)、決定木(Decision Trees)、人工ニューラルネットワーク(Artificial Neural Networks)、ベイジアン技術および/またはネットワーク(Bayesian Techniques and/or Networks)、隠れマルコフモデル(Hidden Markov Models)、バイナリ分類子(Binary Classifiers)、マルチクラス分類器(Multi-Class Classifiers)、クラスタリング(Clustering Technique)、ランダムフォレスト(Random Forest Technique)、ロジスティック回帰(Logistic Regression Technique)、線形回帰(Linear Regression Technique)、勾配ブースティング(Gradient Boosting Technique)等が挙げられる。但し、使用される統計的分類技術はこれらに限定されない。
表示部13は、例えばLCD(Liquid Crystal Display)あるいは有機EL(Electroluminescence)ディスプレイを用いて構成される。表示部13は、表示制御部116により制御されて、表示制御部116から出力された話者識別画面(不図示)を表示する。
データベースDBは、所謂ストレージであって、例えばフラッシュメモリ、HDD(Hard Disk Drive)あるいはSSD(Solid State Drive)等の記憶媒体を用いて構成される。データベースDBは、話者情報と、音声信号とを対応付けて、話者ごとに格納(登録)する。
なお、話者識別部115が音声信号(入力音声またはノイズ除去音声)に含まれる話者の個人性を示す特徴量に基づいて話者識別を実行する場合、データベースDBは、音声信号の代わりに特徴量を格納してもよいし、音声信号と特徴量とを話者情報に対応付けて格納してもよい。
音声信号取得装置P2は、話者の音声を収音し、収音された音声を音声信号に変換して、端末装置P1に送信する。音声信号取得装置P2は、例えば、マイク,電話機,PC,ノートPC,タブレット端末,スマートフォン等により実現される。
次に、図2を参照して、端末装置P1により実行される話者識別手順について説明する。図2は、実施の形態1における端末装置P1の話者識別手順例1を説明するフローチャートである。
端末装置P1は、音声信号取得装置P2から送信された入力音声の入力(取得)を受け付ける(St11)。
端末装置P1は、メモリ12に記憶され、音声信号の音声が人間の音声である確からしさ(第1尤度)を評価するための学習モデルを用いて、入力(取得)された入力音声に対応する第1尤度を評価(算出)する(St12)。
端末装置P1は、入力(取得)された入力音声に含まれるノイズを除去して、ノイズ除去音声を生成する(St13)。ノイズ除去部111は、メモリ12に記憶された学習モデルを用いて、生成されたノイズ除去音声に対応する第2尤度を評価(算出)する(St14)。
端末装置P1は、算出された第1尤度および第2尤度のそれぞれに基づいて、第1尤度が第2尤度以上であるか否かを判定する(St15)。
端末装置P1は、ステップSt15の処理において、第1尤度が第2尤度以上であると判定した場合(St15,YES)、この第1尤度が算出された入力音声と、データベースDBに登録された音声信号とを照合して、話者識別処理を実行する(St16)。
一方、端末装置P1は、ステップSt15の処理において、第1尤度が第2尤度以上でないと判定した場合(St15,NO)、この第2尤度が算出されたノイズ除去音声と、データベースDBに登録された音声信号とを照合して、話者識別処理を実行する(St17)。
端末装置P1は、ステップSt16またはステップSt17の処理で実行された話者識別結果を通知する話者識別画面(不図示)を生成して、表示部13に表示する(St18)。
以上により、実施の形態1における端末装置P1は、ノイズ除去により音声信号に含まれるノイズを除去したノイズ除去音声を用いた話者識別だけでなく、ノイズが多く、ノイズ除去によって音声信号から話者の音声そのものが除去されてしまう場合には、ノイズ除去しない入力音声を用いて話者識別を実行できる。これにより、端末装置P1は、ノイズによる話者識別精度の低下と、ノイズ除去による話者識別精度の低下とをより効果的に抑制できる。
次に、図3を参照して、端末装置P1により実行される話者識別手順について説明する。図3は、実施の形態1における端末装置P1の話者識別手順例2を説明するフローチャートである。なお、図3に示す話者識別手順例2におけるステップSt11~ステップSt14の処理は、図2に示す話者識別手順例1におけるステップSt11~ステップSt14の処理と同様であるため、説明を省略する。
端末装置P1は、算出された第1尤度および第2尤度のそれぞれに基づいて、第1尤度が第2尤度以上であるか否かを判定する(St15)。
端末装置P1は、ステップSt15の処理において、第1尤度が第2尤度以上であると判定した場合(St15,YES)、第1尤度が規定値以上であるか否かをさらに判定する(St21)。
端末装置P1は、ステップSt21の処理において、第1尤度が規定値以上であると判定した場合(St21,YES)、入力音声と、データベースDBに登録された音声信号とを照合して、話者識別処理を実行する(St22)。
一方、端末装置P1は、ステップSt21の処理において、第1尤度が規定値以上でないと判定した場合(St21,NO)、入力音声が話者識別に適した音声信号でないと判定し、話者識別処理を中止する(St23)。
また、端末装置P1は、ステップSt15の処理において、第1尤度が第2尤度以上でないと判定した場合(St15,NO)、第2尤度が規定値以上であるか否かをさらに判定する(St24)。
端末装置P1は、ステップSt24の処理において、第2尤度が規定値以上であると判定した場合(St24,YES)、ノイズ除去音声と、データベースDBに登録された音声信号とを照合して、話者識別処理を実行する(St25)。
一方、端末装置P1は、ステップSt24の処理において、第2尤度が規定値以上でないと判定した場合(St24,NO)、ノイズ除去音声が話者識別に適した音声信号でないと判定し、話者識別処理を中止する(St26)。
端末装置P1は、ステップSt22またはステップSt25の処理で実行された話者識別結果を通知する話者識別画面(不図示)を生成して、表示部13に表示する(St27)。
以上により、実施の形態1における端末装置P1は、第1尤度または第2尤度に基づいて、話者識別に用いられる音声信号が話者識別に適した音声信号でないと判定した場合、話者識別処理を中止できる。これにより、端末装置P1は、話者識別手順例1よりも話者識別精度の低下をより効果的に抑制することができる。
(実施の形態1の変形例)
実施の形態1に係る音声識別システム100は、端末装置P1と音声信号取得装置P2とが有線通信可能に接続されたり、端末装置P1と音声信号取得装置P2とが一体的に構成されたりする例を示した。実施の形態1の変形例に係る音声識別システム100Aは、端末装置P1と音声信号取得装置P2とがネットワークNW等を介してデータ通信可能に接続される例について説明する。
なお、実施の形態1の変形例に係る音声識別システム100Aの内部構成例は、実施の形態1に係る音声識別システム100の内部構成例と同様の構成を有する。よって、以下の実施の形態1の変形例に係る音声識別システム100Aの説明では、同様の構成に対して同一の符号を付与することで、その説明を省略する。
図4を参照して、実施の形態1の変形例に係る音声識別システム100Aに係る音声識別システム100について説明する。図4は、実施の形態1の変形例に係る音声識別システム100Aの内部構成例を示すブロック図である。
実施の形態1の変形例に係る音声識別システム100Aは、音声信号取得装置P2Aにより取得された音声信号の話者を端末装置P1Aによって識別する。音声識別システム100Aは、端末装置P1Aと、音声信号取得装置P2Aとを含む。なお、音声信号取得装置P2Aは、複数であってよい。また、データベースDBAは、端末装置P1Aと一体的に構成されてもよい。
端末装置P1Aは、音声信号取得装置P2Aとの間でネットワークNWを介して有線通信あるいは無線通信可能に接続される。端末装置P1Aは、音声信号取得装置P2Aから送信された話者の音声信号を取得する。端末装置P1Aは、取得された入力音声にノイズ除去処理したノイズ除去音声と入力音声とのうちいずれか話者識別(認証)により適した音声信号を選定し、選定された音声信号(つまり、入力音声またはノイズ除去音声)を用いて話者識別を実行する。なお、端末装置P1Aにより実行される話者識別処理は、端末装置P1により実行される話者識別処理と同様であるため、説明を省略する。
端末装置P1Aは、例えば、PC,ノートPC,タブレット端末,スマートフォン、サーバ等により実現される。端末装置P1Aは、通信部10Aと、プロセッサ11と、メモリ12と、表示部13と、を含む。
通信部10Aは、ネットワークNWを介して、音声信号取得装置P2Aとの間で有線通信または無線通信によってデータ送受信可能に接続される。通信部10Aは、音声信号取得装置P2Aから送信された入力音声をプロセッサ11に出力する。
なお、ここでいう無線通信は、例えばBluetooth(登録商標)、NFC(登録商標)等の近距離無線通信、またはWi-Fi(登録商標)等の無線LAN(Local Area Network)を介した通信である。
データベースDBAは、所謂ストレージであって、例えばフラッシュメモリ、HDDあるいはSSD等の記憶媒体を用いて構成される。データベースDBAは、話者情報と、音声信号とを対応付けて、話者ごとに格納(登録)する。データベースDBAは、ネットワークNWを介して、端末装置P1との間でデータ送受信可能に接続される。
音声信号取得装置P2Aは、話者の音声を収音し、収音された音声を音声信号に変換する。音声信号取得装置P2Aは、ネットワークNWを介して、音声信号を端末装置P1Aに送信する。音声信号取得装置P2Aは、例えば、マイク,電話機,PC,ノートPC,タブレット端末,スマートフォン等により実現される。
以上により、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、話者の入力音声(第1音声信号の一例)を取得する通信部10(取得部の一例)と、入力音声に含まれるノイズを除去してノイズ除去音声(第2音声信号の一例)を生成するノイズ除去部111と、入力音声に人間の音声が含まれている確からしさを示す第1尤度と、ノイズ除去音声に人間の音声が含まれている確からしさを示す第2尤度とを算出する尤度算出部112と、話者の認証に用いられる認証音声信号を決定する尤度判定部113あるいは話者識別部115(音声決定部の一例)と、を備える。尤度判定部113あるいは話者識別部115は、第1尤度が第2尤度以上であると判定した場合には、入力音声を認証音声信号に決定し、第1尤度が第2尤度以上でないと判定した場合には、ノイズ除去音声を認証音声信号に決定する。
これにより、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、ノイズ除去により音声信号に含まれるノイズを除去したノイズ除去音声を用いた話者識別だけでなく、ノイズが多く、ノイズ除去によって音声信号から話者の音声そのものが除去されてしまう場合には、ノイズ除去しない入力音声を用いて話者識別を実行できる。これにより、端末装置P1,P1Aは、ノイズによる話者識別精度の低下と、ノイズ除去による話者識別精度の低下とをより効果的に抑制できる。
また、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aにおける尤度算出部112は、同一の学習モデルを用いて、第1尤度と第2尤度とを算出する。これにより、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、同一の学習モデルを用いて第1尤度と第2尤度とを算出(評価)できるため、算出された第1尤度および第2尤度の評価基準,評価精度のばらつきを抑制できる。したがって、端末装置P1,P1Aは、話者識別(認証)により適した音声信号の決定し、取得できる。
また、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aにおける尤度判定部113あるいは話者識別部115は、第1尤度が第2尤度以上であると判定した場合、第1尤度が規定値以上であるか否かを判定し、第1尤度が規定値以上であると判定した場合、入力音声を認証音声信号に決定する。これにより、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、第1尤度(つまり、人間の音声が含まれている確からしさ)が規定値以上であって、話者識別により適した入力音声を用いて話者識別(認証)を実行できる。
また、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aにおける尤度判定部113あるいは話者識別部115は、第1尤度が規定値以上でないと判定した場合、認証音声信号の決定を中止する。これにより、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、第1尤度(つまり、人間の音声が含まれている確からしさ)が規定値以上でなく、話者識別に適していないと判定された入力音声を用いた話者識別(認証)の実行を中止できる。
また、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aにおける尤度判定部113あるいは話者識別部115は、第1尤度が第2尤度以上でないと判定した場合、第2尤度が規定値以上であるか否かを判定し、第2尤度が規定値以上であると判定した場合、ノイズ除去音声を認証音声信号に決定する。これにより、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、第2尤度(つまり、人間の音声が含まれている確からしさ)が規定値以上であって、話者識別により適した入力音声を用いて話者識別(認証)を実行できる。
また、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aにおける尤度判定部113あるいは話者識別部115は、第2尤度が規定値以上でないと判定した場合、認証音声信号の決定を中止する。これにより、実施の形態1および実施の形態1の変形例に係る端末装置P1,P1Aは、第2尤度(つまり、人間の音声が含まれている確からしさ)が規定値以上でなく、話者識別に適していないと判定された入力音声を用いた話者識別(認証)の実行を中止できる。
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
本開示は、話者識別により適した音声信号を取得する音声取得装置および音声取得方法として有用である。
10,10A 通信部
11 プロセッサ
12 メモリ
13 表示部
100,100A 音声識別システム
111 ノイズ除去部
112 尤度算出部
113 尤度判定部
114 ノイズ除去動作切替部
115 話者識別部
116 表示制御部
DB,DBA データベース
P1,P1A 端末装置
P2,P2A 音声信号取得装置

Claims (7)

  1. 話者の第1音声信号を取得する取得部と、
    前記第1音声信号に含まれるノイズを除去して第2音声信号を生成するノイズ除去部と、
    前記第1音声信号に人間の音声が含まれている確からしさを示す第1尤度と、前記第2音声信号に前記人間の音声が含まれている確からしさを示す第2尤度とを算出する尤度算出部と、
    前記話者の認証に用いられる認証音声信号を決定する音声決定部と、を備え、
    前記音声決定部は、
    前記第1尤度が前記第2尤度以上であると判定した場合には、前記第1音声信号を前記認証音声信号に決定し、
    前記第1尤度が前記第2尤度以上でないと判定した場合には、前記第2音声信号を前記認証音声信号に決定する、
    音声取得装置。
  2. 前記尤度算出部は、
    同一の学習モデルを用いて、前記第1尤度と前記第2尤度とを算出する、
    請求項1に記載の音声取得装置。
  3. 前記音声決定部は、
    前記第1尤度が前記第2尤度以上であると判定した場合、前記第1尤度が規定値以上であるか否かを判定し、
    前記第1尤度が前記規定値以上であると判定した場合、前記第1音声信号を前記認証音声信号に決定する、
    請求項1に記載の音声取得装置。
  4. 前記音声決定部は、
    前記第1尤度が前記規定値以上でないと判定した場合、前記認証音声信号の決定を中止する、
    請求項3に記載の音声取得装置。
  5. 前記音声決定部は、
    前記第1尤度が前記第2尤度以上でないと判定した場合、前記第2尤度が規定値以上であるか否かを判定し、
    前記第2尤度が前記規定値以上であると判定した場合、前記第2音声信号を前記認証音声信号に決定する、
    請求項1に記載の音声取得装置。
  6. 前記音声決定部は、
    前記第2尤度が前記規定値以上でないと判定した場合、前記認証音声信号の決定を中止する、
    請求項5に記載の音声取得装置。
  7. 音声信号に基づく話者認証を実行するコンピュータが実行する音声取得方法であって、
    話者の第1音声信号を取得し、
    前記第1音声信号に含まれるノイズを除去して第2音声信号を生成し、
    前記第1音声信号に人間の音声が含まれている確からしさを示す第1尤度と、前記第2音声信号に前記人間の音声が含まれている確からしさを示す第2尤度とを算出し、
    前記第1尤度が前記第2尤度以上であると判定した場合には、前記第1音声信号を前記話者の認証に用いられる認証音声信号に決定し、
    前記第1尤度が前記第2尤度以上でないと判定した場合には、前記第2音声信号を前記認証音声信号に決定する、
    音声取得方法。
JP2022138001A 2022-08-31 2022-08-31 音声取得装置および音声取得方法 Pending JP2024034016A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022138001A JP2024034016A (ja) 2022-08-31 2022-08-31 音声取得装置および音声取得方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022138001A JP2024034016A (ja) 2022-08-31 2022-08-31 音声取得装置および音声取得方法

Publications (1)

Publication Number Publication Date
JP2024034016A true JP2024034016A (ja) 2024-03-13

Family

ID=90193401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022138001A Pending JP2024034016A (ja) 2022-08-31 2022-08-31 音声取得装置および音声取得方法

Country Status (1)

Country Link
JP (1) JP2024034016A (ja)

Similar Documents

Publication Publication Date Title
US10468032B2 (en) Method and system of speaker recognition using context aware confidence modeling
US9489965B2 (en) Method and apparatus for acoustic signal characterization
KR20200087352A (ko) 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
US20220130392A1 (en) Electronic device and control method thereof
EP4082007B1 (en) Electronic apparatus and controlling method thereof
Hanilçi et al. Source cell-phone recognition from recorded speech using non-speech segments
US9953633B2 (en) Speaker dependent voiced sound pattern template mapping
US20230386506A1 (en) Self-supervised speech representations for fake audio detection
Leonid et al. Retracted article: statistical–model based voice activity identification for human-elephant conflict mitigation
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
US10522135B2 (en) System and method for segmenting audio files for transcription
US10446138B2 (en) System and method for assessing audio files for transcription services
US11087746B2 (en) Information processing device, information processing method, and program
JP2024034016A (ja) 音声取得装置および音声取得方法
JP7266390B2 (ja) 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
JP7326596B2 (ja) 音声データ作成装置
CN108573708A (zh) 用于促进可靠样式检测的方法和系统
WO2020217359A1 (ja) フィッティング支援装置、フィッティング支援方法、及びコンピュータ読み取り可能な記録媒体
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
US20220335927A1 (en) Learning apparatus, estimation apparatus, methods and programs for the same
US20230024855A1 (en) Method and electronic device for improving audio quality
JP7485858B2 (ja) 実世界ノイズを使用した音声個性化および連合訓練
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム