JP7287442B2 - 情報処理装置、制御方法、及びプログラム - Google Patents
情報処理装置、制御方法、及びプログラム Download PDFInfo
- Publication number
- JP7287442B2 JP7287442B2 JP2021203111A JP2021203111A JP7287442B2 JP 7287442 B2 JP7287442 B2 JP 7287442B2 JP 2021203111 A JP2021203111 A JP 2021203111A JP 2021203111 A JP2021203111 A JP 2021203111A JP 7287442 B2 JP7287442 B2 JP 7287442B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- voice data
- input
- data
- registrant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
<概要>
図1は、本実施形態の情報処理装置2000が行う処理の概要を概念的に示す図である。情報処理装置2000は、入力音声データ10に含まれる音声の話者の認識を行う。そのために、情報処理装置2000は、入力音声データ10と、登録者20(図示せず)の音声を表す登録者音声データ22との比較を行う。以下、情報処理装置2000の動作をより具体的に説明する。
本実施形態の情報処理装置2000によれば、入力音声データ10を分割することで得られる複数のセグメント音声データ12それぞれについて、登録者音声データ22との類似度を表す第2スコアが算出され、少なくとも第2スコアを用いて、入力音声データ10に含まれる音声の話者が一人と複数のいずれであるかが判定される。そして、この判定結果を利用して、入力音声データ10に登録者20の音声が含まれるか否かが判定される。このように、入力音声データ10に含まれる音声の話者が一人と複数のいずれであるかを判定することにより、入力音声データ10に登録者20以外の人の音声も含まれているか否かを考慮して、入力音声データ10に登録者20の音声が含まれるか否かを判定することができるようになる。よって、情報処理装置2000によれば、入力音声データ10に登録者20以外の人の音声も含まれているケースについて、話者認識の精度を向上させることができる。
図2は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、第1算出部2020、第2算出部2040、第1判定部2060、及び第2判定部2080を有する。第1算出部2020は、入力音声データ10と登録者音声データ22との類似度合いを表す第1スコアを算出する。第2算出部2040は、入力音声データ10を複数のセグメント音声データ12に分割し、各セグメント音声データ12について、登録者音声データ22との類似度合いを表す第2スコアを算出する。なお、入力音声データ10は、時間方向に分割される。第1判定部2060は、少なくとも第2スコアを用いて、入力音声データ10に含まれる音声の話者が一人と複数のいずれであるかを判定する。第2判定部2080は、第1スコア、第2スコア、及び第1判定部2060による判定の結果に基づいて、入力音声データ10に登録者20の音声が含まれるか否かを判定する。
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。第1算出部2020は、入力音声データ10を取得する(S102)。第2算出部2040は第1スコアを算出する(S104)。第2算出部2040は、入力音声データ10を複数のセグメント音声データ12に分割する(S106)。第2算出部2040は、各セグメント音声データ12について第2スコアを算出する(S108)。第1判定部2060は、第1判定(入力音声データ10に含まれる音声の話者が一人と複数のいずれであるかの判定)を行う(S110)。第2判定部2080は、第2判定(入力音声データ10に登録者20の音声が含まれるか否かの判定)を行う(S112)。
第1算出部2020は入力音声データ10を取得する(S102)。入力音声データ10は、話者認識の対象となる音声データである。第1算出部2020が入力音声データ10を取得する方法は任意である。例えば第1算出部2020は、入力音声データ10が記憶されている記憶装置から入力音声データ10を取得する。入力音声データ10が記憶されている記憶装置は、情報処理装置2000の内部に設けられていてもよいし、外部に設けられていてもよい。その他にも例えば、第1算出部2020は、他の装置によって送信される入力音声データ10を受信することで、入力音声データ10を取得する。
第1算出部2020は、入力音声データ10と登録者音声データ22との比較により、第1スコアの算出を行う(S104)。より具体的には、第1算出部2020は、入力音声データ10と登録者音声データ22のそれぞれから抽出される特徴量の類似度を算出し、算出した類似度を第1スコアとする。
第2算出部2040は、入力音声データ10を時間方向に分割することで、入力音声データ10を複数のセグメント音声データ12に分ける(S106)。ここで、入力音声データ10の分割の方法には、様々な方法を採用できる。以下、その方法の具体例を説明する。
例えば第2算出部2040は、入力音声データ10を所定長(10秒など)の音声データに分割することにより、入力音声データ10を複数のセグメント音声データ12に分ける。図5は、所定長に分割された入力音声データ10を例示する図である。図5において、所定長、すなわちセグメント音声データ12の長さは10秒である。
例えば第2算出部2040は、入力音声データ10について話者交換点を検出し、話者交換点で入力音声データ10を区切ることで、入力音声データ10を複数のセグメント音声データ12に分割してもよい。話者交換点を検出する技術には、非特許文献2記載の技術などを利用することができる。
第2算出部2040は、各セグメント音声データ12について第2スコアを算出する(S108)。そのために第2算出部2040は、各セグメント音声データ12から特徴量を抽出する。そして第2算出部2040は、セグメント音声データ12から抽出された特徴量と、登録者音声データ22から抽出された特徴量との類似度を算出し、算出された類似度を、そのセグメント音声データ12の第2スコアとする。
第1判定部2060は、少なくとも第2スコアを用いて、入力音声データ10に含まれる音声の話者が一人と複数のいずれであるかを判定する(S110)。ただし前述したように、この判定には、第1スコアをさらに利用してもよい。例えば第1判定部2060は、第1スコアを第2スコアの最大値と比較する。具体的には、第1判定部2060は、第2算出部2040によって算出された複数の第2スコアの中から最大値を特定し、第1スコアがその最大値よりも小さければ、入力音声データ10に含まれる音声の話者が複数であると判定する。一方、第1判定部2060は、第1スコアが第2スコアの最大値以上であれば、入力音声データ10に含まれる音声の話者が一人であると判定する。
第2判定部2080は第2判定を行う(S112)。具体的には、第2判定部2080は、第1スコア、第2スコア、及び第1判定の結果に基づいて、入力音声データ10に登録者20の音声が含まれるか否かを判定する(S112)。ここで、第2判定の具体的な方法は、第1判定の結果によって異なる。以下、第1判定の結果ごとに、第2判定の具体的な方法を説明する。
入力音声データ10に含まれる音声の話者が一人であると判定された場合、第2判定部2080は、第1スコアを閾値と比較する。第1スコアが閾値以上である場合、第2判定部2080は、入力音声データ10に登録者20の音声が含まれると判定する。一方、第1スコアが閾値未満である場合、第2判定部2080は、入力音声データ10に登録者20の音声が含まれないと判定する。この閾値は、情報処理装置2000からアクセス可能な記憶装置に予め記憶させておく。
入力音声データ10に含まれる音声の話者が複数であると判定された場合、第2判定部2080は、少なくとも第2スコアを用いて補正スコアを算出し、算出した補正スコアを上記閾値と比較する。補正スコアが閾値以上である場合、第2判定部2080は、入力音声データ10に登録者20の音声が含まれると判定する。一方、第1スコアが閾値未満である場合、第2判定部2080は、入力音声データ10に登録者20の音声が含まれないと判定する。
例えば第2判定部2080は、第2スコアの定義域を分割した複数の部分範囲それぞれに含まれる第2スコアの数を表すヒストグラムを生成し、このヒストグラムを用いて補正スコアを算出する。例えば、第2スコア S2 の定義域が「0≦S2≦100」である場合において、この定義域が10個の部分範囲(「0≦S2<10」、・・・、「80≦S2<90」、「90≦S2≦100」)に等分される。第2判定部2080は、これらの部分範囲それぞれについて、セグメント音声データ12から算出された第2スコアの数を算出する。
その他にも例えば、第1スコアと第2スコアを入力として受け付けて補正スコアを出力する予測モデルを用意しておいてもよい。第2判定部2080は、第1算出部2020によって算出された第1スコアと、第2算出部2040によって算出された第2スコアを予測モデルに入力することで、補正スコアを得る。
上述の説明では、入力音声データ10との比較に用いる登録者音声データ22が1つに特定されている。このように入力音声データ10と比較すべき登録者音声データ22が1つに特定できるケースとしては、例えば、登録者20を特定する識別子(ユーザIDなど)の入力を別途受け付けるケースが考えられる。具体的には、情報処理装置2000は、登録者20を特定する識別子(例えば、文字列)の入力を受け付け、受け付けた識別子に対応づけて記憶装置に記憶されている登録者音声データ22を取得する。そして、情報処理装置2000は、この登録者音声データ22を用いて、上述した一連の話者認識処理(図4のフローチャートに示した処理)を行う。このような話者認識は、例えば、ユーザIDとパスワードのペアを用いてユーザ認証を行う代わりに、ユーザIDとユーザの音声のペアを用いてユーザ認証を行うケースに利用できる。
第2判定部2080は第2判定の結果、すなわち入力音声データ10に登録者20の音声が含まれているか否かを示す情報を出力してもよい。第2判定の結果の出力方法には、様々な方法を採用できる。例えば第2判定部2080は、第2判定の結果を表す情報を情報処理装置2000に接続されているディスプレイ装置に出力する。その他にも例えば、第2判定部2080は、第2判定の結果を表す情報を情報処理装置2000に接続されている記憶装置に記憶させてもよい。
Claims (5)
- 入力音声データを時間方向に分割することにより、前記入力音声データを複数のセグメント音声データに分け、各前記セグメント音声データについて、登録者の音声データである登録者音声データと前記セグメント音声データとの類似度合いを表す第1スコアを算出する第1算出部と、
前記第1スコアを用いて、前記入力音声データに含まれる音声の話者が一人と複数のいずれであるかを判定する第1判定部と、
を有する情報処理装置。 - 前記第1判定部は、複数の前記第1スコアのばらつきを表す指標値を算出し、前記算出した指標値が閾値以上である場合に、前記入力音声データに含まれる音声の話者が複数であると判定する、請求項1に記載の情報処理装置。
- 前記第1判定部は、学習済みの予測モデルに対し、第1スコアを入力することで、前記入力音声データに含まれる音声の話者が一人と複数のいずれであるかを判定し、
前記予測モデルは、前記第1スコアが入力されたことに応じて、前記入力音声データに含まれる音声の話者が一人と複数のいずれであるかを判定するように学習されている、請求項1に記載の情報処理装置。 - コンピュータによって実行される制御方法であって、
入力音声データを時間方向に分割することにより、前記入力音声データを複数のセグメント音声データに分け、各前記セグメント音声データについて、登録者の音声データである登録者音声データと前記セグメント音声データとの類似度合いを表す第1スコアを算出する第1算出ステップと、
前記第1スコアを用いて、前記入力音声データに含まれる音声の話者が一人と複数のいずれであるかを判定する第1判定ステップと、を有する制御方法。 - 請求項4に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021203111A JP7287442B2 (ja) | 2018-06-27 | 2021-12-15 | 情報処理装置、制御方法、及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020526784A JP6996627B2 (ja) | 2018-06-27 | 2018-06-27 | 情報処理装置、制御方法、及びプログラム |
PCT/JP2018/024391 WO2020003413A1 (ja) | 2018-06-27 | 2018-06-27 | 情報処理装置、制御方法、及びプログラム |
JP2021203111A JP7287442B2 (ja) | 2018-06-27 | 2021-12-15 | 情報処理装置、制御方法、及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020526784A Division JP6996627B2 (ja) | 2018-06-27 | 2018-06-27 | 情報処理装置、制御方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022031932A JP2022031932A (ja) | 2022-02-22 |
JP7287442B2 true JP7287442B2 (ja) | 2023-06-06 |
Family
ID=87846643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021203111A Active JP7287442B2 (ja) | 2018-06-27 | 2021-12-15 | 情報処理装置、制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7287442B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530214A (ja) | 2002-06-19 | 2005-10-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | メガ話者識別(id)システム及びその目的に相当する方法 |
JP2018063313A (ja) | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
JP6996627B2 (ja) | 2018-06-27 | 2022-01-17 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
-
2021
- 2021-12-15 JP JP2021203111A patent/JP7287442B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530214A (ja) | 2002-06-19 | 2005-10-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | メガ話者識別(id)システム及びその目的に相当する方法 |
JP2018063313A (ja) | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
JP6996627B2 (ja) | 2018-06-27 | 2022-01-17 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022031932A (ja) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10593336B2 (en) | Machine learning for authenticating voice | |
US11216729B2 (en) | Recognition system and recognition method | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
JP6171544B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
KR20200012963A (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
US20170236520A1 (en) | Generating Models for Text-Dependent Speaker Verification | |
US20040260550A1 (en) | Audio processing system and method for classifying speakers in audio data | |
WO2017162053A1 (zh) | 一种身份认证的方法和装置 | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
TW202018696A (zh) | 語音識別方法、裝置及計算設備 | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
JP4717872B2 (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
JP6996627B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
Weng et al. | The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge | |
CN111737515B (zh) | 音频指纹提取方法、装置、计算机设备和可读存储介质 | |
JP7287442B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
Kanrar | Robust threshold selection for environment specific voice in speaker recognition | |
CN114694689A (zh) | 声音信号处理评估方法和装置 | |
Renjith et al. | Prosody based voice forgery detection using SVM | |
Kanrar | Dimension compactness in speaker identification | |
Sailaja et al. | Text Independent Speaker Identification Using Finite Doubly Truncated Gaussian Mixture Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7287442 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |