JP7541960B2 - 話者分離装置、話者分離方法及び話者分離プログラム - Google Patents
話者分離装置、話者分離方法及び話者分離プログラム Download PDFInfo
- Publication number
- JP7541960B2 JP7541960B2 JP2021138433A JP2021138433A JP7541960B2 JP 7541960 B2 JP7541960 B2 JP 7541960B2 JP 2021138433 A JP2021138433 A JP 2021138433A JP 2021138433 A JP2021138433 A JP 2021138433A JP 7541960 B2 JP7541960 B2 JP 7541960B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- separation
- speech
- utterances
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Stereophonic System (AREA)
Description
会話音声認識は、自然な会話の音声を認識するものである。自然な会話は、複数の発話者を含む。自然な会話は、例えば、遠隔マイクによって収録される。
まず、図5を参照して、本開示に係る話者分離のための環境について説明する。
次に、図6を参照して、話者分離装置100の構成の例について説明する。
通信部110は、例えば、NIC(Network Interface Card)によって実装される。通信部110は、有線または無線によりネットワーク200と接続される。通信部110は、ネットワーク200を介して、ユーザ装置300との間で、情報の送受信を行うことができる。
制御部120は、コントローラ(controller)である。制御部120は、RAM(Random Access Memory)を作業領域として使用し、話者分離装置100の記憶装置に記憶された各種プログラムを実行する1つまたは複数のプロセッサ(例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit))によって実装される。また、制御部120は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPGPU(General Purpose Graphic Processing Unit)等の、集積回路により実装されてもよい。
受信部121は、ユーザ装置300から、各種音声を受信する。各種音声は、会話の音声や、会話における複数の話者にそれぞれ対応する複数の単一話者音声を含む。各単一話者音声は、対応する話者の発話を含む。受信部121は、各種音声を、記憶部130に格納する。
取得部122は、記憶部130から各種音声を取得する。取得部122は、会話の音声を取得する。また、取得部122は、会話における複数の話者にそれぞれ対応する複数の単一話者音声を取得する。
分離部123は、重畳する複数の発話を分離する。例えば、分離部123は、取得部122によって取得された複数の単一話者音声に含まれる複数の発話から、重畳する複数の発話を特定する。重畳する複数の発話は、複数の単一話者音声の間で時間的に重なる複数の発話である。例えば、複数の単一話者音声は、複数の異なる話者が同時に発話を行う時間帯を有する。そして、分離部123は、特定された重畳する複数の発話を、音声分離モデルの複数の異なる出力チャネルに分離する。重畳する複数の発話を異なる出力チャネルに分離するために、分離部123は、会話グラフの頂点彩色問題の解を使用することができる。音声分離モデルは、例えば、ニューラルネットワークによって実装される。
生成部124は、分離部123によって分離された発話を含む分離音声に基づいて、与えられた音声に含まれる重畳する複数の発話を複数の異なる音声に分離する音声分離モデルを生成する。生成部124は、会話の音声を、訓練データの入力として使用する。生成部124は、複数の異なる出力チャネルにそれぞれ対応する複数の分離音声を、訓練データの出力として使用する。生成部124は、訓練データを使用して、機械学習アルゴリズムを訓練することができる。その結果、生成部124は、ニューラルネットワーク等によって実装される音声分離モデルを生成することができる。生成部124は、音声分離モデルを記憶部130に格納することができる。
提供部125は、生成部124によって生成された音声分離モデルを使用して、ユーザ装置300から受信された各種音声データから、複数の分離音声を生成する。提供部125は、記憶部130から音声分離モデルを取得することができる。提供部125は、複数の分離音声を、ユーザ装置300に提供する。例えば、提供部125は、ミーティング中の重畳する発話が分離された複数の分離音声を、ユーザ装置300に提供する。
記憶部130は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実装される。記憶部130は、各種音声や音声分離モデルを記憶する。
次に、図7および図8を参照して、本開示に係る話者分離処理の概要について説明する。
。PIT損失関数の拡張の例は、図8を参照して以下で説明される。
この節では、本開示に係る話者分離処理の技術的詳細を説明する。
次に、図10を参照して、本開示に係る話者分離処理の例のフローチャートについて説明する。話者分離処理の例は、音源分離器を生成するための処理を含む。音源分離器を生成するための処理は、例えば、図5の話者分離装置100によって行われる。
上述のように、話者分離装置100は、複数の話者の自然な会話を収録した入力音を取得する。入力音は、重畳する複数の発話を含む。話者分離装置100は、入力音を、複数の発話が重畳していない複数の音声信号に分離する。
自動的に行われる処理として述べられた処理の一部は、手動的に行われ得る。あるいは、手動的に行われる処理として述べられた処理の全部または一部は、公知の方法で、自動的に行われ得る。さらに、本明細書や図面中で示された処理の手順、具体的名称、各種のデータやパラメータを含む情報は、特に明記しない限り、任意に変更され得る。例えば、各図に示された各種情報は、図示された情報に限られない。
図11は、コンピュータのハードウェア構成の例であるコンピュータ1000を示す図である。本明細書で説明されたシステムや方法は、例えば、図11に示されたコンピュータ1000よって実装される。
上述のように、本開示に係る話者分離装置100は、取得部122、分離部123および生成部124を含む。少なくとも1つの実施形態では、取得部122は、会話の音声と、会話における複数の話者にそれぞれ対応する複数の単一話者音声であって、それぞれの単一話者音声が対応する話者の発話を含む複数の単一話者音声とを取得する。少なくとも1つの実施形態では、分離部123は、複数の単一話者音声に含まれる複数の発話から、複数の単一話者音声の間で時間的に重なる複数の発話を、重畳する複数の発話として特定し、特定された重畳する複数の発話を、音声分離モデルの複数の異なる出力チャネルに分離する。少なくとも1つの実施形態では、生成部124は、会話の音声と、複数の異なる出力チャネルにそれぞれ対応する複数の分離音声であって、それぞれの分離音声が対応する出力チャネルに分離された発話を含む複数の分離音声とに基づいて、与えられた音声に含まれる重畳する複数の発話を複数の異なる音声に分離する音声分離モデルを生成する。
100 話者分離装置
110 通信部
120 制御部
121 受信部
122 取得部
123 分離部
124 生成部
125 提供部
130 記憶部
200 ネットワーク
300 ユーザ装置
Claims (7)
- 会話の音声と、前記会話における複数の話者にそれぞれ対応する複数の単一話者音声であって、それぞれの単一話者音声が対応する話者の発話を含む複数の単一話者音声とを取得する取得部と、
前記複数の単一話者音声に含まれる複数の発話から、前記複数の単一話者音声の間で時間的に重なる複数の発話を、重畳する複数の発話として特定し、特定された重畳する複数の発話を、音声分離モデルの複数の異なる出力チャネルに分離する分離部と、
前記会話の音声と、前記複数の異なる出力チャネルにそれぞれ対応する複数の分離音声であって、それぞれの分離音声が対応する出力チャネルに分離された発話を含む複数の分離音声とに基づいて、与えられた音声に含まれる重畳する複数の発話を複数の異なる音声に分離する音声分離モデルを生成する生成部と
を備える話者分離装置。 - 前記分離部は、前記重畳する複数の発話として、前記複数の単一話者音声の特定の時間区分に出現し、かつ時間的に重なる複数の発話を特定する
請求項1に記載の話者分離装置。 - 前記分離部は、前記重畳する複数の発話の数が前記複数の異なる出力チャネルの数を超えないように、前記重畳する複数の発話を特定する
請求項1又は2に記載の話者分離装置。 - 前記分離部は、前記重畳する複数の発話にそれぞれ対応する複数の頂点と、前記重畳する複数の発話を接続する辺とを含む会話グラフを生成し、生成された会話グラフの頂点彩色問題の解を使用して、前記重畳する複数の発話を前記複数の異なる出力チャネルに分離する
請求項1~3のうちいずれか1つに記載の話者分離装置。 - 前記分離部は、前記会話グラフの頂点彩色問題の複数の解を特定し、前記会話グラフの頂点彩色問題の解ごとに、前記重畳する複数の発話を前記複数の異なる出力チャネルに分離し、
前記生成部は、前記会話の音声と、前記会話グラフの頂点彩色問題の解ごとの前記複数の分離音声とを使用して、前記会話グラフの頂点彩色問題の解ごとに、前記音声分離モデルの性能を評価し、最も高い性能を有する前記音声分離モデルの性能が向上するように、前記音声分離モデルを訓練することによって、前記音声分離モデルを生成する
請求項4に記載の話者分離装置。 - コンピュータが実行する話者分離方法であって、
会話の音声と、前記会話における複数の話者にそれぞれ対応する複数の単一話者音声であって、それぞれの単一話者音声が対応する話者の発話を含む複数の単一話者音声とを取得する取得工程と、
前記複数の単一話者音声に含まれる複数の発話から、前記複数の単一話者音声の間で時間的に重なる複数の発話を、重畳する複数の発話として特定し、特定された重畳する複数の発話を、音声分離モデルの複数の異なる出力チャネルに分離する分離工程と、
前記会話の音声と、前記複数の異なる出力チャネルにそれぞれ対応する複数の分離音声であって、それぞれの分離音声が対応する出力チャネルに分離された発話を含む複数の分離音声とに基づいて、与えられた音声に含まれる重畳する複数の発話を複数の異なる音声に分離する音声分離モデルを生成する生成工程と
を含む話者分離方法。 - コンピュータを、請求項1~5のうちいずれか1つに記載の話者分離装置として機能させるための話者分離プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021138433A JP7541960B2 (ja) | 2021-08-26 | 2021-08-26 | 話者分離装置、話者分離方法及び話者分離プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021138433A JP7541960B2 (ja) | 2021-08-26 | 2021-08-26 | 話者分離装置、話者分離方法及び話者分離プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023032356A JP2023032356A (ja) | 2023-03-09 |
JP7541960B2 true JP7541960B2 (ja) | 2024-08-29 |
Family
ID=85416437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021138433A Active JP7541960B2 (ja) | 2021-08-26 | 2021-08-26 | 話者分離装置、話者分離方法及び話者分離プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7541960B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020039571A1 (ja) | 2018-08-24 | 2020-02-27 | 三菱電機株式会社 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
WO2020195924A1 (ja) | 2019-03-27 | 2020-10-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP2021515277A (ja) | 2018-04-16 | 2021-06-17 | 三菱電機株式会社 | オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 |
-
2021
- 2021-08-26 JP JP2021138433A patent/JP7541960B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021515277A (ja) | 2018-04-16 | 2021-06-17 | 三菱電機株式会社 | オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 |
WO2020039571A1 (ja) | 2018-08-24 | 2020-02-27 | 三菱電機株式会社 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
WO2020195924A1 (ja) | 2019-03-27 | 2020-10-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
Non-Patent Citations (2)
Title |
---|
Dong Yu, 外3名,"Permutation invariant training of deep models for speaker-independent multi-talker speech separation",arXiv,2017年01月03日,https://arxiv.org/pdf/1607.00325 |
生嶋 竜実, 外2名,"教師ありモノラル音声分離のための残響音声データ内の単一話者区間を活用した転移学習",情報処理学会 第83回(2021年)全国大会,2021年03月04日,p. 2-229-2-230 |
Also Published As
Publication number | Publication date |
---|---|
JP2023032356A (ja) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10957337B2 (en) | Multi-microphone speech separation | |
US10699697B2 (en) | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition | |
EP3292515B1 (en) | Method for distinguishing one or more components of signal | |
Eyben et al. | openSMILE:) The Munich open-source large-scale multimedia feature extractor | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US20150356967A1 (en) | Generating Narrative Audio Works Using Differentiable Text-to-Speech Voices | |
US11545136B2 (en) | System and method using parameterized speech synthesis to train acoustic models | |
WO2021182199A1 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
JP2004310098A (ja) | スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法 | |
KR20040068023A (ko) | 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2003524805A (ja) | 音声認識システムの自動的再学習 | |
CN107910008A (zh) | 一种用于个人设备的基于多声学模型的语音识别方法 | |
JP7541960B2 (ja) | 話者分離装置、話者分離方法及び話者分離プログラム | |
JP2022526668A (ja) | オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム | |
CN115440188B (zh) | 音频数据的拼接方法和装置、电子设备和存储介质 | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
US11508260B2 (en) | Deaf-specific language learning system and method | |
CN111599342A (zh) | 音色选择方法和选择系统 | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
JP2015230455A (ja) | 音声分類装置、音声分類方法、プログラム | |
WO2023127058A1 (ja) | 信号フィルタリング装置、信号フィルタリング方法及びプログラム | |
JP3964722B2 (ja) | 隠れマルコフモデル作成装置、方法、プログラム、記録媒体および音声認識装置、方法、プログラム、記録媒体 | |
WO2023281606A1 (ja) | 学習装置、学習方法および学習プログラム | |
JP7635837B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210924 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20221226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20221226 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240819 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7541960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |