JP7268711B2 - 信号処理システム、信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理システム、信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7268711B2 JP7268711B2 JP2021165174A JP2021165174A JP7268711B2 JP 7268711 B2 JP7268711 B2 JP 7268711B2 JP 2021165174 A JP2021165174 A JP 2021165174A JP 2021165174 A JP2021165174 A JP 2021165174A JP 7268711 B2 JP7268711 B2 JP 7268711B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- vector
- weight
- speaker
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Description
図1は、第1の実施形態に係る信号処理システムsysの構成の一例を示すシステム構成図である。
120 第1生成装置
130 第2生成装置
140 重み算出装置
150 統計量算出装置
121 第1生成部
131 第2生成部
141 重み算出部
151 統計量算出部
160 受付部
170 提示部
180 生成部
190 算出部
100 CPU
101 記憶媒体インタフェース部
102 記憶媒体
103 入力部
104 出力部
105 ROM
106 RAM
107 補助記憶部
108 ネットワークインターフェース部
12 第1の特徴量抽出ニューラルネットワーク
13 第2の特徴量抽出ニューラルネットワーク
14 重み算出ニューラルネットワーク
15 重み付き高次統計量算出ニューラルネットワーク
Claims (10)
- 話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、第2の特徴ベクトルを生成する第2生成手段と、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第1生成手段、前記重み算出手段及び第2生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させ、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段を更に備え、
前記第2生成手段は、前記重み付き高次統計ベクトルを用いて、前記第2の特徴ベクトルを生成する、
信号処理システム。 - 前記保持手段は、前記話者の話す言語を識別するためのモデルデータ、前記話者の性別を識別するためのモデルデータ、前記話者の年齢を識別するためのモデルデータ及び前記話者の感情を識別するためのモデルデータのうち少なくとも一つを保持し、
前記識別手段は、前記話者の話す言語、前記話者の性別、前記話者の年齢及び前記話者の感情のうち少なくとも一つを識別する、請求項1に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、重み付き標準偏差ベクトル、または重み付き分散ベクトルである、
請求項1または2に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、三次以上の重み付き高次統計ベクトルである、
請求項1または2に記載の信号処理システム。 - 前記第1生成手段と、前記重み算出手段と、前記統計量算出手段と、前記第2生成手段とは、ニューラルネットワークで構成され、それぞれが単一の損失関数に基づいて最適化される、
請求項1から4のいずれか一項に記載の信号処理システム。 - 前記ニューラルネットワークで構成された前記重み算出手段は、前記第1生成手段により生成された前記第1の特徴ベクトルを入力とし、前記第1の特徴ベクトルのフレームごとの重みを出力とするよう構成される、請求項5に記載の信号処理システム。
- 前記第1生成手段は、前記話者の特徴を有する、各時刻の短時間特徴ベクトルを前記第1の特徴ベクトルとして生成し、
前記第2生成手段は、前記話者の特徴を有する、固定次元数の長時間特徴ベクトルを前記第2の特徴ベクトルとして生成する、
請求項1から請求項6のいずれか一項に記載の信号処理システム。 - 話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、第2の特徴ベクトルを生成する第2生成手段と、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第1生成手段、前記重み算出手段及び第2生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させ、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段を更に備え、
前記第2生成手段は、前記重み付き高次統計ベクトルを用いて、前記第2の特徴ベクトルを生成する、
信号処理装置。 - コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成し、
前記第1の特徴ベクトルを用いて、重みを算出し、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出し、
前記重み付き高次統計ベクトルを用いて第2の特徴ベクトルを生成し、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別し、
前記第1の特徴ベクトル、前記重み、前記第2の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、
ことを含む、
信号処理方法。 - コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成ステップと、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出ステップと、
前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出ステップと、
前記重み付き高次統計ベクトルを用いて第2の特徴ベクトルを生成する第2生成ステップと、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別ステップと、
を実行するためのプログラムであって、
前記第1の特徴ベクトル、前記重み、前記第2の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、プログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018048419 | 2018-03-15 | ||
JP2018048419 | 2018-03-15 | ||
JP2020506585A JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
PCT/JP2019/010174 WO2019176986A1 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、および記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Division JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022008928A JP2022008928A (ja) | 2022-01-14 |
JP7268711B2 true JP7268711B2 (ja) | 2023-05-08 |
Family
ID=67907911
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
JP2021165174A Active JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11842741B2 (ja) |
JP (2) | JP6958723B2 (ja) |
WO (1) | WO2019176986A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3707703A1 (en) * | 2018-11-28 | 2020-09-16 | Google LLC. | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
US20220383113A1 (en) * | 2019-11-12 | 2022-12-01 | Nec Corporation | Information processing device, information processing method, and recording medium |
KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
JP7465497B2 (ja) | 2020-02-05 | 2024-04-11 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
US20220012538A1 (en) * | 2020-07-07 | 2022-01-13 | Nec Laboratories America, Inc. | Compact representation and time series segment retrieval through deep learning |
US20220383858A1 (en) * | 2021-05-28 | 2022-12-01 | Asapp, Inc. | Contextual feature vectors for processing speech |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139049A (ja) | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
WO2011077924A1 (ja) | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
JP2016075740A (ja) | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006287319A (ja) | 2005-03-31 | 2006-10-19 | Nippon Hoso Kyokai <Nhk> | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
JP5356527B2 (ja) * | 2009-09-19 | 2013-12-04 | 株式会社東芝 | 信号分類装置 |
US8751191B2 (en) * | 2009-12-22 | 2014-06-10 | Panasonic Corporation | Action analysis device and action analysis method |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
-
2019
- 2019-03-13 US US16/976,600 patent/US11842741B2/en active Active
- 2019-03-13 JP JP2020506585A patent/JP6958723B2/ja active Active
- 2019-03-13 WO PCT/JP2019/010174 patent/WO2019176986A1/ja active Application Filing
-
2021
- 2021-10-07 JP JP2021165174A patent/JP7268711B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139049A (ja) | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
WO2011077924A1 (ja) | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
JP2016075740A (ja) | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210050021A1 (en) | 2021-02-18 |
WO2019176986A1 (ja) | 2019-09-19 |
JP2022008928A (ja) | 2022-01-14 |
US11842741B2 (en) | 2023-12-12 |
JPWO2019176986A1 (ja) | 2021-02-04 |
JP6958723B2 (ja) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7268711B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
US11545173B2 (en) | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment | |
JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
JP6832501B2 (ja) | 意味生成方法、意味生成装置及びプログラム | |
Rohanian et al. | Alzheimer's dementia recognition using acoustic, lexical, disfluency and speech pause features robust to noisy inputs | |
JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
Chittaragi et al. | Automatic text-independent Kannada dialect identification system | |
EP3910625A2 (en) | Method and apparatus for utterance time estimation | |
WO2021014612A1 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP7266390B2 (ja) | 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム | |
US20230076073A1 (en) | Method and apparatus for speech recognition | |
JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
Gupta et al. | Gender and age recognition using audio data—artificial neural networks | |
JP2020129051A (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
US20230410789A1 (en) | System and Method for Secure Data Augmentation for Speech Processing Systems | |
WO2022270327A1 (ja) | 構音異常検出方法、構音異常検出装置、及びプログラム | |
US20220036885A1 (en) | Segment detecting device, segment detecting method, and model generating method | |
US11894017B2 (en) | Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program | |
Maddali et al. | Classification of disordered patient’s voice by using pervasive computational algorithms | |
JP2022010410A (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
Gupta | Audio processing on constrained devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230404 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7268711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |