JP2022008928A - 信号処理システム、信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理システム、信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2022008928A JP2022008928A JP2021165174A JP2021165174A JP2022008928A JP 2022008928 A JP2022008928 A JP 2022008928A JP 2021165174 A JP2021165174 A JP 2021165174A JP 2021165174 A JP2021165174 A JP 2021165174A JP 2022008928 A JP2022008928 A JP 2022008928A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- signal processing
- speaker
- vector
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 68
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 183
- 238000004364 calculation method Methods 0.000 claims abstract description 105
- 238000013528 artificial neural network Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 19
- 230000008451 emotion Effects 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims 2
- 230000000717 retained effect Effects 0.000 abstract 1
- 238000005303 weighing Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 101150034273 SYS1 gene Proteins 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】信号処理システムにおいて、信号処理装置1の制御部110は、話者の属性を識別するためのモデルデータを保持する保持手段と、時系列の音声データ又は音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成部と、第1の特徴ベクトルを用いて、重みを算出する重み算出部と、第1の特徴ベクトルと、重みとを用いて、第2の特徴ベクトルを生成する第2生成部と、第2の特徴ベクトルに基づき、話者の属性を識別する識別手段と、を備える、第1生成部、重み算出手段及び第2生成部は、保持手段が保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる。
【選択図】図3
Description
図1は、第1の実施形態に係る信号処理システムsysの構成の一例を示すシステム構成図である。
120 第1生成装置
130 第2生成装置
140 重み算出装置
150 統計量算出装置
121 第1生成部
131 第2生成部
141 重み算出部
151 統計量算出部
160 受付部
170 提示部
180 生成部
190 算出部
100 CPU
101 記憶媒体インタフェース部
102 記憶媒体
103 入力部
104 出力部
105 ROM
106 RAM
107 補助記憶部
108 ネットワークインターフェース部
12 第1の特徴量抽出ニューラルネットワーク
13 第2の特徴量抽出ニューラルネットワーク
14 重み算出ニューラルネットワーク
15 重み付き高次統計量算出ニューラルネットワーク
Claims (11)
- 話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、第2の特徴ベクトルを生成する第2生成手段と、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第1生成手段、前記重み算出手段及び第2生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる、
信号処理システム。 - 前記保持手段は、前記話者の話す言語を識別するためのモデルデータ、前記話者の性別を識別するためのモデルデータ、前記話者の年齢を識別するためのモデルデータ及び前記話者の感情を識別するためのモデルデータのうち少なくとも一つを保持し、
前記識別手段は、前記話者の話す言語、前記話者の性別、前記話者の年齢及び前記話者の感情のうち少なくとも一つを識別する、請求項1に記載の信号処理システム。 - 前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段を更に備え、
前記第2生成手段は、前記重み付き高次統計ベクトルを用いて、第2の特徴ベクトルを生成する、請求項1または2に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、重み付き標準偏差ベクトル、または重み付き分散ベクトルである、
請求項3に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、三次以上の重み付き高次統計ベクトルである、
請求項3に記載の信号処理システム。 - 前記第1生成手段と、前記重み算出手段と、前記統計量算出手段と、前記第2生成手段とは、ニューラルネットワークで構成され、それぞれが単一の損失関数に基づいて最適化される、
請求項3から請求項5のいずれか一項に記載の信号処理システム。 - 前記ニューラルネットワークで構成された前記重み算出手段は、前記第1生成手段により生成された前記第1の特徴ベクトルを入力とし、前記第1の特徴ベクトルのフレームごとの重みを出力とするよう構成される、請求項6に記載の信号処理システム。
- 前記第1生成手段は、話者の特徴を有する、各時刻の短時間特徴ベクトルを前記第1の特徴ベクトルとして生成し、
前記第2生成手段は、話者の特徴を有する、固定次元数の長時間特徴ベクトルを前記第2の特徴ベクトルとして生成する、
請求項1から請求項7のいずれか一項に記載の信号処理システム。 - 話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、第2の特徴ベクトルを生成する第2生成手段と、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第1生成手段、前記重み算出手段及び第2生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる、
信号処理装置。 - コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成し、
前記第1の特徴ベクトルを用いて、重みを算出し、
前記第1の特徴ベクトルと、前記重みとを用いて第2の特徴ベクトルを生成し、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別し、
前記第1の特徴ベクトル、前記重み、前記第2の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、
ことを含む、
信号処理方法。 - コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成ステップと、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出ステップと、
前記第1の特徴ベクトルと、前記重みとを用いて第2の特徴ベクトルを生成する第2生成ステップと、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別ステップと、
を実行するためのプログラムであって、
前記第1の特徴ベクトル、前記重み、前記第2の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、プログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018048419 | 2018-03-15 | ||
JP2018048419 | 2018-03-15 | ||
PCT/JP2019/010174 WO2019176986A1 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、および記録媒体 |
JP2020506585A JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Division JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022008928A true JP2022008928A (ja) | 2022-01-14 |
JP7268711B2 JP7268711B2 (ja) | 2023-05-08 |
Family
ID=67907911
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
JP2021165174A Active JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11842741B2 (ja) |
JP (2) | JP6958723B2 (ja) |
WO (1) | WO2019176986A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3707703A1 (en) * | 2018-11-28 | 2020-09-16 | Google LLC. | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
US20220383113A1 (en) * | 2019-11-12 | 2022-12-01 | Nec Corporation | Information processing device, information processing method, and recording medium |
KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
JP7465497B2 (ja) * | 2020-02-05 | 2024-04-11 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
US20220012538A1 (en) * | 2020-07-07 | 2022-01-13 | Nec Laboratories America, Inc. | Compact representation and time series segment retrieval through deep learning |
US20220383858A1 (en) * | 2021-05-28 | 2022-12-01 | Asapp, Inc. | Contextual feature vectors for processing speech |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139049A (ja) * | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
WO2011077924A1 (ja) * | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006287319A (ja) | 2005-03-31 | 2006-10-19 | Nippon Hoso Kyokai <Nhk> | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
JP5356527B2 (ja) * | 2009-09-19 | 2013-12-04 | 株式会社東芝 | 信号分類装置 |
JP5715946B2 (ja) | 2009-12-22 | 2015-05-13 | パナソニック株式会社 | 動作解析装置および動作解析方法 |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
-
2019
- 2019-03-13 WO PCT/JP2019/010174 patent/WO2019176986A1/ja active Application Filing
- 2019-03-13 JP JP2020506585A patent/JP6958723B2/ja active Active
- 2019-03-13 US US16/976,600 patent/US11842741B2/en active Active
-
2021
- 2021-10-07 JP JP2021165174A patent/JP7268711B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139049A (ja) * | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
WO2011077924A1 (ja) * | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210050021A1 (en) | 2021-02-18 |
US11842741B2 (en) | 2023-12-12 |
WO2019176986A1 (ja) | 2019-09-19 |
JP7268711B2 (ja) | 2023-05-08 |
JPWO2019176986A1 (ja) | 2021-02-04 |
JP6958723B2 (ja) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6958723B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
US11545173B2 (en) | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment | |
JP6832501B2 (ja) | 意味生成方法、意味生成装置及びプログラム | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
JP6615736B2 (ja) | 音声言語識別装置、その方法、及びプログラム | |
WO2008001486A1 (fr) | Dispositif et programme de traitement vocal, et procédé de traitement vocal | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
US20200365146A1 (en) | Dialog device, dialog method, and dialog computer program | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
CN112863489A (zh) | 语音识别方法、装置、设备及介质 | |
WO2021014612A1 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
US11798578B2 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
JP7472727B2 (ja) | 対話システム、対話ロボット、プログラム、および情報処理方法 | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
CN112381989A (zh) | 排序方法、装置、系统和电子设备 | |
JP2007017548A (ja) | 音声認識結果の検証装置及びコンピュータプログラム | |
JP2020129015A (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2020129051A (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
US20230410789A1 (en) | System and Method for Secure Data Augmentation for Speech Processing Systems | |
JP5956913B2 (ja) | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 | |
JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム | |
US11894017B2 (en) | Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230404 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7268711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |