JP2019095551A - 生成装置、生成方法、および生成プログラム - Google Patents
生成装置、生成方法、および生成プログラム Download PDFInfo
- Publication number
- JP2019095551A JP2019095551A JP2017223704A JP2017223704A JP2019095551A JP 2019095551 A JP2019095551 A JP 2019095551A JP 2017223704 A JP2017223704 A JP 2017223704A JP 2017223704 A JP2017223704 A JP 2017223704A JP 2019095551 A JP2019095551 A JP 2019095551A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- range
- predetermined
- observation
- information providing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 51
- 230000005236 sound signal Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 10
- 238000009434 installation Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 51
- 230000008569 process Effects 0.000 description 29
- 238000004458 analytical method Methods 0.000 description 12
- 230000010365 information processing Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、図1を用いて、生成装置の一例である情報提供装置が実行する学習処理および生成処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する学習処理および生成処理の一例を示す図である。図1では、情報提供装置10は、以下に説明する学習処理および生成処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
ここで、利用者Uが発した声を精度よく解析するため、ビームフォーミングと呼ばれる技術が知られている。このような技術では、利用者Uの声が発せられた方向とマイクの間の空間的な情報を推定する。そして、利用者Uの声が発せられた方向から到来する音声を強調するよう、推定した空間的な情報を用いて各マイクが観測した観測信号に対する重み付けを行い、各観測信号の合成が行われる。
ここで、情報提供装置10は、観測信号から目的信号を強調するためのフィルタであれば、任意のフィルタを生成してよい。例えば、キーワードと指示発話とは、同じ利用者Uによって発話されることとなるため、音声の到来方向や周波数特性が類似すると考えられる。そこで、情報提供装置10は、観測信号に含まれる各種の信号のうち、キーワード信号と空間的な特徴や周波数特性が類似する信号を目的信号として強調するためのフィルタを生成する。
ここで、情報提供装置10は、任意の手法を用いて、所定範囲の推定を行ってもよい。例えば、情報提供装置10は、公知の音声推定技術を用いて、観測信号のうちキーワード信号が含まれる範囲を推定してもよい。より具体的な例を挙げると、情報提供装置10は、キーワード信号の波形や周波数特性の特徴をあらかじめ学習し、観測信号に学習した特性を有する信号が含まれる可能性が高い範囲をキーワード信号が含まれる範囲、すなわち、所定範囲として推定してもよい。
次に、図1を用いて、情報提供装置10が実行する処理の流れの一例について説明する。例えば、情報提供装置10は、情報処理装置100からキーワードを含む音声データを学習信号として取得する(ステップS1)。このような場合、情報提供装置10は、音声データの中からキーワードの音声部分を強調するキーワード強調マスクを生成するようにモデルの学習を行う(ステップS2)。例えば、情報提供装置10は、キーワードの音声と雑音とが混ざった信号や、キーワードの音声と残響音とが混ざった信号を入力信号として入力した際に、キーワードの音声部分、すなわち、キーワード信号部分を強調するキーワード強調マスクを出力するようにモデルの学習を行う。
上述した例では、情報提供装置10は、学習済モデルの学習、観測信号からキーワード信号が含まれる所定範囲の推定、所定範囲からモデルを用いたキーワード強調マスクの作成、キーワード強調マスクを用いたキーワード信号の強調、キーワード信号を強調した強調信号を用いたフィルタの生成、およびフィルタを用いた指示発話の特定を行った。しかしながら、実施形態は、これに限定されるものではない。
上述した説明では、情報提供装置10は、音声デバイス200が取得した音声信号を観測信号とし、観測信号から所定範囲の推定や、指示発話の音声信号を目的信号として強調するフィルタの生成を行った。しかしながら、実施形態は、これに限定されるものではない。すなわち、上述したフィルタを生成する生成処理等は、音声のみならず、任意の波形を有する任意の観測対象に対して適用可能である。
上述した例では、情報提供装置10は、キーワード信号を強調するキーワード強調マスクを出力するように、モデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、DNN等のモデルは、ある入力情報を入力した際に、その入力情報が有する特徴に基づいた出力情報を出力するように学習を行うことが可能である。このようなモデルの特性を考慮し、例えば、情報提供装置10は、学習信号を入力した際に、時間帯と周波数帯との各組に含まれるキーワード信号の振幅を直接出力するように、モデルの学習を行ってもよい。例えば、情報提供装置10は、教師信号として、入力信号となる混合信号に含まれるキーワード信号を取得する。そして、情報提供装置10は、混合信号をモデルに入力した際に、キーワード信号を出力するように、モデルの学習を行ってもよい。
以下、上記した検出処理および配信処理を実現する情報提供装置10および音声デバイス200が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図2に示すように、音声デバイス200は、通信部210、出力部220、および観測部230を有する。また、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
ここで、上述したモデルを用いて所定範囲からキーワード信号を強調する処理の結果の一例について説明する。図5は、実施形態に係る情報提供装置が信号を強調する処理結果の一例を示す図である。なお、図5に示す例では、キーワードの発話音声のみを含む第1音声信号、キーワードの発話音声と雑音とを含む第2音声信号、第2音声信号に対して音声のパワースペクトル密度を推定するモデルを用いて生成したマスクを反映させた第3音声信号、および第2音声信号に対してキーワード信号の特徴を学習したモデルを用いて生成したマスクを反映させた第4音声信号のパワースペクトルの一例について例示した。
次に、図6を用いて、情報提供装置10が実行する処理の流れの一例について説明する。図6は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。
上記では、情報提供装置10による学習処理および生成処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する検出処理や配信処理のバリエーションについて説明する。
記憶部30に登録された各データベース31〜33は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、学習処理を実行する学習サーバ、生成処理を実行する生成サーバ、および利用者Uの発話に応じた各種の処理を実行する処理サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部41が配置されていればよく、生成サーバには、取得部42、推定部43、マスク生成部44、フィルタ生成部45が配置されていればよく、処理サーバには、解析部46および提供部47が配置されていればよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述した実施形態に係る情報提供装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置10は、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。この結果、情報提供装置10は、所定の信号と同様の特徴を有する信号、すなわち、目的信号を精度よく強調するフィルタを生成することができるので、目的信号の認識精度を向上させることができる。
20、210 通信部
30 記憶部
31 学習データデータベース
32 観測信号データベース
33 モデルデータベース
40 制御部
41 学習部
42 取得部
43 推定部
44 マスク生成部
45 フィルタ生成部
46 解析部
47 提供部
100 情報処理装置
200 音声デバイス
220 出力部
230 観測部
Claims (13)
- 観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、
前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部と
を有することを特徴とする生成装置。 - 前記推定部は、前記所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する
ことを特徴とする請求項1に記載の生成装置。 - 前記推定部は、前記所定の信号として、利用者が所定のキーワードを発話した際の音声信号が含まれる範囲を推定する
ことを特徴とする請求項2に記載の生成装置。 - 前記生成部は、前記観測信号のうち、前記所定範囲よりも後の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する
ことを特徴とする請求項1〜3のうちいずれか1つに記載の生成装置。 - 前記推定部は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、前記所定の信号が含まれる所定範囲を推定し、
前記生成部は、前記複数の観測信号のうち前記所定範囲以外の範囲から前記所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する
ことを特徴とする請求項1〜4のうちいずれか1つに記載の生成装置。 - 前記生成部は、前記フィルタとして、前記複数の取得装置がそれぞれ取得した観測信号を合成する際の重みづけ係数を生成する
ことを特徴とする請求項5に記載の生成装置。 - 前記生成部は、観測信号のうち前記所定範囲以外の範囲から前記所定の信号と周波数特性が類似する信号を強調するための関数を生成する
ことを特徴とする請求項1〜6のうちいずれか1つに記載の生成装置。 - 前記生成部は、前記所定の信号と類似する特徴を有する信号を強調するマスクを用いて、前記所定範囲に含まれる各信号のうち前記所定の信号を強調した強調範囲を生成し、当該強調範囲に含まれる各信号に基づいて、前記フィルタを生成する
ことを特徴とする請求項1〜7のうちいずれか1つに記載の生成装置。 - 前記生成部は、前記所定の信号が有する特徴を学習したモデルを用いて、前記所定範囲に含まれる信号のうち前記所定の信号と類似する特徴を強調する前記マスクを生成し、生成したマスクを用いて、前記強調範囲を生成する
ことを特徴とする請求項8に記載の生成装置。 - 前記生成部は、前記モデルとして、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いる
ことを特徴とする請求項9に記載の生成装置。 - 前記推定部は、音声信号のうち所定の信号が含まれる範囲を前記所定範囲として推定し、
前記生成部は、前記強調範囲に含まれる信号に基づいて、前記音声信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する
ことを特徴とする請求項1〜10のうちいずれか1つに記載の生成装置。 - 生成装置が実行する生成方法であって、
観測信号のうち、所定の信号が含まれる所定範囲を推定する推定工程と、
前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成工程と
を含むことを特徴とする生成方法。 - 観測信号のうち、所定の信号が含まれる所定範囲を推定する推定手順と、
前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成手順と
コンピュータに実行させるための生成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017223704A JP6991041B2 (ja) | 2017-11-21 | 2017-11-21 | 生成装置、生成方法、および生成プログラム |
US16/131,561 US20190156846A1 (en) | 2017-11-21 | 2018-09-14 | Creating device, creating method, and non-transitory computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017223704A JP6991041B2 (ja) | 2017-11-21 | 2017-11-21 | 生成装置、生成方法、および生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019095551A true JP2019095551A (ja) | 2019-06-20 |
JP6991041B2 JP6991041B2 (ja) | 2022-01-12 |
Family
ID=66534546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017223704A Active JP6991041B2 (ja) | 2017-11-21 | 2017-11-21 | 生成装置、生成方法、および生成プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190156846A1 (ja) |
JP (1) | JP6991041B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159305A (ja) * | 2018-03-14 | 2019-09-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | ファーフィールド音声機能の実現方法、設備、システム及び記憶媒体 |
JP2021036297A (ja) * | 2019-08-30 | 2021-03-04 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
WO2021070483A1 (ja) * | 2019-10-10 | 2021-04-15 | パナソニックIpマネジメント株式会社 | 状態検出装置、状態検出システム、および状態検出プログラム |
JP2021516369A (ja) * | 2018-05-24 | 2021-07-01 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 混合音声の認識方法、装置及びコンピュータ可読記憶媒体 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021028758A1 (ja) * | 2019-08-09 | 2021-02-18 | 株式会社半導体エネルギー研究所 | 音響装置、及びその動作方法 |
US11423906B2 (en) | 2020-07-10 | 2022-08-23 | Tencent America LLC | Multi-tap minimum variance distortionless response beamformer with neural networks for target speech separation |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004040555A1 (ja) * | 2002-10-31 | 2004-05-13 | Fujitsu Limited | 音声強調装置 |
US9847093B2 (en) * | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
KR102476600B1 (ko) * | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
US10170134B2 (en) * | 2017-02-21 | 2019-01-01 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
-
2017
- 2017-11-21 JP JP2017223704A patent/JP6991041B2/ja active Active
-
2018
- 2018-09-14 US US16/131,561 patent/US20190156846A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159305A (ja) * | 2018-03-14 | 2019-09-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | ファーフィールド音声機能の実現方法、設備、システム及び記憶媒体 |
US11295760B2 (en) | 2018-03-14 | 2022-04-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, system and storage medium for implementing a far-field speech function |
JP2021516369A (ja) * | 2018-05-24 | 2021-07-01 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 混合音声の認識方法、装置及びコンピュータ可読記憶媒体 |
JP7177167B2 (ja) | 2018-05-24 | 2022-11-22 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 混合音声の特定方法、装置及びコンピュータプログラム |
US11996091B2 (en) | 2018-05-24 | 2024-05-28 | Tencent Technology (Shenzhen) Company Limited | Mixed speech recognition method and apparatus, and computer-readable storage medium |
JP2021036297A (ja) * | 2019-08-30 | 2021-03-04 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
WO2021070483A1 (ja) * | 2019-10-10 | 2021-04-15 | パナソニックIpマネジメント株式会社 | 状態検出装置、状態検出システム、および状態検出プログラム |
JP2021061876A (ja) * | 2019-10-10 | 2021-04-22 | パナソニックIpマネジメント株式会社 | 状態検出装置、状態検出システム、および状態検出プログラム |
JP7478981B2 (ja) | 2019-10-10 | 2024-05-08 | パナソニックIpマネジメント株式会社 | 状態検出装置、状態検出システム、および状態検出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6991041B2 (ja) | 2022-01-12 |
US20190156846A1 (en) | 2019-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6991041B2 (ja) | 生成装置、生成方法、および生成プログラム | |
US11715489B2 (en) | Linear filtering for noise-suppressed speech detection | |
EP3857911B1 (en) | Linear filtering for noise-suppressed speech detection via multiple network microphone devices | |
JP5724125B2 (ja) | 音源定位装置 | |
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
US11488617B2 (en) | Method and apparatus for sound processing | |
JP2015042989A (ja) | マルチセンサ音源定位 | |
JP7212718B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
WO2019116889A1 (ja) | 信号処理装置および方法、学習装置および方法、並びにプログラム | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2018040848A (ja) | 音響処理装置および音響処理方法 | |
US20120271630A1 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program | |
JP2010175431A (ja) | 音源方向推定装置とその方法と、プログラム | |
CN112992190A (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN110890098B (zh) | 盲信号分离方法、装置和电子设备 | |
JP2019045818A (ja) | 音声抽出装置、音声抽出方法および音声抽出プログラム | |
KR20190032868A (ko) | 음성인식 방법 및 그 장치 | |
JP6856697B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
US9398387B2 (en) | Sound processing device, sound processing method, and program | |
JP5986901B2 (ja) | 音声強調装置、その方法、プログラム及び記録媒体 | |
JP2007328268A (ja) | 音楽信号の帯域拡張方式 | |
WO2020208972A1 (ja) | 応答生成装置及び応答生成方法 | |
CN112447183A (zh) | 音频处理模型的训练、音频去噪方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211007 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20211007 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20211018 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20211019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6991041 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |