JP6316208B2 - 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム - Google Patents
特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム Download PDFInfo
- Publication number
- JP6316208B2 JP6316208B2 JP2014552983A JP2014552983A JP6316208B2 JP 6316208 B2 JP6316208 B2 JP 6316208B2 JP 2014552983 A JP2014552983 A JP 2014552983A JP 2014552983 A JP2014552983 A JP 2014552983A JP 6316208 B2 JP6316208 B2 JP 6316208B2
- Authority
- JP
- Japan
- Prior art keywords
- group
- voice
- electronic device
- device system
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 164
- 238000012545 processing Methods 0.000 title claims description 91
- 230000008569 process Effects 0.000 claims description 110
- 230000004044 response Effects 0.000 claims description 68
- 230000002708 enhancing effect Effects 0.000 claims description 12
- 238000000926 separation method Methods 0.000 description 28
- 239000000284 extract Substances 0.000 description 26
- 238000012937 correction Methods 0.000 description 22
- 230000009467 reduction Effects 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 239000002609 medium Substances 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 239000012141 concentrate Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 239000004020 conductor Substances 0.000 description 4
- 238000002715 modification method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- OWNRRUFOJXFKCU-UHFFFAOYSA-N Bromadiolone Chemical compound C=1C=C(C=2C=CC(Br)=CC=2)C=CC=1C(O)CC(C=1C(OC2=CC=CC=C2C=1O)=O)C1=CC=CC=C1 OWNRRUFOJXFKCU-UHFFFAOYSA-N 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Description
・公共交通機関、例えば電車、バス又は飛行機の中で会話がうるさい人の声;
・ホテル、美術館又は水族館などで会話がうるさい人の声;又は、
・宣伝カー又は選挙カーからの人の声。
音声を収集するステップと、
上記音声を解析して、当該音声の特徴量を抽出するステップと、
上記特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けし、当該グループ分けの結果をユーザに提示するステップと、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去するステップと
を含む。
音声を収集するステップと、
上記音声を解析して、当該音声の特徴量を抽出するステップと、
上記音声をテキスト化するステップと、
上記特徴量に基づいて、上記音声に対応するテキストをグループ分けし、当該グループ分けされたテキストをユーザに提示するステップと、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去するステップと
を含む。
音声を収集する集音手段と、
上記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
上記特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けするグループ分け手段と、
上記グループ分けの結果をユーザに提示する提示手段と、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する音声信号合成手段と
を備えている。
音声を収集する集音手段と、
上記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
上記音声をテキスト化するテキスト化手段と、
上記特徴量に基づいて、上記音声に対応するテキストをグループ分けするグループ分け手段と、
当該グループ分けされたテキストをユーザに提示する提示手段と、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する音声信号合成手段と
を含む。
上記グループ分けされたテキストのうちの一部のテキストをユーザが選択することを許す選択手段と、
当該ユーザによって選択された一部のテキストを別のグループとして分離する分離手段と
をさらに備えていてもよい。
上記選択手段が、上記グループの少なくとも2つをユーザが選択することを許し、
上記電子装置システムが、当該ユーザによって選択された少なくとも2つのグループを1つのグループとして合体する合体手段をさらに備えていてもよい。
上記提示手段が、上記一つのグループとしてまとめられた各音声に対応する各テキストを上記まとめられた一つのグループ内において表示しうる。
・例えば公共交通機関(例えば、電車、バス又は飛行機)又は公共施設内(例えば、コンサートホール又は病院)において、会話がうるさい人の声を選択的に低減乃至は除去することで、友人又は家族との話に集中することを可能にする。
・例えば学校等の教室又は講堂において、先生乃至は講師以外の声を選択的に低減乃至は除去することによって、講義に集中することを可能にする。
・例えば議事録の作成において発言者以外の会話又は音声を低減乃至は除去することによって、発言者の音声を効率的に記録することを可能にする。
・一つの大きい部屋において複数のテーブルに分かれて議論をしている場合において自分が所属しているテーブル(すなわち、グループ)以外のメンバーの会話を低減乃至は除去することによって、自分が所属しているテーブルでの議論に集中することを可能にする。
・地震速報又は緊急避難放送などの音声以外の音声を低減乃至は除去することによって、地震速報又は緊急避難放送などの音声を聞き逃すことを防止することが可能である。
・スポーツ観戦において、一緒に観戦に来た人及び/又は館内放送以外の音声を低減乃至は除去することによって、一緒に観戦に来た人及び/又は館内放送の音声を聞き逃すことを防止することが可能である。
・テレビの視聴又はラジオのリスニング中において、家族の声を低減乃至は除去することによって、テレビ又はラジオからの音声に集中することを可能にする。
・選挙カー又は宣伝カーが走行している場合において、選挙カー又は宣伝カーからの声を低減乃至は除去することによって、選挙カー又は宣伝カーからの声による騒音を防止することが可能である。
・例えば公共交通機関又は公共施設内において、友人又は家族の声を選択的に強調することによって、友人又は家族との話に集中することを可能にする。
・例えば学校等の教室又は講堂において、先生乃至は講師の声を選択的に強調することによって、講義に集中することを可能にする。
・例えば議事録の作成において発言者の音声を強調することによって、発言者の音声を効率的に記録することを可能にする。
・一つの大きい部屋において複数のテーブルに分かれて議論をしている場合において自分が所属しているテーブルのメンバーの会話を強調することによって、自分が所属しているテーブルでの議論に集中することを可能にする。
・地震速報又は緊急避難放送などの音声を強調することによって、地震速報又は緊急避難放送などの音声を聞き逃すことを防止することが可能である。
・スポーツ観戦において、一緒に観戦に来た人及び/又は館内放送の音声を強調することによって、一緒に観戦に来た人及び/又は館内放送の音声を聞き逃すことを防止することが可能である。
・テレビの視聴又はラジオのリスニング中において、テレビ又はラジオからの音声を強調することによって、テレビ又はラジオからの音声に集中することを可能にする。
電子装置システム(101)は、1又は複数のCPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インターナショナル・ビジネス・マシーンズ・コーポレーション(登録商標)のPower(登録商標)シリーズ、インテル・コーポレーション(登録商標)のCore i(商標)シリーズ、Core 2(商標)シリーズ、Atom(商標)シリーズ、Xeon(商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ若しくはSempron(商標)、アップル社(登録商標)のAシリーズ、又は、アンドロイド端末用のCPUが使用されうる。バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)、タッチ液晶ディスプレイ、又はマルチタッチ液晶ディスプレイが接続されうる。ディスプレイ(106)は、コンピュータ上で動作中のソフトウェア、例えば本発明に従う電子装置システム用プログラムが稼働することによって表示される情報を、適当なグラフィック・インタフェースで表示するために使用されうる。バス(104)にはまた、SATA又はIDEコントローラ(107)を介して、ディスク(108)、例えばハードディスク又はシリコン・ディスクと、ドライブ(109)、例えばCD、DVD又はBDドライブとが接続されうる。バス(104)にはさらに、キーボード・マウス・コントローラ(110)又はUSBバス(図示せず)を介して、キーボード(111)、マウス(112)、又はタッチ・デバイス(図示せず)が接続されうる。
図2Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(210)を所持し、当該電子装置システム(210)に有線又は無線で接続されたヘッドフォンを装着したユーザ(201)、並びに、当該ユーザ(201)の周辺にいる人(202,203,204及び205)、及び、電車に備え付けのスピーカ(206)を示す。電車に備え付けのスピーカ(206)からは、電車の車掌からのアナウンスが放送される。
図2Bの上側に示す図は、画面上の左上隅に唇上にバツ(×)印のアイコン(231−2)及び各グループ(232,233,234、235及び246)内に唇上にバツ(×)印の各アイコン(232−2,233−2,234−2,235−2及び236−2)、並びに各グループ(232,233,234、235及び246)内に星印の各アイコンが表示されている以外は、図2Aの上側に示す図と同じである。アイコン(231−2)は、画面(231)上に表示されている全てのグループ(232,233,234、235及び236)に関連付けられた話者の音声全てをヘッドフォンから低減乃至は除去するために使用されるアイコンである。各アイコン(232−2,233−2,234−2,235−2及び236−2)はそれぞれ、当該アイコンに対応するグループに関連付けられた話者の音声をヘッドフォンから選択的に低減乃至は除去するために使用されるアイコンである。
図2Cの上側に示す図は、図2Bの上側に示す図と同じである。アイコン(252−4,253−4,254−4,255−4及び256−4)はそれぞれ、各グループに関連付けられた話者の一連の音声をヘッドフォンから選択的に強調するために使用されるアイコンである。
図3Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(310)を所持し、当該電子装置システム(310)に有線又は無線で接続されたヘッドフォンを装着したユーザ(301)、並びに、当該ユーザ(301)の周辺にいる人(302,303及び304)、及び、電車に備え付けのスピーカ(306)を示す。電車に備え付けのスピーカ(306)からは、電車の車掌からのアナウンスが放送される。
図3Bは、図3Aの上側に示す図と同じ状況であり、電車内における本発明の実施態様の例を示す。
図4Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(410)を所持し、当該電子装置システム(410)に有線又は無線で接続されたヘッドフォンを装着したユーザ(401)、並びに、当該ユーザ(401)の周辺にいる人(402,403,404、405、及び407)、及び、電車に備え付けのスピーカ(406)を示す。電車に備え付けのスピーカ(406)からは、電車の車掌からのアナウンスが放送される。
図4Bの上側に示す図は、画面(431)上の左下隅に唇上にバツ(×)印のアイコン(438)及び右下隅に星印のアイコン(439)が表示されている以外は、図4Aの上側に示す図と同じである。アイコン(438)は、画面(431)上に表示されているグループ(432,433,434、435,436及び437)であって、ユーザによってタッチされたグループに関連付けられた話者の音声をヘッドフォンから低減乃至は除去するために使用されるアイコンである。また、アイコン(439)は、画面(431)上に表示されているグループ(432,433,434、435,436及び437)であって、ユーザによってタッチされたグループに関連付けられた話者の音声全てがヘッドフォンから強調するために使用されるアイコンである。
図4Cの上側に示す図は、図4Bの上側に示す図と同じである。
図5Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(510)を所持し、当該電子装置システム(510)に有線又は無線で接続されたヘッドフォンを装着したユーザ(501)、並びに、当該ユーザ(501)の周辺にいる人(502,503,504、505、及び507)、及び、電車に備え付けのスピーカ(506)を示す。電車に備え付けのスピーカ(506)からは、電車の車掌からのアナウンスが放送される。
図5Bの上側に示す図は、画面(531)上の左下隅に唇上にバツ(×)印のアイコン(538)及び右下隅に星印のアイコン(539)が表示されている以外は、図5Aの上側に示す図と同じである。アイコン(538)は、画面(531)上に表示されているグループ(532,533,534、535,536及び537)であって、ユーザによってタッチされたグループに関連付けられた話者の音声をヘッドフォンから低減乃至は除去するために使用されるアイコンである。また、アイコン(539)は、画面(531)上に表示されているグループ(532,533,534、535,536及び537)であって、ユーザによってタッチされたグループに関連付けられた話者の音声全てがヘッドフォンから強調するために使用されるアイコンである。
図5Cの上側に示す図は、図5Bの上側に示す図と同じである。
電子装置システム(101)は、集音手段(801)、特徴量抽出手段(802)、テキスト化手段(803)、グループ分け手段(804)、音声シーケンス表示・選択受付手段(805)、提示手段(806)、音声信号解析手段(807)、音声信号逆位相生成手段(808)、音声信号合成手段(809)、及び音声信号出力手段(810)を備えうる。電子装置システム(101)は、上記各手段(801〜810)を一つの電子装置内に備えていてもよく、又は上記各手段を複数の電子装置に分散して備えていてもよい。どの手段をどのように分散するかは、例えば電子装置の処理能力に応じて決定されうる。
Claims (20)
- 特定の話者の音声を加工する方法であって、電子装置システムが、
音声を収集するステップと、
前記音声を解析して、当該音声の特徴量を抽出するステップと、
前記抽出された特徴量に基づいて音声毎にグループ分けするステップと、
ユーザ・インターフェースを通して、前記グループ分けの結果をユーザに提示するステップと、
前記ユーザ・インターフェースを通して、強調し又は低減乃至は除去したい話者の音声が属するグループがユーザによって選択され指示されたかを判断するステップと、
前記選択され指示されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する処理を実行するステップであって、
音声を強調する指示に応答して、前記選択されたグループ以外のグループの音声を低減乃至は除去するか、前記選択されたグループの音声を強調するステップと、
音声を低減乃至は除去する指示に応答して、前記選択されたグループの音声を低減乃至は除去するステップと、
を実行することを含む、前記方法。 - 前記電子装置システムが、
前記収集された音声をテキスト化するステップ
を実行することをさらに含み、
前記グループ分けの結果を提示するステップが、
前記収集された音声に対応するテキストを前記グループ分けに従い表示するステップ
を含む、請求項1に記載の方法。 - 前記テキストを表示するステップが、
前記グループ分けされたテキストを時系列的に表示するステップ
をさらに含む、請求項2に記載の方法。 - 前記テキストを表示するステップが、
前記グループ分けされたテキストに続けて、当該グループに関連付けられた前記話者の後続する音声に対応するテキストを表示するステップ
をさらに含む、請求項2に記載の方法。 - 前記電子装置システムが、
前記音声の発生源の方向、又は前記音声の発生源の方向及び距離を特定するステップ
をさらに実行することを含み、
前記テキストを表示するステップが、
前記グループ分けされたテキストを、表示装置上の前記特定された方向に近い位置において又は前記特定された方向及び距離に対応する前記表示装置上の所定の位置において表示するステップ
を含む、請求項2に記載の方法。 - 前記テキストを表示するステップが、
前記話者が移動することに応じて、前記グループ分けされたテキストの表示位置を変化するステップ
をさらに含む、請求項5に記載の方法。 - 前記テキストを表示するステップが、
前記音声の大きさ、高さ、若しくは音質、又は前記グループに関連付けられた話者の音声の特徴量に基づいて、前記テキストの表示方式を変更するステップ
をさらに含む、請求項2に記載の方法。 - 前記テキストを表示するステップが、
前記音声の大きさ、高さ、若しくは音質、又は前記グループに関連付けられた話者の音声の特徴量に基づいて、複数のグループの内、当該グループを色分けして表示するステップ
をさらに含む、請求項2に記載の方法。 - 前記電子装置システムが、
前記強調する指示の後に、前記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去するステップ、又は、
前記低減乃至は除去する指示の後に、前記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調するステップ
を実行することをさらに含む、請求項2に記載の方法。 - 前記電子装置システムが、
前記グループ分けされたテキストのうちの一部のテキストをユーザが選択することを許すステップと、
当該ユーザによって選択された一部のテキストの話者の音声を別のグループとして分離するステップと
を実行することをさらに含む、請求項2に記載の方法。 - 前記電子装置システムが、
前記分離された別のグループに関連付けられた話者の音声の特徴量を、前記分離元のグループに関連付けられた話者の音声の特徴量と区別するステップ
を実行することをさらに含む、請求項10に記載の方法。 - 前記電子装置システムが、
前記分離された別のグループに関連付けられた話者の音声の特徴量に従って、前記分離されたグループに関連付けられた話者の後続する音声に対応するテキストを当該分離されたグループ中に表示するステップ
を実行することをさらに含む、請求項10に記載の方法。 - 前記電子装置システムが、
前記グループの少なくとも2つをユーザが選択することを許すステップと、
当該ユーザによって選択された少なくとも2つのグループを1つのグループとして合体するステップと
を実行することをさらに含む、請求項2に記載の方法。 - 前記電子装置システムが、
前記少なくとも2つのグループそれぞれに関連付けられた話者の各音声を一つのグループとしてまとめるステップと、
前記一つのグループとしてまとめられた各音声に対応する各テキストを前記まとめられた一つのグループ内において表示するステップと
を実行することをさらに含む、請求項13に記載の方法。 - 前記提示するステップが、前記特徴量に基づいて、前記音声をグループ分けし、当該グループ分けの結果を表示装置上に表示するステップを含み、
前記電子装置システムが、
前記音声の発生源の方向、又は前記音声の発生源の方向及び距離を特定するステップ
をさらに実行することを含み、
前記グループ分けの結果を表示装置上に表示するステップが、
前記話者を示すアイコンを、前記表示装置上の前記特定された方向に近い位置において又は前記特定された方向及び距離に対応する前記表示装置上の所定の位置において表示するステップを含む、
請求項1に記載の方法。 - 前記グループ分けの結果を表示するステップが、
前記話者を示すアイコンの近傍に当該話者の音声に対応するテキストを表示するステップ
をさらに含む、請求項15に記載の方法。 - 前記音声を低減乃至は除去するステップが、
前記選択されたグループに関連付けられた前記話者の音声に対して、逆位相の音波を出力するステップ、又は、
前記選択されたグループに関連付けられた前記話者の音声が低減乃至は除去された合成音声を再生することで、前記選択されたグループに関連付けられた話者の前記音声を低減乃至は除去するステップ
を含む、請求項1に記載の方法。 - 特定の話者の音声を加工するための電子装置システムであって、
音声を収集する集音手段と、
前記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
前記抽出された特徴量に基づいて音声毎にグループ分けするグループ分け手段と、
ユーザ・インターフェースを通して、前記グループ分けの結果をユーザに提示する提示手段と、
前記ユーザ・インターフェースを通して、強調し又は低減乃至は除去したい話者の音声が属するグループがユーザによって選択され指示されたかを判断する判断手段と、
前記選択され指示されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する処理を実行する音声処理実行手段であって、
音声を強調する指示に応答して、前記選択されたグループ以外のグループの音声を低減乃至は除去するか、前記選択されたグループの音声を強調する手段と、
音声を低減乃至は除去する指示に応答して、前記選択されたグループの音声を低減乃至は除去する手段と、
を備えている、前記電子装置システム。 - 前記電子装置システムが、
前記収集された音声をテキスト化するテキスト化手段
をさらに備えており、
前記提示手段が、前記収集された音声に対応するテキストを前記グループ分けに従い表示する、
請求項18に記載の電子装置システム。 - 特定の話者の音声を加工するための電子装置システム用プログラムであって、電子装置システムに、請求項1〜17のいずれか一項に記載の方法の各ステップを実行させる、前記電子装置システム用プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012275250 | 2012-12-18 | ||
JP2012275250 | 2012-12-18 | ||
PCT/JP2013/079264 WO2014097748A1 (ja) | 2012-12-18 | 2013-10-29 | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014097748A1 JPWO2014097748A1 (ja) | 2017-01-12 |
JP6316208B2 true JP6316208B2 (ja) | 2018-04-25 |
Family
ID=50931946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014552983A Active JP6316208B2 (ja) | 2012-12-18 | 2013-10-29 | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9251805B2 (ja) |
JP (1) | JP6316208B2 (ja) |
WO (1) | WO2014097748A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102138515B1 (ko) | 2013-10-01 | 2020-07-28 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
KR102262853B1 (ko) | 2014-09-01 | 2021-06-10 | 삼성전자주식회사 | 복수의 마이크를 포함하는 전자 장치 및 이의 운용 방법 |
US10388297B2 (en) * | 2014-09-10 | 2019-08-20 | Harman International Industries, Incorporated | Techniques for generating multiple listening environments via auditory devices |
US9558747B2 (en) * | 2014-12-10 | 2017-01-31 | Honeywell International Inc. | High intelligibility voice announcement system |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
JP6760271B2 (ja) * | 2015-10-08 | 2020-09-23 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10695663B2 (en) * | 2015-12-22 | 2020-06-30 | Intel Corporation | Ambient awareness in virtual reality |
US9818427B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Automatic self-utterance removal from multimedia files |
JP2017134713A (ja) * | 2016-01-29 | 2017-08-03 | セイコーエプソン株式会社 | 電子機器、電子機器の制御プログラム |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US10803857B2 (en) | 2017-03-10 | 2020-10-13 | James Jordan Rosenberg | System and method for relative enhancement of vocal utterances in an acoustically cluttered environment |
CN110431549A (zh) * | 2017-03-27 | 2019-11-08 | 索尼公司 | 信息处理装置、信息处理方法及程序 |
CN109427341A (zh) * | 2017-08-30 | 2019-03-05 | 鸿富锦精密电子(郑州)有限公司 | 语音输入系统及语音输入方法 |
US10403288B2 (en) * | 2017-10-17 | 2019-09-03 | Google Llc | Speaker diarization |
KR102115222B1 (ko) * | 2018-01-24 | 2020-05-27 | 삼성전자주식회사 | 사운드를 제어하는 전자 장치 및 그 동작 방법 |
US10679602B2 (en) * | 2018-10-26 | 2020-06-09 | Facebook Technologies, Llc | Adaptive ANC based on environmental triggers |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
JP7392259B2 (ja) * | 2018-12-04 | 2023-12-06 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
JP2021135935A (ja) * | 2020-02-28 | 2021-09-13 | 株式会社東芝 | コミュニケーション管理装置及び方法 |
JP7405660B2 (ja) * | 2020-03-19 | 2023-12-26 | Lineヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
CN112562706B (zh) * | 2020-11-30 | 2023-05-05 | 哈尔滨工程大学 | 一种基于时间潜在域特定说话人信息的目标语音提取方法 |
US11967322B2 (en) | 2021-05-06 | 2024-04-23 | Samsung Electronics Co., Ltd. | Server for identifying false wakeup and method for controlling the same |
JP7399413B1 (ja) | 2022-02-21 | 2023-12-18 | ピクシーダストテクノロジーズ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088625B2 (ja) | 1994-12-02 | 2000-09-18 | 東京電力株式会社 | 電話応答システム |
US5864810A (en) | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JPH10261099A (ja) * | 1997-03-17 | 1998-09-29 | Casio Comput Co Ltd | 画像処理装置 |
JP4202640B2 (ja) | 2001-12-25 | 2008-12-24 | 株式会社東芝 | 短距離無線通信用ヘッドセット、これを用いたコミュニケーションシステム、および短距離無線通信における音響処理方法 |
JP2004133403A (ja) | 2002-09-20 | 2004-04-30 | Kobe Steel Ltd | 音声信号処理装置 |
JP2005215888A (ja) | 2004-01-28 | 2005-08-11 | Yasunori Kobori | テキスト文の表示装置 |
JP4082611B2 (ja) * | 2004-05-26 | 2008-04-30 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声収録システム、音声処理方法およびプログラム |
JP2006189626A (ja) | 2005-01-06 | 2006-07-20 | Fuji Photo Film Co Ltd | 記録装置及び音声記録プログラム |
JP2007187748A (ja) | 2006-01-11 | 2007-07-26 | Matsushita Electric Ind Co Ltd | 音選択加工装置 |
JP2008087140A (ja) | 2006-10-05 | 2008-04-17 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP5383056B2 (ja) * | 2007-02-14 | 2014-01-08 | 本田技研工業株式会社 | 音データ記録再生装置および音データ記録再生方法 |
JP2008250066A (ja) * | 2007-03-30 | 2008-10-16 | Yamaha Corp | 音声データ処理システム、音声データ処理方法、及びプログラム |
JP2008262046A (ja) * | 2007-04-12 | 2008-10-30 | Hitachi Ltd | 会議可視化システム、会議可視化方法、及び集計処理サーバ |
US20090037171A1 (en) * | 2007-08-03 | 2009-02-05 | Mcfarland Tim J | Real-time voice transcription system |
JP2010060850A (ja) * | 2008-09-04 | 2010-03-18 | Nec Corp | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム |
US8347247B2 (en) * | 2008-10-17 | 2013-01-01 | International Business Machines Corporation | Visualization interface of continuous waveform multi-speaker identification |
US9094645B2 (en) * | 2009-07-17 | 2015-07-28 | Lg Electronics Inc. | Method for processing sound source in terminal and terminal using the same |
US8370142B2 (en) * | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
JP2011192048A (ja) * | 2010-03-15 | 2011-09-29 | Nec Corp | 発言内容出力システム、発言内容出力装置及び発言内容出力方法 |
US9560206B2 (en) * | 2010-04-30 | 2017-01-31 | American Teleconferencing Services, Ltd. | Real-time speech-to-text conversion in an audio conference session |
US20120059651A1 (en) * | 2010-09-07 | 2012-03-08 | Microsoft Corporation | Mobile communication device for transcribing a multi-party conversation |
JP2012098483A (ja) | 2010-11-02 | 2012-05-24 | Yamaha Corp | 音声データ生成装置 |
JP6017854B2 (ja) * | 2011-06-24 | 2016-11-02 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム |
JP5685177B2 (ja) | 2011-12-12 | 2015-03-18 | 本田技研工業株式会社 | 情報伝達システム |
-
2013
- 2013-10-29 JP JP2014552983A patent/JP6316208B2/ja active Active
- 2013-10-29 WO PCT/JP2013/079264 patent/WO2014097748A1/ja active Application Filing
- 2013-12-02 US US14/094,459 patent/US9251805B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2014097748A1 (ja) | 2014-06-26 |
US20140172426A1 (en) | 2014-06-19 |
JPWO2014097748A1 (ja) | 2017-01-12 |
US9251805B2 (en) | 2016-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6316208B2 (ja) | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム | |
US11531518B2 (en) | System and method for differentially locating and modifying audio sources | |
CN101681663B (zh) | 处理音频数据的设备和方法 | |
JP6600634B2 (ja) | ユーザが制御可能な聴覚環境のカスタマイズのためのシステム及び方法 | |
EP2831873B1 (en) | A method, an apparatus and a computer program for modification of a composite audio signal | |
CN108141684A (zh) | 声音输出设备、声音生成方法以及程序 | |
US20200186912A1 (en) | Audio headset device | |
CN106790940B (zh) | 录音方法、录音播放方法、装置及终端 | |
MXPA05007300A (es) | Metodo para crear y tener acceso a un menu para contenido de audio sin usar un dispositivo de representacion visual. | |
JP6945130B2 (ja) | 音声提示方法、音声提示プログラム、音声提示システム及び端末装置 | |
EP3752891B1 (en) | Systems and methods for identifying and providing information about semantic entities in audio signals | |
Weber | Head cocoons: A sensori-social history of earphone use in West Germany, 1950–2010 | |
KR102252665B1 (ko) | 오디오 파일 재생 방법 및 장치 | |
JP6897565B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
CN107278376A (zh) | 在多个用户之间共享立体声的技术 | |
WO2018079850A1 (ja) | 信号処理装置、信号処理方法およびプログラム | |
CN110176231B (zh) | 音响输出系统、音响输出方法及存储介质 | |
US20060187336A1 (en) | System, method and computer program product for distributed moderation of theatrical productions | |
WO2010140254A1 (ja) | 映像音声出力装置及び音声定位方法 | |
CN108304152A (zh) | 手持式电子装置、影音播放装置以及其影音播放方法 | |
JP7131550B2 (ja) | 情報処理装置および情報処理方法 | |
EP3657495A1 (en) | Information processing device, information processing method, and program | |
US20240015462A1 (en) | Voice processing system, voice processing method, and recording medium having voice processing program recorded thereon | |
EP3550560B1 (en) | Information processing device, information processing method, and program | |
EP3731067A1 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6316208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |