JP6316208B2

JP6316208B2 - 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム

Info

Publication number: JP6316208B2
Application number: JP2014552983A
Authority: JP
Inventors: 明彦 ▲たか▼城; 孝仁田代; 拓荒津; 政美多田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-12-18
Filing date: 2013-10-29
Publication date: 2018-04-25
Anticipated expiration: 2033-10-29
Also published as: WO2014097748A1; US20140172426A1; JPWO2014097748A1; US9251805B2

Description

本発明は、特定の話者の音声を加工するための技法に関する。詳細には、本発明は、特定の話者の音声を強調し又は低減乃至は除去する技法に関する。

普段の生活の中で、例えば以下に示すような事例において、特定の話者の音声だけを聞きたくないという状況がある；
・公共交通機関、例えば電車、バス又は飛行機の中で会話がうるさい人の声；
・ホテル、美術館又は水族館などで会話がうるさい人の声；又は、
・宣伝カー又は選挙カーからの人の声。

周囲の音（環境音ともいう）を消す方法として、ノイズ・キャンセラー付き電子機器、例えばノイズ・キャンセラー付きヘッドフォン又は携帯音楽プレイヤーがある。ノイズ・キャンセラー付き電子機器は、周囲の音を内蔵のマイクロフォンで集音し、これと逆位相の信号をオーディオ信号と混合して出力することによって、当該電子機器へ外部から侵入する環境音を低減するものである。

また、周囲の音を消す方法として、耳栓をして全ての音を遮断する方法、又は、ヘッドフォン若しくはイヤホンを装着して大音量の音楽を流して騒音をごまかす方法がある。

下記特許文献１は、利用者の周囲で発生する混合音から、利用者が不快に感じる音を選択的に取り除く音選択加工装置であって、混合音を、音源ごとの音に分離する音分離手段と、利用者が不快な状態にあることを検知する不快感検知手段と、前記不快感検知手段によって利用者が前記状態にあることが検知されると、分離された音である各分離音間の関係を評価し、前記評価結果に基づいて、加工対象候補の分離音を推定する候補音選択決定手段と、推定された加工対象候補の前記分離音を前記利用者に提示して、選択を受け付け、選択された分離音を特定する候補音提示特定手段と、特定された前記分離音を加工して、混合音を再構成する音加工手段とを備えることを特徴とする音選択加工装置を記載する（請求項１）。

下記特許文献２は、常に発話した発話者の方向を向いた状態で、発話者に応答することができる音声認識ロボットおよび音声認識ロボットの制御方法を記載する（段落０００６）。

下記特許文献３は、複数音源からの複数の音声信号が混在して入力される環境下で会話が成立している有効音声を抽出する音声信号処理装置を記載する（請求項１）。

下記特許文献４は、話者からの音声信号を特徴ベクトルのデータセットに変換するための特徴抽出手段を備えている話者適応音声認識システムを記載する（請求項１）。

下記特許文献５は、短距離無線通信用のヘッドセットを利用して想定されるあらゆる状況において、外部の直接音と、通信系を介して伝達される音の比率を選択的に変えて、音声コミュニケーションや音声コマンドを円滑にすることができるヘッドセットと、これを用いたコミュニケーションシステムを記載する（段落００１０）。

下記特許文献６は、電話応答システムにおいて、話者にわずらわしさを感じさせずに、話者適応化方式による音声認識をできるようにすることを記載する（段落００１１）。

下記特許文献７は、話者が話した音声を入力する入力手段（請求項１）、及び前記入力手段から入力された音声をテキストデータに変換する変換出手段（請求項２）を備えている、話者が発した音声をマスキングするための音声に係る音声データを生成する音声データ生成装置を記載する（特許請求の範囲）。

下記特許文献８は、連絡通信や意思伝達する文字列やコメント等のテキスト文の表示において、その内容や感情あるいは気持ちの抑揚をより深く伝えることが可能なテキスト文の表示装置を記載する（段落０００１）。

特開２００７−１８７７４８号公報特開２００８−８７１４０号公報特開２００４−１３３４０３号公報特表平１０−５１２６８６号公報特開２００３−１９８７１９号公報特開平８−１６３２５５号公報特開２０１２−９８４８３号公報特開２００５−２１５８８８号公報

牧野昭二等、"ブラインドな処理が可能な音源分離技術"、ＮＴＴ技術ジャーナル、15(12)、8〜12ページ、２００３年１２月号、インターネット〈URL：http://www.tara.tsukuba.ac.jp/~maki/reprint/Makino/sm03jornal8-12.pdf〉より入手可能

普段の生活の中で、特定の音声だけを聞きたくないという状況がある。そのような場合に、これまで例えば、ノイズ・キャンセラー付きの電子機器や耳栓を装着したり、ヘッドフォン又はイヤホンを装着して大音量の音楽を聴いたりして対応しているのが現状である。

ノイズ・キャンセラー付きの電子機器は、無作為に音（ノイズ）を低減することから特定の話者のみの音声を低減することが難しい。また、ノイズ・キャンセラー付きの電子機器は、人の声の音域には低減処理をしないために、周囲の音が聞こえすぎる場合がある。よって、ノイズ・キャンセラー付きの電子機器では、特定の話者の音声のみを加工することは困難である。

耳栓は、全ての音を遮断してしまう。また、ヘッドフォン又はイヤホンを装着して大音量の音楽を聴くことは、周りの音を聞こえなくしてしまう。このことは、ユーザにとって必要な情報、例えば地震速報又は緊急避難放送を聞き逃すことをもたらすために、場合によってはユーザの身に危険を与える。

従って、本発明は、ユーザにとって操作的に容易であり、さらには視覚的にも簡単に、特定の話者の音声を加工することを可能にすることを目的とする。

また、本発明は、特定の話者の音声を加工することを容易にするユーザ・インターフェースを提供することによって、特定の話者の音声を強調し又は低減乃至は除去することをスムーズに行えるようにすることを目的とする。

本発明は、音声を収集し、当該収集した音声を解析して、当該音声の特徴量を抽出し、当該抽出した特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けし、当該グループ分けの結果をユーザに提示し、当該グループのうちの１つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減し乃至は除去する技法を提供する。当該技法は、サービスに対するアクセスを制御するための方法、電子装置システム、電子装置システム用プログラム及び電子装置システム用プログラム製品を包含しうる。

本発明の上記方法は、
音声を収集するステップと、
上記音声を解析して、当該音声の特徴量を抽出するステップと、
上記特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けし、当該グループ分けの結果をユーザに提示するステップと、
上記グループのうちの１つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去するステップと
を含む。

本発明の一つの実施態様において、上記方法は、
音声を収集するステップと、
上記音声を解析して、当該音声の特徴量を抽出するステップと、
上記音声をテキスト化するステップと、
上記特徴量に基づいて、上記音声に対応するテキストをグループ分けし、当該グループ分けされたテキストをユーザに提示するステップと、
上記グループのうちの１つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去するステップと
を含む。

本発明の上記電子装置システムは、
音声を収集する集音手段と、
上記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
上記特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けするグループ分け手段と、
上記グループ分けの結果をユーザに提示する提示手段と、
上記グループのうちの１つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する音声信号合成手段と
を備えている。

本発明の一つの実施態様において、上記電子装置システムが、上記音声をテキスト化するテキスト化手段をさらに備えていてもよい。また、本発明の一つの実施態様において、上記グループ分け手段が上記音声に対応するテキストをグループ分けし、且つ、上記提示手段が、当該グループ分けされたテキストを当該グループ分けに従い表示しうる。

本発明の一つの実施態様において、上記電子装置システムは、
音声を収集する集音手段と、
上記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
上記音声をテキスト化するテキスト化手段と、
上記特徴量に基づいて、上記音声に対応するテキストをグループ分けするグループ分け手段と、
当該グループ分けされたテキストをユーザに提示する提示手段と、
上記グループのうちの１つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する音声信号合成手段と
を含む。

本発明の一つの実施態様において、上記提示手段が、上記グループ分けされたテキストを時系列的に表示しうる。

本発明の一つの実施態様において、上記提示手段が、上記グループ分けされたテキストに続けて、当該グループに関連付けられた上記話者の後続する音声に対応するテキストを表示しうる。

本発明の一つの実施態様において、上記電子装置システムが、音声の発生源の方向、又は上記音声の発生源の方向及び距離を特定する特定手段をさらに備えていてもよい。また、本発明の一つの実施態様において、上記提示手段が、上記グループ分けされたテキストを表示装置上の上記特定された方向に近い位置において、又は上記特定された方向及び距離に対応する上記表示装置上の所定の位置において表示しうる。

本発明の一つの実施態様において、上記提示手段が、上記話者が移動することに応じて、上記グループ分けされたテキストの表示位置を変化しうる。

本発明の一つの実施態様において、上記提示手段が、上記音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に基づいて、上記テキストの表示方式を変更しうる。

本発明の一つの実施態様において、上記提示手段が、上記音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に基づいて、当該グループを色分けして表示しうる。

本発明の一つの実施態様において、上記音声信号合成手段が、上記選択されたグループに関連付けられた話者の音声を強調した後に、上記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去しうる。

本発明の一つの実施態様において、上記音声信号合成手段が、上記選択されたグループに関連付けられた話者の音声を低減乃至は除去した後に、上記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調しうる。

本発明の一つの実施態様において、上記電子装置システムが、
上記グループ分けされたテキストのうちの一部のテキストをユーザが選択することを許す選択手段と、
当該ユーザによって選択された一部のテキストを別のグループとして分離する分離手段と
をさらに備えていてもよい。

本発明の一つの実施態様において、上記特徴量抽出手段が、上記分離された別のグループに関連付けられた話者の音声の特徴量を、上記分離元のグループに関連付けられた話者の音声の特徴量と区別しうる。

本発明の一つの実施態様において、上記提示手段が、上記分離された別のグループに関連付けられた上記話者の音声の特徴量に従って、上記分離されたグループに関連付けられた話者の後続する音声に対応するテキストを当該分離されたグループ中に表示しうる。

本発明の一つの実施態様において、
上記選択手段が、上記グループの少なくとも２つをユーザが選択することを許し、
上記電子装置システムが、当該ユーザによって選択された少なくとも２つのグループを１つのグループとして合体する合体手段をさらに備えていてもよい。

本発明の一つの実施態様において、上記特徴量抽出手段が、上記少なくとも２つのグループそれぞれに関連付けられた話者の各音声を一つのグループとしてまとめ、
上記提示手段が、上記一つのグループとしてまとめられた各音声に対応する各テキストを上記まとめられた一つのグループ内において表示しうる。

本発明の一つの実施態様において、上記提示手段が、上記特徴量に基づいて、上記音声をグループ分けして、当該グループ分けの結果を表示装置上に表示し、上記話者を示すアイコンを、上記表示装置上の上記特定された方向に近い位置において又は上記特定された方向及び距離に対応する上記表示装置上の所定の位置において表示しうる。

本発明の一つの実施態様において、上記提示手段が、上記グループ分けの結果とともに、上記話者を示すアイコンの近傍に当該話者の音声に対応するテキストを表示しうる。

本発明の一つの実施態様において、上記音声信号合成手段が、上記選択されたグループに関連付けられた上記話者の音声に対して、逆位相の音波を出力し、又は、上記選択されたグループに関連付けられた上記話者の音声が低減乃至は除去された合成音声を再生することで、上記選択されたグループに関連付けられた話者の上記音声を低減乃至は除去しうる。

また、本発明は、電子装置システムに、本発明に従う方法の各ステップを実行させる電子装置システム用プログラム（コンピュータ・プログラムを包含しうる）、及び電子装置システム用プログラム製品（コンピュータ・プログラム製品を包含しうる。）を提供する。

本発明の実施態様に従う特定の話者の音声を加工するための電子装置システム用プログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ＢＤ、ハードディスク装置、ＵＳＢに接続可能なメモリ媒体、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意の電子装置システム読み取り可能な記録媒体（コンピュータ読み取り可能な記録媒体を包含しうる）に格納することができる。当該電子装置システム用プログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システムからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、当該電子装置システム用プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明を実施する電子装置システム用プログラム製品を提供することも勿論可能であることにも留意されたい。電子装置システム用プログラム製品は、例えば、上記電子装置システム用プログラムを記録した記憶媒体、又は、上記電子装置システム用プログラムを伝送する伝送媒体を包含しうる。

本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。

また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記電子装置システム用プログラムのインストールされた装置における実行が典型的な例として挙げられる。かかる場合、当該電子装置システム用プログラムが当該装置のメモリにロードされて実行されることにより、当該電子装置システム用プログラムは、当該装置を制御し、本発明にかかる処理を実行させる。当該電子装置システム用プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該装置が特定の機能を直接的に、又は、１．他の言語、コード若しくは表記への変換及び、２．他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。

本発明の実施態様に従うと、特定の話者の音声を選択的に低減乃至は除去することが可能であるので、話を聞きたい人の音声に集中する又は聞きやすくすることを可能にする。このことは例えば、下記事例の場合において有用である。
・例えば公共交通機関（例えば、電車、バス又は飛行機）又は公共施設内（例えば、コンサートホール又は病院）において、会話がうるさい人の声を選択的に低減乃至は除去することで、友人又は家族との話に集中することを可能にする。
・例えば学校等の教室又は講堂において、先生乃至は講師以外の声を選択的に低減乃至は除去することによって、講義に集中することを可能にする。
・例えば議事録の作成において発言者以外の会話又は音声を低減乃至は除去することによって、発言者の音声を効率的に記録することを可能にする。
・一つの大きい部屋において複数のテーブルに分かれて議論をしている場合において自分が所属しているテーブル（すなわち、グループ）以外のメンバーの会話を低減乃至は除去することによって、自分が所属しているテーブルでの議論に集中することを可能にする。
・地震速報又は緊急避難放送などの音声以外の音声を低減乃至は除去することによって、地震速報又は緊急避難放送などの音声を聞き逃すことを防止することが可能である。
・スポーツ観戦において、一緒に観戦に来た人及び／又は館内放送以外の音声を低減乃至は除去することによって、一緒に観戦に来た人及び／又は館内放送の音声を聞き逃すことを防止することが可能である。
・テレビの視聴又はラジオのリスニング中において、家族の声を低減乃至は除去することによって、テレビ又はラジオからの音声に集中することを可能にする。
・選挙カー又は宣伝カーが走行している場合において、選挙カー又は宣伝カーからの声を低減乃至は除去することによって、選挙カー又は宣伝カーからの声による騒音を防止することが可能である。

また、本発明の実施態様に従うと、特定の話者の音声を選択的に強調することが可能であるので、話を聞きたい人の音声に集中すること又は聞きやすくすることを可能にする。このことは例えば、下記事例の場合において有用である。
・例えば公共交通機関又は公共施設内において、友人又は家族の声を選択的に強調することによって、友人又は家族との話に集中することを可能にする。
・例えば学校等の教室又は講堂において、先生乃至は講師の声を選択的に強調することによって、講義に集中することを可能にする。
・例えば議事録の作成において発言者の音声を強調することによって、発言者の音声を効率的に記録することを可能にする。
・一つの大きい部屋において複数のテーブルに分かれて議論をしている場合において自分が所属しているテーブルのメンバーの会話を強調することによって、自分が所属しているテーブルでの議論に集中することを可能にする。
・地震速報又は緊急避難放送などの音声を強調することによって、地震速報又は緊急避難放送などの音声を聞き逃すことを防止することが可能である。
・スポーツ観戦において、一緒に観戦に来た人及び／又は館内放送の音声を強調することによって、一緒に観戦に来た人及び／又は館内放送の音声を聞き逃すことを防止することが可能である。
・テレビの視聴又はラジオのリスニング中において、テレビ又はラジオからの音声を強調することによって、テレビ又はラジオからの音声に集中することを可能にする。

また、本発明の実施態様に従うと、特定の話者の音声を強調し、一方、別の特定の話者の音声を選択的に低減乃至は除することを組み合わせることによって、さらに、特定の話者との会話に集中することを可能にする。

本発明の実施態様に従い特定の話者の音声を加工するための電子装置システムを実現するためのハードウェア構成の一例を示した図である。本発明の実施態様において使用されうる、音声に対応するテキストを当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。図２Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。図２Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。本発明の実施態様において使用されうる、グループの修正方法（分離の場合）を可能にするユーザ・インターフェースの例を示す。本発明の実施態様において使用されうる、グループの修正方法（マージの場合）を可能にするユーザ・インターフェースの例を示す。本発明の実施態様において使用されうる、音声を当該音声の特徴量に従いグループ分けし、当該グループ毎に表示するユーザ・インターフェースの例を示す。図４Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。図４Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。本発明の実施態様において使用されうる、音声に対応するテキスト当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。図５Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。図４Ａに示す例において、本発明の実施態様に従い特定の話者の音声のみを選択的に強調する例を示す。本発明の実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。図６Ａに示すフローチャートの各ステップのうち、グループ分けの修正処理を詳述したフローチャートを示す。図６Ａに示すフローチャートの各ステップのうち、音声の加工処理を詳述したフローチャートを示す。図６Ａに示すフローチャートの各ステップのうち、グループの表示処理を詳述したフローチャートを示す。本発明の実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。図７Ａに示すフローチャートの各ステップのうち、グループの表示処理を詳述したフローチャートを示す。図７Ａに示すフローチャートの各ステップのうち、グループ分けの修正処理を詳述したフローチャートを示す。図７Ａに示すフローチャートの各ステップのうち、音声の加工処理を詳述したフローチャートを示す。図１に従う電子装置システムのハードウェア構成を好ましくは備えており、本発明の実施態様に従い、特定の話者の音声を加工する電子装置システムの機能ブロック図の一例を示した図である。

本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。

本発明の実施態様に従い特定の話者の音声を加工するための電子装置システムを実現するためのハードウェア構成の一例を示した図である。
電子装置システム（１０１）は、１又は複数のＣＰＵ（１０２）とメイン・メモリ（１０３）とを備えており、これらはバス（１０４）に接続されている。ＣＰＵ（１０２）は好ましくは、３２ビット又は６４ビットのアーキテクチャに基づくものであり、例えば、インターナショナル・ビジネス・マシーンズ・コーポレーション（登録商標）のＰｏｗｅｒ（登録商標）シリーズ、インテル・コーポレーション（登録商標）のＣｏｒｅｉ（商標）シリーズ、Ｃｏｒｅ２（商標）シリーズ、Ａｔｏｍ（商標）シリーズ、Ｘｅｏｎ（商標）シリーズ、Ｐｅｎｔｉｕｍ（登録商標）シリーズ若しくはＣｅｌｅｒｏｎ（登録商標）シリーズ、ＡＭＤ（Advanced Micro Devices）社のＡシリーズ、Ｐｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズ、Ｔｕｒｉｏｎ（商標）シリーズ若しくはＳｅｍｐｒｏｎ（商標）、アップル社（登録商標）のＡシリーズ、又は、アンドロイド端末用のＣＰＵが使用されうる。バス（１０４）には、ディスプレイ・コントローラ（１０５）を介して、ディスプレイ（１０６）、例えば液晶ディスプレイ（ＬＣＤ）、タッチ液晶ディスプレイ、又はマルチタッチ液晶ディスプレイが接続されうる。ディスプレイ（１０６）は、コンピュータ上で動作中のソフトウェア、例えば本発明に従う電子装置システム用プログラムが稼働することによって表示される情報を、適当なグラフィック・インタフェースで表示するために使用されうる。バス（１０４）にはまた、ＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、ディスク（１０８）、例えばハードディスク又はシリコン・ディスクと、ドライブ（１０９）、例えばＣＤ、ＤＶＤ又はＢＤドライブとが接続されうる。バス（１０４）にはさらに、キーボード・マウス・コントローラ（１１０）又はＵＳＢバス（図示せず）を介して、キーボード（１１１）、マウス（１１２）、又はタッチ・デバイス（図示せず）が接続されうる。

ディスク（１０８）には、オペレーティング・システム、例えばＷｉｎｄｏｗｓ（登録商標）、ＵＮＩＸ（登録商標）、ＭａｃＯＳ（登録商標）、若しくはスマートフォン用ＯＳ、例えばＡｎｄｒｏｉｄ（登録商標）ＯＳ、ｉＯＳ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）ｐｈｏｎｅ（登録商標）、又は、Ｊ２ＥＥなどのＪａｖａ（登録商標）処理環境、Ｊａｖａ（登録商標）アプリケーション、Ｊａｖａ（登録商標）仮想マシン（ＶＭ）、Ｊａｖａ（登録商標）実行時（ＪＩＴ）コンパイラを提供するプログラム、その他のプログラム、及びデータが、メイン・メモリ（１０３）にロード可能なように記憶されうる。

ドライブ（１０９）は、必要に応じて、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又はＢＤからプログラム、例えばオペレーティング・システム又はアプリケーションをディスク（１０８）にインストールするために使用されうる。

通信インタフェース（１１４）は、例えばイーサネット（登録商標）・プロトコルに従う。通信インタフェース（１１４）は、通信コントローラ（１１３）を介してバス（１０４）に接続され、電子装置システム（１０１）を通信回線（１１５）に物理的に接続する役割を担い、電子装置システム（１０１）のオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワーク・インタフェース層を提供する。なお、通信回線は、有線ＬＡＮ環境、又は例えばＩＥＥＥ８０２．１１ａ，ｂ，ｇ，ｎ，ｉ，ｊ，ａｃ，ａｄなどの無線ＬＡＮ接続規格、若しくはロング・ターム・エボリューション（ＬＴＥ）に基づく無線ＬＡＮ環境でありうる。

電子装置システム（１０１）は例えば、パーソナル・コンピュータ、例えばデスクトップ・コンピュータ、ノートブック・コンピュータ、サーバ、若しくはクラウド利用端末；タブレット端末、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント、音楽（ミュージック）携帯プレイヤーでありうるが、これらに制限されない。

また、電子装置システム（１０１）は、複数の電子装置から構成されていてもよい。電子装置システム（１０１）が複数の電子装置から構成される場合には、当該電子装置システム（１０１）の各ハードウェア構成要素（例えば、下記図８を参照）を、複数の電子装置と組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。上記複数の電子装置は例えば、タブレット端末、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント又は音楽携帯プレイヤーとサーバとでありうる。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

以下において、本発明の内容の理解を容易にするために、まず、図２Ａ〜図５Ｃに示すユーザ・インターフェースの各例を参照して、本発明の実施態様に従う特定の話者の音声の加工をどのように行うかを説明する。次に、図６Ａ〜図６Ｄ及び図７Ａ〜図７Ｄに示す各フローチャートを参照して、本発明の実施態様に従う特定の話者の音声を加工する処理のプロセスを説明する。最後に、図８に示す本発明の実施態様に従う電子装置システム（１０１）の機能ブロック図を説明する。

図２Ａは、本発明の実施態様において使用されうる、音声に対応するテキストを当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。
図２Ａは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム（２１０）を所持し、当該電子装置システム（２１０）に有線又は無線で接続されたヘッドフォンを装着したユーザ（２０１）、並びに、当該ユーザ（２０１）の周辺にいる人（２０２，２０３，２０４及び２０５）、及び、電車に備え付けのスピーカ（２０６）を示す。電車に備え付けのスピーカ（２０６）からは、電車の車掌からのアナウンスが放送される。

まず、図２Ａの上側に示す図について説明する。

ユーザ（２０１）は、電子装置システム（２１０）に備えられた表示装置上の画面（２１１）に表示された、本発明に従うプログラムに関連付けられたアイコンをタッチして、当該プログラムを起動する。当該アプリケーションは、電子装置システム（２１０）に、下記の各ステップを実行させる。

電子装置システム（２１０）は、当該電子装置システム（２１０）に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム（２１０）は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。音は、音声とともに、外界のノイズを含んでいてもよい。音声の特徴量の抽出は例えば、当業者に知られている声紋認証技術を使用して実施されうる。引き続き、電子装置システム（２１０）は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。グループ分けされた一つのグループ単位が、一人の話者に対応しうる。従って、音声をグループ分けするということは、結果的に、音声を話者毎にグループ分けすることでもありうる。但し、電子装置システム（２１０）が自動的に行ったグループ分けが、常に正確であるとは限らない。この場合には、下記図３Ａ及び図３Ｂを参照して下記に説明するグループ分けの修正手法（それぞれ、グループの分離及びマージである）を使用して、誤ったグループ分けがユーザによって修正されうる。

また、電子装置システム（２１０）は、上記グループ分けされた音声をテキスト化する。当該音声のテキスト化は例えば、当業者に知られている音声認識技術を使用して実施されうる。電子装置システム（２１０）は、上記音声に対応するテキスト（テキスト化された音声内容である）を上記グループ分けに従い、電子装置システム（２１０）に備えられた上記表示装置上に表示しうる。上記した通り、グループ分けされた一つのグループが一人の話者に対応するために、グループ分けされた一つのグループ中に、当該グループに関連付けられた一人の話者の音声に対応しうるテキストが表示されうる。また、電子装置システム（２１０）は、上記グループ分けされたテキストを、各グループ内において時系列的に表示しうる。また、電子装置システム（２１０）は、最新の音声に対応するテキストを含むグループについての表示を画面（２１１）上の最前面に表示したり、又は、ユーザ（２０１）に最も近い位置にいる人（２０５）に関連付けられたグループについての表示を画面（２１１）上の最前面に表示したりしてもよい。

電子装置システム（２１０）は、例えば音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に従って、当該グループ中のテキストの表示方式又はテキストの色分けを変更しうる。例えばテキストの表示方式を変更する場合、音声の大きさの場合には例えばテキストの２次元表示の大小で示し、音声の高さの場合には例えばテキストの３次元表示で示し、音質の場合には例えばテキストの陰影付の程度で示し、音声の特徴量の場合には例えばテキストのフォントの違いで示しうる。例えばテキストの色分けを変更する場合、音声の大きさの場合には例えばグループ毎にテキストの色を変更して示し、音声の高さの場合には例えば高い音は黄色の棒線で及び低い音は青色の棒線で示し、音質の場合には例えば男性の場合に青色の縁取り、女性の場合に赤色の縁取り、子供の場合に黄色の縁取り、その他の場合に緑色の縁取りで示し、音声の特徴量の場合には例えばテキストの陰影の程度で示しうる。

図２Ａでは、電子装置システム（２１０）は、収集した音声を、グループ２１２，２１３，２１４，２１５及び２１６の５つにグループ分けしている。グループ２１２，２１３，２１４及び２１５はそれぞれ、人（２０２，２０３，２０４及び２０５）に対応し（又は関連付けられており）、且つグループ２１６はスピーカ２０６に対応する（又は関連付けられている）。電子装置システム（２１０）は、各グループ（２１２，２１３，２１４，２１５及び２１６）内において、音声に対応するテキストを時系列で表示している。また、電子装置システム（２１０）は、各グループ（２１２，２１３，２１４，２１５及び２１６）を、当該各グループに対応付けられた人がいる方向（すなわち、音声の発生源である）に近い位置で、又は上記方向及びユーザ（２０１）と当該各グループとの相対距離に対応するように上記表示装置上に表示しうる。

次に、図２Ａの下側に示す図について説明する。

引き続き、電子装置システム（２１０）は、上記マイクロフォンを介して、周囲の音をさらに集音する。電子装置システム（２１０）は、さらに収集した音を解析して、当該さらに収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を新たに抽出する。電子装置システム（２１０）は、当該新たに抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。電子装置システム（２１０）は、上記新たに抽出した特徴量に基づいて、当該グループ分けした音声が先にグループ分けしたグループ（２１２，２１３，２１４，２１５及び２１６）のいずれのグループに属するかを決定する。代替的には、電子装置システム（２１０）は、上記新たに抽出した特徴量に基づいて、上記各音声が先にグループ分けしたグループ（２１２，２１３，２１４，２１５及び２１６）のいずれのグループに属するかをグループ分けすること無しに取り出された音声毎にどのグループに属するかを決定してもよい。電子装置システム（２１０）は、上記グループ分けされた音声をテキスト化し、当該テキストを図２Ａの上側に示した各グループ中において時系列で表示しうる。なお、電子装置システム（２１０）は、最新のテキストを表示するために、図２Ａの上側に示した各グループ中に表示されているテキストの古いものから順に画面上から見えなくなるようにしうる。すなわち、電子装置システム（２１０）は、各グループ内のテキストを最新のテキストに置き換えるようにすることができる。ユーザ（２０１）は例えば、各グループ（２２３，２２４，２２５及び２２６）内に表示されている上向き△のアイコン（２２３−１，２２４−１，２２５−１，２２６−１）をタッチすることによって、見えなくされたテキストを閲覧することが可能である。代替的には、ユーザは、各グループ（２２３−１，２２４−１，２２５−１，２２６−１）内に指をおいて上向きに当該指をスワイプすることによって、見えなくされたテキストを閲覧することが可能である。また、代替的には、各グループ（２２３，２２４，２２５及び２２６）内にスクロールバーが表示され、当該スクロールバーをスライドさせることによって、見えなくされたテキストを閲覧することが可能である。また、ユーザは、各グループ（２２３，２２４，２２５及び２２６）内に表示されている下向き▽のアイコン（図示せず）をタッチすることによって、最新のテキストを閲覧することが可能である。代替的には、ユーザは、各グループ（２２３，２２４，２２５及び２２６）内に指をおいて下向きに当該指をスワイプすることによって、最新のテキストを閲覧することが可能である。また、代替的には、各グループ（２２３，２２４，２２５及び２２６）内にスクロールバーが表示され、当該スクロールバーをスライドさせることによって、最新のテキストを閲覧することが可能である。

また、電子装置システム（２１０）は、人（２０２，２０３，２０４，及び２０５）が経時的に移動する場合において、各グループ（２１２，２１３，２１４，及び２１５）を、当該各グループに対応付けられた人が移動した方向（すなわち、音声の発生源である）に近い位置で、又は上記方向及びユーザ（２０１）と当該各グループとの相対距離に対応するように上記表示装置上に表示するために各グループの表示位置を移動して再表示しうる（画面２２１を参照）。

また、画面（２２１）では、図２Ａの上側に示す図中の人（２０２）の音声が、ユーザ（２０１）の電子装置システム（２１０）のマイクロフォンが集音できる範囲外にあるために、人（２０２）に対応するグループ（２１２）が削除されている。

また、電子装置システム（２１０）は、ユーザ（２０１）が経時的に移動する場合において、各グループ（２１２，２１３，２１４及び２１５、並びに２１６）を、ユーザ（２０１）から各人（２０２，２０３，２０４及び２０５）及びスピーカ（２０６）を見た各方向、又は当該方向及びユーザ（２０１）と当該各グループとの各相対距離に応じて上記表示装置上に表示するように当該各グループの表示位置を移動して再表示しうる（画面２２１を参照）。

図２Ｂは、図２Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。
図２Ｂの上側に示す図は、画面上の左上隅に唇上にバツ（×）印のアイコン（２３１−２）及び各グループ（２３２，２３３，２３４、２３５及び２４６）内に唇上にバツ（×）印の各アイコン（２３２−２，２３３−２，２３４−２，２３５−２及び２３６−２）、並びに各グループ（２３２，２３３，２３４、２３５及び２４６）内に星印の各アイコンが表示されている以外は、図２Ａの上側に示す図と同じである。アイコン（２３１−２）は、画面（２３１）上に表示されている全てのグループ（２３２，２３３，２３４、２３５及び２３６）に関連付けられた話者の音声全てをヘッドフォンから低減乃至は除去するために使用されるアイコンである。各アイコン（２３２−２，２３３−２，２３４−２，２３５−２及び２３６−２）はそれぞれ、当該アイコンに対応するグループに関連付けられた話者の音声をヘッドフォンから選択的に低減乃至は除去するために使用されるアイコンである。

ユーザ（２０１）は、グループ２３３に関連付けられた話者の音声のみを低減乃至は除去したいとする。ユーザは、指（２０１−１）で、グループ２３３内のアイコン（２３３−２）をタッチする。電子装置システム（２１０）は、ユーザからの当該タッチを受信して、アイコン（２３３−２）に対応するグループ２３３に関連付けられた話者の音声のみをヘッドフォンから選択的に低減乃至は除去しうる。

図２Ｂの下側に示す図は、グループ２４３（グループ２３３に対応する）に関連付けられた話者の音声のみが選択的に低減された画面（２４１）を示す。グループ２４３内のテキストは薄く表示されている。電子装置システム（２１０）は、例えばアイコン（２４３−３）上でのタッチの回数が増えることに応じて、グループ２４３に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。

ユーザ（２０１）は、グループ２４３に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン（２４３−４）をタッチする。アイコン（２４３−３）が音声を小さくする（低減乃至除去する）アイコンであるのに対して、アイコン（２４３−４）は、音声を大きくする（強調する）アイコンである。

また、ユーザ（２０１）は、他のグループ（２４４，２４５又は２４６）についても同様に、アイコン（２４４−３，２４５−３又は２４６−３）を指でタッチすることによって、当該タッチしたアイコンに対応するグループに関連付けられた話者の一連の音声を低減乃至は除去することが可能である。

また、画面（２４１）では、図２Ｂの上側に示す図中の人（２０２）の音声が、ユーザ（２０１）の電子装置システム（２１０）のマイクロフォンが集音できる範囲外にあるために、人（２０２）に対応するグループ（２３２）が削除されている。

図２Ｂの上側に示す例において、画面（２３１）上で各アイコン（２３２−２，２３３−２，２３４−２，２３４−２、２３５−２又は２３６−２）をタッチすることで、当該タッチされたアイコンに対応するグループ（２３２，２３３，２３４，２３５又は２３６）に関連付けられた話者の一連の音声を選択的に低減乃至は除去できることを示した。代替的には、ユーザは、各グループ（２３２，２３３，２３４，２３５又は２３６）内の各領域上に、指で例えばバツ（×）を描くことで、当該バツが描かれたグループに関連付けられた話者の一連の音声を選択的に低減乃至は除去することが可能である。画面（２４１）上においても同様である。また、代替的には、電子装置システム（２１０）は、ユーザが各グループ（２３２，２３３，２３４，２３５及び２３６）の領域内でタッチを繰り返すことによって、同一のグループ内で音声の低減乃至は除去と音声の強調とを切り替えるようにしうる。

図２Ｃは、図２Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。
図２Ｃの上側に示す図は、図２Ｂの上側に示す図と同じである。アイコン（２５２−４，２５３−４，２５４−４，２５５−４及び２５６−４）はそれぞれ、各グループに関連付けられた話者の一連の音声をヘッドフォンから選択的に強調するために使用されるアイコンである。

ユーザ（２０１）は、グループ２５６に関連付けられた話者の音声のみを強調したいとする。ユーザは、指（２５１−１）で、グループ２５６内の星印のアイコン（２５６−４）をタッチする。電子装置システム（２１０）は、ユーザからの当該タッチを受信して、アイコン（２５６−４）に対応するグループ２５６に関連付けられた話者の音声のみを選択的に強調しうる。また、電子装置システム（２１０）は任意的に、グループ２５６以外の各グループ（２６３，２６４及び２６５）に関連付けられた各話者の一連の音声を自動的に低減乃至は除去しうる。

図２Ｃの下側に示す図は、グループ２６６（グループ２５６に対応する）に関連付けられた話者の音声のみが選択的に強調された画面（２６１）を示す。グループ２６６以外のグループ（２６３，２６４及び２６５）内の各テキストは薄く表示されている。すなわち、各グループ（２６３，２６４，２６５及び２６６）に関連付けられた話者の音声が自動的に低減乃至は除去されていることを示す。電子装置システム（２１０）は、例えばアイコン（２６６−４）上でのタッチの回数が増えることに応じて、グループ２６６に関連付けられた話者の音声を徐々に大きくすることが可能である。また、電子装置システム（２１０）は、任意的に、グループ２６６に関連付けられた話者の音声が徐々に大きくなるにつれて、他のグループ（２６３，２６４及び２６５）に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。

ユーザ（２０１）は、グループ２６６に関連付けられた話者の音声を再度小さくしたい場合には、指でアイコン（２６６−２）をタッチする。

また、画面（２６１）では、図２Ｃの上側に示す図中の人（２０２）の音声が、ユーザ（２０１）の電子装置システム（２１０）のマイクロフォンが集音できる範囲外にあるために、人（２０２）に対応するグループ（２５２）が削除されている。

図２Ｃの上側に示す例において、画面（２５１）上で各アイコン（２５２−４，２５３−４，２５４−４，２５５−４又は２５６−４）をタッチすることで、当該タッチされたアイコンに対応するグループ（２５２，２５３，２５４，２５５又は２５６）に関連付けられた話者の一連の音声を選択的に強調できることを示した。代替的には、ユーザは、各グループ（２５２，２５３，２５４，２５５又は２５６）内の各領域上に、指で例えば略円（○）を描くことで、当該略円が描かれたグループに関連付けられた話者の一連の音声を選択的に強調することが可能である。画面（２６１）上においても同様である。

また、図２Ｃの上側に示す例において、ユーザがグループ２５６内の星印のアイコン（２５６−４）をタッチすることによって、グループ２５６に関連付けられた話者の音声のみを強調することを説明した。代替的には、ユーザは、画面（２５１）内のアイコン（２５１−２）をタッチして、画面（２５１）内にある全てのグループ（２５２，２４３，２５４，２５５及び２５６）に関連付けられた話者の音声全てを低減乃至は除去した後に、グループ２５６内のアイコン（２５６−４）をタッチすることによって、グループ２５６に関連付けられた話者の音声のみを強調するようにしてもよい。また、代替的には、電子装置システム（２１０）は、ユーザが各グループ（２５２，２４３，２５４，２５５及び２５６）の領域内でタッチを繰り返すことによって、同一のグループ内で音声の強調と音声の低減乃至は除去とを切り替えるようにしうる。

図３Ａは、本発明の実施態様において使用されうる、グループの修正方法（分離の場合）を可能にするユーザ・インターフェースの例を示す。
図３Ａは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム（３１０）を所持し、当該電子装置システム（３１０）に有線又は無線で接続されたヘッドフォンを装着したユーザ（３０１）、並びに、当該ユーザ（３０１）の周辺にいる人（３０２，３０３及び３０４）、及び、電車に備え付けのスピーカ（３０６）を示す。電車に備え付けのスピーカ（３０６）からは、電車の車掌からのアナウンスが放送される。

まず、図３Ａの上側に示す図について説明する。

電子装置システム（３１０）は、当該電子装置システム（３１０）に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム（３１０）は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム（３１０）は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。また、電子装置システム（３１０）は、上記グループ分けされた音声をテキスト化する。その結果が図３Ａの上側に示す図である。

図３Ａでは、当該グループ分けに応じて、３つのグループ３１２，３１３及び３１４（それぞれ、３０２−１，３０３−１及び３０４−１に対応する）にグループ分けされている。しかしながら、グループ３１４は、人（３０４）からの音声とスピーカ（３０６）からの音声とがまとめられて１つのグループ（３１４）になってしまっている。すなわち、電子装置システム（３１０）が、複数の話者を１つのグループとして誤って推定してしまっている。

そこで、ユーザは、グループ３１４から、スピーカ（３０６）からの音声を別のグループとして分離したいとする。ユーザは、分離したい対象のテキストを指（３０１−２）で囲むように選択して、グループ（３１４）外へドラッグする（矢印を参照）。

電子装置システム（３１０）は、上記ドラッグに応じて、人（３０４）の音声の特徴量と、スピーカ（３０６）からの音声の特徴量を再計算し、両者の特徴量を区別する。そして、電子装置システム（３１０）は、当該再計算後における音声のグループ化において、当該再計算された特徴量を使用する。

図３Ａの下側に示す図は、上記計算後に、グループ３１４に対応するグループ３２４、及びグループ３１４から分離したテキストに対応するグループ３２６が、画面（３２１）上に表示されていることを示す。グループ３２４は人（３０４）に関連付けられている。グループ３２６は、スピーカ（３０６）に関連付けられている。

図３Ｂは、本発明の実施態様において使用されうる、グループの修正方法（マージの場合）を可能にするユーザ・インターフェースの例を示す。
図３Ｂは、図３Ａの上側に示す図と同じ状況であり、電車内における本発明の実施態様の例を示す。

まず、図３Ｂの上側に示す図について説明する。

電子装置システム（３１０）は、当該電子装置システム（３１０）に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム（３１０）は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム（３１０）は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。また、電子装置システム（３１０）は、上記グループ分けされた音声をテキスト化する。その結果が図３Ｂの上側に示す図である。

図３Ｂでは、当該グループ分けに応じて、５つのグループ３３２，３３３，３３４，３３５及び３３６（それぞれ、３０２−３，３０３−３，３０４−３，３０６−３及び３０６−４に対応する）にグループ分けされている。しかしながら、グループ３３５及び３３６はスピーカ（３０６）からの音声であるにも関わらず、別の音声として分離されて２つのグループ（３３５及び３３６）になってしまっている。すなわち、電子装置システム（３１０）が、一人の話者を２つのグループとして誤って推定してしまっている。

そこで、ユーザは、グループ３３５とグループ３３６とをマージしたいとする。ユーザは、マージしたい対象のグループ又は当該グループ内のテキストを指（３０１−３）で囲むように選択して、グループ（３３５）内へドラッグする（矢印を参照）。

電子装置システム（３１０）は、上記ドラッグに応じて、上記ドラッグ以降における音声のグループ化において、グループ（３３５）の音声特徴量にグループ分けされる音声とグループ（３３６）の音声特徴量にグループ分けされる音声とを一つのグループとして扱う。代替的には、電子装置システム（３１０）は、上記ドラッグに応じて、グループ（３３５）の音声特徴量とグループ（３３６）の音声特徴量との間で共通する特徴量を抽出し、当該抽出された共通の特徴量を使用して、上記ドラッグ以降の音声のグループ分けを行う。

図３Ｂの下側に示す図は、上記ドラッグ以降に、グループ３３５及び３３６をマージしたグループ３４６が、画面（３４１）上に表示されていることを示す。グループ３４６は、スピーカ（３０６）に関連付けられている。

図４Ａは、本発明の実施態様において使用されうる、音声を当該音声の特徴量に従いグループ分けし、当該グループ毎に表示するユーザ・インターフェースの例を示す。
図４Ａは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム（４１０）を所持し、当該電子装置システム（４１０）に有線又は無線で接続されたヘッドフォンを装着したユーザ（４０１）、並びに、当該ユーザ（４０１）の周辺にいる人（４０２，４０３，４０４、４０５、及び４０７）、及び、電車に備え付けのスピーカ（４０６）を示す。電車に備え付けのスピーカ（４０６）からは、電車の車掌からのアナウンスが放送される。

まず、図４Ａの上側に示す図について説明する。

ユーザ（４０１）は、電子装置システム（４１０）に備えられた表示装置上の画面（４１１）に表示された、本発明に従うプログラムに関連付けられたアイコンをタッチして、当該プログラムを起動する。当該アプリケーションは、電子装置システム（４１０）に、下記の各ステップを実行させる。

電子装置システム（４１０）は、当該電子装置システム（４１０）に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム（４１０）は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム（４１０）は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。グループ分けされた一つのグループ単位が、一人の話者に対応しうる。従って、音声をグループ分けするということは、結果的に、音声を話者毎にグループ分けすることでもありうる。但し、電子装置システム（４１０）が自動的に行ったグループ分けが、常に正確であるとは限らない。この場合には、ユーザは、図３Ａ及び図３Ｂで説明した上記方法と同様の方法を使用して、誤ったグループ分けを修正することが可能である。

図４Ａでは、電子装置システム（４１０）は、収集した音声を、グループ４１２，４１３，４１４，４１５、４１６及び４１７の６つにグループ分けしている。電子装置システム（４１０）は、各グループ（４１２，４１３，４１４，４１５、４１６及び４１７）を、当該各グループに対応付けられた人がいる方向（すなわち、音声の発生源である）に近い位置で、又は上記方向及びユーザ（４０１）と当該各グループとの相対距離に対応するように上記表示装置上に表示しうる（図４Ａ中の丸印が各グループに対応する）。電子装置システム（４１０）がこのように表示可能なユーザ・インターフェースを提供することによって、ユーザは画面（４１１）上で話者を直感的に特定することが可能になる。グループ４１２，４１３，４１４，４１５、及び４１７はそれぞれ、人（４０２，４０３，４０４，４０５、及び４０７）に対応し（又は関連付けられており）、且つグループ４１６はスピーカ４０６に対応する（又は関連付けられている）。

また、電子装置システム（４１０）は、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）について、各グループの特徴、例えば音声の大きさ、高さ、若しくは音質、又は各グループに関連付けられた話者の音声の特徴量に基づいて、当該各グループを色分けして表示することができる。例えば、男性の場合はグループ（例えば、グループ４１６及び４１７）の丸印を青で示し、女性の場合はグループ（例えば、グループ４１２，４１３）の丸印を赤で示し、無生物（スピーカーからの音声）の場合はグループ（例えば、グループ４１６）の丸印を緑で示しうる。また、例えば、声の大きさの程度によってグループの丸印を変更することができ、例えば声が大きくなるほど丸印が大きくなるように示しうる。また、例えば声の音質の程度によってグループの丸印を変更することができ、例えば音質の程度が低くなるほど丸印の縁取りの色が濃くなるように示しうる。

次に、図４Ａの下側に示す図について説明する。

引き続き、電子装置システム（４１０）は、上記マイクロフォンを介して、周囲の音をさらに集音する。電子装置システム（４１０）は、さらに収集した音を解析して、当該さらに収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を新たに抽出する。電子装置システム（４１０）は、当該新たに抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。電子装置システム（４１０）は、上記新たに抽出した特徴量に基づいて、当該グループ分けした音声が先にグループ分けしたグループ（４１２，４１３，４１４，４１５、４１６及び４１７）のいずれのグループに属するかを決定する。代替的には、電子装置システム（４１０）は、上記新たに抽出した特徴量に基づいて、上記各音声が先にグループ分けしたグループ（４１２，４１３，４１４，４１５、４１６及び４１７）のいずれのグループに属するかをグループ分けすること無しに取り出された音声毎にどのグループに属するかを決定してもよい。

電子装置システム（４１０）は、人（４０２，４０３，４０４，４０５及び４０７）が経時的に移動する場合において、各グループ（４１２，４１３，４１４，４１５及び４１７）を、当該各グループに対応付けられた人が移動した方向（すなわち、音声の発生源である）に近い位置で、又は上記方向及びユーザ（４０１）と当該各グループとの相対距離に対応するように上記表示装置上に表示するように各グループの表示位置を移動して再表示しうる（画面４２１を参照）。また、電子装置システム（４１０）は、ユーザ（４０１）が経時的に移動する場合において、各グループ（４１２，４１３，４１４，４１５及び４１７、並びに４１６）を、ユーザ（４０１）から各人（４０２，４０３，４０４，４０５及び４０７）及びスピーカ（４０６）を見た各方向、又は当該方向及びユーザ（４０１）と当該各グループとの各相対距離に応じて上記表示装置上に表示するように当該各グループの表示位置を移動して再表示しうる（画面４２１を参照）。図４Ａの下側に示す図において、再表示後の位置が、丸印４２２，４２３，４２４，４２５、４２６及び４２７で示されている。グループ４２７はグループ４１７に対応し、グループ４１７に関連付けられた話者が移動したために、グループ４２７を表す丸印が画面４２１上では画面４１１上と異なっている。また、再表示後のグループ４２３及び４２７の丸印はそれぞれ、再表示前のグループ４１３及び４１７の丸印よりも大きくなっていることから、グループ４２３及び４２７それぞれに関連付けられた話者の音声が大きくなっていることがわかる。また、電子装置システム（４１０）は、再表示後のグループ４２３及び４２７の丸印のアイコンを再表示前のグループ４１３及び４１７の丸印のアイコンの大きさで交互に表示して（従って、点滅表示になる）、声が大きくなった話者をユーザが容易に特定できるようにすることができる。

図４Ｂは、図４Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。
図４Ｂの上側に示す図は、画面（４３１）上の左下隅に唇上にバツ（×）印のアイコン（４３８）及び右下隅に星印のアイコン（４３９）が表示されている以外は、図４Ａの上側に示す図と同じである。アイコン（４３８）は、画面（４３１）上に表示されているグループ（４３２，４３３，４３４、４３５，４３６及び４３７）であって、ユーザによってタッチされたグループに関連付けられた話者の音声をヘッドフォンから低減乃至は除去するために使用されるアイコンである。また、アイコン（４３９）は、画面（４３１）上に表示されているグループ（４３２，４３３，４３４、４３５，４３６及び４３７）であって、ユーザによってタッチされたグループに関連付けられた話者の音声全てがヘッドフォンから強調するために使用されるアイコンである。

ユーザ（４０１）は、グループ４３３及び４３４に関連付けられた２人の話者の音声のみを低減乃至は除去したいとする。ユーザは、指（４０１−１）で、まずアイコン４３８をタッチする。次に、ユーザは、指（４０１−２）でグループ４３３内の領域をタッチし、次に、指（４０１−３）でグループ４３４内の領域をタッチする。電子装置システム（４１０）は、ユーザからの当該タッチを受信して、グループ４３３及び４３４にそれぞれ関連付けられた各話者の音声のみをヘッドフォンから選択的に低減乃至は除去しうる。

図４Ｂの下側に示す図は、グループ４４３及び４４４（それぞれ、グループ４３３及び４３４に対応する）に関連付けられた話者の音声のみが選択的に低減された画面（４４１）を示す。グループ４４３及び４４４の縁取りが点線で表示されている。電子装置システム（４１０）は、グループ４４３内の領域でのタッチの回数が増えることに応じて、グループ４４３に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。同様に、電子装置システム（４１０）は、グループ４４４内の領域でのタッチの回数が増えることに応じて、グループ４４４に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。

ユーザ（４０１）は、グループ４４３に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン（４４９）をタッチし、引き続き、グループ４４３内の領域をタッチする。同様に、ユーザ（４０１）は、グループ４４４に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン（４４９）をタッチし、引き続き、グループ４４４内の領域をタッチする。

また、ユーザ（４０１）は、他のグループ（４３２，４３５，４３６又は４３７）についても同様に、アイコン４３８をタッチ後に、各グループ（４３２，４３５，４３６又は４３７）内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を低減乃至は除去することが可能である。

図４Ｂの上側に示す例において、画面（４３１）上で、アイコン（４３８）をタッチ後に、各グループ（４３２，４３３，４３４，４３５、４３６又は４３７）の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ（４３２，４３３，４３４，４３５、４３６又は４３７）に関連付けられた話者の音声を選択的に低減乃至は除去できることを示した。代替的には、ユーザは、各グループ（４３２，４３３，４３４，４３５、４３６又は４３７）内の各領域上に、指で例えばバツ（×）を描くことで、当該バツが描かれたグループに関連付けられた話者の音声を選択的に低減乃至は除去することが可能である。画面（４４１）上においても同様である。また、代替的には、電子装置システム（４１０）は、ユーザが各グループ（４３２，４３３，４３４，４３５、４３６又は４３７）の領域内でタッチを繰り返すことによって、同一のグループ内で音声の低減乃至は除去と音声の強調とを切り替えるようにしうる。

図４Ｃは、図４Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。
図４Ｃの上側に示す図は、図４Ｂの上側に示す図と同じである。

ユーザ（４０１）は、グループ４５６に関連付けられた話者の音声のみを強調したいとする。ユーザは、指（４０１−４）で、まずアイコン４５９をタッチする。次に、ユーザは、指（４０１−５）でグループ４５６内の領域をタッチする。電子装置システム（４１０）は、ユーザからの当該タッチを受信して、グループ４５６に関連付けられた話者の音声のみを選択的に強調しうる。また、電子装置システム（４１０）は任意的に、グループ４５６以外の各グループ（４５２，４５３，４５４，４５５及び４５７）に関連付けられた各話者の音声を自動的に低減乃至は除去しうる。

図４Ｃの下側に示す図は、グループ４６６（グループ４５６に対応する）に関連付けられた話者の音声のみが選択的に強調された画面（４６１）を示す。グループ４６２，４６３，４６４，４６５及び４６７の縁取りが点線で表示されている。すなわち、各グループ（４６２，４６３，４６４，４６５及び４６７）に関連付けられた話者の音声が自動的に低減乃至は除去されていることを示す。電子装置システム（４１０）は、グループ４６６内の領域でのタッチの回数が増えることに応じて、グループ４６６に関連付けられた話者の音声を徐々に大きくすることが可能である。また、電子装置システム（４１０）は、任意的に、グループ４６６に関連付けられた話者の音声が徐々に大きくなるにつれて、他のグループ（４６２，４６３，４６４，４６５及び４６７）に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。

ユーザ（４０１）は、グループ４６６に関連付けられた話者の音声を再度小さくしたい場合には、指でアイコン（４６８）をタッチし、引き続き、グループ４６６内の領域をタッチする。

また、ユーザ（４０１）は、他のグループ（４５２，４５３，４５４，４５５又は４５７）についても同様に、アイコン４５９をタッチ後に、各グループ（４５２，４５３，４５４，４５５又は４５７）内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を強調することが可能である。

図４Ｃの上側に示す例において、画面（４５１）上で、アイコン（４５９）をタッチ後に、各グループ（４５２，４５３，４５４，４５５、４５６又は４５７）の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ（４５２，４５３，４５４，４５５、４５６又は４５７）に関連付けられた話者の音声を選択的に強調できることを示した。代替的には、ユーザは、各グループ（４５２，４５３，４５４，４５５、４５６又は４５７）内の各領域上に、指で例えば略円（○）を描くことで、当該略円が描かれたグループに関連付けられた話者の音声を選択的に強調することが可能である。画面（４６１）上においても同様である。また、代替的には、電子装置システム（４１０）は、ユーザが各グループ（４５２，４５３，４５４，４５５、４５６又は４５７）の領域内でタッチを繰り返すことによって、音声の強調と音声の低減乃至は除去とを切り替えるようにしうる。

図５Ａは、本発明の実施態様において使用されうる、音声に対応するテキスト当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。
図５Ａは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム（５１０）を所持し、当該電子装置システム（５１０）に有線又は無線で接続されたヘッドフォンを装着したユーザ（５０１）、並びに、当該ユーザ（５０１）の周辺にいる人（５０２，５０３，５０４、５０５、及び５０７）、及び、電車に備え付けのスピーカ（５０６）を示す。電車に備え付けのスピーカ（５０６）からは、電車の車掌からのアナウンスが放送される。

まず、図５Ａの上側に示す図について説明する。

ユーザ（５０１）は、電子装置システム（５１０）に備えられた表示装置上の画面（５１１）に表示された、本発明に従うプログラムに関連付けられたアイコンをタッチして、当該プログラムを起動する。当該アプリケーションは、電子装置システム（５１０）に、下記の各ステップを実行させる。

電子装置システム（５１０）は、当該電子装置システム（５１０）に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム（５１０）は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム（５１０）は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。グループ分けされた一つのグループ単位が、一人の話者に対応しうる。従って、音声をグループ分けするということは、結果的に、音声を話者毎にグループ分けすることでもありうる。但し、電子装置システム（５１０）が自動的に行ったグループ分けが、常に正確であるとは限らない。この場合には、ユーザは、図３Ａ及び図３Ｂで説明した上記方法と同様の方法を使用して、誤ったグループ分けを修正することが可能である。

また、電子装置システム（５１０）は、上記グループ分けされた音声をテキスト化する。電子装置システム（５１０）は、当該音声に対応するテキストを上記グループ分けに従って、電子装置システム（５１０）に備えられた上記表示装置上に表示しうる。上記した通り、グループ分けされた一つのグループ単位が一人の話者に対応しうるために、グループ分けされた一つのグループ単位中に、一人の話者の音声に対応しうるテキストが表示されうる。また、電子装置システム（５１０）は、上記グループ分けされたテキストを、各グループ内において時系列的に表示しうる。

図５Ａでは、電子装置システム（５１０）は、収集した音声を、グループ５１２，５１３，５１４，５１５、５１６及び５１７の６つにグループ分けしている。電子装置システム（５１０）は、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）（すなわち、話者を示す）を、当該各グループに対応付けられた人がいる方向（すなわち、音声の発生源である）に近い位置で、又は上記方向及びユーザ（５０１）と当該各グループとの相対距離に対応するように上記表示装置上に表示しうる（図５Ａ中の丸印が各グループに対応する）。グループ５１２，５１３，５１４，５１５、及び５１７はそれぞれ、人（５０２，５０３，５０４，５０５、及び５０７）に対応し（又は関連付けられており）、且つグループ５１６はスピーカ５０６に対応する（又は関連付けられている）。上記表示は例えば、話者を示すアイコン、例えば丸印のアイコンで表示されうる。

また、電子装置システム（５１０）は、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）から出る吹き出し内において、音声に対応するテキストを時系列で表示している。電子装置システム（５１０）は、当該学区グループから出ている吹き出しを、当該グループを示す丸印の近傍に表示しうる。

次に、図５Ａの下側に示す図について説明する。

引き続き、電子装置システム（５１０）は、上記マイクロフォンを介して、周囲の音をさらに集音する。電子装置システム（５１０）は、さらに収集した音を解析して、当該さらに収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を新たに抽出する。電子装置システム（５１０）は、当該新たに抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。電子装置システム（５１０）は、上記新たに抽出した特徴量に基づいて、当該グループ分けした音声が先にグループ分けしたグループ（５１２，５１３，５１４，５１５、５１６及び５１７）のいずれのグループに属するかを決定する。代替的には、電子装置システム（５１０）は、上記新たに抽出した特徴量に基づいて、上記各音声が先にグループ分けしたグループ（５１２，５１３，５１４，５１５、５１６及び５１７）のいずれのグループに属するかをグループ分けすること無しに取り出された音声毎にどのグループに属するかを決定してもよい。電子装置システム（５１０）は、上記グループ分けされた音声をテキスト化する。

電子装置システム（５１０）は、人（５０２，５０３，５０４，５０５及び５０７）が経時的に移動する場合において、各グループ（５１２，５１３，５１４，５１５及び５１７）を、当該各グループに対応付けられた人が移動した方向（すなわち、音声の発生源である）に近い位置で、又は上記方向及びユーザ（５０１）と当該各グループとの相対距離に対応するように上記表示装置上に表示するように各グループの表示位置を移動して再表示しうる（画面５２１を参照）。また、電子装置システム（５１０）は、ユーザ（５０１）が経時的に移動する場合において、各グループ（５０２，５０３，５０４，５０５及び５０７、並びに５０６）を、ユーザ（５０１）から各人（５０２，５０３，５０４，及び５０５）及びスピーカ（５０６）を見た各方向、又は当該方向及びユーザ（５０１）と当該各グループとの各相対距離に応じて上記表示装置上に表示するように当該各グループの表示位置を移動して再表示しうる（画面５２１を参照）。図５Ａの下側に示す図において、再表示後の位置が、丸印５２２，５２３，５２４，５２５、５２６及び５２７で示されている。

また、電子装置システム（５１０）は、上記テキストを、再表示後の各グループから出ている吹き出し中に、時系列で表示しうる。なお、電子装置システム（５１０）は、最新のテキストを表示するために、図５Ａの上側に示した各グループから出ている吹き出し中に表示されているテキストの古いものから順に画面上から見えなくなるようにしうる。ユーザ（５０１）は例えば、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）内に表示されている上向き△のアイコン（図示せず）をタッチすることによって、見えなくされたテキストを閲覧することが可能である。代替的には、ユーザは、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）内に指をおいて上向きに当該指をスワイプすることによって、見えなくされたテキストを閲覧することが可能である。また、ユーザは、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）内に表示されている下向き▽のアイコン（図示せず）をタッチすることによって、最新のテキストを閲覧することが可能である。代替的には、ユーザは、各グループ（５１２，５１３，５１４，５１５、５１６及び５１７）内に指をおいて下向きに当該指をスワイプすることによって、最新のテキストを閲覧することが可能である。

図５Ｂは、図５Ａに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。
図５Ｂの上側に示す図は、画面（５３１）上の左下隅に唇上にバツ（×）印のアイコン（５３８）及び右下隅に星印のアイコン（５３９）が表示されている以外は、図５Ａの上側に示す図と同じである。アイコン（５３８）は、画面（５３１）上に表示されているグループ（５３２，５３３，５３４、５３５，５３６及び５３７）であって、ユーザによってタッチされたグループに関連付けられた話者の音声をヘッドフォンから低減乃至は除去するために使用されるアイコンである。また、アイコン（５３９）は、画面（５３１）上に表示されているグループ（５３２，５３３，５３４、５３５，５３６及び５３７）であって、ユーザによってタッチされたグループに関連付けられた話者の音声全てがヘッドフォンから強調するために使用されるアイコンである。

ユーザ（５０１）は、グループ５３３及び５３４に関連付けられた２人の話者の音声のみを低減乃至は除去したいとする。ユーザは、指（５０１−１）で、まずアイコン５３８をタッチする。次に、ユーザは、指（５０１−２）でグループ５３３内の領域をタッチし、次に、指（５０１−３）でグループ５３４内の領域をタッチする。電子装置システム（５１０）は、ユーザからの当該タッチを受信して、グループ５３３及び５３４にそれぞれ関連付けられた各話者の音声のみをヘッドフォンから選択的に低減乃至は除去しうる。

図５Ｂの下側に示す図は、グループ５４３及び５４４（それぞれ、グループ５３３及び５３４に対応する）に関連付けられた話者の音声のみが選択的に低減された画面（５４１）を示す。グループ５４３及び５４４の縁取りが点線で表示されている。また、グループ５４３及び５４４それぞれから出ている吹き出しが削除されている。電子装置システム（５１０）は、グループ５４３内の領域でのタッチの回数が増えることに応じて、グループ５４３に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。同様に、電子装置システム（５１０）は、グループ５４４内の領域でのタッチの回数が増えることに応じて、グループ５４４に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。

ユーザ（５０１）は、グループ５４３に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン（５４９）をタッチし、引き続き、グループ５４３内の領域をタッチする。同様に、ユーザ（５０１）は、グループ５４４に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン（５４９）をタッチし、引き続き、グループ５４４内の領域をタッチする。

また、ユーザ（５０１）は、他のグループ（５３２，５３５，５３６又は５３７）についても同様に、アイコン５３８をタッチ後に、各グループ（５３２，５３５，５３６又は５３７）内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を低減乃至は除去することが可能である。

図５Ｂの上側に示す例において、画面（５３１）上で、アイコン（５３８）をタッチ後に、各グループ（５３２，５３３，５３４，５３５、５３６又は５３７）の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ（５３２，５３３，５３４，５３５、５３６又は５３７）に関連付けられた話者の音声を選択的に低減乃至は除去できることを示した。代替的には、ユーザは、各グループ（５３２，５３３，５３４，５３５、５３６又は５３７）内の各領域上に、指で例えばバツ（×）を描くことで、当該バツが描かれたグループに関連付けられた話者の音声を選択的に低減乃至は除去することが可能である。画面（５４１）上においても同様である。また、代替的には、電子装置システム（５１０）は、ユーザが各グループ（５３２，５３３，５３４，５３５、５３６又は５３７）の領域内でタッチを繰り返すことによって、同一のグループ内で音声の低減乃至は除去と音声の強調とを切り替えるようにしうる。

図５Ｃは、図５Ａに示す例において、本発明の実施態様に従い特定の話者の音声のみを選択的に強調する例を示す。
図５Ｃの上側に示す図は、図５Ｂの上側に示す図と同じである。

ユーザ（５０１）は、グループ５５６に関連付けられた話者の音声のみを強調したいとする。ユーザは、指（５０１−４）で、まずアイコン５５９をタッチする。次に、ユーザは、指（５０１−５）でグループ５５６内の領域をタッチする。電子装置システム（５１０）は、ユーザからの当該タッチを受信して、グループ５５６に関連付けられた話者の音声のみを選択的に強調しうる。また、電子装置システム（５１０）は任意的に、グループ５５６以外の各グループ（５５２，５５３，５５４，５５５及び５５７）に関連付けられた各話者の音声を自動的に低減乃至は除去しうる。

図５Ｃの下側に示す図は、グループ５６６（グループ５５６に対応する）に関連付けられた話者の音声のみが選択的に強調された画面（５６１）を示す。グループ５６２，５６３，５６４，５６５及び５６７の縁取りが点線で表示されている。すなわち、各グループ（５６２，５６３，５６４，５６５及び５６７）に関連付けられた話者の音声が自動的に低減乃至は除去されていることを示す。電子装置システム（５１０）は、グループ５６６内の領域でのタッチの回数が増えることに応じて、グループ５６６に関連付けられた話者の音声を徐々に大きくすることが可能である。また、電子装置システム（５１０）は、任意的に、グループ５６６に関連付けられた話者の音声が徐々に大きくなるにつれて、他のグループ（５６２，５６３，５６４，５６５及び５６７）に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。

ユーザ（５０１）は、グループ５６６に関連付けられた話者の音声を再度小さくしたい場合には、指でアイコン（５６８）をタッチし、引き続き、グループ５６６内の領域をタッチする。

また、ユーザ（５０１）は、他のグループ（５５２，５５３，５５４，５５５又は５５７）についても同様に、アイコン５５９をタッチ後に、各グループ（５５２，５５３，５５４，５５５又は５５７）内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を強調することが可能である。

図５Ｃの上側に示す例において、画面（５５１）上で、アイコン（５５９）をタッチ後に、各グループ（５５２，５５３，５５４，５５５、５５６又は５５７）の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ（５５２，５５３，５５４，５５５、５５６又は５５７）に関連付けられた話者の音声を選択的に強調できることを示した。代替的には、ユーザは、各グループ（５５２，５５３，５５４，５５５、５５６又は５５７）内の各領域上に、指で例えば略円（○）を描くことで、当該略円が描かれたグループに関連付けられた話者の音声を選択的に強調することが可能である。画面（５６１）上においても同様である。また、代替的には、電子装置システム（５１０）は、ユーザが各グループ（５５２，５５３，５５４，５５５、５５６又は５５７）の領域内でタッチを繰り返すことによって、音声の強調と音声の低減乃至は除去とを切り替えるようにしうる。

図６Ａ〜図６Ｄは、本発明の一つの実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。

図６Ａは、特定の話者の音声を加工する処理を行うためのメイン・フローチャートを示す。

ステップ６０１において、電子装置システム（１０１）は、本発明の実施態様に従う特定の話者の音声を加工する処理を開始する。

ステップ６０２において、電子装置システム（１０１）は、当該電子装置システム（１０１）に備えられているマイクロフォンを介して、音声を収集する。当該音声は例えば、周囲で断続的に話している人の声でありうる。本発明の実施態様において、電子装置システム（１０１）は、音声を含む音を収集する。電子装置システム（１０１）は、収集した音声のデータを電子装置システム（１０１）内のメモリ（１０３）又は記憶装置（１０８）に記録しうる。

電子装置システム（１０１）は、発言者（不特定多数でよく、事前登録された発話者である必要はない）の声の特徴から個人を特定することが可能である。当該技術は当業者に知られており、本発明の実施態様において、例えば、株式会社アドバンスト・メディアから発売されているＡｍｉＶｏｉｃｅ（登録商標）が上記技術を実装している。

また、電子装置システム（１０１）は、発話者が複数であり、且つ移動している場合であっても、当該発話者の発生方向を特定し、且つ追跡し続けることが可能である。発話者の発生方向を特定し且つ追跡し続ける技術は当業者に知られており、例えば、特許文献２及び非特許文献１に当該技術が記載されている。特許文献２は、特許文献２に記載の発明に従う音声認識ロボットが、常に発話した発話者の方向を向いた状態で、発話者に応答することができる技術を記載する。非特許文献１は、独立成分分析に基づくブラインド音源分離をすることで、動き回る話者をリアルタイムで追跡しながら分離・再生する実時間音源分離を記載する。

ステップ６０３において、電子装置システム（１０１）は、ステップ６０２において収集した音声を解析して、各音声の特徴量を抽出する。本発明の実施態様において、電子装置システム（１０１）は、ステップ６０２において収集した音から（人の）音声を分離し、当該分離した音声を解析して、各音声の特徴量（すなわち、それぞれの話者の特徴でもある）を抽出する。特徴量の抽出は例えば、当業者に知られている声紋認証技術を使用して実施されうる。電子装置システム（１０１）は、抽出した特徴量を、例えば特徴量記憶手段（図８を参照）に記憶しうる。次に、電子装置システム（１０１）は、上記抽出した特徴量に基づいて、上記収集した音声を、同じ人物が話していると推定される音声毎に分離し、当該分離した音声をグループ分けする。従って、グループ分けした音声は、一人の話者の音声に対応しうる。電子装置システム（１０１）は、一つのグループ内において、当該グループに関連付けられた話者の発生内容を経時的に一連のシーケンスとして表示しうる。

ステップ６０４において、電子装置システム（１０１）は、当該電子装置システム（１０１）の画面上に上記グループが表示されるまでは、ステップ６０４の詳細を示す図６Ｂ（グループ分けの修正処理）に示されているように、ステップ６１１，ステップ６１２（Ｎｏ），ステップ６１４（Ｎｏ），そしてステップ６１６を経由して、次のステップ６０５に進む。すなわち、ステップ６０４において、電子装置システム（１０１）は、図６Ｂに示すステップ６１２及びステップ６１４の判断処理以外は実質的に何も行わずに通過する。グループ分けの修正処理については、図６Ｂを参照して、以下において別途詳細に説明する。

ステップ６０５において、電子装置システム（１０１）は、当該電子装置システム（１０１）の画面上に上記グループが表示されるまでは、ステップ６０４の詳細を示す図６Ｃ（音声の加工処理）に示されているように、ステップ６２１，ステップ６２２（Ｎｏ），ステップ６２４（Ｎｏ），ステップ６２６（Ｙｅｓ）、ステップ６２７、ステップ６２８，そしてステップ６２９を実行する。すなわち、ステップ６０５において、電子装置システム（１０１）は、ステップ６０３において得られた各グループについての音声設定を「通常」（すなわち、強調処理、及び、低減乃至は除去処理のいずれも行わないということ）に設定する（図６Ｃのステップ６２６を参照）。本発明の実施態様において、音声設定には、「通常」、「強調」及び「低減乃至は除去」がある。音声設定が「通常」である場合には、当該「通常」が付されたグループに関連付けられた話者について音声の加工は行われない。音声設定が「強調」である場合には、当該「強調」が付されたグループに関連付けられた話者の音声が強調される。音声設定が「低減乃至は除去」である場合には、当該「低減乃至は除去」が付されたグループに関連付けられた話者の音声が低減乃至は除去される。このように、音声設定は、各グループに関連付けられた音声の加工をどのようにするかを電子装置システム（１０１）が判断可能なようにグループに紐付けられうる。音声の加工処理については、図６Ｃを参照して、以下において別途詳細に説明する。

ステップ６０６において、電子装置システム（１０１）は、当該電子装置システム（１０１）の画面上にグループを視認できるように表示しうる。電子装置システム（１０１）は例えば、当該グループをアイコンで表示しうる（図４Ａ〜図４Ｃ及び図５Ａ〜図５Ｃを参照）。代替的には、電子装置システム（１０１）は、当該グループを当該グループに属する音声に対応するテキストを例えば吹き出しの形で表示しうる（図２Ａ〜図２Ｃを参照）。電子装置システム（１０１）は、任意的に、当該グループに関連付けられた話者の音声のテキストを当該グループに関連付けて表示しうる。グループの表示処理については、図６Ｄを参照して、以下において別途詳細に説明する。

ステップ６０７において、電子装置システム（１０１）は、ユーザからの指示を受信する。電子装置システム（１０１）は、当該ユーザ指示が音の声強調処理又は低減乃至は除去処理のいずれかの加工指示であるかを判断する。電子装置システム（１０１）は、当該ユーザ指示が上記音声の加工指示であることに応じて、処理をステップ６０５に戻す。一方、電子装置システム（１０１）は、当該ユーザ指示が上記音声の加工指示でないことに応じて、処理をステップ６０８に進める。ステップ６０５において、電子装置システム（１０１）は、当該ユーザ指示が音声の強調処理又は低減乃至は除去処理のいずれかの加工指示であることに応じて、当該加工指示の対象であるグループに属する音声を強調処理又は低減乃至は除去処理する。音声の加工処理については、先に述べた通り、図６Ｃを参照して、以下において別途詳細に説明する。

ステップ６０８において、電子装置システム（１０１）は、ステップ６０７で受信したユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であるかを判断する。電子装置システム（１０１）は、当該ユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であることに応じて、処理をステップ６０４に戻す。一方、電子装置システム（１０１）は、当該ユーザ指示がグループ分けの修正処理でないことに応じて、処理をステップ６０９に進める。処理がステップ６０４に戻ったことに応じて、電子装置システム（１０１）は、当該ユーザ指示がグループの分離である場合には、グループを２つに分離し（図３Ａの例を参照）、一方、当該ユーザ指示がグループのマージ（統合）である場合には、少なくとも２つのグループを１つのグループにマージする（図３Ｂの例を参照）。グループ分けの修正処理については、先に述べた通り、図６Ｂを参照して、以下において別途詳細に説明する。

ステップ６０９において、電子装置システム（１０１）は、特定の音声を加工する処理を終了するかを判断する。当該処理を終了するとの判断は例えば、本発明の実施態様に従うコンピュータ・プログラムを実装したアプリケーションが終了した場合に行われうる。電子装置システム（１０１）は、当該処理を終了することに応じて、処理を終了ステップ６１０に進める。一方、電子装置システム（１０１）は、当該処理を継続することに応じて、処理をステップ６０２に戻し、音声の収集を継続する。なお、電子装置システム（１０１）は、ステップ６０２〜６０６の処理をステップ６０７〜６０９の処理が行われている場合においても並行して実施している。

ステップ６１０において、電子装置システム（１０１）は、本発明の実施態様に従う特定の話者の音声を加工する処理を終了する。

図６Ｂは、図６Ａに示すフローチャートのステップ６０４（グループ分けの修正処理）を詳述したフローチャートを示す。

ステップ６１１において、電子装置システム（１０１）は、音声のグループ分けの修正処理を開始する。

ステップ６１２において、電子装置システム（１０１）は、ステップ６０７で受信したユーザ処理がグループの分離操作であるかを判断する。電子装置システム（１０１）は、当該ユーザ処理がグループの分離操作であることに応じて、処理をステップ６１３に進める。一方、電子装置システム（１０１）は、当該ユーザ処理がグループの分離操作でないことに応じて、処理をステップ６１４に進める。

ステップ６１３において、電子装置システム（１０１）は、ユーザ処理がグループの分離操作であることに応じて、分離された音声の特徴量をそれぞれ再計算し、当該再計算されたそれぞれの特徴量を電子装置システム（１０１）内のメモリ（１０３）又は記憶装置（１０８）に記録しうる。当該再計算されたそれぞれの特徴量は、以後の音声のグループ分けのために使用される。上記した分離操作に応じて、電子装置システム（１０１）は、ステップ６０６において、画面上のグループ表示を、上記分離されたグループに基づいて再表示することが可能になる。すなわち、電子装置システム（１０１）は、誤って１つのグループとされたグループを２つのグループに正しく分離して表示することが可能になる。

ステップ６１４において、電子装置システム（１０１）は、ステップ６０７で受信したユーザ処理が少なくとも２つのグループのマージ（統合）操作であるかを判断する。電子装置システム（１０１）は、当該ユーザ処理がマージ操作であることに応じて、処理をステップ６１５に進める。一方、電子装置システム（１０１）は、当該ユーザ処理がマージ操作でないことに応じて、処理をグループ分けの修正処理の終了操作であるステップ６１６に進める。

ステップ６１５において、電子装置システム（１０１）は、ユーザ処理がマージ操作であることに応じて、ユーザによって特定された少なくとも２つのグループをマージする。電子装置システム（１０１）は、以後のステップにおいて、マージされたグループそれぞれの特徴量を有する音声を１つのグループとして扱う。すなわち、電子装置システム（１０１）は、２つのグループの各特徴量を有する音声を上記マージされた１つのグループに属するものとして扱う。代替的には、電子装置システム（１０１）は、マージされた少なくとも２つのグループの各特徴量の共通する特徴量を抽出し、当該抽出した共通する特徴量を電子装置システム（１０１）内のメモリ（１０３）又は記憶装置（１０８）に記録しうる。当該抽出した共通する特徴量は、以後の音声のグループ分けのために使用される。

ステップ６１６において、電子装置システム（１０１）は、音声のグループ分けの修正処理を終了し、処理を図６Ａに示すステップ６０５に進める。

図６Ｃは、図６Ａに示すフローチャートのステップ６０５（音声の加工処理）を詳述したフローチャートを示す。

ステップ６２１において、電子装置システム（１０１）は、音声の加工処理を開始する。

ステップ６２２において、電子装置システム（１０１）は、ステップ６０７で受信したユーザ指示が当該ユーザによって選択されたグループ中の音声を低減乃至は除去処理するものであるかを判断する。電子装置システム（１０１）は、上記ユーザ処理が上記音声を低減乃至は除去処理するものであることに応じて処理をステップ６２３に進める。一方、電子装置システム（１０１）は、上記ユーザ指示が上記音声を低減乃至は除去処理するものでないことに応じて、処理をステップ６２４に進める。

ステップ６２３において、電子装置システム（１０１）は、ユーザからの指示が低減乃至は除去処理であることに応じて、上記グループの音声設定を低減乃至は除去に変更する。また、電子装置システム（１０１）は、任意的に、上記グループ以外のグループの音声設定を強調に変更しうる。

ステップ６２４において、電子装置システム（１０１）は、ステップ６０７で受信したユーザ指示が当該ユーザによって選択されたグループ中の音声を強調するものであるかを判断する。電子装置システム（１０１）は、上記ユーザ処理が上記音声を強調処理するものであることに応じて、処理をステップ６２５に進める。一方、電子装置システム（１０１）は、上記ユーザ指示が上記音声を強調処理するものでないことに応じて、処理をステップ６２６に進める。

ステップ６２５において、電子装置システム（１０１）は、ユーザからの指示が強調処理であることに応じて、上記グループの音声設定を強調に変更する。また、電子装置システム（１０１）は、任意的に、上記グループ以外のグループの音声設定を低減乃至は除去に変更しうる。

ステップ６２６において、電子装置システム（１０１）は、ステップ６０２で収集し、ステップ６０３で特徴量に基づいて音声を分離した各グループに関連付けられた話者の音声についての初期化処理であるかを判断する。代替的には、電子装置システム（１０１）は、受信したユーザ指示によって、該当ユーザによって選択されたグループに関連付けられた話者の音声を初期化処理すると判断してもよい。電子装置システム（１０１）は、上記初期化処理であることに応じて、処理をステップ６２７に進める。一方、電子装置システム（１０１）は、上記初期化処理でないことに応じて、処理を終了ステップ６２９に進める。

ステップ６２７において、電子装置システム（１０１）は、ステップ６０３で得られた各グループについての音声設定を「通常」（すなわち、強調処理、及び、低減乃至は除去処理のいずれも行わないということ）に設定する。音声設定が「通常」である場合には、音声の加工は行われない。

ステップ６２８において、電子装置システム（１０１）は、各グループに設定された音声設定に従って、各グループに関連付けられた話者の音声を加工する。すなわち、電子装置システム（１０１）は、各グループに関連付けられた話者の音声を低減乃至は除去し、又は強調する。加工処理された音声は、電子装置システム（１０１）の音声信号出力手段、例えばヘッドフォン、イヤホン、補聴器、又はスピーカから出力される。

ステップ６２９において、電子装置システム（１０１）は、音声の加工処理を終了する。

図６Ｄは、図６Ａに示すフローチャートのステップ６０６（グループの表示処理）を詳述したフローチャートを示す。

ステップ６３１において、電子装置システム（１０１）は、グループの表示処理を開始する。

ステップ６３２において、電子装置システム（１０１）は、音声をテキスト化するかを判断する。電子装置システム（１０１）は、音声をテキスト化することに応じて、処理をステップ６３３に進める。一方、電子装置システム（１０１）は、音声をテキスト化しないことに応じて、処理をステップ６３４に進める。

ステップ６３３において、電子装置システム（１０１）は、音声をテキスト化することに応じて、各グループ内に、当該音声に対応するテキストを経時的に画面上に表示しうる（図２Ａ及び図５Ｂを参照）。また、電子装置システム（１０１）は、任意的に、音源の方向及び／又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによってテキストの表示を動的に変更しうる。

また、ステップ６３４において、電子装置システム（１０１）は、音声をテキスト化しないことに応じて、各グループを示すアイコンを画面上に表示しうる（図４Ａを参照）。また、電子装置システム（１０１）は、任意的に、音源の方向及び／又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによって各グループを示すアイコンの表示を動的に変更しうる。

ステップ６３５において、電子装置システム（１０１）は、グループの表示処理を終了し、処理を図６Ａに示すステップ６０７に進める。

図７Ａ〜図７Ｄは、本発明の他の実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。

図７Ａは、特定の話者の音声を加工する処理を行うためのメイン・フローチャートを示す。

ステップ７０１において、電子装置システム（１０１）は、本発明の実施態様に従う特定の話者の音声を加工する処理を開始する。

ステップ７０２において、電子装置システム（１０１）は、図６Ａのステップ６０２と同様にして、当該電子装置システム（１０１）に備えられているマイクロフォンを介して音声を収集し、当該収集した音声のデータを電子装置システム（１０１）内のメモリ（１０３）又は記憶装置（１０８）に記録しうる。

ステップ７０３において、電子装置システム（１０１）は、図６Ａのステップ６０３と同様にして、ステップ７０２において収集した音声を解析して、各音声の特徴量を抽出する。

ステップ７０４において、電子装置システム（１０１）は、ステップ７０３で抽出した特徴量に基づいて、上記収集した音声を、同じ人物が話していると推定される音声毎にグループ分けする。従って、グループ分けした音声は、一人の話者の音声に対応しうる。

ステップ７０５において、電子装置システム（１０１）は、ステップ７０４でのグループ分けに従い、電子装置システム（１０１）の画面上にグループを視認できるように表示しうる。電子装置システム（１０１）は例えば、当該グループをアイコンで表示しうる（図４Ａ〜図４Ｃ及び図５Ａ〜図５Ｃを参照）。代替的には、電子装置システム（１０１）は、当該グループを当該グループに属する音声に対応するテキストを例えば吹き出しの形で表示しうる（図２Ａ〜図２Ｃを参照）。電子装置システム（１０１）は、任意的に、当該グループに関連付けられた話者の音声のテキストを当該グループに関連付けて表示しうる。グループの表示処理については、図７Ｂを参照して、以下において別途詳細に説明する。

ステップ７０６において、電子装置システム（１０１）は、ユーザからの指示を受信する。電子装置システム（１０１）は、当該ユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であるかを判断する。電子装置システム（１０１）は、当該ユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であることに応じて、処理をステップ７０７に進める。一方、電子装置システム（１０１）は、当該ユーザ指示がグループ分けの修正処理でないことに応じて、処理をステップ７０８に進める。

ステップ７０７において、電子装置システム（１０１）は、ステップ７０６で受信したユーザ指示がグループの分離であることに応じて、グループを２つに分離する（図３Ａの例を参照）。一方、電子装置システム（１０１）は、当該ユーザ指示がグループのマージ（統合）であることに応じて、少なくとも２つのグループを１つのグループにマージする（図３Ｂの例を参照）。グループ分けの修正処理については、図７Ｃを参照して、以下において別途詳細に説明する。

ステップ７０８において、電子装置システム（１０１）は、ステップ７０６で受信したユーザ指示が音声の低減乃至は除去処理又は強調処理のいずれかの加工指示であるかを判断する。電子装置システム（１０１）は、当該ユーザ指示が上記音声の加工指示であることに応じて、処理をステップ７０９に進める。一方、電子装置システム（１０１）は、当該ユーザ指示が上記音声の加工指示でないことに応じて、処理をステップ７１０に進める。

ステップ７０９において、電子装置システム（１０１）は、ユーザ指示が上記加工指示であることに応じて、所定のグループに関連付けられた話者の音声を低減乃至は除去、又は強調する。音声の加工処理については、図７Ｄを参照して、以下において別途詳細に説明する。

ステップ７１０において、電子装置システム（１０１）は、ステップ７０６におけるユーザ指示及びステップ７０８におけるユーザ指示に応じて、電子装置システム（１０１）の画面上に最新の又は更新されたグループを視認できるように再表示しうる。また、電子装置システム（１０１）は、任意的に、当該最新の又は更新されたグループに関連付けられた話者の音声の最新のテキストを当該グループ内に又は当該グループに関連付けて表示しうる。グループの表示処理については、図７Ｂを参照して、以下において別途詳細に説明する。

ステップ７１１において、電子装置システム（１０１）は、特定の話者の音声を加工する処理を終了するか判断する。電子装置システム（１０１）は、当該処理を終了することに応じて、処理を終了ステップ７１２に進める。一方、電子装置システム（１０１）は、当該処理を継続することに応じて、処理をステップ７０２に戻し、音声の収集を継続する。なお、電子装置システム（１０１）は、ステップ７０２〜７０５の処理をステップ７０６〜７１１の処理が行われている場合においても並行して実施している。

ステップ７１２において、電子装置システム（１０１）は、本発明の実施態様に従う特定の話者の音声を加工する処理を終了する。

図７Ｂは、図７Ａに示すフローチャートのステップ７０５及び７１０（グループの表示処理）を詳述したフローチャートを示す。

ステップ７２１において、電子装置システム（１０１）は、グループの表示処理を開始する。

ステップ７２２において、電子装置システム（１０１）は、音声をテキスト化するかを判断する。電子装置システム（１０１）は、音声をテキスト化することに応じて、処理をステップ７２３に進める。一方、電子装置システム（１０１）は、音声をテキスト化しないことに応じて、処理をステップ７２４に進める。

ステップ７２４において、電子装置システム（１０１）は、音声をテキスト化することに応じて、各グループ内に、当該音声に対応するテキストを経時的に画面上に表示しうる（図２Ａ及び図５Ｂを参照）。また、電子装置システム（１０１）は、任意的に、音源の方向及び／又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによってテキストの表示を動的に変更しうる。

また、ステップ７２４において、電子装置システム（１０１）は、音声をテキスト化しないことに応じて、各グループを示すアイコンを画面上に表示しうる（図４Ａを参照）。また、電子装置システム（１０１）は、任意的に、音源の方向及び／又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによって各グループを示すアイコンの表示を動的に変更しうる。

ステップ７２５において、電子装置システム（１０１）は、グループの表示処理を終了する。

図７Ｃは、図７Ａに示すフローチャートのステップ７０７（グループ分けの修正処理）を詳述したフローチャートを示す。

ステップ７３１において、電子装置システム（１０１）は、音声のグループ分けの修正処理を開始する。

ステップ７３２において、電子装置システム（１０１）は、ステップ７０６で受信したユーザ処理がグループの分離操作であるかを判断する。電子装置システム（１０１）は、当該ユーザ処理がグループの分離操作であることに応じて、処理をステップ７３３に進める。一方、電子装置システム（１０１）は、当該ユーザ処理がグループの分離操作でないことに応じて、処理をステップ７３４に進める。

ステップ７３３において、電子装置システム（１０１）は、ユーザ処理がグループの分離操作であることに応じて、分離された音声の特徴量をそれぞれ再計算し、当該再計算されたそれぞれの特徴量を電子装置システム（１０１）内のメモリ（１０３）又は記憶装置（１０８）に記録しうる。当該再計算されたそれぞれの特徴量は、以後の音声のグループ分けのために使用される。上記した分離操作に応じて、電子装置システム（１０１）は、ステップ７１０において、画面上のグループ表示を、上記分離されたグループに基づいて再表示することが可能になる。すなわち、電子装置システム（１０１）は、誤って１つのグループとされたグループを２つのグループに正しく分離して表示することが可能になる。

ステップ７３４において、電子装置システム（１０１）は、ステップ７０８で受信したユーザ処理又はステップ７０６で受信したユーザ処理が少なくとも２つのグループのマージ（統合）操作であるかを判断する。電子装置システム（１０１）は、当該ユーザ処理がマージ操作であることに応じて、処理をステップ７３５に進める。一方、電子装置システム（１０１）は、当該ユーザ処理がマージ操作でないことに応じて、処理をグループ分けの修正処理の終了操作であるステップ７３６に進める。

ステップ７３５において、電子装置システム（１０１）は、ユーザ処理がマージ操作であることに応じて、ユーザによって特定された少なくとも２つのグループをマージする。電子装置システム（１０１）は、以後のステップにおいて、マージされたグループそれぞれの特徴量を有する音声を１つのグループとして扱う。すなわち、電子装置システム（１０１）は、２つのグループの各特徴量を有する音声を上記マージされた１つのグループに属するものとして扱う。代替的には、電子装置システム（１０１）は、マージされた少なくともグループそれぞれの特徴量の共通する特徴量を抽出し、当該抽出した共通する特徴量を電子装置システム（１０１）内のメモリ（１０３）又は記憶装置（１０８）に記録しうる。当該抽出した共通する特徴量は、以後の音声のグループ分けのために使用される。

ステップ７３６において、電子装置システム（１０１）は、音声のグループ分けの修正処理を終了し、処理を図７Ａに示すステップ７０８に進める。

図７Ｄは、図７Ａに示すフローチャートのステップ７０９（音声の加工処理）を詳述したフローチャートを示す。

ステップ７４１において、電子装置システム（１０１）は、音声の加工処理を開始する。

ステップ７４２において、電子装置システム（１０１）は、ユーザからの指示が選択されたグループ中の音声を強調処理するかを判断する。電子装置システム（１０１）は、ユーザからの指示が音声の強調処理であることに応じて、処理をステップ７４３に進める。電子装置システム（１０１）は、ユーザからの指示が音声の強調処理でないことに応じて、処理をステップ７４４に進める。

ステップ７４３において、電子装置システム（１０１）は、ユーザからの指示が音声の強調処理であることに応じて、上記選択されたグループの音声設定を強調に変更する。電子装置システム（１０１）は、当該変更された音声設定（強調）を、例えば図８に示す音声シーケンス選択記憶手段（８１３）に格納しうる。また、電子装置システム（１０１）は、任意的に、上記選択されたグループ以外のグループ全ての音声設定を低減乃至は除去に変更しうる。電子装置システム（１０１）は、当該変更された音声設定（低減乃至は除去）を、例えば図８に示す音声シーケンス選択記憶手段（８１３）に格納しうる。

ステップ７４４において、電子装置システム（１０１）は、ユーザからの指示が選択されたグループ中の音声を低減乃至は除去処理するかを判断する。電子装置システム（１０１）は、ユーザからの指示が音声の低減乃至は除去処理であることに応じて、処理をステップ７４５に進める。電子装置システム（１０１）は、ユーザからの指示が音声の低減乃至は除去処理でないことに応じて、処理を終了ステップ７５０に進める。

ステップ７４５において、電子装置システム（１０１）は、ユーザからの指示が音声の低減乃至は除去処理であることに応じて、上記選択されたグループの音声設定を低減乃至は除去に変更する。電子装置システム（１０１）は、当該変更された音声設定（低減乃至は除去）を、例えば図８に示す音声シーケンス選択記憶手段（８１３）に格納しうる。

ステップ７４６において、電子装置システム（１０１）は、各グループに設定された音声設定に従って、各グループに関連付けられた話者の音声を加工する。すなわち、電子装置システム（１０１）は、処理対象のグループの音声設定が強調処理である場合には、当該グループに関連付けられた話者の音声を、例えば音声シーケンス記憶手段（下記図８を参照）から取得し、当該取得した音声を強調し、一方、処理対象のグループの音声設定が低減乃至は除去処理である場合には、当該グループに関連付けられた話者の音声を、例えば音声シーケンス記憶手段（下記図８を参照）から取得し、当該取得した音声を低減乃至は除去する。加工処理された音声は、電子装置システム（１０１）の音声信号出力手段、例えばヘッドフォン、イヤホン、補聴器、又はスピーカから出力される。

ステップ７４７において、電子装置システム（１０１）は、音声の加工処理を終了する。

図８は、図１に従う電子装置システム（１０１）のハードウェア構成を好ましくは備えており、本発明の実施態様に従い、特定の話者の音声を加工する電子装置システム（１０１）の機能ブロック図の一例を示した図である。
電子装置システム（１０１）は、集音手段（８０１）、特徴量抽出手段（８０２）、テキスト化手段（８０３）、グループ分け手段（８０４）、音声シーケンス表示・選択受付手段（８０５）、提示手段（８０６）、音声信号解析手段（８０７）、音声信号逆位相生成手段（８０８）、音声信号合成手段（８０９）、及び音声信号出力手段（８１０）を備えうる。電子装置システム（１０１）は、上記各手段（８０１〜８１０）を一つの電子装置内に備えていてもよく、又は上記各手段を複数の電子装置に分散して備えていてもよい。どの手段をどのように分散するかは、例えば電子装置の処理能力に応じて決定されうる。

また、電子装置システム（１０１）は、特徴量記憶手段（８１１）、音声シーケンス記憶手段（８１２）、及び音声シーケンス選択記憶手段（８１３）を備えうる。電子装置システム（１０１）のメモリ（１０３）又は記憶装置（１０８）は、上記各手段（８１１〜８１３）の機能を包含しうる。また、電子装置システム（１０１）は、上記各手段（８１１〜８１３）を一つの電子装置内に備えていてもよく、又は上記各手段（８１１〜８１３）を複数の電子装置のメモリ又は記憶手段に分散して備えていてもよい。どの手段をどの電子装置又はメモリ若しくは記憶装置に分散するかは、例えば上記各手段（８１１〜８１３）に記憶されるデータのサイズ又はデータが取り出される優先順位に応じて当業者が適宜決定することが可能でありうる。

集音手段（８０１）は、音声を収集する。また、集音手段（８０１）は、図６Ａのステップ６０２及び図７Ａのステップ７０２（いずれも、音声の収集）を実行しうる。集音手段（８０１）は、電子装置システム（１０１）内に埋め込まれた又は電子装置システム（１０１）に有線又は無線で接続されたマイクロフォン、例えば指向性マイクロフォンでありうる。電子装置システム（１０１）は、指向性マイクロフォンを使用する場合、音声を収集する方向を連続的に切り替えることによって、音声が聞こえてくる方向（すなわち、音声の発生源の方向）を特定することが可能になる。

また、集音手段（８０１）は、音声の発生源の方向、又は上記音声の発生源の方向及び距離を特定する特定手段（図示せず）を備えていてもよい。代替的には、電子装置システム（１０１）が、上記特定手段を備えていてもよい。

特徴量抽出手段（８０２）は、集音手段（８０１）が収集した音声を解析して、当該音声の特徴量を抽出する。特徴量抽出手段（８０２）は、図６Ａのステップ６０３及び図７Ａのステップ７０３にける、収集した音声の特徴量の抽出を実行しうる。特徴量抽出手段（８０２）は、当業者に知られている声紋認証エンジンを実装しうる。また、特徴量抽出手段（８０２）は、図６Ｂのステップ６１３及び図７Ｃのステップ７３３における分離されたグループの音声の特徴量の再計算、並びに、図６Ｂのステップ６１５及び図７Ｃのステップ７３５におけるマージされたグループそれぞれの特徴量のうちの共通する特徴量の抽出を実行しうる。

テキスト化手段（８０３）は、特徴量抽出手段（８０２）が抽出した音声をテキスト化する。テキスト化手段（８０３）は、図６Ｄのステップ６３２及び図７Ｂのステップ７２２（音声をテキスト化するかの判断処理）、並びに、図６Ｄのステップ６３３及び図７Ｂのステップ７２３（音声のテキスト化処理）を実行しうる。テキスト化手段（８０３）は、当業者に知られている音声をテキスト化するエンジンを実装しうる。テキスト化手段（８０３）は例えば、「音響分析」機能及び「認識デコーダ」機能の２つを実装しうる。「音響分析」では、発話者の音声をコンパクトなデータに変換し、「認識デコーダ」ではそのデータを解析してテキスト化しうる。テキスト化手段（８０３）は例えば、ＡｍｉＶｏｉｃｅ（登録商標）に搭載されている音声認識エンジンでありうる。

グループ分け手段（８０４）は、特徴量抽出手段（８０２）が抽出した音声の特徴量に基づいて、上記音声に対応するテキストをグループ分けするか又は上記音声をグループ分けする。また、グループ分け手段（８０４）は、テキスト化手段（８０３）から得られたテキストをグループ分けしうる。グループ分け手段（８０４）は、図６Ａのステップ６０３におけるグループ分け及びステップ６０４のグループ分けの修正処理、並びに、図７Ａのステップ７０４（音声のグループ分け）、及び図７Ｃに示すステップ７３２（分離操作であるかどうかの判断）及びステップ７３４（マージ操作であるかどうかの判断）を実行しうる。また、グループ分け手段（８０４）は、図６Ｂのステップ６１３及び図７Ｃに示すステップ７３３（分離されたグループの音声の再計算された特徴量の記録）、並びに、図６Ｂのステップ６１５及び図７Ｃのステップ７３５（マージされたグループそれぞれの特徴量のうちの共通する特徴量の記録）を実行しうる。

音声シーケンス表示・選択受付手段（８０５）は、図６Ｄのステップ６３４及び図７Ｂのステップ７２４（いずれも、グループにおけるテキスト表示）を実行しうる。また、音声シーケンス表示・選択受付手段（８０５）は、図６Ｃのステップ６２３、ステップ６２５及びステップ６２７における、並びに、図７Ｄのステップ７４３及びステップ７４５における各グループに設定された音声設定を受け付ける。音声シーケンス表示・選択受付手段（８０５）は、グループ毎に設定された各音声設定を音声シーケンス選択記憶手段（８１３）に格納しうる。

提示手段（８０６）は、グループ分け手段（８０４）がグループ分けした結果をユーザに提示する。また、提示手段（８０６）は、テキスト化手段（８０３）から得られたテキストを、グループ分け手段（８０４）によるグループ分けに従い表示しうる。また、提示手段（８０６）は、テキスト化手段（８０３）から得られたテキストを時系列的に表示しうる。また、提示手段（８０６）は、グループ分け手段（８０４）によってグループ分けされたテキストに続けて、当該グループに関連付けられた上記話者の後続する音声に対応するテキストを表示しうる。また、提示手段（８０６）は、グループ分け手段（８０４）によってグループ分けされたテキストを提示手段（８０６）上の上記特定された方向に近い位置において、又は上記特定された方向及び距離に対応する提示手段（８０６）上の所定の位置において表示しうる。また、提示手段（８０６）は、話者が移動することに応じて、グループ分け手段（８０４）によってグループ分けされたテキストの表示位置を変化しうる。また、提示手段（８０６）は、音声の大きさ、高さ、若しくは音質、又はグループ分け手段（８０４）によってグループに関連付けられた話者の音声の特徴量に基づいて、テキスト化手段（８０３）から得られたテキストの表示方式を変更しうる。また、提示手段（８０６）は、音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に基づいて、グループ分け手段（８０４）によってグループ分けされたグループを色分けして表示しうる。当該提示手段（８０６）は例えば、表示装置（１０６）でありうる。図６Ｄのステップ６３４及び図７Ｂのステップ７２４における、各グループ内にテキストを経時的に画面上に表示すること、又は各グループを示すアイコンを画面上に表示することを実行しうる。

音声信号解析手段（８０７）は、集音手段（８０１）からの音声データを解析する。当該解析されたデータは、音声信号逆位相生成手段（８０８）において音声に対する逆位相の音波を生成するために、又は、音声信号合成手段（８０９）において音声が強調された合成音声若しくは音声が低減乃至は除去された合成音声を生成するために使用されうる。

音声信号逆位相生成手段（８０８）は、図６Ｃのステップ６２８及び図７Ｄのステップ７４６における音声の加工処理を実行しうる。音声信号逆位相生成手段（８０８）は、集音手段（８０１）からの音声データを使用して、低減乃至は除去したい音声に対する逆位相の音波を生成しうる。

音声信号合成手段（８０９）は、グループのうちの１つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する。音声信号合成手段（８０９）は、上記話者の音声を低減乃至は除去する場合には、音声信号逆位相生成手段（８０８）が生成した逆位相の音波を使用しうる。音声信号解析手段（８０７）からのデータと音声信号逆位相生成手段（８０８）で生成されたデータとを組み合わせて、特定の話者の音声を低減乃至は除去した音声を合成する。また、音声信号合成手段（８０９）は、選択されたグループに関連付けられた話者の音声を強調した後に、当該選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去しうる。また、音声信号合成手段（８０９）は、選択されたグループに関連付けられた話者の音声を低減乃至は除去した後に、当該選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調しうる。

音声信号出力手段（８１０）は、ヘッドフォン、イヤホン、補聴器又はスピーカを包含しうる。電子装置システム（１０１）は、音声信号出力手段（８１０）と有線又は無線（例えば、Bluetooth（登録商標））で接続しうる。音声信号出力手段（８１０）は、音声信号合成手段（８０９）からの合成された音声（話者の音声が強調された音声、又は、話者の音声が低減乃至は除去された音声）を出力する。また、音声信号出力手段（８１０）は、集音手段（８０１）からのデジタル処理された音声をそのまま出力しうる。

特徴量記憶手段（８１１）は、特徴量抽出手段（８０２）において抽出された、音声の特徴量を記憶する。

音声シーケンス記憶手段（８１２）は、テキスト化手段（８０３）から得られたテキストを記憶する。音声シーケンス記憶手段（８１２）は、提示手段（８０６）が当該テキストを時系列で表示することを可能にするタグ又は属性を当該テキストとともに記憶しうる。

音声シーケンス選択記憶手段（８１３）は、グループ毎に設定された各音声設定（すなわち、低減乃至は除去、又は強調）を格納する。

Claims

特定の話者の音声を加工する方法であって、電子装置システムが、
音声を収集するステップと、
前記音声を解析して、当該音声の特徴量を抽出するステップと、
前記抽出された特徴量に基づいて音声毎にグループ分けするステップと、
ユーザ・インターフェースを通して、前記グループ分けの結果をユーザに提示するステップと、
前記ユーザ・インターフェースを通して、強調し又は低減乃至は除去したい話者の音声が属するグループがユーザによって選択され指示されたかを判断するステップと、
前記選択され指示されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する処理を実行するステップであって、
音声を強調する指示に応答して、前記選択されたグループ以外のグループの音声を低減乃至は除去するか、前記選択されたグループの音声を強調するステップと、
音声を低減乃至は除去する指示に応答して、前記選択されたグループの音声を低減乃至は除去するステップと、
を実行することを含む、前記方法。
前記電子装置システムが、
前記収集された音声をテキスト化するステップ
を実行することをさらに含み、
前記グループ分けの結果を提示するステップが、
前記収集された音声に対応するテキストを前記グループ分けに従い表示するステップ
を含む、請求項１に記載の方法。
前記テキストを表示するステップが、
前記グループ分けされたテキストを時系列的に表示するステップ
をさらに含む、請求項２に記載の方法。
前記テキストを表示するステップが、
前記グループ分けされたテキストに続けて、当該グループに関連付けられた前記話者の後続する音声に対応するテキストを表示するステップ
をさらに含む、請求項２に記載の方法。
前記電子装置システムが、
前記音声の発生源の方向、又は前記音声の発生源の方向及び距離を特定するステップ
をさらに実行することを含み、
前記テキストを表示するステップが、
前記グループ分けされたテキストを、表示装置上の前記特定された方向に近い位置において又は前記特定された方向及び距離に対応する前記表示装置上の所定の位置において表示するステップ
を含む、請求項２に記載の方法。
前記テキストを表示するステップが、
前記話者が移動することに応じて、前記グループ分けされたテキストの表示位置を変化するステップ
をさらに含む、請求項５に記載の方法。
前記テキストを表示するステップが、
前記音声の大きさ、高さ、若しくは音質、又は前記グループに関連付けられた話者の音声の特徴量に基づいて、前記テキストの表示方式を変更するステップ
をさらに含む、請求項２に記載の方法。
前記テキストを表示するステップが、
前記音声の大きさ、高さ、若しくは音質、又は前記グループに関連付けられた話者の音声の特徴量に基づいて、複数のグループの内、当該グループを色分けして表示するステップ
をさらに含む、請求項２に記載の方法。
前記電子装置システムが、
前記強調する指示の後に、前記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去するステップ、又は、
前記低減乃至は除去する指示の後に、前記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調するステップ
を実行することをさらに含む、請求項２に記載の方法。
前記電子装置システムが、
前記グループ分けされたテキストのうちの一部のテキストをユーザが選択することを許すステップと、
当該ユーザによって選択された一部のテキストの話者の音声を別のグループとして分離するステップと
を実行することをさらに含む、請求項２に記載の方法。
前記電子装置システムが、
前記分離された別のグループに関連付けられた話者の音声の特徴量を、前記分離元のグループに関連付けられた話者の音声の特徴量と区別するステップ
を実行することをさらに含む、請求項１０に記載の方法。
前記電子装置システムが、
前記分離された別のグループに関連付けられた話者の音声の特徴量に従って、前記分離されたグループに関連付けられた話者の後続する音声に対応するテキストを当該分離されたグループ中に表示するステップ
を実行することをさらに含む、請求項１０に記載の方法。
前記電子装置システムが、
前記グループの少なくとも２つをユーザが選択することを許すステップと、
当該ユーザによって選択された少なくとも２つのグループを１つのグループとして合体するステップと
を実行することをさらに含む、請求項２に記載の方法。
前記電子装置システムが、
前記少なくとも２つのグループそれぞれに関連付けられた話者の各音声を一つのグループとしてまとめるステップと、
前記一つのグループとしてまとめられた各音声に対応する各テキストを前記まとめられた一つのグループ内において表示するステップと
を実行することをさらに含む、請求項１３に記載の方法。
前記提示するステップが、前記特徴量に基づいて、前記音声をグループ分けし、当該グループ分けの結果を表示装置上に表示するステップを含み、
前記電子装置システムが、
前記音声の発生源の方向、又は前記音声の発生源の方向及び距離を特定するステップ
をさらに実行することを含み、
前記グループ分けの結果を表示装置上に表示するステップが、
前記話者を示すアイコンを、前記表示装置上の前記特定された方向に近い位置において又は前記特定された方向及び距離に対応する前記表示装置上の所定の位置において表示するステップを含む、
請求項１に記載の方法。
前記グループ分けの結果を表示するステップが、
前記話者を示すアイコンの近傍に当該話者の音声に対応するテキストを表示するステップ
をさらに含む、請求項１５に記載の方法。
前記音声を低減乃至は除去するステップが、
前記選択されたグループに関連付けられた前記話者の音声に対して、逆位相の音波を出力するステップ、又は、
前記選択されたグループに関連付けられた前記話者の音声が低減乃至は除去された合成音声を再生することで、前記選択されたグループに関連付けられた話者の前記音声を低減乃至は除去するステップ
を含む、請求項１に記載の方法。
特定の話者の音声を加工するための電子装置システムであって、
音声を収集する集音手段と、
前記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
前記抽出された特徴量に基づいて音声毎にグループ分けするグループ分け手段と、
ユーザ・インターフェースを通して、前記グループ分けの結果をユーザに提示する提示手段と、
前記ユーザ・インターフェースを通して、強調し又は低減乃至は除去したい話者の音声が属するグループがユーザによって選択され指示されたかを判断する判断手段と、
前記選択され指示されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する処理を実行する音声処理実行手段であって、
音声を強調する指示に応答して、前記選択されたグループ以外のグループの音声を低減乃至は除去するか、前記選択されたグループの音声を強調する手段と、
音声を低減乃至は除去する指示に応答して、前記選択されたグループの音声を低減乃至は除去する手段と、
を備えている、前記電子装置システム。
前記電子装置システムが、
前記収集された音声をテキスト化するテキスト化手段
をさらに備えており、
前記提示手段が、前記収集された音声に対応するテキストを前記グループ分けに従い表示する、
請求項１８に記載の電子装置システム。
特定の話者の音声を加工するための電子装置システム用プログラムであって、電子装置システムに、請求項１〜１７のいずれか一項に記載の方法の各ステップを実行させる、前記電子装置システム用プログラム。