JP6316208B2 - 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム - Google Patents

特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム Download PDF

Info

Publication number
JP6316208B2
JP6316208B2 JP2014552983A JP2014552983A JP6316208B2 JP 6316208 B2 JP6316208 B2 JP 6316208B2 JP 2014552983 A JP2014552983 A JP 2014552983A JP 2014552983 A JP2014552983 A JP 2014552983A JP 6316208 B2 JP6316208 B2 JP 6316208B2
Authority
JP
Japan
Prior art keywords
group
voice
electronic device
device system
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014552983A
Other languages
English (en)
Other versions
JPWO2014097748A1 (ja
Inventor
明彦 ▲たか▼城
明彦 ▲たか▼城
孝仁 田代
孝仁 田代
拓 荒津
拓 荒津
政美 多田
政美 多田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPWO2014097748A1 publication Critical patent/JPWO2014097748A1/ja
Application granted granted Critical
Publication of JP6316208B2 publication Critical patent/JP6316208B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、特定の話者の音声を加工するための技法に関する。詳細には、本発明は、特定の話者の音声を強調し又は低減乃至は除去する技法に関する。
普段の生活の中で、例えば以下に示すような事例において、特定の話者の音声だけを聞きたくないという状況がある;
・公共交通機関、例えば電車、バス又は飛行機の中で会話がうるさい人の声;
・ホテル、美術館又は水族館などで会話がうるさい人の声;又は、
・宣伝カー又は選挙カーからの人の声。
周囲の音(環境音ともいう)を消す方法として、ノイズ・キャンセラー付き電子機器、例えばノイズ・キャンセラー付きヘッドフォン又は携帯音楽プレイヤーがある。ノイズ・キャンセラー付き電子機器は、周囲の音を内蔵のマイクロフォンで集音し、これと逆位相の信号をオーディオ信号と混合して出力することによって、当該電子機器へ外部から侵入する環境音を低減するものである。
また、周囲の音を消す方法として、耳栓をして全ての音を遮断する方法、又は、ヘッドフォン若しくはイヤホンを装着して大音量の音楽を流して騒音をごまかす方法がある。
下記特許文献1は、利用者の周囲で発生する混合音から、利用者が不快に感じる音を選択的に取り除く音選択加工装置であって、混合音を、音源ごとの音に分離する音分離手段と、利用者が不快な状態にあることを検知する不快感検知手段と、前記不快感検知手段によって利用者が前記状態にあることが検知されると、分離された音である各分離音間の関係を評価し、前記評価結果に基づいて、加工対象候補の分離音を推定する候補音選択決定手段と、推定された加工対象候補の前記分離音を前記利用者に提示して、選択を受け付け、選択された分離音を特定する候補音提示特定手段と、特定された前記分離音を加工して、混合音を再構成する音加工手段とを備えることを特徴とする音選択加工装置を記載する(請求項1)。
下記特許文献2は、常に発話した発話者の方向を向いた状態で、発話者に応答することができる音声認識ロボットおよび音声認識ロボットの制御方法を記載する(段落0006)。
下記特許文献3は、複数音源からの複数の音声信号が混在して入力される環境下で会話が成立している有効音声を抽出する音声信号処理装置を記載する(請求項1)。
下記特許文献4は、話者からの音声信号を特徴ベクトルのデータセットに変換するための特徴抽出手段を備えている話者適応音声認識システムを記載する(請求項1)。
下記特許文献5は、短距離無線通信用のヘッドセットを利用して想定されるあらゆる状況において、外部の直接音と、通信系を介して伝達される音の比率を選択的に変えて、音声コミュニケーションや音声コマンドを円滑にすることができるヘッドセットと、これを用いたコミュニケーションシステムを記載する(段落0010)。
下記特許文献6は、電話応答システムにおいて、話者にわずらわしさを感じさせずに、話者適応化方式による音声認識をできるようにすることを記載する(段落0011)。
下記特許文献7は、話者が話した音声を入力する入力手段(請求項1)、及び前記入力手段から入力された音声をテキストデータに変換する変換出手段(請求項2)を備えている、話者が発した音声をマスキングするための音声に係る音声データを生成する音声データ生成装置を記載する(特許請求の範囲)。
下記特許文献8は、連絡通信や意思伝達する文字列やコメント等のテキスト文の表示において、その内容や感情あるいは気持ちの抑揚をより深く伝えることが可能なテキスト文の表示装置を記載する(段落0001)。
特開2007−187748号公報 特開2008−87140号公報 特開2004−133403号公報 特表平10−512686号公報 特開2003−198719号公報 特開平8−163255号公報 特開2012−98483号公報 特開2005−215888号公報
牧野昭二等、"ブラインドな処理が可能な音源分離技術"、NTT技術ジャーナル、15(12)、8〜12ページ、2003年12月号、インターネット〈URL:http://www.tara.tsukuba.ac.jp/~maki/reprint/Makino/sm03jornal8-12.pdf〉より入手可能
普段の生活の中で、特定の音声だけを聞きたくないという状況がある。そのような場合に、これまで例えば、ノイズ・キャンセラー付きの電子機器や耳栓を装着したり、ヘッドフォン又はイヤホンを装着して大音量の音楽を聴いたりして対応しているのが現状である。
ノイズ・キャンセラー付きの電子機器は、無作為に音(ノイズ)を低減することから特定の話者のみの音声を低減することが難しい。また、ノイズ・キャンセラー付きの電子機器は、人の声の音域には低減処理をしないために、周囲の音が聞こえすぎる場合がある。よって、ノイズ・キャンセラー付きの電子機器では、特定の話者の音声のみを加工することは困難である。
耳栓は、全ての音を遮断してしまう。また、ヘッドフォン又はイヤホンを装着して大音量の音楽を聴くことは、周りの音を聞こえなくしてしまう。このことは、ユーザにとって必要な情報、例えば地震速報又は緊急避難放送を聞き逃すことをもたらすために、場合によってはユーザの身に危険を与える。
従って、本発明は、ユーザにとって操作的に容易であり、さらには視覚的にも簡単に、特定の話者の音声を加工することを可能にすることを目的とする。
また、本発明は、特定の話者の音声を加工することを容易にするユーザ・インターフェースを提供することによって、特定の話者の音声を強調し又は低減乃至は除去することをスムーズに行えるようにすることを目的とする。
本発明は、音声を収集し、当該収集した音声を解析して、当該音声の特徴量を抽出し、当該抽出した特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けし、当該グループ分けの結果をユーザに提示し、当該グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減し乃至は除去する技法を提供する。当該技法は、サービスに対するアクセスを制御するための方法、電子装置システム、電子装置システム用プログラム及び電子装置システム用プログラム製品を包含しうる。
本発明の上記方法は、
音声を収集するステップと、
上記音声を解析して、当該音声の特徴量を抽出するステップと、
上記特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けし、当該グループ分けの結果をユーザに提示するステップと、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去するステップと
を含む。
本発明の一つの実施態様において、上記方法は、
音声を収集するステップと、
上記音声を解析して、当該音声の特徴量を抽出するステップと、
上記音声をテキスト化するステップと、
上記特徴量に基づいて、上記音声に対応するテキストをグループ分けし、当該グループ分けされたテキストをユーザに提示するステップと、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去するステップと
を含む。
本発明の上記電子装置システムは、
音声を収集する集音手段と、
上記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
上記特徴量に基づいて、上記音声に対応するテキストを又は上記音声をグループ分けするグループ分け手段と、
上記グループ分けの結果をユーザに提示する提示手段と、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する音声信号合成手段と
を備えている。
本発明の一つの実施態様において、上記電子装置システムが、上記音声をテキスト化するテキスト化手段をさらに備えていてもよい。また、本発明の一つの実施態様において、上記グループ分け手段が上記音声に対応するテキストをグループ分けし、且つ、上記提示手段が、当該グループ分けされたテキストを当該グループ分けに従い表示しうる。
本発明の一つの実施態様において、上記電子装置システムは、
音声を収集する集音手段と、
上記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
上記音声をテキスト化するテキスト化手段と、
上記特徴量に基づいて、上記音声に対応するテキストをグループ分けするグループ分け手段と、
当該グループ分けされたテキストをユーザに提示する提示手段と、
上記グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する音声信号合成手段と
を含む。
本発明の一つの実施態様において、上記提示手段が、上記グループ分けされたテキストを時系列的に表示しうる。
本発明の一つの実施態様において、上記提示手段が、上記グループ分けされたテキストに続けて、当該グループに関連付けられた上記話者の後続する音声に対応するテキストを表示しうる。
本発明の一つの実施態様において、上記電子装置システムが、音声の発生源の方向、又は上記音声の発生源の方向及び距離を特定する特定手段をさらに備えていてもよい。また、本発明の一つの実施態様において、上記提示手段が、上記グループ分けされたテキストを表示装置上の上記特定された方向に近い位置において、又は上記特定された方向及び距離に対応する上記表示装置上の所定の位置において表示しうる。
本発明の一つの実施態様において、上記提示手段が、上記話者が移動することに応じて、上記グループ分けされたテキストの表示位置を変化しうる。
本発明の一つの実施態様において、上記提示手段が、上記音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に基づいて、上記テキストの表示方式を変更しうる。
本発明の一つの実施態様において、上記提示手段が、上記音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に基づいて、当該グループを色分けして表示しうる。
本発明の一つの実施態様において、上記音声信号合成手段が、上記選択されたグループに関連付けられた話者の音声を強調した後に、上記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去しうる。
本発明の一つの実施態様において、上記音声信号合成手段が、上記選択されたグループに関連付けられた話者の音声を低減乃至は除去した後に、上記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調しうる。
本発明の一つの実施態様において、上記電子装置システムが、
上記グループ分けされたテキストのうちの一部のテキストをユーザが選択することを許す選択手段と、
当該ユーザによって選択された一部のテキストを別のグループとして分離する分離手段と
をさらに備えていてもよい。
本発明の一つの実施態様において、上記特徴量抽出手段が、上記分離された別のグループに関連付けられた話者の音声の特徴量を、上記分離元のグループに関連付けられた話者の音声の特徴量と区別しうる。
本発明の一つの実施態様において、上記提示手段が、上記分離された別のグループに関連付けられた上記話者の音声の特徴量に従って、上記分離されたグループに関連付けられた話者の後続する音声に対応するテキストを当該分離されたグループ中に表示しうる。
本発明の一つの実施態様において、
上記選択手段が、上記グループの少なくとも2つをユーザが選択することを許し、
上記電子装置システムが、当該ユーザによって選択された少なくとも2つのグループを1つのグループとして合体する合体手段をさらに備えていてもよい。
本発明の一つの実施態様において、上記特徴量抽出手段が、上記少なくとも2つのグループそれぞれに関連付けられた話者の各音声を一つのグループとしてまとめ、
上記提示手段が、上記一つのグループとしてまとめられた各音声に対応する各テキストを上記まとめられた一つのグループ内において表示しうる。
本発明の一つの実施態様において、上記提示手段が、上記特徴量に基づいて、上記音声をグループ分けして、当該グループ分けの結果を表示装置上に表示し、上記話者を示すアイコンを、上記表示装置上の上記特定された方向に近い位置において又は上記特定された方向及び距離に対応する上記表示装置上の所定の位置において表示しうる。
本発明の一つの実施態様において、上記提示手段が、上記グループ分けの結果とともに、上記話者を示すアイコンの近傍に当該話者の音声に対応するテキストを表示しうる。
本発明の一つの実施態様において、上記音声信号合成手段が、上記選択されたグループに関連付けられた上記話者の音声に対して、逆位相の音波を出力し、又は、上記選択されたグループに関連付けられた上記話者の音声が低減乃至は除去された合成音声を再生することで、上記選択されたグループに関連付けられた話者の上記音声を低減乃至は除去しうる。
また、本発明は、電子装置システムに、本発明に従う方法の各ステップを実行させる電子装置システム用プログラム(コンピュータ・プログラムを包含しうる)、及び電子装置システム用プログラム製品(コンピュータ・プログラム製品を包含しうる。)を提供する。
本発明の実施態様に従う特定の話者の音声を加工するための電子装置システム用プログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、BD、ハードディスク装置、USBに接続可能なメモリ媒体、ROM、MRAM、RAM等の任意の電子装置システム読み取り可能な記録媒体(コンピュータ読み取り可能な記録媒体を包含しうる)に格納することができる。当該電子装置システム用プログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システムからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、当該電子装置システム用プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明を実施する電子装置システム用プログラム製品を提供することも勿論可能であることにも留意されたい。電子装置システム用プログラム製品は、例えば、上記電子装置システム用プログラムを記録した記憶媒体、又は、上記電子装置システム用プログラムを伝送する伝送媒体を包含しうる。
本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。
また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記電子装置システム用プログラムのインストールされた装置における実行が典型的な例として挙げられる。かかる場合、当該電子装置システム用プログラムが当該装置のメモリにロードされて実行されることにより、当該電子装置システム用プログラムは、当該装置を制御し、本発明にかかる処理を実行させる。当該電子装置システム用プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該装置が特定の機能を直接的に、又は、1.他の言語、コード若しくは表記への変換及び、2.他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。
本発明の実施態様に従うと、特定の話者の音声を選択的に低減乃至は除去することが可能であるので、話を聞きたい人の音声に集中する又は聞きやすくすることを可能にする。このことは例えば、下記事例の場合において有用である。
・例えば公共交通機関(例えば、電車、バス又は飛行機)又は公共施設内(例えば、コンサートホール又は病院)において、会話がうるさい人の声を選択的に低減乃至は除去することで、友人又は家族との話に集中することを可能にする。
・例えば学校等の教室又は講堂において、先生乃至は講師以外の声を選択的に低減乃至は除去することによって、講義に集中することを可能にする。
・例えば議事録の作成において発言者以外の会話又は音声を低減乃至は除去することによって、発言者の音声を効率的に記録することを可能にする。
・一つの大きい部屋において複数のテーブルに分かれて議論をしている場合において自分が所属しているテーブル(すなわち、グループ)以外のメンバーの会話を低減乃至は除去することによって、自分が所属しているテーブルでの議論に集中することを可能にする。
・地震速報又は緊急避難放送などの音声以外の音声を低減乃至は除去することによって、地震速報又は緊急避難放送などの音声を聞き逃すことを防止することが可能である。
・スポーツ観戦において、一緒に観戦に来た人及び/又は館内放送以外の音声を低減乃至は除去することによって、一緒に観戦に来た人及び/又は館内放送の音声を聞き逃すことを防止することが可能である。
・テレビの視聴又はラジオのリスニング中において、家族の声を低減乃至は除去することによって、テレビ又はラジオからの音声に集中することを可能にする。
・選挙カー又は宣伝カーが走行している場合において、選挙カー又は宣伝カーからの声を低減乃至は除去することによって、選挙カー又は宣伝カーからの声による騒音を防止することが可能である。
また、本発明の実施態様に従うと、特定の話者の音声を選択的に強調することが可能であるので、話を聞きたい人の音声に集中すること又は聞きやすくすることを可能にする。このことは例えば、下記事例の場合において有用である。
・例えば公共交通機関又は公共施設内において、友人又は家族の声を選択的に強調することによって、友人又は家族との話に集中することを可能にする。
・例えば学校等の教室又は講堂において、先生乃至は講師の声を選択的に強調することによって、講義に集中することを可能にする。
・例えば議事録の作成において発言者の音声を強調することによって、発言者の音声を効率的に記録することを可能にする。
・一つの大きい部屋において複数のテーブルに分かれて議論をしている場合において自分が所属しているテーブルのメンバーの会話を強調することによって、自分が所属しているテーブルでの議論に集中することを可能にする。
・地震速報又は緊急避難放送などの音声を強調することによって、地震速報又は緊急避難放送などの音声を聞き逃すことを防止することが可能である。
・スポーツ観戦において、一緒に観戦に来た人及び/又は館内放送の音声を強調することによって、一緒に観戦に来た人及び/又は館内放送の音声を聞き逃すことを防止することが可能である。
・テレビの視聴又はラジオのリスニング中において、テレビ又はラジオからの音声を強調することによって、テレビ又はラジオからの音声に集中することを可能にする。
また、本発明の実施態様に従うと、特定の話者の音声を強調し、一方、別の特定の話者の音声を選択的に低減乃至は除することを組み合わせることによって、さらに、特定の話者との会話に集中することを可能にする。
本発明の実施態様に従い特定の話者の音声を加工するための電子装置システムを実現するためのハードウェア構成の一例を示した図である。 本発明の実施態様において使用されうる、音声に対応するテキストを当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。 図2Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。 図2Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。 本発明の実施態様において使用されうる、グループの修正方法(分離の場合)を可能にするユーザ・インターフェースの例を示す。 本発明の実施態様において使用されうる、グループの修正方法(マージの場合)を可能にするユーザ・インターフェースの例を示す。 本発明の実施態様において使用されうる、音声を当該音声の特徴量に従いグループ分けし、当該グループ毎に表示するユーザ・インターフェースの例を示す。 図4Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。 図4Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。 本発明の実施態様において使用されうる、音声に対応するテキスト当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。 図5Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。 図4Aに示す例において、本発明の実施態様に従い特定の話者の音声のみを選択的に強調する例を示す。 本発明の実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。 図6Aに示すフローチャートの各ステップのうち、グループ分けの修正処理を詳述したフローチャートを示す。 図6Aに示すフローチャートの各ステップのうち、音声の加工処理を詳述したフローチャートを示す。 図6Aに示すフローチャートの各ステップのうち、グループの表示処理を詳述したフローチャートを示す。 本発明の実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。 図7Aに示すフローチャートの各ステップのうち、グループの表示処理を詳述したフローチャートを示す。 図7Aに示すフローチャートの各ステップのうち、グループ分けの修正処理を詳述したフローチャートを示す。 図7Aに示すフローチャートの各ステップのうち、音声の加工処理を詳述したフローチャートを示す。 図1に従う電子装置システムのハードウェア構成を好ましくは備えており、本発明の実施態様に従い、特定の話者の音声を加工する電子装置システムの機能ブロック図の一例を示した図である。
本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。
本発明の実施態様に従い特定の話者の音声を加工するための電子装置システムを実現するためのハードウェア構成の一例を示した図である。
電子装置システム(101)は、1又は複数のCPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インターナショナル・ビジネス・マシーンズ・コーポレーション(登録商標)のPower(登録商標)シリーズ、インテル・コーポレーション(登録商標)のCore i(商標)シリーズ、Core 2(商標)シリーズ、Atom(商標)シリーズ、Xeon(商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ若しくはSempron(商標)、アップル社(登録商標)のAシリーズ、又は、アンドロイド端末用のCPUが使用されうる。バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)、タッチ液晶ディスプレイ、又はマルチタッチ液晶ディスプレイが接続されうる。ディスプレイ(106)は、コンピュータ上で動作中のソフトウェア、例えば本発明に従う電子装置システム用プログラムが稼働することによって表示される情報を、適当なグラフィック・インタフェースで表示するために使用されうる。バス(104)にはまた、SATA又はIDEコントローラ(107)を介して、ディスク(108)、例えばハードディスク又はシリコン・ディスクと、ドライブ(109)、例えばCD、DVD又はBDドライブとが接続されうる。バス(104)にはさらに、キーボード・マウス・コントローラ(110)又はUSBバス(図示せず)を介して、キーボード(111)、マウス(112)、又はタッチ・デバイス(図示せず)が接続されうる。
ディスク(108)には、オペレーティング・システム、例えばWindows(登録商標)、UNIX(登録商標)、MacOS(登録商標)、若しくはスマートフォン用OS、例えばAndroid(登録商標)OS、iOS(登録商標)、Windows(登録商標) phone(登録商標)、又は、J2EEなどのJava(登録商標)処理環境、Java(登録商標)アプリケーション、Java(登録商標)仮想マシン(VM)、Java(登録商標)実行時(JIT)コンパイラを提供するプログラム、その他のプログラム、及びデータが、メイン・メモリ(103)にロード可能なように記憶されうる。
ドライブ(109)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラム、例えばオペレーティング・システム又はアプリケーションをディスク(108)にインストールするために使用されうる。
通信インタフェース(114)は、例えばイーサネット(登録商標)・プロトコルに従う。通信インタフェース(114)は、通信コントローラ(113)を介してバス(104)に接続され、電子装置システム(101)を通信回線(115)に物理的に接続する役割を担い、電子装置システム(101)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インタフェース層を提供する。なお、通信回線は、有線LAN環境、又は例えばIEEE 802.11a,b,g,n,i,j,ac,adなどの無線LAN接続規格、若しくはロング・ターム・エボリューション(LTE)に基づく無線LAN環境でありうる。
電子装置システム(101)は例えば、パーソナル・コンピュータ、例えばデスクトップ・コンピュータ、ノートブック・コンピュータ、サーバ、若しくはクラウド利用端末;タブレット端末、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント、音楽(ミュージック)携帯プレイヤーでありうるが、これらに制限されない。
また、電子装置システム(101)は、複数の電子装置から構成されていてもよい。電子装置システム(101)が複数の電子装置から構成される場合には、当該電子装置システム(101)の各ハードウェア構成要素(例えば、下記図8を参照)を、複数の電子装置と組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。上記複数の電子装置は例えば、タブレット端末、スマートフォン、携帯電話、パーソナル・ディジタル・アシスタント又は音楽携帯プレイヤーとサーバとでありうる。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
以下において、本発明の内容の理解を容易にするために、まず、図2A〜図5Cに示すユーザ・インターフェースの各例を参照して、本発明の実施態様に従う特定の話者の音声の加工をどのように行うかを説明する。次に、図6A〜図6D及び図7A〜図7Dに示す各フローチャートを参照して、本発明の実施態様に従う特定の話者の音声を加工する処理のプロセスを説明する。最後に、図8に示す本発明の実施態様に従う電子装置システム(101)の機能ブロック図を説明する。
図2Aは、本発明の実施態様において使用されうる、音声に対応するテキストを当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。
図2Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(210)を所持し、当該電子装置システム(210)に有線又は無線で接続されたヘッドフォンを装着したユーザ(201)、並びに、当該ユーザ(201)の周辺にいる人(202,203,204及び205)、及び、電車に備え付けのスピーカ(206)を示す。電車に備え付けのスピーカ(206)からは、電車の車掌からのアナウンスが放送される。
まず、図2Aの上側に示す図について説明する。
ユーザ(201)は、電子装置システム(210)に備えられた表示装置上の画面(211)に表示された、本発明に従うプログラムに関連付けられたアイコンをタッチして、当該プログラムを起動する。当該アプリケーションは、電子装置システム(210)に、下記の各ステップを実行させる。
電子装置システム(210)は、当該電子装置システム(210)に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム(210)は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。音は、音声とともに、外界のノイズを含んでいてもよい。音声の特徴量の抽出は例えば、当業者に知られている声紋認証技術を使用して実施されうる。引き続き、電子装置システム(210)は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。グループ分けされた一つのグループ単位が、一人の話者に対応しうる。従って、音声をグループ分けするということは、結果的に、音声を話者毎にグループ分けすることでもありうる。但し、電子装置システム(210)が自動的に行ったグループ分けが、常に正確であるとは限らない。この場合には、下記図3A及び図3Bを参照して下記に説明するグループ分けの修正手法(それぞれ、グループの分離及びマージである)を使用して、誤ったグループ分けがユーザによって修正されうる。
また、電子装置システム(210)は、上記グループ分けされた音声をテキスト化する。当該音声のテキスト化は例えば、当業者に知られている音声認識技術を使用して実施されうる。電子装置システム(210)は、上記音声に対応するテキスト(テキスト化された音声内容である)を上記グループ分けに従い、電子装置システム(210)に備えられた上記表示装置上に表示しうる。上記した通り、グループ分けされた一つのグループが一人の話者に対応するために、グループ分けされた一つのグループ中に、当該グループに関連付けられた一人の話者の音声に対応しうるテキストが表示されうる。また、電子装置システム(210)は、上記グループ分けされたテキストを、各グループ内において時系列的に表示しうる。また、電子装置システム(210)は、最新の音声に対応するテキストを含むグループについての表示を画面(211)上の最前面に表示したり、又は、ユーザ(201)に最も近い位置にいる人(205)に関連付けられたグループについての表示を画面(211)上の最前面に表示したりしてもよい。
電子装置システム(210)は、例えば音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に従って、当該グループ中のテキストの表示方式又はテキストの色分けを変更しうる。例えばテキストの表示方式を変更する場合、音声の大きさの場合には例えばテキストの2次元表示の大小で示し、音声の高さの場合には例えばテキストの3次元表示で示し、音質の場合には例えばテキストの陰影付の程度で示し、音声の特徴量の場合には例えばテキストのフォントの違いで示しうる。例えばテキストの色分けを変更する場合、音声の大きさの場合には例えばグループ毎にテキストの色を変更して示し、音声の高さの場合には例えば高い音は黄色の棒線で及び低い音は青色の棒線で示し、音質の場合には例えば男性の場合に青色の縁取り、女性の場合に赤色の縁取り、子供の場合に黄色の縁取り、その他の場合に緑色の縁取りで示し、音声の特徴量の場合には例えばテキストの陰影の程度で示しうる。
図2Aでは、電子装置システム(210)は、収集した音声を、グループ212,213,214,215及び216の5つにグループ分けしている。グループ212,213,214及び215はそれぞれ、人(202,203,204及び205)に対応し(又は関連付けられており)、且つグループ216はスピーカ206に対応する(又は関連付けられている)。電子装置システム(210)は、各グループ(212,213,214,215及び216)内において、音声に対応するテキストを時系列で表示している。また、電子装置システム(210)は、各グループ(212,213,214,215及び216)を、当該各グループに対応付けられた人がいる方向(すなわち、音声の発生源である)に近い位置で、又は上記方向及びユーザ(201)と当該各グループとの相対距離に対応するように上記表示装置上に表示しうる。
次に、図2Aの下側に示す図について説明する。
引き続き、電子装置システム(210)は、上記マイクロフォンを介して、周囲の音をさらに集音する。電子装置システム(210)は、さらに収集した音を解析して、当該さらに収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を新たに抽出する。電子装置システム(210)は、当該新たに抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。電子装置システム(210)は、上記新たに抽出した特徴量に基づいて、当該グループ分けした音声が先にグループ分けしたグループ(212,213,214,215及び216)のいずれのグループに属するかを決定する。代替的には、電子装置システム(210)は、上記新たに抽出した特徴量に基づいて、上記各音声が先にグループ分けしたグループ(212,213,214,215及び216)のいずれのグループに属するかをグループ分けすること無しに取り出された音声毎にどのグループに属するかを決定してもよい。電子装置システム(210)は、上記グループ分けされた音声をテキスト化し、当該テキストを図2Aの上側に示した各グループ中において時系列で表示しうる。なお、電子装置システム(210)は、最新のテキストを表示するために、図2Aの上側に示した各グループ中に表示されているテキストの古いものから順に画面上から見えなくなるようにしうる。すなわち、電子装置システム(210)は、各グループ内のテキストを最新のテキストに置き換えるようにすることができる。ユーザ(201)は例えば、各グループ(223,224,225及び226)内に表示されている上向き△のアイコン(223−1,224−1,225−1,226−1)をタッチすることによって、見えなくされたテキストを閲覧することが可能である。代替的には、ユーザは、各グループ(223−1,224−1,225−1,226−1)内に指をおいて上向きに当該指をスワイプすることによって、見えなくされたテキストを閲覧することが可能である。また、代替的には、各グループ(223,224,225及び226)内にスクロールバーが表示され、当該スクロールバーをスライドさせることによって、見えなくされたテキストを閲覧することが可能である。また、ユーザは、各グループ(223,224,225及び226)内に表示されている下向き▽のアイコン(図示せず)をタッチすることによって、最新のテキストを閲覧することが可能である。代替的には、ユーザは、各グループ(223,224,225及び226)内に指をおいて下向きに当該指をスワイプすることによって、最新のテキストを閲覧することが可能である。また、代替的には、各グループ(223,224,225及び226)内にスクロールバーが表示され、当該スクロールバーをスライドさせることによって、最新のテキストを閲覧することが可能である。
また、電子装置システム(210)は、人(202,203,204,及び205)が経時的に移動する場合において、各グループ(212,213,214,及び215)を、当該各グループに対応付けられた人が移動した方向(すなわち、音声の発生源である)に近い位置で、又は上記方向及びユーザ(201)と当該各グループとの相対距離に対応するように上記表示装置上に表示するために各グループの表示位置を移動して再表示しうる(画面221を参照)。
また、画面(221)では、図2Aの上側に示す図中の人(202)の音声が、ユーザ(201)の電子装置システム(210)のマイクロフォンが集音できる範囲外にあるために、人(202)に対応するグループ(212)が削除されている。
また、電子装置システム(210)は、ユーザ(201)が経時的に移動する場合において、各グループ(212,213,214及び215、並びに216)を、ユーザ(201)から各人(202,203,204及び205)及びスピーカ(206)を見た各方向、又は当該方向及びユーザ(201)と当該各グループとの各相対距離に応じて上記表示装置上に表示するように当該各グループの表示位置を移動して再表示しうる(画面221を参照)。
図2Bは、図2Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。
図2Bの上側に示す図は、画面上の左上隅に唇上にバツ(×)印のアイコン(231−2)及び各グループ(232,233,234、235及び246)内に唇上にバツ(×)印の各アイコン(232−2,233−2,234−2,235−2及び236−2)、並びに各グループ(232,233,234、235及び246)内に星印の各アイコンが表示されている以外は、図2Aの上側に示す図と同じである。アイコン(231−2)は、画面(231)上に表示されている全てのグループ(232,233,234、235及び236)に関連付けられた話者の音声全てをヘッドフォンから低減乃至は除去するために使用されるアイコンである。各アイコン(232−2,233−2,234−2,235−2及び236−2)はそれぞれ、当該アイコンに対応するグループに関連付けられた話者の音声をヘッドフォンから選択的に低減乃至は除去するために使用されるアイコンである。
ユーザ(201)は、グループ233に関連付けられた話者の音声のみを低減乃至は除去したいとする。ユーザは、指(201−1)で、グループ233内のアイコン(233−2)をタッチする。電子装置システム(210)は、ユーザからの当該タッチを受信して、アイコン(233−2)に対応するグループ233に関連付けられた話者の音声のみをヘッドフォンから選択的に低減乃至は除去しうる。
図2Bの下側に示す図は、グループ243(グループ233に対応する)に関連付けられた話者の音声のみが選択的に低減された画面(241)を示す。グループ243内のテキストは薄く表示されている。電子装置システム(210)は、例えばアイコン(243−3)上でのタッチの回数が増えることに応じて、グループ243に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。
ユーザ(201)は、グループ243に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン(243−4)をタッチする。アイコン(243−3)が音声を小さくする(低減乃至除去する)アイコンであるのに対して、アイコン(243−4)は、音声を大きくする(強調する)アイコンである。
また、ユーザ(201)は、他のグループ(244,245又は246)についても同様に、アイコン(244−3,245−3又は246−3)を指でタッチすることによって、当該タッチしたアイコンに対応するグループに関連付けられた話者の一連の音声を低減乃至は除去することが可能である。
また、画面(241)では、図2Bの上側に示す図中の人(202)の音声が、ユーザ(201)の電子装置システム(210)のマイクロフォンが集音できる範囲外にあるために、人(202)に対応するグループ(232)が削除されている。
図2Bの上側に示す例において、画面(231)上で各アイコン(232−2,233−2,234−2,234−2、235−2又は236−2)をタッチすることで、当該タッチされたアイコンに対応するグループ(232,233,234,235又は236)に関連付けられた話者の一連の音声を選択的に低減乃至は除去できることを示した。代替的には、ユーザは、各グループ(232,233,234,235又は236)内の各領域上に、指で例えばバツ(×)を描くことで、当該バツが描かれたグループに関連付けられた話者の一連の音声を選択的に低減乃至は除去することが可能である。画面(241)上においても同様である。また、代替的には、電子装置システム(210)は、ユーザが各グループ(232,233,234,235及び236)の領域内でタッチを繰り返すことによって、同一のグループ内で音声の低減乃至は除去と音声の強調とを切り替えるようにしうる。
図2Cは、図2Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。
図2Cの上側に示す図は、図2Bの上側に示す図と同じである。アイコン(252−4,253−4,254−4,255−4及び256−4)はそれぞれ、各グループに関連付けられた話者の一連の音声をヘッドフォンから選択的に強調するために使用されるアイコンである。
ユーザ(201)は、グループ256に関連付けられた話者の音声のみを強調したいとする。ユーザは、指(251−1)で、グループ256内の星印のアイコン(256−4)をタッチする。電子装置システム(210)は、ユーザからの当該タッチを受信して、アイコン(256−4)に対応するグループ256に関連付けられた話者の音声のみを選択的に強調しうる。また、電子装置システム(210)は任意的に、グループ256以外の各グループ(263,264及び265)に関連付けられた各話者の一連の音声を自動的に低減乃至は除去しうる。
図2Cの下側に示す図は、グループ266(グループ256に対応する)に関連付けられた話者の音声のみが選択的に強調された画面(261)を示す。グループ266以外のグループ(263,264及び265)内の各テキストは薄く表示されている。すなわち、各グループ(263,264,265及び266)に関連付けられた話者の音声が自動的に低減乃至は除去されていることを示す。電子装置システム(210)は、例えばアイコン(266−4)上でのタッチの回数が増えることに応じて、グループ266に関連付けられた話者の音声を徐々に大きくすることが可能である。また、電子装置システム(210)は、任意的に、グループ266に関連付けられた話者の音声が徐々に大きくなるにつれて、他のグループ(263,264及び265)に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。
ユーザ(201)は、グループ266に関連付けられた話者の音声を再度小さくしたい場合には、指でアイコン(266−2)をタッチする。
また、画面(261)では、図2Cの上側に示す図中の人(202)の音声が、ユーザ(201)の電子装置システム(210)のマイクロフォンが集音できる範囲外にあるために、人(202)に対応するグループ(252)が削除されている。
図2Cの上側に示す例において、画面(251)上で各アイコン(252−4,253−4,254−4,255−4又は256−4)をタッチすることで、当該タッチされたアイコンに対応するグループ(252,253,254,255又は256)に関連付けられた話者の一連の音声を選択的に強調できることを示した。代替的には、ユーザは、各グループ(252,253,254,255又は256)内の各領域上に、指で例えば略円(○)を描くことで、当該略円が描かれたグループに関連付けられた話者の一連の音声を選択的に強調することが可能である。画面(261)上においても同様である。
また、図2Cの上側に示す例において、ユーザがグループ256内の星印のアイコン(256−4)をタッチすることによって、グループ256に関連付けられた話者の音声のみを強調することを説明した。代替的には、ユーザは、画面(251)内のアイコン(251−2)をタッチして、画面(251)内にある全てのグループ(252,243,254,255及び256)に関連付けられた話者の音声全てを低減乃至は除去した後に、グループ256内のアイコン(256−4)をタッチすることによって、グループ256に関連付けられた話者の音声のみを強調するようにしてもよい。また、代替的には、電子装置システム(210)は、ユーザが各グループ(252,243,254,255及び256)の領域内でタッチを繰り返すことによって、同一のグループ内で音声の強調と音声の低減乃至は除去とを切り替えるようにしうる。
図3Aは、本発明の実施態様において使用されうる、グループの修正方法(分離の場合)を可能にするユーザ・インターフェースの例を示す。
図3Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(310)を所持し、当該電子装置システム(310)に有線又は無線で接続されたヘッドフォンを装着したユーザ(301)、並びに、当該ユーザ(301)の周辺にいる人(302,303及び304)、及び、電車に備え付けのスピーカ(306)を示す。電車に備え付けのスピーカ(306)からは、電車の車掌からのアナウンスが放送される。
まず、図3Aの上側に示す図について説明する。
電子装置システム(310)は、当該電子装置システム(310)に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム(310)は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム(310)は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。また、電子装置システム(310)は、上記グループ分けされた音声をテキスト化する。その結果が図3Aの上側に示す図である。
図3Aでは、当該グループ分けに応じて、3つのグループ312,313及び314(それぞれ、302−1,303−1及び304−1に対応する)にグループ分けされている。しかしながら、グループ314は、人(304)からの音声とスピーカ(306)からの音声とがまとめられて1つのグループ(314)になってしまっている。すなわち、電子装置システム(310)が、複数の話者を1つのグループとして誤って推定してしまっている。
そこで、ユーザは、グループ314から、スピーカ(306)からの音声を別のグループとして分離したいとする。ユーザは、分離したい対象のテキストを指(301−2)で囲むように選択して、グループ(314)外へドラッグする(矢印を参照)。
電子装置システム(310)は、上記ドラッグに応じて、人(304)の音声の特徴量と、スピーカ(306)からの音声の特徴量を再計算し、両者の特徴量を区別する。そして、電子装置システム(310)は、当該再計算後における音声のグループ化において、当該再計算された特徴量を使用する。
図3Aの下側に示す図は、上記計算後に、グループ314に対応するグループ324、及びグループ314から分離したテキストに対応するグループ326が、画面(321)上に表示されていることを示す。グループ324は人(304)に関連付けられている。グループ326は、スピーカ(306)に関連付けられている。
図3Bは、本発明の実施態様において使用されうる、グループの修正方法(マージの場合)を可能にするユーザ・インターフェースの例を示す。
図3Bは、図3Aの上側に示す図と同じ状況であり、電車内における本発明の実施態様の例を示す。
まず、図3Bの上側に示す図について説明する。
電子装置システム(310)は、当該電子装置システム(310)に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム(310)は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム(310)は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。また、電子装置システム(310)は、上記グループ分けされた音声をテキスト化する。その結果が図3Bの上側に示す図である。
図3Bでは、当該グループ分けに応じて、5つのグループ332,333,334,335及び336(それぞれ、302−3,303−3,304−3,306−3及び306−4に対応する)にグループ分けされている。しかしながら、グループ335及び336はスピーカ(306)からの音声であるにも関わらず、別の音声として分離されて2つのグループ(335及び336)になってしまっている。すなわち、電子装置システム(310)が、一人の話者を2つのグループとして誤って推定してしまっている。
そこで、ユーザは、グループ335とグループ336とをマージしたいとする。ユーザは、マージしたい対象のグループ又は当該グループ内のテキストを指(301−3)で囲むように選択して、グループ(335)内へドラッグする(矢印を参照)。
電子装置システム(310)は、上記ドラッグに応じて、上記ドラッグ以降における音声のグループ化において、グループ(335)の音声特徴量にグループ分けされる音声とグループ(336)の音声特徴量にグループ分けされる音声とを一つのグループとして扱う。代替的には、電子装置システム(310)は、上記ドラッグに応じて、グループ(335)の音声特徴量とグループ(336)の音声特徴量との間で共通する特徴量を抽出し、当該抽出された共通の特徴量を使用して、上記ドラッグ以降の音声のグループ分けを行う。
図3Bの下側に示す図は、上記ドラッグ以降に、グループ335及び336をマージしたグループ346が、画面(341)上に表示されていることを示す。グループ346は、スピーカ(306)に関連付けられている。
図4Aは、本発明の実施態様において使用されうる、音声を当該音声の特徴量に従いグループ分けし、当該グループ毎に表示するユーザ・インターフェースの例を示す。
図4Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(410)を所持し、当該電子装置システム(410)に有線又は無線で接続されたヘッドフォンを装着したユーザ(401)、並びに、当該ユーザ(401)の周辺にいる人(402,403,404、405、及び407)、及び、電車に備え付けのスピーカ(406)を示す。電車に備え付けのスピーカ(406)からは、電車の車掌からのアナウンスが放送される。
まず、図4Aの上側に示す図について説明する。
ユーザ(401)は、電子装置システム(410)に備えられた表示装置上の画面(411)に表示された、本発明に従うプログラムに関連付けられたアイコンをタッチして、当該プログラムを起動する。当該アプリケーションは、電子装置システム(410)に、下記の各ステップを実行させる。
電子装置システム(410)は、当該電子装置システム(410)に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム(410)は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム(410)は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。グループ分けされた一つのグループ単位が、一人の話者に対応しうる。従って、音声をグループ分けするということは、結果的に、音声を話者毎にグループ分けすることでもありうる。但し、電子装置システム(410)が自動的に行ったグループ分けが、常に正確であるとは限らない。この場合には、ユーザは、図3A及び図3Bで説明した上記方法と同様の方法を使用して、誤ったグループ分けを修正することが可能である。
図4Aでは、電子装置システム(410)は、収集した音声を、グループ412,413,414,415、416及び417の6つにグループ分けしている。電子装置システム(410)は、各グループ(412,413,414,415、416及び417)を、当該各グループに対応付けられた人がいる方向(すなわち、音声の発生源である)に近い位置で、又は上記方向及びユーザ(401)と当該各グループとの相対距離に対応するように上記表示装置上に表示しうる(図4A中の丸印が各グループに対応する)。電子装置システム(410)がこのように表示可能なユーザ・インターフェースを提供することによって、ユーザは画面(411)上で話者を直感的に特定することが可能になる。グループ412,413,414,415、及び417はそれぞれ、人(402,403,404,405、及び407)に対応し(又は関連付けられており)、且つグループ416はスピーカ406に対応する(又は関連付けられている)。
また、電子装置システム(410)は、各グループ(512,513,514,515、516及び517)について、各グループの特徴、例えば音声の大きさ、高さ、若しくは音質、又は各グループに関連付けられた話者の音声の特徴量に基づいて、当該各グループを色分けして表示することができる。例えば、男性の場合はグループ(例えば、グループ416及び417)の丸印を青で示し、女性の場合はグループ(例えば、グループ412,413)の丸印を赤で示し、無生物(スピーカーからの音声)の場合はグループ(例えば、グループ416)の丸印を緑で示しうる。また、例えば、声の大きさの程度によってグループの丸印を変更することができ、例えば声が大きくなるほど丸印が大きくなるように示しうる。また、例えば声の音質の程度によってグループの丸印を変更することができ、例えば音質の程度が低くなるほど丸印の縁取りの色が濃くなるように示しうる。
次に、図4Aの下側に示す図について説明する。
引き続き、電子装置システム(410)は、上記マイクロフォンを介して、周囲の音をさらに集音する。電子装置システム(410)は、さらに収集した音を解析して、当該さらに収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を新たに抽出する。電子装置システム(410)は、当該新たに抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。電子装置システム(410)は、上記新たに抽出した特徴量に基づいて、当該グループ分けした音声が先にグループ分けしたグループ(412,413,414,415、416及び417)のいずれのグループに属するかを決定する。代替的には、電子装置システム(410)は、上記新たに抽出した特徴量に基づいて、上記各音声が先にグループ分けしたグループ(412,413,414,415、416及び417)のいずれのグループに属するかをグループ分けすること無しに取り出された音声毎にどのグループに属するかを決定してもよい。
電子装置システム(410)は、人(402,403,404,405及び407)が経時的に移動する場合において、各グループ(412,413,414,415及び417)を、当該各グループに対応付けられた人が移動した方向(すなわち、音声の発生源である)に近い位置で、又は上記方向及びユーザ(401)と当該各グループとの相対距離に対応するように上記表示装置上に表示するように各グループの表示位置を移動して再表示しうる(画面421を参照)。また、電子装置システム(410)は、ユーザ(401)が経時的に移動する場合において、各グループ(412,413,414,415及び417、並びに416)を、ユーザ(401)から各人(402,403,404,405及び407)及びスピーカ(406)を見た各方向、又は当該方向及びユーザ(401)と当該各グループとの各相対距離に応じて上記表示装置上に表示するように当該各グループの表示位置を移動して再表示しうる(画面421を参照)。図4Aの下側に示す図において、再表示後の位置が、丸印422,423,424,425、426及び427で示されている。グループ427はグループ417に対応し、グループ417に関連付けられた話者が移動したために、グループ427を表す丸印が画面421上では画面411上と異なっている。また、再表示後のグループ423及び427の丸印はそれぞれ、再表示前のグループ413及び417の丸印よりも大きくなっていることから、グループ423及び427それぞれに関連付けられた話者の音声が大きくなっていることがわかる。また、電子装置システム(410)は、再表示後のグループ423及び427の丸印のアイコンを再表示前のグループ413及び417の丸印のアイコンの大きさで交互に表示して(従って、点滅表示になる)、声が大きくなった話者をユーザが容易に特定できるようにすることができる。
図4Bは、図4Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。
図4Bの上側に示す図は、画面(431)上の左下隅に唇上にバツ(×)印のアイコン(438)及び右下隅に星印のアイコン(439)が表示されている以外は、図4Aの上側に示す図と同じである。アイコン(438)は、画面(431)上に表示されているグループ(432,433,434、435,436及び437)であって、ユーザによってタッチされたグループに関連付けられた話者の音声をヘッドフォンから低減乃至は除去するために使用されるアイコンである。また、アイコン(439)は、画面(431)上に表示されているグループ(432,433,434、435,436及び437)であって、ユーザによってタッチされたグループに関連付けられた話者の音声全てがヘッドフォンから強調するために使用されるアイコンである。
ユーザ(401)は、グループ433及び434に関連付けられた2人の話者の音声のみを低減乃至は除去したいとする。ユーザは、指(401−1)で、まずアイコン438をタッチする。次に、ユーザは、指(401−2)でグループ433内の領域をタッチし、次に、指(401−3)でグループ434内の領域をタッチする。電子装置システム(410)は、ユーザからの当該タッチを受信して、グループ433及び434にそれぞれ関連付けられた各話者の音声のみをヘッドフォンから選択的に低減乃至は除去しうる。
図4Bの下側に示す図は、グループ443及び444(それぞれ、グループ433及び434に対応する)に関連付けられた話者の音声のみが選択的に低減された画面(441)を示す。グループ443及び444の縁取りが点線で表示されている。電子装置システム(410)は、グループ443内の領域でのタッチの回数が増えることに応じて、グループ443に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。同様に、電子装置システム(410)は、グループ444内の領域でのタッチの回数が増えることに応じて、グループ444に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。
ユーザ(401)は、グループ443に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン(449)をタッチし、引き続き、グループ443内の領域をタッチする。同様に、ユーザ(401)は、グループ444に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン(449)をタッチし、引き続き、グループ444内の領域をタッチする。
また、ユーザ(401)は、他のグループ(432,435,436又は437)についても同様に、アイコン438をタッチ後に、各グループ(432,435,436又は437)内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を低減乃至は除去することが可能である。
図4Bの上側に示す例において、画面(431)上で、アイコン(438)をタッチ後に、各グループ(432,433,434,435、436又は437)の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ(432,433,434,435、436又は437)に関連付けられた話者の音声を選択的に低減乃至は除去できることを示した。代替的には、ユーザは、各グループ(432,433,434,435、436又は437)内の各領域上に、指で例えばバツ(×)を描くことで、当該バツが描かれたグループに関連付けられた話者の音声を選択的に低減乃至は除去することが可能である。画面(441)上においても同様である。また、代替的には、電子装置システム(410)は、ユーザが各グループ(432,433,434,435、436又は437)の領域内でタッチを繰り返すことによって、同一のグループ内で音声の低減乃至は除去と音声の強調とを切り替えるようにしうる。
図4Cは、図4Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に強調する例を示す。
図4Cの上側に示す図は、図4Bの上側に示す図と同じである。
ユーザ(401)は、グループ456に関連付けられた話者の音声のみを強調したいとする。ユーザは、指(401−4)で、まずアイコン459をタッチする。次に、ユーザは、指(401−5)でグループ456内の領域をタッチする。電子装置システム(410)は、ユーザからの当該タッチを受信して、グループ456に関連付けられた話者の音声のみを選択的に強調しうる。また、電子装置システム(410)は任意的に、グループ456以外の各グループ(452,453,454,455及び457)に関連付けられた各話者の音声を自動的に低減乃至は除去しうる。
図4Cの下側に示す図は、グループ466(グループ456に対応する)に関連付けられた話者の音声のみが選択的に強調された画面(461)を示す。グループ462,463,464,465及び467の縁取りが点線で表示されている。すなわち、各グループ(462,463,464,465及び467)に関連付けられた話者の音声が自動的に低減乃至は除去されていることを示す。電子装置システム(410)は、グループ466内の領域でのタッチの回数が増えることに応じて、グループ466に関連付けられた話者の音声を徐々に大きくすることが可能である。また、電子装置システム(410)は、任意的に、グループ466に関連付けられた話者の音声が徐々に大きくなるにつれて、他のグループ(462,463,464,465及び467)に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。
ユーザ(401)は、グループ466に関連付けられた話者の音声を再度小さくしたい場合には、指でアイコン(468)をタッチし、引き続き、グループ466内の領域をタッチする。
また、ユーザ(401)は、他のグループ(452,453,454,455又は457)についても同様に、アイコン459をタッチ後に、各グループ(452,453,454,455又は457)内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を強調することが可能である。
図4Cの上側に示す例において、画面(451)上で、アイコン(459)をタッチ後に、各グループ(452,453,454,455、456又は457)の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ(452,453,454,455、456又は457)に関連付けられた話者の音声を選択的に強調できることを示した。代替的には、ユーザは、各グループ(452,453,454,455、456又は457)内の各領域上に、指で例えば略円(○)を描くことで、当該略円が描かれたグループに関連付けられた話者の音声を選択的に強調することが可能である。画面(461)上においても同様である。また、代替的には、電子装置システム(410)は、ユーザが各グループ(452,453,454,455、456又は457)の領域内でタッチを繰り返すことによって、音声の強調と音声の低減乃至は除去とを切り替えるようにしうる。
図5Aは、本発明の実施態様において使用されうる、音声に対応するテキスト当該音声の特徴量に従いグループ分けし、当該グループ毎にテキスト表示するユーザ・インターフェースの例を示す。
図5Aは、電車内における本発明の実施態様の例を示す。本発明に従う電子装置システム(510)を所持し、当該電子装置システム(510)に有線又は無線で接続されたヘッドフォンを装着したユーザ(501)、並びに、当該ユーザ(501)の周辺にいる人(502,503,504、505、及び507)、及び、電車に備え付けのスピーカ(506)を示す。電車に備え付けのスピーカ(506)からは、電車の車掌からのアナウンスが放送される。
まず、図5Aの上側に示す図について説明する。
ユーザ(501)は、電子装置システム(510)に備えられた表示装置上の画面(511)に表示された、本発明に従うプログラムに関連付けられたアイコンをタッチして、当該プログラムを起動する。当該アプリケーションは、電子装置システム(510)に、下記の各ステップを実行させる。
電子装置システム(510)は、当該電子装置システム(510)に装着されたマイクロフォンを介して、周囲の音を集音する。電子装置システム(510)は、収集した音を解析して、当該収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を抽出する。引き続き、電子装置システム(510)は、当該抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。グループ分けされた一つのグループ単位が、一人の話者に対応しうる。従って、音声をグループ分けするということは、結果的に、音声を話者毎にグループ分けすることでもありうる。但し、電子装置システム(510)が自動的に行ったグループ分けが、常に正確であるとは限らない。この場合には、ユーザは、図3A及び図3Bで説明した上記方法と同様の方法を使用して、誤ったグループ分けを修正することが可能である。
また、電子装置システム(510)は、上記グループ分けされた音声をテキスト化する。電子装置システム(510)は、当該音声に対応するテキストを上記グループ分けに従って、電子装置システム(510)に備えられた上記表示装置上に表示しうる。上記した通り、グループ分けされた一つのグループ単位が一人の話者に対応しうるために、グループ分けされた一つのグループ単位中に、一人の話者の音声に対応しうるテキストが表示されうる。また、電子装置システム(510)は、上記グループ分けされたテキストを、各グループ内において時系列的に表示しうる。
図5Aでは、電子装置システム(510)は、収集した音声を、グループ512,513,514,515、516及び517の6つにグループ分けしている。電子装置システム(510)は、各グループ(512,513,514,515、516及び517)(すなわち、話者を示す)を、当該各グループに対応付けられた人がいる方向(すなわち、音声の発生源である)に近い位置で、又は上記方向及びユーザ(501)と当該各グループとの相対距離に対応するように上記表示装置上に表示しうる(図5A中の丸印が各グループに対応する)。グループ512,513,514,515、及び517はそれぞれ、人(502,503,504,505、及び507)に対応し(又は関連付けられており)、且つグループ516はスピーカ506に対応する(又は関連付けられている)。上記表示は例えば、話者を示すアイコン、例えば丸印のアイコンで表示されうる。
また、電子装置システム(510)は、各グループ(512,513,514,515、516及び517)から出る吹き出し内において、音声に対応するテキストを時系列で表示している。電子装置システム(510)は、当該学区グループから出ている吹き出しを、当該グループを示す丸印の近傍に表示しうる。
次に、図5Aの下側に示す図について説明する。
引き続き、電子装置システム(510)は、上記マイクロフォンを介して、周囲の音をさらに集音する。電子装置システム(510)は、さらに収集した音を解析して、当該さらに収集した音のうちから音声に関連付けられたデータを取り出し、当該データから音声の特徴量を新たに抽出する。電子装置システム(510)は、当該新たに抽出した特徴量に基づいて、上記音声を同じ人物が話していると推定される音声毎にグループ分けする。電子装置システム(510)は、上記新たに抽出した特徴量に基づいて、当該グループ分けした音声が先にグループ分けしたグループ(512,513,514,515、516及び517)のいずれのグループに属するかを決定する。代替的には、電子装置システム(510)は、上記新たに抽出した特徴量に基づいて、上記各音声が先にグループ分けしたグループ(512,513,514,515、516及び517)のいずれのグループに属するかをグループ分けすること無しに取り出された音声毎にどのグループに属するかを決定してもよい。電子装置システム(510)は、上記グループ分けされた音声をテキスト化する。
電子装置システム(510)は、人(502,503,504,505及び507)が経時的に移動する場合において、各グループ(512,513,514,515及び517)を、当該各グループに対応付けられた人が移動した方向(すなわち、音声の発生源である)に近い位置で、又は上記方向及びユーザ(501)と当該各グループとの相対距離に対応するように上記表示装置上に表示するように各グループの表示位置を移動して再表示しうる(画面521を参照)。また、電子装置システム(510)は、ユーザ(501)が経時的に移動する場合において、各グループ(502,503,504,505及び507、並びに506)を、ユーザ(501)から各人(502,503,504,及び505)及びスピーカ(506)を見た各方向、又は当該方向及びユーザ(501)と当該各グループとの各相対距離に応じて上記表示装置上に表示するように当該各グループの表示位置を移動して再表示しうる(画面521を参照)。図5Aの下側に示す図において、再表示後の位置が、丸印522,523,524,525、526及び527で示されている。
また、電子装置システム(510)は、上記テキストを、再表示後の各グループから出ている吹き出し中に、時系列で表示しうる。なお、電子装置システム(510)は、最新のテキストを表示するために、図5Aの上側に示した各グループから出ている吹き出し中に表示されているテキストの古いものから順に画面上から見えなくなるようにしうる。ユーザ(501)は例えば、各グループ(512,513,514,515、516及び517)内に表示されている上向き△のアイコン(図示せず)をタッチすることによって、見えなくされたテキストを閲覧することが可能である。代替的には、ユーザは、各グループ(512,513,514,515、516及び517)内に指をおいて上向きに当該指をスワイプすることによって、見えなくされたテキストを閲覧することが可能である。また、ユーザは、各グループ(512,513,514,515、516及び517)内に表示されている下向き▽のアイコン(図示せず)をタッチすることによって、最新のテキストを閲覧することが可能である。代替的には、ユーザは、各グループ(512,513,514,515、516及び517)内に指をおいて下向きに当該指をスワイプすることによって、最新のテキストを閲覧することが可能である。
図5Bは、図5Aに示す例において、本発明の実施態様に従い、特定の話者の音声のみを選択的に低減乃至は除去する例を示す。
図5Bの上側に示す図は、画面(531)上の左下隅に唇上にバツ(×)印のアイコン(538)及び右下隅に星印のアイコン(539)が表示されている以外は、図5Aの上側に示す図と同じである。アイコン(538)は、画面(531)上に表示されているグループ(532,533,534、535,536及び537)であって、ユーザによってタッチされたグループに関連付けられた話者の音声をヘッドフォンから低減乃至は除去するために使用されるアイコンである。また、アイコン(539)は、画面(531)上に表示されているグループ(532,533,534、535,536及び537)であって、ユーザによってタッチされたグループに関連付けられた話者の音声全てがヘッドフォンから強調するために使用されるアイコンである。
ユーザ(501)は、グループ533及び534に関連付けられた2人の話者の音声のみを低減乃至は除去したいとする。ユーザは、指(501−1)で、まずアイコン538をタッチする。次に、ユーザは、指(501−2)でグループ533内の領域をタッチし、次に、指(501−3)でグループ534内の領域をタッチする。電子装置システム(510)は、ユーザからの当該タッチを受信して、グループ533及び534にそれぞれ関連付けられた各話者の音声のみをヘッドフォンから選択的に低減乃至は除去しうる。
図5Bの下側に示す図は、グループ543及び544(それぞれ、グループ533及び534に対応する)に関連付けられた話者の音声のみが選択的に低減された画面(541)を示す。グループ543及び544の縁取りが点線で表示されている。また、グループ543及び544それぞれから出ている吹き出しが削除されている。電子装置システム(510)は、グループ543内の領域でのタッチの回数が増えることに応じて、グループ543に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。同様に、電子装置システム(510)は、グループ544内の領域でのタッチの回数が増えることに応じて、グループ544に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。
ユーザ(501)は、グループ543に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン(549)をタッチし、引き続き、グループ543内の領域をタッチする。同様に、ユーザ(501)は、グループ544に関連付けられた話者の音声を再度大きくしたい場合には、指でアイコン(549)をタッチし、引き続き、グループ544内の領域をタッチする。
また、ユーザ(501)は、他のグループ(532,535,536又は537)についても同様に、アイコン538をタッチ後に、各グループ(532,535,536又は537)内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を低減乃至は除去することが可能である。
図5Bの上側に示す例において、画面(531)上で、アイコン(538)をタッチ後に、各グループ(532,533,534,535、536又は537)の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ(532,533,534,535、536又は537)に関連付けられた話者の音声を選択的に低減乃至は除去できることを示した。代替的には、ユーザは、各グループ(532,533,534,535、536又は537)内の各領域上に、指で例えばバツ(×)を描くことで、当該バツが描かれたグループに関連付けられた話者の音声を選択的に低減乃至は除去することが可能である。画面(541)上においても同様である。また、代替的には、電子装置システム(510)は、ユーザが各グループ(532,533,534,535、536又は537)の領域内でタッチを繰り返すことによって、同一のグループ内で音声の低減乃至は除去と音声の強調とを切り替えるようにしうる。
図5Cは、図5Aに示す例において、本発明の実施態様に従い特定の話者の音声のみを選択的に強調する例を示す。
図5Cの上側に示す図は、図5Bの上側に示す図と同じである。
ユーザ(501)は、グループ556に関連付けられた話者の音声のみを強調したいとする。ユーザは、指(501−4)で、まずアイコン559をタッチする。次に、ユーザは、指(501−5)でグループ556内の領域をタッチする。電子装置システム(510)は、ユーザからの当該タッチを受信して、グループ556に関連付けられた話者の音声のみを選択的に強調しうる。また、電子装置システム(510)は任意的に、グループ556以外の各グループ(552,553,554,555及び557)に関連付けられた各話者の音声を自動的に低減乃至は除去しうる。
図5Cの下側に示す図は、グループ566(グループ556に対応する)に関連付けられた話者の音声のみが選択的に強調された画面(561)を示す。グループ562,563,564,565及び567の縁取りが点線で表示されている。すなわち、各グループ(562,563,564,565及び567)に関連付けられた話者の音声が自動的に低減乃至は除去されていることを示す。電子装置システム(510)は、グループ566内の領域でのタッチの回数が増えることに応じて、グループ566に関連付けられた話者の音声を徐々に大きくすることが可能である。また、電子装置システム(510)は、任意的に、グループ566に関連付けられた話者の音声が徐々に大きくなるにつれて、他のグループ(562,563,564,565及び567)に関連付けられた話者の音声を徐々に小さくし、最終的に完全に除去することが可能である。
ユーザ(501)は、グループ566に関連付けられた話者の音声を再度小さくしたい場合には、指でアイコン(568)をタッチし、引き続き、グループ566内の領域をタッチする。
また、ユーザ(501)は、他のグループ(552,553,554,555又は557)についても同様に、アイコン559をタッチ後に、各グループ(552,553,554,555又は557)内の領域を指でタッチすることによって、当該タッチした領域に対応するグループに関連付けられた話者の音声を強調することが可能である。
図5Cの上側に示す例において、画面(551)上で、アイコン(559)をタッチ後に、各グループ(552,553,554,555、556又は557)の各領域内をタッチすることで、当該タッチされたアイコンに対応するグループ(552,553,554,555、556又は557)に関連付けられた話者の音声を選択的に強調できることを示した。代替的には、ユーザは、各グループ(552,553,554,555、556又は557)内の各領域上に、指で例えば略円(○)を描くことで、当該略円が描かれたグループに関連付けられた話者の音声を選択的に強調することが可能である。画面(561)上においても同様である。また、代替的には、電子装置システム(510)は、ユーザが各グループ(552,553,554,555、556又は557)の領域内でタッチを繰り返すことによって、音声の強調と音声の低減乃至は除去とを切り替えるようにしうる。
図6A〜図6Dは、本発明の一つの実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。
図6Aは、特定の話者の音声を加工する処理を行うためのメイン・フローチャートを示す。
ステップ601において、電子装置システム(101)は、本発明の実施態様に従う特定の話者の音声を加工する処理を開始する。
ステップ602において、電子装置システム(101)は、当該電子装置システム(101)に備えられているマイクロフォンを介して、音声を収集する。当該音声は例えば、周囲で断続的に話している人の声でありうる。本発明の実施態様において、電子装置システム(101)は、音声を含む音を収集する。電子装置システム(101)は、収集した音声のデータを電子装置システム(101)内のメモリ(103)又は記憶装置(108)に記録しうる。
電子装置システム(101)は、発言者(不特定多数でよく、事前登録された発話者である必要はない)の声の特徴から個人を特定することが可能である。当該技術は当業者に知られており、本発明の実施態様において、例えば、株式会社アドバンスト・メディアから発売されているAmiVoice(登録商標)が上記技術を実装している。
また、電子装置システム(101)は、発話者が複数であり、且つ移動している場合であっても、当該発話者の発生方向を特定し、且つ追跡し続けることが可能である。発話者の発生方向を特定し且つ追跡し続ける技術は当業者に知られており、例えば、特許文献2及び非特許文献1に当該技術が記載されている。特許文献2は、特許文献2に記載の発明に従う音声認識ロボットが、常に発話した発話者の方向を向いた状態で、発話者に応答することができる技術を記載する。非特許文献1は、独立成分分析に基づくブラインド音源分離をすることで、動き回る話者をリアルタイムで追跡しながら分離・再生する実時間音源分離を記載する。
ステップ603において、電子装置システム(101)は、ステップ602において収集した音声を解析して、各音声の特徴量を抽出する。本発明の実施態様において、電子装置システム(101)は、ステップ602において収集した音から(人の)音声を分離し、当該分離した音声を解析して、各音声の特徴量(すなわち、それぞれの話者の特徴でもある)を抽出する。特徴量の抽出は例えば、当業者に知られている声紋認証技術を使用して実施されうる。電子装置システム(101)は、抽出した特徴量を、例えば特徴量記憶手段(図8を参照)に記憶しうる。次に、電子装置システム(101)は、上記抽出した特徴量に基づいて、上記収集した音声を、同じ人物が話していると推定される音声毎に分離し、当該分離した音声をグループ分けする。従って、グループ分けした音声は、一人の話者の音声に対応しうる。電子装置システム(101)は、一つのグループ内において、当該グループに関連付けられた話者の発生内容を経時的に一連のシーケンスとして表示しうる。
ステップ604において、電子装置システム(101)は、当該電子装置システム(101)の画面上に上記グループが表示されるまでは、ステップ604の詳細を示す図6B(グループ分けの修正処理)に示されているように、ステップ611,ステップ612(No),ステップ614(No),そしてステップ616を経由して、次のステップ605に進む。すなわち、ステップ604において、電子装置システム(101)は、図6Bに示すステップ612及びステップ614の判断処理以外は実質的に何も行わずに通過する。グループ分けの修正処理については、図6Bを参照して、以下において別途詳細に説明する。
ステップ605において、電子装置システム(101)は、当該電子装置システム(101)の画面上に上記グループが表示されるまでは、ステップ604の詳細を示す図6C(音声の加工処理)に示されているように、ステップ621,ステップ622(No),ステップ624(No),ステップ626(Yes)、ステップ627、ステップ628,そしてステップ629を実行する。すなわち、ステップ605において、電子装置システム(101)は、ステップ603において得られた各グループについての音声設定を「通常」(すなわち、強調処理、及び、低減乃至は除去処理のいずれも行わないということ)に設定する(図6Cのステップ626を参照)。本発明の実施態様において、音声設定には、「通常」、「強調」及び「低減乃至は除去」がある。音声設定が「通常」である場合には、当該「通常」が付されたグループに関連付けられた話者について音声の加工は行われない。音声設定が「強調」である場合には、当該「強調」が付されたグループに関連付けられた話者の音声が強調される。音声設定が「低減乃至は除去」である場合には、当該「低減乃至は除去」が付されたグループに関連付けられた話者の音声が低減乃至は除去される。このように、音声設定は、各グループに関連付けられた音声の加工をどのようにするかを電子装置システム(101)が判断可能なようにグループに紐付けられうる。音声の加工処理については、図6Cを参照して、以下において別途詳細に説明する。
ステップ606において、電子装置システム(101)は、当該電子装置システム(101)の画面上にグループを視認できるように表示しうる。電子装置システム(101)は例えば、当該グループをアイコンで表示しうる(図4A〜図4C及び図5A〜図5Cを参照)。代替的には、電子装置システム(101)は、当該グループを当該グループに属する音声に対応するテキストを例えば吹き出しの形で表示しうる(図2A〜図2Cを参照)。電子装置システム(101)は、任意的に、当該グループに関連付けられた話者の音声のテキストを当該グループに関連付けて表示しうる。グループの表示処理については、図6Dを参照して、以下において別途詳細に説明する。
ステップ607において、電子装置システム(101)は、ユーザからの指示を受信する。電子装置システム(101)は、当該ユーザ指示が音の声強調処理又は低減乃至は除去処理のいずれかの加工指示であるかを判断する。電子装置システム(101)は、当該ユーザ指示が上記音声の加工指示であることに応じて、処理をステップ605に戻す。一方、電子装置システム(101)は、当該ユーザ指示が上記音声の加工指示でないことに応じて、処理をステップ608に進める。ステップ605において、電子装置システム(101)は、当該ユーザ指示が音声の強調処理又は低減乃至は除去処理のいずれかの加工指示であることに応じて、当該加工指示の対象であるグループに属する音声を強調処理又は低減乃至は除去処理する。音声の加工処理については、先に述べた通り、図6Cを参照して、以下において別途詳細に説明する。
ステップ608において、電子装置システム(101)は、ステップ607で受信したユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であるかを判断する。電子装置システム(101)は、当該ユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であることに応じて、処理をステップ604に戻す。一方、電子装置システム(101)は、当該ユーザ指示がグループ分けの修正処理でないことに応じて、処理をステップ609に進める。処理がステップ604に戻ったことに応じて、電子装置システム(101)は、当該ユーザ指示がグループの分離である場合には、グループを2つに分離し(図3Aの例を参照)、一方、当該ユーザ指示がグループのマージ(統合)である場合には、少なくとも2つのグループを1つのグループにマージする(図3Bの例を参照)。グループ分けの修正処理については、先に述べた通り、図6Bを参照して、以下において別途詳細に説明する。
ステップ609において、電子装置システム(101)は、特定の音声を加工する処理を終了するかを判断する。当該処理を終了するとの判断は例えば、本発明の実施態様に従うコンピュータ・プログラムを実装したアプリケーションが終了した場合に行われうる。電子装置システム(101)は、当該処理を終了することに応じて、処理を終了ステップ610に進める。一方、電子装置システム(101)は、当該処理を継続することに応じて、処理をステップ602に戻し、音声の収集を継続する。なお、電子装置システム(101)は、ステップ602〜606の処理をステップ607〜609の処理が行われている場合においても並行して実施している。
ステップ610において、電子装置システム(101)は、本発明の実施態様に従う特定の話者の音声を加工する処理を終了する。
図6Bは、図6Aに示すフローチャートのステップ604(グループ分けの修正処理)を詳述したフローチャートを示す。
ステップ611において、電子装置システム(101)は、音声のグループ分けの修正処理を開始する。
ステップ612において、電子装置システム(101)は、ステップ607で受信したユーザ処理がグループの分離操作であるかを判断する。電子装置システム(101)は、当該ユーザ処理がグループの分離操作であることに応じて、処理をステップ613に進める。一方、電子装置システム(101)は、当該ユーザ処理がグループの分離操作でないことに応じて、処理をステップ614に進める。
ステップ613において、電子装置システム(101)は、ユーザ処理がグループの分離操作であることに応じて、分離された音声の特徴量をそれぞれ再計算し、当該再計算されたそれぞれの特徴量を電子装置システム(101)内のメモリ(103)又は記憶装置(108)に記録しうる。当該再計算されたそれぞれの特徴量は、以後の音声のグループ分けのために使用される。上記した分離操作に応じて、電子装置システム(101)は、ステップ606において、画面上のグループ表示を、上記分離されたグループに基づいて再表示することが可能になる。すなわち、電子装置システム(101)は、誤って1つのグループとされたグループを2つのグループに正しく分離して表示することが可能になる。
ステップ614において、電子装置システム(101)は、ステップ607で受信したユーザ処理が少なくとも2つのグループのマージ(統合)操作であるかを判断する。電子装置システム(101)は、当該ユーザ処理がマージ操作であることに応じて、処理をステップ615に進める。一方、電子装置システム(101)は、当該ユーザ処理がマージ操作でないことに応じて、処理をグループ分けの修正処理の終了操作であるステップ616に進める。
ステップ615において、電子装置システム(101)は、ユーザ処理がマージ操作であることに応じて、ユーザによって特定された少なくとも2つのグループをマージする。電子装置システム(101)は、以後のステップにおいて、マージされたグループそれぞれの特徴量を有する音声を1つのグループとして扱う。すなわち、電子装置システム(101)は、2つのグループの各特徴量を有する音声を上記マージされた1つのグループに属するものとして扱う。代替的には、電子装置システム(101)は、マージされた少なくとも2つのグループの各特徴量の共通する特徴量を抽出し、当該抽出した共通する特徴量を電子装置システム(101)内のメモリ(103)又は記憶装置(108)に記録しうる。当該抽出した共通する特徴量は、以後の音声のグループ分けのために使用される。
ステップ616において、電子装置システム(101)は、音声のグループ分けの修正処理を終了し、処理を図6Aに示すステップ605に進める。
図6Cは、図6Aに示すフローチャートのステップ605(音声の加工処理)を詳述したフローチャートを示す。
ステップ621において、電子装置システム(101)は、音声の加工処理を開始する。
ステップ622において、電子装置システム(101)は、ステップ607で受信したユーザ指示が当該ユーザによって選択されたグループ中の音声を低減乃至は除去処理するものであるかを判断する。電子装置システム(101)は、上記ユーザ処理が上記音声を低減乃至は除去処理するものであることに応じて処理をステップ623に進める。一方、電子装置システム(101)は、上記ユーザ指示が上記音声を低減乃至は除去処理するものでないことに応じて、処理をステップ624に進める。
ステップ623において、電子装置システム(101)は、ユーザからの指示が低減乃至は除去処理であることに応じて、上記グループの音声設定を低減乃至は除去に変更する。また、電子装置システム(101)は、任意的に、上記グループ以外のグループの音声設定を強調に変更しうる。
ステップ624において、電子装置システム(101)は、ステップ607で受信したユーザ指示が当該ユーザによって選択されたグループ中の音声を強調するものであるかを判断する。電子装置システム(101)は、上記ユーザ処理が上記音声を強調処理するものであることに応じて、処理をステップ625に進める。一方、電子装置システム(101)は、上記ユーザ指示が上記音声を強調処理するものでないことに応じて、処理をステップ626に進める。
ステップ625において、電子装置システム(101)は、ユーザからの指示が強調処理であることに応じて、上記グループの音声設定を強調に変更する。また、電子装置システム(101)は、任意的に、上記グループ以外のグループの音声設定を低減乃至は除去に変更しうる。
ステップ626において、電子装置システム(101)は、ステップ602で収集し、ステップ603で特徴量に基づいて音声を分離した各グループに関連付けられた話者の音声についての初期化処理であるかを判断する。代替的には、電子装置システム(101)は、受信したユーザ指示によって、該当ユーザによって選択されたグループに関連付けられた話者の音声を初期化処理すると判断してもよい。電子装置システム(101)は、上記初期化処理であることに応じて、処理をステップ627に進める。一方、電子装置システム(101)は、上記初期化処理でないことに応じて、処理を終了ステップ629に進める。
ステップ627において、電子装置システム(101)は、ステップ603で得られた各グループについての音声設定を「通常」(すなわち、強調処理、及び、低減乃至は除去処理のいずれも行わないということ)に設定する。音声設定が「通常」である場合には、音声の加工は行われない。
ステップ628において、電子装置システム(101)は、各グループに設定された音声設定に従って、各グループに関連付けられた話者の音声を加工する。すなわち、電子装置システム(101)は、各グループに関連付けられた話者の音声を低減乃至は除去し、又は強調する。加工処理された音声は、電子装置システム(101)の音声信号出力手段、例えばヘッドフォン、イヤホン、補聴器、又はスピーカから出力される。
ステップ629において、電子装置システム(101)は、音声の加工処理を終了する。
図6Dは、図6Aに示すフローチャートのステップ606(グループの表示処理)を詳述したフローチャートを示す。
ステップ631において、電子装置システム(101)は、グループの表示処理を開始する。
ステップ632において、電子装置システム(101)は、音声をテキスト化するかを判断する。電子装置システム(101)は、音声をテキスト化することに応じて、処理をステップ633に進める。一方、電子装置システム(101)は、音声をテキスト化しないことに応じて、処理をステップ634に進める。
ステップ633において、電子装置システム(101)は、音声をテキスト化することに応じて、各グループ内に、当該音声に対応するテキストを経時的に画面上に表示しうる(図2A及び図5Bを参照)。また、電子装置システム(101)は、任意的に、音源の方向及び/又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによってテキストの表示を動的に変更しうる。
また、ステップ634において、電子装置システム(101)は、音声をテキスト化しないことに応じて、各グループを示すアイコンを画面上に表示しうる(図4Aを参照)。また、電子装置システム(101)は、任意的に、音源の方向及び/又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによって各グループを示すアイコンの表示を動的に変更しうる。
ステップ635において、電子装置システム(101)は、グループの表示処理を終了し、処理を図6Aに示すステップ607に進める。
図7A〜図7Dは、本発明の他の実施態様に従い、特定の話者の音声を加工する処理を行うためのフローチャートを示す。
図7Aは、特定の話者の音声を加工する処理を行うためのメイン・フローチャートを示す。
ステップ701において、電子装置システム(101)は、本発明の実施態様に従う特定の話者の音声を加工する処理を開始する。
ステップ702において、電子装置システム(101)は、図6Aのステップ602と同様にして、当該電子装置システム(101)に備えられているマイクロフォンを介して音声を収集し、当該収集した音声のデータを電子装置システム(101)内のメモリ(103)又は記憶装置(108)に記録しうる。
ステップ703において、電子装置システム(101)は、図6Aのステップ603と同様にして、ステップ702において収集した音声を解析して、各音声の特徴量を抽出する。
ステップ704において、電子装置システム(101)は、ステップ703で抽出した特徴量に基づいて、上記収集した音声を、同じ人物が話していると推定される音声毎にグループ分けする。従って、グループ分けした音声は、一人の話者の音声に対応しうる。
ステップ705において、電子装置システム(101)は、ステップ704でのグループ分けに従い、電子装置システム(101)の画面上にグループを視認できるように表示しうる。電子装置システム(101)は例えば、当該グループをアイコンで表示しうる(図4A〜図4C及び図5A〜図5Cを参照)。代替的には、電子装置システム(101)は、当該グループを当該グループに属する音声に対応するテキストを例えば吹き出しの形で表示しうる(図2A〜図2Cを参照)。電子装置システム(101)は、任意的に、当該グループに関連付けられた話者の音声のテキストを当該グループに関連付けて表示しうる。グループの表示処理については、図7Bを参照して、以下において別途詳細に説明する。
ステップ706において、電子装置システム(101)は、ユーザからの指示を受信する。電子装置システム(101)は、当該ユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であるかを判断する。電子装置システム(101)は、当該ユーザ指示がグループの分離又はマージのいずれかのグループ分けの修正処理であることに応じて、処理をステップ707に進める。一方、電子装置システム(101)は、当該ユーザ指示がグループ分けの修正処理でないことに応じて、処理をステップ708に進める。
ステップ707において、電子装置システム(101)は、ステップ706で受信したユーザ指示がグループの分離であることに応じて、グループを2つに分離する(図3Aの例を参照)。一方、電子装置システム(101)は、当該ユーザ指示がグループのマージ(統合)であることに応じて、少なくとも2つのグループを1つのグループにマージする(図3Bの例を参照)。グループ分けの修正処理については、図7Cを参照して、以下において別途詳細に説明する。
ステップ708において、電子装置システム(101)は、ステップ706で受信したユーザ指示が音声の低減乃至は除去処理又は強調処理のいずれかの加工指示であるかを判断する。電子装置システム(101)は、当該ユーザ指示が上記音声の加工指示であることに応じて、処理をステップ709に進める。一方、電子装置システム(101)は、当該ユーザ指示が上記音声の加工指示でないことに応じて、処理をステップ710に進める。
ステップ709において、電子装置システム(101)は、ユーザ指示が上記加工指示であることに応じて、所定のグループに関連付けられた話者の音声を低減乃至は除去、又は強調する。音声の加工処理については、図7Dを参照して、以下において別途詳細に説明する。
ステップ710において、電子装置システム(101)は、ステップ706におけるユーザ指示及びステップ708におけるユーザ指示に応じて、電子装置システム(101)の画面上に最新の又は更新されたグループを視認できるように再表示しうる。また、電子装置システム(101)は、任意的に、当該最新の又は更新されたグループに関連付けられた話者の音声の最新のテキストを当該グループ内に又は当該グループに関連付けて表示しうる。グループの表示処理については、図7Bを参照して、以下において別途詳細に説明する。
ステップ711において、電子装置システム(101)は、特定の話者の音声を加工する処理を終了するか判断する。電子装置システム(101)は、当該処理を終了することに応じて、処理を終了ステップ712に進める。一方、電子装置システム(101)は、当該処理を継続することに応じて、処理をステップ702に戻し、音声の収集を継続する。なお、電子装置システム(101)は、ステップ702〜705の処理をステップ706〜711の処理が行われている場合においても並行して実施している。
ステップ712において、電子装置システム(101)は、本発明の実施態様に従う特定の話者の音声を加工する処理を終了する。
図7Bは、図7Aに示すフローチャートのステップ705及び710(グループの表示処理)を詳述したフローチャートを示す。
ステップ721において、電子装置システム(101)は、グループの表示処理を開始する。
ステップ722において、電子装置システム(101)は、音声をテキスト化するかを判断する。電子装置システム(101)は、音声をテキスト化することに応じて、処理をステップ723に進める。一方、電子装置システム(101)は、音声をテキスト化しないことに応じて、処理をステップ724に進める。
ステップ724において、電子装置システム(101)は、音声をテキスト化することに応じて、各グループ内に、当該音声に対応するテキストを経時的に画面上に表示しうる(図2A及び図5Bを参照)。また、電子装置システム(101)は、任意的に、音源の方向及び/又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによってテキストの表示を動的に変更しうる。
また、ステップ724において、電子装置システム(101)は、音声をテキスト化しないことに応じて、各グループを示すアイコンを画面上に表示しうる(図4Aを参照)。また、電子装置システム(101)は、任意的に、音源の方向及び/又は、距離、音の高さ、大きさ若しくは音質、音声の時系列、又は、特徴量などによって各グループを示すアイコンの表示を動的に変更しうる。
ステップ725において、電子装置システム(101)は、グループの表示処理を終了する。
図7Cは、図7Aに示すフローチャートのステップ707(グループ分けの修正処理)を詳述したフローチャートを示す。
ステップ731において、電子装置システム(101)は、音声のグループ分けの修正処理を開始する。
ステップ732において、電子装置システム(101)は、ステップ706で受信したユーザ処理がグループの分離操作であるかを判断する。電子装置システム(101)は、当該ユーザ処理がグループの分離操作であることに応じて、処理をステップ733に進める。一方、電子装置システム(101)は、当該ユーザ処理がグループの分離操作でないことに応じて、処理をステップ734に進める。
ステップ733において、電子装置システム(101)は、ユーザ処理がグループの分離操作であることに応じて、分離された音声の特徴量をそれぞれ再計算し、当該再計算されたそれぞれの特徴量を電子装置システム(101)内のメモリ(103)又は記憶装置(108)に記録しうる。当該再計算されたそれぞれの特徴量は、以後の音声のグループ分けのために使用される。上記した分離操作に応じて、電子装置システム(101)は、ステップ710において、画面上のグループ表示を、上記分離されたグループに基づいて再表示することが可能になる。すなわち、電子装置システム(101)は、誤って1つのグループとされたグループを2つのグループに正しく分離して表示することが可能になる。
ステップ734において、電子装置システム(101)は、ステップ708で受信したユーザ処理又はステップ706で受信したユーザ処理が少なくとも2つのグループのマージ(統合)操作であるかを判断する。電子装置システム(101)は、当該ユーザ処理がマージ操作であることに応じて、処理をステップ735に進める。一方、電子装置システム(101)は、当該ユーザ処理がマージ操作でないことに応じて、処理をグループ分けの修正処理の終了操作であるステップ736に進める。
ステップ735において、電子装置システム(101)は、ユーザ処理がマージ操作であることに応じて、ユーザによって特定された少なくとも2つのグループをマージする。電子装置システム(101)は、以後のステップにおいて、マージされたグループそれぞれの特徴量を有する音声を1つのグループとして扱う。すなわち、電子装置システム(101)は、2つのグループの各特徴量を有する音声を上記マージされた1つのグループに属するものとして扱う。代替的には、電子装置システム(101)は、マージされた少なくともグループそれぞれの特徴量の共通する特徴量を抽出し、当該抽出した共通する特徴量を電子装置システム(101)内のメモリ(103)又は記憶装置(108)に記録しうる。当該抽出した共通する特徴量は、以後の音声のグループ分けのために使用される。
ステップ736において、電子装置システム(101)は、音声のグループ分けの修正処理を終了し、処理を図7Aに示すステップ708に進める。
図7Dは、図7Aに示すフローチャートのステップ709(音声の加工処理)を詳述したフローチャートを示す。
ステップ741において、電子装置システム(101)は、音声の加工処理を開始する。
ステップ742において、電子装置システム(101)は、ユーザからの指示が選択されたグループ中の音声を強調処理するかを判断する。電子装置システム(101)は、ユーザからの指示が音声の強調処理であることに応じて、処理をステップ743に進める。電子装置システム(101)は、ユーザからの指示が音声の強調処理でないことに応じて、処理をステップ744に進める。
ステップ743において、電子装置システム(101)は、ユーザからの指示が音声の強調処理であることに応じて、上記選択されたグループの音声設定を強調に変更する。電子装置システム(101)は、当該変更された音声設定(強調)を、例えば図8に示す音声シーケンス選択記憶手段(813)に格納しうる。また、電子装置システム(101)は、任意的に、上記選択されたグループ以外のグループ全ての音声設定を低減乃至は除去に変更しうる。電子装置システム(101)は、当該変更された音声設定(低減乃至は除去)を、例えば図8に示す音声シーケンス選択記憶手段(813)に格納しうる。
ステップ744において、電子装置システム(101)は、ユーザからの指示が選択されたグループ中の音声を低減乃至は除去処理するかを判断する。電子装置システム(101)は、ユーザからの指示が音声の低減乃至は除去処理であることに応じて、処理をステップ745に進める。電子装置システム(101)は、ユーザからの指示が音声の低減乃至は除去処理でないことに応じて、処理を終了ステップ750に進める。
ステップ745において、電子装置システム(101)は、ユーザからの指示が音声の低減乃至は除去処理であることに応じて、上記選択されたグループの音声設定を低減乃至は除去に変更する。電子装置システム(101)は、当該変更された音声設定(低減乃至は除去)を、例えば図8に示す音声シーケンス選択記憶手段(813)に格納しうる。
ステップ746において、電子装置システム(101)は、各グループに設定された音声設定に従って、各グループに関連付けられた話者の音声を加工する。すなわち、電子装置システム(101)は、処理対象のグループの音声設定が強調処理である場合には、当該グループに関連付けられた話者の音声を、例えば音声シーケンス記憶手段(下記図8を参照)から取得し、当該取得した音声を強調し、一方、処理対象のグループの音声設定が低減乃至は除去処理である場合には、当該グループに関連付けられた話者の音声を、例えば音声シーケンス記憶手段(下記図8を参照)から取得し、当該取得した音声を低減乃至は除去する。加工処理された音声は、電子装置システム(101)の音声信号出力手段、例えばヘッドフォン、イヤホン、補聴器、又はスピーカから出力される。
ステップ747において、電子装置システム(101)は、音声の加工処理を終了する。
図8は、図1に従う電子装置システム(101)のハードウェア構成を好ましくは備えており、本発明の実施態様に従い、特定の話者の音声を加工する電子装置システム(101)の機能ブロック図の一例を示した図である。
電子装置システム(101)は、集音手段(801)、特徴量抽出手段(802)、テキスト化手段(803)、グループ分け手段(804)、音声シーケンス表示・選択受付手段(805)、提示手段(806)、音声信号解析手段(807)、音声信号逆位相生成手段(808)、音声信号合成手段(809)、及び音声信号出力手段(810)を備えうる。電子装置システム(101)は、上記各手段(801〜810)を一つの電子装置内に備えていてもよく、又は上記各手段を複数の電子装置に分散して備えていてもよい。どの手段をどのように分散するかは、例えば電子装置の処理能力に応じて決定されうる。
また、電子装置システム(101)は、特徴量記憶手段(811)、音声シーケンス記憶手段(812)、及び音声シーケンス選択記憶手段(813)を備えうる。電子装置システム(101)のメモリ(103)又は記憶装置(108)は、上記各手段(811〜813)の機能を包含しうる。また、電子装置システム(101)は、上記各手段(811〜813)を一つの電子装置内に備えていてもよく、又は上記各手段(811〜813)を複数の電子装置のメモリ又は記憶手段に分散して備えていてもよい。どの手段をどの電子装置又はメモリ若しくは記憶装置に分散するかは、例えば上記各手段(811〜813)に記憶されるデータのサイズ又はデータが取り出される優先順位に応じて当業者が適宜決定することが可能でありうる。
集音手段(801)は、音声を収集する。また、集音手段(801)は、図6Aのステップ602及び図7Aのステップ702(いずれも、音声の収集)を実行しうる。集音手段(801)は、電子装置システム(101)内に埋め込まれた又は電子装置システム(101)に有線又は無線で接続されたマイクロフォン、例えば指向性マイクロフォンでありうる。電子装置システム(101)は、指向性マイクロフォンを使用する場合、音声を収集する方向を連続的に切り替えることによって、音声が聞こえてくる方向(すなわち、音声の発生源の方向)を特定することが可能になる。
また、集音手段(801)は、音声の発生源の方向、又は上記音声の発生源の方向及び距離を特定する特定手段(図示せず)を備えていてもよい。代替的には、電子装置システム(101)が、上記特定手段を備えていてもよい。
特徴量抽出手段(802)は、集音手段(801)が収集した音声を解析して、当該音声の特徴量を抽出する。特徴量抽出手段(802)は、図6Aのステップ603及び図7Aのステップ703にける、収集した音声の特徴量の抽出を実行しうる。特徴量抽出手段(802)は、当業者に知られている声紋認証エンジンを実装しうる。また、特徴量抽出手段(802)は、図6Bのステップ613及び図7Cのステップ733における分離されたグループの音声の特徴量の再計算、並びに、図6Bのステップ615及び図7Cのステップ735におけるマージされたグループそれぞれの特徴量のうちの共通する特徴量の抽出を実行しうる。
テキスト化手段(803)は、特徴量抽出手段(802)が抽出した音声をテキスト化する。テキスト化手段(803)は、図6Dのステップ632及び図7Bのステップ722(音声をテキスト化するかの判断処理)、並びに、図6Dのステップ633及び図7Bのステップ723(音声のテキスト化処理)を実行しうる。テキスト化手段(803)は、当業者に知られている音声をテキスト化するエンジンを実装しうる。テキスト化手段(803)は例えば、「音響分析」機能及び「認識デコーダ」機能の2つを実装しうる。「音響分析」では、発話者の音声をコンパクトなデータに変換し、「認識デコーダ」ではそのデータを解析してテキスト化しうる。テキスト化手段(803)は例えば、AmiVoice(登録商標)に搭載されている音声認識エンジンでありうる。
グループ分け手段(804)は、特徴量抽出手段(802)が抽出した音声の特徴量に基づいて、上記音声に対応するテキストをグループ分けするか又は上記音声をグループ分けする。また、グループ分け手段(804)は、テキスト化手段(803)から得られたテキストをグループ分けしうる。グループ分け手段(804)は、図6Aのステップ603におけるグループ分け及びステップ604のグループ分けの修正処理、並びに、図7Aのステップ704(音声のグループ分け)、及び図7Cに示すステップ732(分離操作であるかどうかの判断)及びステップ734(マージ操作であるかどうかの判断)を実行しうる。また、グループ分け手段(804)は、図6Bのステップ613及び図7Cに示すステップ733(分離されたグループの音声の再計算された特徴量の記録)、並びに、図6Bのステップ615及び図7Cのステップ735(マージされたグループそれぞれの特徴量のうちの共通する特徴量の記録)を実行しうる。
音声シーケンス表示・選択受付手段(805)は、図6Dのステップ634及び図7Bのステップ724(いずれも、グループにおけるテキスト表示)を実行しうる。また、音声シーケンス表示・選択受付手段(805)は、図6Cのステップ623、ステップ625及びステップ627における、並びに、図7Dのステップ743及びステップ745における各グループに設定された音声設定を受け付ける。音声シーケンス表示・選択受付手段(805)は、グループ毎に設定された各音声設定を音声シーケンス選択記憶手段(813)に格納しうる。
提示手段(806)は、グループ分け手段(804)がグループ分けした結果をユーザに提示する。また、提示手段(806)は、テキスト化手段(803)から得られたテキストを、グループ分け手段(804)によるグループ分けに従い表示しうる。また、提示手段(806)は、テキスト化手段(803)から得られたテキストを時系列的に表示しうる。また、提示手段(806)は、グループ分け手段(804)によってグループ分けされたテキストに続けて、当該グループに関連付けられた上記話者の後続する音声に対応するテキストを表示しうる。また、提示手段(806)は、グループ分け手段(804)によってグループ分けされたテキストを提示手段(806)上の上記特定された方向に近い位置において、又は上記特定された方向及び距離に対応する提示手段(806)上の所定の位置において表示しうる。また、提示手段(806)は、話者が移動することに応じて、グループ分け手段(804)によってグループ分けされたテキストの表示位置を変化しうる。また、提示手段(806)は、音声の大きさ、高さ、若しくは音質、又はグループ分け手段(804)によってグループに関連付けられた話者の音声の特徴量に基づいて、テキスト化手段(803)から得られたテキストの表示方式を変更しうる。また、提示手段(806)は、音声の大きさ、高さ、若しくは音質、又は上記グループに関連付けられた話者の音声の特徴量に基づいて、グループ分け手段(804)によってグループ分けされたグループを色分けして表示しうる。当該提示手段(806)は例えば、表示装置(106)でありうる。図6Dのステップ634及び図7Bのステップ724における、各グループ内にテキストを経時的に画面上に表示すること、又は各グループを示すアイコンを画面上に表示することを実行しうる。
音声信号解析手段(807)は、集音手段(801)からの音声データを解析する。当該解析されたデータは、音声信号逆位相生成手段(808)において音声に対する逆位相の音波を生成するために、又は、音声信号合成手段(809)において音声が強調された合成音声若しくは音声が低減乃至は除去された合成音声を生成するために使用されうる。
音声信号逆位相生成手段(808)は、図6Cのステップ628及び図7Dのステップ746における音声の加工処理を実行しうる。音声信号逆位相生成手段(808)は、集音手段(801)からの音声データを使用して、低減乃至は除去したい音声に対する逆位相の音波を生成しうる。
音声信号合成手段(809)は、グループのうちの1つ以上がユーザによって選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する。音声信号合成手段(809)は、上記話者の音声を低減乃至は除去する場合には、音声信号逆位相生成手段(808)が生成した逆位相の音波を使用しうる。音声信号解析手段(807)からのデータと音声信号逆位相生成手段(808)で生成されたデータとを組み合わせて、特定の話者の音声を低減乃至は除去した音声を合成する。また、音声信号合成手段(809)は、選択されたグループに関連付けられた話者の音声を強調した後に、当該選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去しうる。また、音声信号合成手段(809)は、選択されたグループに関連付けられた話者の音声を低減乃至は除去した後に、当該選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調しうる。
音声信号出力手段(810)は、ヘッドフォン、イヤホン、補聴器又はスピーカを包含しうる。電子装置システム(101)は、音声信号出力手段(810)と有線又は無線(例えば、Bluetooth(登録商標))で接続しうる。音声信号出力手段(810)は、音声信号合成手段(809)からの合成された音声(話者の音声が強調された音声、又は、話者の音声が低減乃至は除去された音声)を出力する。また、音声信号出力手段(810)は、集音手段(801)からのデジタル処理された音声をそのまま出力しうる。
特徴量記憶手段(811)は、特徴量抽出手段(802)において抽出された、音声の特徴量を記憶する。
音声シーケンス記憶手段(812)は、テキスト化手段(803)から得られたテキストを記憶する。音声シーケンス記憶手段(812)は、提示手段(806)が当該テキストを時系列で表示することを可能にするタグ又は属性を当該テキストとともに記憶しうる。
音声シーケンス選択記憶手段(813)は、グループ毎に設定された各音声設定(すなわち、低減乃至は除去、又は強調)を格納する。

Claims (20)

  1. 特定の話者の音声を加工する方法であって、電子装置システムが、
    音声を収集するステップと、
    前記音声を解析して、当該音声の特徴量を抽出するステップと、
    前記抽出された特徴量に基づいて音声毎にグループ分けするステップと、
    ユーザ・インターフェースを通して、前記グループ分けの結果をユーザに提示するステップと、
    前記ユーザ・インターフェースを通して、強調し又は低減乃至は除去したい話者の音声が属するグループがユーザによって選択され指示されたかを判断するステップと、
    前記選択され指示されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する処理を実行するステップであって、
    音声を強調する指示に応答して、前記選択されたグループ以外のグループの音声を低減乃至は除去するか、前記選択されたグループの音声を強調するステップと、
    音声を低減乃至は除去する指示に応答して、前記選択されたグループの音声を低減乃至は除去するステップと、
    を実行することを含む、前記方法。
  2. 前記電子装置システムが、
    前記収集された音声をテキスト化するステップ
    を実行することをさらに含み、
    前記グループ分けの結果を提示するステップが、
    前記収集された音声に対応するテキストを前記グループ分けに従い表示するステップ
    を含む、請求項1に記載の方法。
  3. 前記テキストを表示するステップが、
    前記グループ分けされたテキストを時系列的に表示するステップ
    をさらに含む、請求項2に記載の方法。
  4. 前記テキストを表示するステップが、
    前記グループ分けされたテキストに続けて、当該グループに関連付けられた前記話者の後続する音声に対応するテキストを表示するステップ
    をさらに含む、請求項2に記載の方法。
  5. 前記電子装置システムが、
    前記音声の発生源の方向、又は前記音声の発生源の方向及び距離を特定するステップ
    をさらに実行することを含み、
    前記テキストを表示するステップが、
    前記グループ分けされたテキストを、表示装置上の前記特定された方向に近い位置において又は前記特定された方向及び距離に対応する前記表示装置上の所定の位置において表示するステップ
    を含む、請求項2に記載の方法。
  6. 前記テキストを表示するステップが、
    前記話者が移動することに応じて、前記グループ分けされたテキストの表示位置を変化するステップ
    をさらに含む、請求項5に記載の方法。
  7. 前記テキストを表示するステップが、
    前記音声の大きさ、高さ、若しくは音質、又は前記グループに関連付けられた話者の音声の特徴量に基づいて、前記テキストの表示方式を変更するステップ
    をさらに含む、請求項2に記載の方法。
  8. 前記テキストを表示するステップが、
    前記音声の大きさ、高さ、若しくは音質、又は前記グループに関連付けられた話者の音声の特徴量に基づいて、複数のグループの内、当該グループを色分けして表示するステップ
    をさらに含む、請求項2に記載の方法。
  9. 前記電子装置システムが、
    前記強調する指示の後に、前記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を低減乃至は除去するステップ、又は、
    前記低減乃至は除去する指示の後に、前記選択されたグループがユーザによって再び選択されることに応じて、当該選択されたグループに関連付けられた話者の音声を強調するステップ
    を実行することをさらに含む、請求項2に記載の方法。
  10. 前記電子装置システムが、
    前記グループ分けされたテキストのうちの一部のテキストをユーザが選択することを許すステップと、
    当該ユーザによって選択された一部のテキストの話者の音声を別のグループとして分離するステップと
    を実行することをさらに含む、請求項2に記載の方法。
  11. 前記電子装置システムが、
    前記分離された別のグループに関連付けられた話者の音声の特徴量を、前記分離元のグループに関連付けられた話者の音声の特徴量と区別するステップ
    を実行することをさらに含む、請求項10に記載の方法。
  12. 前記電子装置システムが、
    前記分離された別のグループに関連付けられた話者の音声の特徴量に従って、前記分離されたグループに関連付けられた話者の後続する音声に対応するテキストを当該分離されたグループ中に表示するステップ
    を実行することをさらに含む、請求項10に記載の方法。
  13. 前記電子装置システムが、
    前記グループの少なくとも2つをユーザが選択することを許すステップと、
    当該ユーザによって選択された少なくとも2つのグループを1つのグループとして合体するステップと
    を実行することをさらに含む、請求項2に記載の方法。
  14. 前記電子装置システムが、
    前記少なくとも2つのグループそれぞれに関連付けられた話者の各音声を一つのグループとしてまとめるステップと、
    前記一つのグループとしてまとめられた各音声に対応する各テキストを前記まとめられた一つのグループ内において表示するステップと
    を実行することをさらに含む、請求項13に記載の方法。
  15. 前記提示するステップが、前記特徴量に基づいて、前記音声をグループ分けし、当該グループ分けの結果を表示装置上に表示するステップを含み、
    前記電子装置システムが、
    前記音声の発生源の方向、又は前記音声の発生源の方向及び距離を特定するステップ
    をさらに実行することを含み、
    前記グループ分けの結果を表示装置上に表示するステップが、
    前記話者を示すアイコンを、前記表示装置上の前記特定された方向に近い位置において又は前記特定された方向及び距離に対応する前記表示装置上の所定の位置において表示するステップを含む、
    請求項1に記載の方法。
  16. 前記グループ分けの結果を表示するステップが、
    前記話者を示すアイコンの近傍に当該話者の音声に対応するテキストを表示するステップ
    をさらに含む、請求項15に記載の方法。
  17. 前記音声を低減乃至は除去するステップが、
    前記選択されたグループに関連付けられた前記話者の音声に対して、逆位相の音波を出力するステップ、又は、
    前記選択されたグループに関連付けられた前記話者の音声が低減乃至は除去された合成音声を再生することで、前記選択されたグループに関連付けられた話者の前記音声を低減乃至は除去するステップ
    を含む、請求項1に記載の方法。
  18. 特定の話者の音声を加工するための電子装置システムであって、
    音声を収集する集音手段と、
    前記音声を解析して、当該音声の特徴量を抽出する特徴量抽出手段と、
    前記抽出された特徴量に基づいて音声毎にグループ分けするグループ分け手段と、
    ユーザ・インターフェースを通して、前記グループ分けの結果をユーザに提示する提示手段と、
    前記ユーザ・インターフェースを通して、強調し又は低減乃至は除去したい話者の音声が属するグループがユーザによって選択され指示されたかを判断する判断手段と、
    前記選択され指示されたグループに関連付けられた話者の音声を強調し又は低減乃至は除去する処理を実行する音声処理実行手段であって、
    音声を強調する指示に応答して、前記選択されたグループ以外のグループの音声を低減乃至は除去するか、前記選択されたグループの音声を強調する手段と、
    音声を低減乃至は除去する指示に応答して、前記選択されたグループの音声を低減乃至は除去する手段と、
    を備えている、前記電子装置システム。
  19. 前記電子装置システムが、
    前記収集された音声をテキスト化するテキスト化手段
    をさらに備えており、
    前記提示手段が、前記収集された音声に対応するテキストを前記グループ分けに従い表示する、
    請求項18に記載の電子装置システム。
  20. 特定の話者の音声を加工するための電子装置システム用プログラムであって、電子装置システムに、請求項1〜17のいずれか一項に記載の方法の各ステップを実行させる、前記電子装置システム用プログラム。
JP2014552983A 2012-12-18 2013-10-29 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム Active JP6316208B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012275250 2012-12-18
JP2012275250 2012-12-18
PCT/JP2013/079264 WO2014097748A1 (ja) 2012-12-18 2013-10-29 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム

Publications (2)

Publication Number Publication Date
JPWO2014097748A1 JPWO2014097748A1 (ja) 2017-01-12
JP6316208B2 true JP6316208B2 (ja) 2018-04-25

Family

ID=50931946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552983A Active JP6316208B2 (ja) 2012-12-18 2013-10-29 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム

Country Status (3)

Country Link
US (1) US9251805B2 (ja)
JP (1) JP6316208B2 (ja)
WO (1) WO2014097748A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102138515B1 (ko) 2013-10-01 2020-07-28 엘지전자 주식회사 이동단말기 및 그 제어방법
KR102262853B1 (ko) 2014-09-01 2021-06-10 삼성전자주식회사 복수의 마이크를 포함하는 전자 장치 및 이의 운용 방법
US10388297B2 (en) * 2014-09-10 2019-08-20 Harman International Industries, Incorporated Techniques for generating multiple listening environments via auditory devices
US9558747B2 (en) * 2014-12-10 2017-01-31 Honeywell International Inc. High intelligibility voice announcement system
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
JP6760271B2 (ja) * 2015-10-08 2020-09-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10695663B2 (en) * 2015-12-22 2020-06-30 Intel Corporation Ambient awareness in virtual reality
US9818427B2 (en) * 2015-12-22 2017-11-14 Intel Corporation Automatic self-utterance removal from multimedia files
JP2017134713A (ja) * 2016-01-29 2017-08-03 セイコーエプソン株式会社 電子機器、電子機器の制御プログラム
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US10803857B2 (en) 2017-03-10 2020-10-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
CN110431549A (zh) * 2017-03-27 2019-11-08 索尼公司 信息处理装置、信息处理方法及程序
CN109427341A (zh) * 2017-08-30 2019-03-05 鸿富锦精密电子(郑州)有限公司 语音输入系统及语音输入方法
US10403288B2 (en) * 2017-10-17 2019-09-03 Google Llc Speaker diarization
KR102115222B1 (ko) * 2018-01-24 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
US10679602B2 (en) * 2018-10-26 2020-06-09 Facebook Technologies, Llc Adaptive ANC based on environmental triggers
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
JP7392259B2 (ja) * 2018-12-04 2023-12-06 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
JP2021135935A (ja) * 2020-02-28 2021-09-13 株式会社東芝 コミュニケーション管理装置及び方法
JP7405660B2 (ja) * 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
CN112562706B (zh) * 2020-11-30 2023-05-05 哈尔滨工程大学 一种基于时间潜在域特定说话人信息的目标语音提取方法
US11967322B2 (en) 2021-05-06 2024-04-23 Samsung Electronics Co., Ltd. Server for identifying false wakeup and method for controlling the same
JP7399413B1 (ja) 2022-02-21 2023-12-18 ピクシーダストテクノロジーズ株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088625B2 (ja) 1994-12-02 2000-09-18 東京電力株式会社 電話応答システム
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JPH10261099A (ja) * 1997-03-17 1998-09-29 Casio Comput Co Ltd 画像処理装置
JP4202640B2 (ja) 2001-12-25 2008-12-24 株式会社東芝 短距離無線通信用ヘッドセット、これを用いたコミュニケーションシステム、および短距離無線通信における音響処理方法
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2005215888A (ja) 2004-01-28 2005-08-11 Yasunori Kobori テキスト文の表示装置
JP4082611B2 (ja) * 2004-05-26 2008-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声収録システム、音声処理方法およびプログラム
JP2006189626A (ja) 2005-01-06 2006-07-20 Fuji Photo Film Co Ltd 記録装置及び音声記録プログラム
JP2007187748A (ja) 2006-01-11 2007-07-26 Matsushita Electric Ind Co Ltd 音選択加工装置
JP2008087140A (ja) 2006-10-05 2008-04-17 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP5383056B2 (ja) * 2007-02-14 2014-01-08 本田技研工業株式会社 音データ記録再生装置および音データ記録再生方法
JP2008250066A (ja) * 2007-03-30 2008-10-16 Yamaha Corp 音声データ処理システム、音声データ処理方法、及びプログラム
JP2008262046A (ja) * 2007-04-12 2008-10-30 Hitachi Ltd 会議可視化システム、会議可視化方法、及び集計処理サーバ
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
US8347247B2 (en) * 2008-10-17 2013-01-01 International Business Machines Corporation Visualization interface of continuous waveform multi-speaker identification
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP2011192048A (ja) * 2010-03-15 2011-09-29 Nec Corp 発言内容出力システム、発言内容出力装置及び発言内容出力方法
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
US20120059651A1 (en) * 2010-09-07 2012-03-08 Microsoft Corporation Mobile communication device for transcribing a multi-party conversation
JP2012098483A (ja) 2010-11-02 2012-05-24 Yamaha Corp 音声データ生成装置
JP6017854B2 (ja) * 2011-06-24 2016-11-02 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP5685177B2 (ja) 2011-12-12 2015-03-18 本田技研工業株式会社 情報伝達システム

Also Published As

Publication number Publication date
WO2014097748A1 (ja) 2014-06-26
US20140172426A1 (en) 2014-06-19
JPWO2014097748A1 (ja) 2017-01-12
US9251805B2 (en) 2016-02-02

Similar Documents

Publication Publication Date Title
JP6316208B2 (ja) 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
US11531518B2 (en) System and method for differentially locating and modifying audio sources
CN101681663B (zh) 处理音频数据的设备和方法
JP6600634B2 (ja) ユーザが制御可能な聴覚環境のカスタマイズのためのシステム及び方法
EP2831873B1 (en) A method, an apparatus and a computer program for modification of a composite audio signal
CN108141684A (zh) 声音输出设备、声音生成方法以及程序
US20200186912A1 (en) Audio headset device
CN106790940B (zh) 录音方法、录音播放方法、装置及终端
MXPA05007300A (es) Metodo para crear y tener acceso a un menu para contenido de audio sin usar un dispositivo de representacion visual.
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
EP3752891B1 (en) Systems and methods for identifying and providing information about semantic entities in audio signals
Weber Head cocoons: A sensori-social history of earphone use in West Germany, 1950–2010
KR102252665B1 (ko) 오디오 파일 재생 방법 및 장치
JP6897565B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
CN107278376A (zh) 在多个用户之间共享立体声的技术
WO2018079850A1 (ja) 信号処理装置、信号処理方法およびプログラム
CN110176231B (zh) 音响输出系统、音响输出方法及存储介质
US20060187336A1 (en) System, method and computer program product for distributed moderation of theatrical productions
WO2010140254A1 (ja) 映像音声出力装置及び音声定位方法
CN108304152A (zh) 手持式电子装置、影音播放装置以及其影音播放方法
JP7131550B2 (ja) 情報処理装置および情報処理方法
EP3657495A1 (en) Information processing device, information processing method, and program
US20240015462A1 (en) Voice processing system, voice processing method, and recording medium having voice processing program recorded thereon
EP3550560B1 (en) Information processing device, information processing method, and program
EP3731067A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180327

R150 Certificate of patent or registration of utility model

Ref document number: 6316208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150