JP5427622B2

JP5427622B2 - 音声変更装置、音声変更方法、プログラム及び記録媒体

Info

Publication number: JP5427622B2
Application number: JP2010012255A
Authority: JP
Inventors: 愛子肥爪; 正浩東
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2010-01-22
Filing date: 2010-01-22
Publication date: 2014-02-26
Anticipated expiration: 2030-01-22
Also published as: JP2011150191A

Description

本発明は、音声変更装置、音声変更方法、プログラム及び記録媒体に関し、特に任意の人物の音声を識別し、識別した音声を改善する音声変更装置、音声変更方法、プログラム及び記録媒体に関する。

マイクロフォン等の音声入力手段から入力された音声情報を識別する技術が様々提案されている。

例えば、入力された音声情報に基づき文字符号を入力する音声認識方式がアプリケーションプログラムとして実用化されている。会議において速記の代替として議事録作成などに該音声認識方式を利用する場合は、音声情報を識別し、発言者を特定する機能が必要となる。そこで会話収録中に撮像された複数枚の経時画像を比較し、唇の変化している顔画像を発言者と判定する会話収録装置が提案されている（特許文献１、段落００１１）。なお、その発言者の顔画像からサムネイル画像を生成し、文字符号列に変換した一塊の文字符号列のヘッダーとして生成した前記サムネイル画像を付加することで、後にどの発言（文字符号列）がどの発言者のものであるか容易に判断出来る。

また、予め発言者の音声特徴情報を記憶しておき、音声入力による記録時に、入力された音声情報と、予め記憶された発言者の音声特徴情報とを比較し、合致判定して発言者を特定する技術も提案されている（特許文献２）。特定された発言者の識別名を出力し、入力された音声情報を文字符号化した文字列（発言内容）と対応付けて記録することも可能である（特許文献２、段落００１１）。音声入力による記録時に、音声認識によって変換された文字符号に発言者の識別名を付加した後記録するため、後に発言者が不明になると言うことがない。

特開２００６−２３５７１２号公報特開平５−３５４４０号公報特開２００３−１６３７３７号公報

しかしながら、上記のような技術には、以下の問題点がある。

特許文献１に記載の発明は、その音声を発した人物を、その唇領域の変化を発見することで特定しているが、唇部分が経時画像に写っていない場合は、その音声を発声した人物を特定することが出来ない。

特許文献２に記載の発明は、会話に参加する全員の音声特徴情報を予め記録しておかなければならないため、負担が大きい。また、予め記録していない人物の音声は識別することが出来ない。

さらに、上記いずれの技術も、音声情報を文字符号化して発言者識別情報を付加するものであるため、入力された音声の音量が低い、又は音質が悪い場合等については特に考慮されていない。音声情報の識別は入力時に行っているため、既に入力された音声情報を再生時に識別することについても考慮されていない。

音声が聞き取り難い場合を考慮した技術として、特許文献３記載の携帯電話装置が提案されている。かかる携帯電話装置では、周囲雑音レベルと話者の音声レベルとを正確に比較し、周囲の雑音レベルが話者本人の発声音声レベルよりも高くなった場合に、雑音側音のみを低下させている。具体的には、携帯電話装置のマイクで集音された周囲雑音を含む送話者の送話音声信号に対して、送話者本人の発声音声の特徴パラメータにより送話者本人の音声信号が抽出され符号化された符号化信号を話者の音声レベルと認識し（特許文献３、段落００３４）、送話者本人の発声音声の特徴パラメータによる抽出がなされた後の符号化信号が周囲雑音レベルと認識される（特許文献３、段落００３５）。

しかしながら、特許文献３記載の発明は携帯電話装置に関するものであり、送話者は一人であることが前提となっており、複数人が同時に話している場合の音声情報において個人を特定することは考慮されていない。音声と人物が一対であることが前提となっている点は、特許文献１記載の会話収録装置も同様である。特許文献１記載の会話収録装置は、唇が変化している顔画像を発言者と判定しているため、複数人が同時に話している時に個人を特定し、音声を識別することが出来ない。

複数人が同時に発言している場合、例えば討論番組を視聴している際に議論が白熱し特定の人の声が聞こえ難くなる場合がある。このように複数人が登場する場合にも、任意の人物の音声を識別し、音声を変更して聞こえやすくなるよう改善したいというニーズがある。

また特許文献３記載の携帯電話装置は、送話者本人の発声音声の特徴パラメータを予め用意しなければならない点は、特許文献２と同様に負担が大きい。したがって、音声情報識別のために予め何らかの情報を用意していなくとも、音声情報と画像データから発言者を識別できるようにしたいというニーズがある。

本発明はこのような状況に鑑みてなされたものであり、任意の人物の音声を識別し、識別した音声を改善することを目的としている。

本発明に係る第１の音声変更装置は、複数の人物が撮像された動画データと音声情報とから成るビデオデータを保持するビデオデータ保持手段と、ユーザに指定された人物を認識する指定人物認識手段と、前記認識した指定人物の特徴を分析する指定人物特徴分析手段と、前記分析した特徴を有する人物の画像データを含む全てのカットを、前記ビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果として出力するビデオデータ検索手段と、前記検索結果に基づき、前記指定人物の音声情報を特定する指定人物音声特定手段と、ユーザに指定された音声変更指示に基づき、前記指定人物の音声情報を変更する音声変更手段と、を備え、前記指定人物音声特定手段は、前記検索結果のカットのうち、前記指定人物と１以上の他の人物が写っている複数のカットの全てにおいて共通する音声情報が流れている場合は、前記共通する音声情報を前記指定人物の音声情報と特定することを特徴とする。

本発明に係る音声変更方法は、複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索するステップと、前記検索されたカットのうち、前記指定された人物と１以上の他の人物が写っている複数のカットの全てにおいて共通する音声情報が流れている場合は、前記共通する音声情報を前記指定された人物の音声情報と特定するステップと、前記特定された音声情報を変更するステップと、を備えることを特徴とする。

本発明に係る音声変更プログラムは、複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する処理と、前記検索されたカットのうち、前記指定された人物と１以上の他の人物が写っている複数のカットの全てにおいて共通する音声情報が流れている場合は、前記共通する音声情報を前記指定された人物の音声情報と特定する処理と、前記特定された音声情報を変更する処理と、をコンピュータに実行させることを特徴とする。

本発明に係る記録媒体は、上記音声変更プログラムが記録されたコンピュータ読取り可能な記録媒体である。

本発明によれば、任意の人物の音声を識別し、識別した音声を改善することが出来る。

本発明の実施形態に係る音声変更装置の機能ブロック図である。本発明の実施形態に係る音声変更装置１のハードウェア構成図である。本発明の実施形態に係る表示部６に表示される音声変更方法の表示例を示す図である。本発明の実施形態に係る音声変更の動作処理を示すフローチャートである。

以下に、本発明の実施形態について図面を用いて詳細に説明する。なお、以下に述べる実施形態は、本発明の好適な実施形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。

（構成）
本実施形態に係る音声変更装置は、音声情報と経時画像データ（動画データでも良い）とから成るビデオデータを再生している際に、指定人物の音声を聞きやすくすることを特徴とする。図１は、本実施形態に係る音声変更装置の機能ブロック図である。本実施形態に係る音声変更装置は、ビデオデータ保持部９、指定人物認識部１０、指定人物特徴分析部１１、ビデオデータ検索部１２、指定人物音声特定部１３、音声変更情報保持部１４、音声変更部１５、から構成される。

ビデオデータ保持部９は、音声情報と動画データとから成るビデオデータであって、本実施形態に係る音声変更の処理対象となるデータを保持する。処理対象となるビデオデータは、ネットワークを介して取得しても良い。

指定人物認識部１０は、ユーザが指定した人物を「指定人物」として認識する。ユーザによる指定は、例えば動画再生中に指定したい人物の顔をマウス等のポインティングデバイスでクリック等して行う。人物の顔の他、後ろ姿や、手元、顔画像であってもマスクをして唇画像が写っていなくとも、目や髪型で認識しても良い。

指定人物特徴分析部１１は、認識した指定人物の特徴を分析する。例えば人物の顔が認識された場合は、その顔画像から特徴を分析する。後ろ姿の場合は服装のデザインや色、手元しか写っていない場合は身に付けている時計等のアクセサリーを特徴としても良い。

ビデオデータ検索部１２は、指定人物特徴分析部１１で分析した特徴を有する人物の画像を含む全てのカットを、ビデオデータ保持部９に保持されているビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果とする。ここで、カットとは数秒間（音声の認識に必要な最小時間を最低値とした時間）ごとのコマ（フレーム）である。例えば指定人物特徴分析部１１で分析した特徴を有する顔画像を含む全てのカットを検索する。

指定人物音声特定部１３は、検索結果を参照し、指定人物の音声情報を特定（識別）する。音声特定の詳細については後述する。

音声変更情報保持部１４は、ユーザから指定された音声変更指示の情報を保持する。音声変更指示の情報は、例えば音質（高さ、声質、ビットレート等）を変更する、音量を上げる等の音声変更情報についてユーザが指示した情報である。ユーザは指定人物の音量を上げたい場合や、指定人物の音質をクリアにして聞きやすくしたい場合等に、音声変更の指示を行う。ユーザによる指示は、例えば、可能な音声変更方法を表示部６（図２参照）に表示し、表示された項目の中からユーザがマウスでクリック等して指定する。図３は、表示部６に表示される音声変更方法の表示例を示す図である。図３（ａ）は例えば音質の変更方法をスライドバーで示した図である。図３（ｂ）は音声変更方法を文章で示した図である。

音声変更部１５は、音声変更情報保持部１４に保持された音声変更の指示に従い、指定人物音声特定部１３で特定された音声情報を変更する。ビデオデータ再生時は、指定人物の音声情報が変更された状態で出力することが可能となる。音声情報が特定された後は、特定された音声情報を全て変更することが可能であるため、指定人物が画像中に写っていない場合でも、指定人物の音声情報が流れている場合は変更することが出来る。

なお、音声情報の変更は、必要に応じて指定人物の音声情報以外の音声情報を連動して変更しても良い。例えば、指定人物の音量を大にする指示であった場合に、指定人物の音声情報の音量を大にする処理のみではなく、指定人物の音声情報以外の音（他の人物の音声情報や周囲雑音情報）の音量を小にする処理も行うことで、指定人物とその他の音量の差を大きくすることができ、相対的に指定人物の音声情報の音量を大にすることが可能となる。

次に、本実施形態に係る音声変更装置１の基本的なハードウェア構成について図２を用いて説明する。図２は、本実施形態に係る音声変更装置１のハードウェア構成図である。音声変更装置１は、ＣＰＵ（Central Processing Unit）２、ＲＯＭ（Read Only Memory）３、ＲＡＭ（Random Access Memory）４、操作部５、表示部６、スピーカ７、がバス８に接続されている。

ＣＰＵ２は、ＲＯＭ３やＲＡＭ４といったメモリと連帯して、音声変更装置１全体を制御する。ＲＯＭ３には、音声変更装置１の制御プログラム、各種アプリケーションプログラム等が予め記憶されている。ＣＰＵ２は、ＲＯＭ３に記憶された制御プログラムに基づいて各機能ブロックの制御を行う。また、ＲＯＭ３に記憶されている各種アプリケーションプログラムの起動／停止及び制御等を行う。

操作部５は、キーボードやマウス等の外部入力装置から入力を受け付けることが可能である。

表示部６は、液晶表示画面等の出力手段である。画像データの再生や、図３に示した音声変更方法の項目が表示等される。

スピーカ７は、音声情報等の出力手段である。表示部６で再生する画像データと同期して音声情報をスピーカ７から出力する。

図１を用いて説明した機能は、主にＣＰＵ２で実行される。ビデオデータ保持部９、音声変更情報保持部１４といった保持部は、図１のＲＯＭ３やＲＡＭ４といったメモリに相当する。

（動作処理）
次に、本実施形態に係る音声変更の動作処理について図４を用いて説明する。図４は、本実施形態に係る音声変更の動作処理を示すフローチャートである。

ユーザにより指定された人物を認識すると（ステップＳ１）、認識した指定人物の特徴を分析する（ステップＳ２）。次に、分析した特徴を有する顔画像を含む全てのカット（動画データの１コマ）を、ビデオデータ保持部９に保持されているビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果を出力する（ステップＳ３）。

検索結果に基づき、指定人物の音声情報を特定する（ステップＳ４）。ビデオデータの再生時には、特定された指定人物音声を、ユーザによる音声変更指示に基づき変更する（ステップＳ５）。

次に、指定人物音声特定部１３による音声情報の特定について詳述する。例えば下記のような特定方法が考え得る。

〔実施例１〕
ビデオデータ検索部１２から送られた検索結果から、指定人物の特徴を有する人物のみが写っているカットを抽出し、そのカットで流れている音声情報を、指定人物の音声情報として特定する。ビデオデータを再生した際に、特定された音声が流れる場面では、当該音声の信号が音声変更部１５に渡される。音声変更部１５は、音声変更情報保持部１４に保持された音声変更の指示に従って音声を変更し、変更された音声信号を出力する。これにより、ビデオデータ再生時に指定人物の音声情報が変更されて再生される。

〔実施例２〕
指定人物のみが写り、流れている音声情報が一つであるカットがない場合も想定されるため、他の実施例として以下の方法が考え得る。指定人物を含む複数の人物と複数の音声が登場するカットを２つ以上抽出し、どのカットにも共通する音声を１つ抽出し、指定人物の音声と特定する。

〔実施例３〕
指定人物のみが写っているが、流れている音声が複数あるカットしか抽出されない場合も想定される。そこで、例えばあるカットでの複数の音声を音声Ｘ、音声Ｙと認識し、別のカットの音声を音声Ｘ、音声Ｚ、さらに別のカットでの音声を音声Ｘ、音声Ｙ、音声Ｚと認識した場合に、全てのカットで多く重複している音声Ｘが指定人物の音声である可能性が高く、最も重複する音声を指定人物の音声と特定する。ここで「重複」とは、指定人物Aのみが写っており、（Aの音声X以外の他の人物の）音声Y,Zのみが流れているカットも含めたうえでの判断を意味する。上記実施例２は、カットに複数の人物が写っていること（少なくとも指定人物が写っていれば良い）が前提の特定方法であるが、実施例３はカットに指定人物のみ写っている場合を前提とした特定方法である。

〔実施例４〕
また、写っている人物と結びつかない、いわゆるナレータ等の音声の認識も以下の方法により可能となる。まず人物が一人しか映っておらず、複数の音声のあるカットをビデオデータから検索し、それらのカットの中で多く重複している音声を、ナレータ等の映像に表示されない人物の音声として認識することが出来る。若しくは、人物が映っておらず、音声のあるカットを全てビデオデータから検索し、検索されたカットの中で多く重複している音声をナレータ等の映像に表示されない人物の音声として認識することも出来る。
なお、その後、ナレータ等の音声として認識した音声は指定人物の音声候補から除外して、上記各実施例の特定方法を実施しても良い。

〔実施例５〕
上記実施例により特定された音声情報を、例えば一定時間流して（スピーカ７から出力して）ユーザに提示し、許可されてから音声変更を行っても良い。実施例１で特定した音声情報で許可されなかった場合は実施例２を実行する等、複数の特定方法を用いても良い。

以上説明したように、本実施形態に係る音声変更装置によれば、予め音声情報識別のための情報を用意していなくとも、音声情報と画像データからどの発言者の音声情報であるかを識別でき、また、複数人が登場する場合にも、任意の人物の音声を識別でき、音声を変更して改善することが可能となる。

なお、各図のフローチャートに示す処理を、ＣＰＵが実行するためのプログラムは本発明によるプログラムを構成する。このプログラムを記録する記録媒体としては、半導体記憶部や光学的及び／又は磁気的な記憶部等を用いることができる。このようなプログラム及び記録媒体を、前述した各実施形態とは異なる構成のシステム等で用い、そこのＣＰＵで上記プログラムを実行させることにより、本発明と実質的に同じ効果を得ることができる。

以上、本発明を好適な実施形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。

１音声変更装置
２ＣＰＵ
３ＲＯＭ
４ＲＡＭ
５操作部
６表示部
７スピーカ
８バス
９ビデオデータ保持部
１０指定人物認識部
１１指定人物特徴分析部
１２ビデオデータ検索部
１３指定人物音声特定部
１４音声変更情報保持部
１５音声変更部

Claims

複数の人物が撮像された動画データと音声情報とから成るビデオデータを保持するビデオデータ保持手段と、
ユーザに指定された人物を認識する指定人物認識手段と、
前記認識した指定人物の特徴を分析する指定人物特徴分析手段と、
前記分析した特徴を有する人物の画像データを含む全てのカットを、前記ビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果として出力するビデオデータ検索手段と、
前記検索結果に基づき、前記指定人物の音声情報を特定する指定人物音声特定手段と、
ユーザに指定された音声変更指示に基づき、前記指定人物の音声情報を変更する音声変更手段と、を備え、
前記指定人物音声特定手段は、前記検索結果のカットのうち、前記指定人物と１以上の他の人物が写っている複数のカットの全てにおいて共通する音声情報が流れている場合は、前記共通する音声情報を前記指定人物の音声情報と特定することを特徴とする音声変更装置。
前記指定人物音声特定手段は、前記検索結果のカットのうち、前記指定人物のみが写っている複数のカットにおいて複数の音声情報が流れている場合は、前記指定人物を含む他のカットにおいて流れている音声情報と最も多く共通する音声情報を、前記指定人物の音声情報と特定することを特徴とする請求項１に記載の音声変更装置。
前記ビデオデータから、複数の音声が流れているカットであって、人物が一人写っている若しくは一人も写っていないカットを検索し、検索されたカットのうち多く共通している音声情報を、前記ビデオデータに撮像されていない人物の音声情報として認識し、
前記指定人物音声特定手段は、前記ビデオデータに撮像されていない人物の音声情報として認識された音声情報を除外して、前記指定人物の音声情報を特定することを特徴とする請求項１又は２に記載の音声変更装置。
前記指定人物認識手段は、前記ビデオデータ再生中に、ユーザがポインティングデバイスを用いて指定した人物を指定人物と認識することを特徴とする請求項１から３のいずれか１項記載の音声変更装置。
前記音声変更手段は、前記音声変更指示に基づき、前記指定人物の音声情報以外の音声情報も変更することを特徴とする請求項１から４のいずれか１項記載の音声変更装置。
複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索するステップと、
前記検索されたカットのうち、前記指定された人物と１以上の他の人物が写っている複数のカットの全てにおいて共通する音声情報が流れている場合は、前記共通する音声情報を前記指定された人物の音声情報と特定するステップと、
前記特定された音声情報を変更するステップと、
を備えることを特徴とする音声変更方法。
複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する処理と、
前記検索されたカットのうち、前記指定された人物と１以上の他の人物が写っている複数のカットの全てにおいて共通する音声情報が流れている場合は、前記共通する音声情報を前記指定された人物の音声情報と特定する処理と、
前記特定された音声情報を変更する処理と、
をコンピュータに実行させることを特徴とする音声変更プログラム。
請求項７記載の音声変更プログラムが記録されたコンピュータ読取り可能な記録媒体。