JP2018513991A

JP2018513991A - 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム

Info

Publication number: JP2018513991A
Application number: JP2017547110A
Authority: JP
Inventors: チェン、イェチイン; ニェ、ウェンジュイアン; ウー、ティン; ヤン、ジャオ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2015-03-23
Filing date: 2016-02-03
Publication date: 2018-05-31
Anticipated expiration: 2036-02-03
Also published as: JP6714607B2; CN107409061A; CN107409061B; US20160284354A1; US9672829B2; WO2016150257A1

Abstract

【課題】ビデオ会議中に話者によってもたらされるキーポイントを判定すること。【解決手段】本発明の実施形態は、音声要約のための方法、システムおよびコンピュータ・プログラム製品を開示する。コンピュータは、ビデオ会議からオーディオおよびビデオ成分を受信する。コンピュータは、参加者の画像を発話中および非発話中の顔のテンプレート画像と比較することに基づいて、どの参加者が話しているかを判定する。コンピュータは、参加者の音声波形の短い記録に隠れマルコフ・モデルを適用することによって話している参加者の声紋を判定し、判定した声紋を話している参加者の顔と関連付ける。コンピュータは、話者によってなされる論述の内容を認識および転写し、キーポイントを判定し、ビデオ会議において参加者の顔にかけてそれらを表示する。【選択図】図１

Description

本発明は、概して音声解析に関し、より詳細にはビデオ会議中に話者によってもたらされるキーポイントを判定することに関する。

ビデオ会議は、ある場所に物理的に赴いて対面会話をする必要を回避する効果的かつ簡便な通信方法として業務用および私用でしばしば使用される。単一のビデオ会議がライブでの対面会話に地球上のどこからでも何百もの人々を同時に接続することができるので、ビデオ会議はますます普及しつつある。しかしながら、すべての会話と同様に、ビデオ会議は、言語障壁、認識不可能なアクセント、早口、または出席者が多者会議に遅れて到着し、すでに議論されたことを逃すといった事態によって妨げられることがある。

本発明の目的は、ビデオ会議中に話者によってもたらされるキーポイントを判定することである。

本発明の実施形態は、音声要約のための方法、システムおよびコンピュータ・プログラムを開示する。コンピュータは、ビデオ会議からオーディオおよびビデオ成分を受信する。コンピュータは、参加者の画像を発話中および非発話中の顔のテンプレート画像と比較することに基づいて、どの参加者が話しているかを判定する。コンピュータは、参加者の音声波形の短い記録に隠れマルコフ・モデルを適用することによって話している参加者の声紋を判定し、判定した声紋を話している参加者の顔と関連付ける。コンピュータは、話者によってなされる論述の内容を認識および転写し、キーポイントを判定し、ビデオ会議において参加者の顔の上にそれらを表示する。

本発明の実施形態に従って、音声要約システムを例示する図である。本発明の実施形態に従って、ビデオ会議電話において話者によってもたらされるキーポイントを判定および表示するための図１の音声要約プログラムの動作を例示するフローチャートである。本発明の実施形態に従って、図１の音声要約システムのハードウェア部品を示すブロック図である。

本発明の実施形態がここで、添付の図を参照しつつ詳細に記載されることになる。

図１は、本発明の実施形態に従って、音声要約システム１００を例示する。実施形態例において、音声要約システム１００は、コンピューティング装置１１０、ビデオ・カメラ１１４、マイクロホン１１２、コンピューティング装置１２０、ビデオ・カメラ１２４、マイクロホン１２２、およびネットワーク１０８を含む。

ネットワーク１０８は、インターネットでもよく、インターネットに接続される装置間の通信をサポートするネットワークおよびゲートウェイの世界的な集合を表す。ネットワーク１０８は、たとえば、有線、無線または光ファイバ接続を含んでもよい。他の実施形態において、ネットワーク１０８は、イントラネット、ローカル・エリア・ネットワーク（ＬＡＮ）、またはワイド・エリア・ネットワーク（ＷＡＮ）として実装されてもよい。一般に、ネットワーク１０８は、コンピューティング装置１１０とコンピューティング装置１２０との間の通信をサポートする接続およびプロトコルの任意の組合せであることができる。

マイクロホン１２２は、音によって引き起こされる空気圧力変動を電気信号に変換する音響電気トランスデューサでもよい。実施形態例において、マイクロホン１２２は、コンピューティング装置１２０と統合される。マイクロホン１２２は、コンピューティング装置１２０のユーザによってなされる論述を電気信号に変換し、電気信号をコンピューティング装置１２０に伝送する。

ビデオ・カメラ１２４は、動画取得のために使用されるカメラでもよい。実施形態例において、ビデオ・カメラ１２４は、コンピューティング装置１２０と統合され、ビデオ会議の間コンピューティング装置１２０のユーザを視覚的に記録する。

コンピューティング装置１２０は、ビデオ会議プログラム１２６および音声要約プログラム１２８を含む。実施形態例において、コンピューティング装置１２０は、ラップトップ・コンピュータ、ノートブック、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ（ＰＣ）、デスクトップ・コンピュータ、携帯情報端末（ＰＤＡ）、スマートフォン、シン・クライアント、または他のコンピューティング装置との間でデータを受信および送信することが可能な任意の他の電子装置もしくはコンピューティング・システムでもよい。コンピューティング装置１２０が単一の装置として図示されるが、他の実施形態において、コンピューティング装置１２０は、互いに機能するかまたは別々に機能する、一群または複数のコンピューティング装置から成ってもよい。コンピューティング装置１２０は、図３を参照しつつさらに詳細に記載される。

ビデオ会議プログラム１２６は、ユーザがコンピューティング装置間でオーディオおよびビデオ・フィードを伝送することでビデオ会議を行うようにする能力を提供することが可能なプログラムである。実施形態例において、ビデオ会議プログラム１２６は、ネットワーク１０８などのネットワークを介して、コンピューティング装置１１０などの他のコンピューティング装置にオーディオおよびビデオ・フィードを伝送する。他の実施形態において、ビデオ会議プログラム１２６は、有線接続を介してオーディオおよびビデオ・フィードを伝送してもよい。

マイクロホン１１２は、音によって引き起こされる空気圧力変動を電気信号に変換する音響電気トランスデューサでもよい。実施形態例において、マイクロホン１１２は、コンピューティング装置１１０と統合される。マイクロホン１１２は、コンピューティング装置１１０のユーザによってなされる論述を電気信号に変換し、電気信号をコンピューティング装置１１０に伝送する。

ビデオ・カメラ１１４は、動画取得のために使用されるカメラでもよい。実施形態例において、ビデオ・カメラ１１４は、コンピューティング装置１１０と統合され、ビデオ会議の間コンピューティング装置１１０のユーザを視覚的に記録する。

コンピューティング装置１１０は、ビデオ会議プログラム１１６および音声要約プログラム１１８を含む。実施形態例において、コンピューティング装置１１０は、ラップトップ・コンピュータ、ノートブック、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ（ＰＣ）、デスクトップ・コンピュータ、携帯情報端末（ＰＤＡ）、スマートフォン、シン・クライアント、または他のコンピューティング装置との間でデータを受信および送信することが可能な任意の他の電子装置もしくはコンピューティング・システムでもよい。コンピューティング装置１１０が単一の装置として図示されるが、他の実施形態において、コンピューティング装置１１０は、互いに機能するかまたは別々に機能する、一群または複数のコンピューティング装置から成ってもよい。コンピューティング装置１１０は、図３を参照しつつさらに詳細に記載される。

ビデオ会議プログラム１１６は、ユーザがコンピューティング装置間でオーディオおよびビデオ・フィードを伝送することでビデオ会議を行うようにする能力を提供することが可能なプログラムである。実施形態例において、ビデオ会議プログラム１１６は、ネットワーク１０８などのネットワークを介して、コンピューティング装置１２０などの他のコンピューティング装置にオーディオおよびビデオ・フィードを伝送する。他の実施形態において、ビデオ会議プログラム１１６は、有線接続を介してオーディオおよびビデオ・フィードを伝送してもよい。

実施形態例において、音声要約プログラム１１８は、ビデオ会議プログラム１１６と部分的に統合され、ビデオ会議プログラム１１６に伝送されるオーディオおよびビデオ・フィードを受信する。しかしながら、他の実施形態において、音声要約プログラム１１８は、ビデオ会議プログラム１１６と完全に統合されても、または統合されなくてもよい。音声要約プログラム１１８は、たとえば、隠れマルコフモデル（ＨＭＭ）を活用して、デシベル範囲、周波数スペクトル、フォルマント、基音および反射率を含む共通の音響音声特性を解析することによってオーディオ・フィードにおける話者の声紋または固有の音声波形パラメータを識別することが可能である。音声要約プログラム１１８は、テンプレート・ベースの顔認識方法を使用して参加者の顔の表情を解析することによってビデオ・フィードにおける話者を識別することが追加的に可能である。さらには、音声要約プログラム１１８は、オーディオ・フィードにおける話者の声紋をビデオ・フィードにおける話者の顔と合致させ、ユーザ・データベースに話者の声紋を記憶することが可能である。実施形態例において、声紋データベースはコンピューティング装置１１０にローカルに記憶されるが、他の実施形態において、声紋データベースは、リモートで記憶され、ネットワーク１０８を介してアクセスされてもよい。音声要約プログラム１１８は、ＨＭＭを活用することによって話者によってなされる論述の内容を判定および転写することも可能である。さらには、音声要約プログラム１１８は、話者によってもたらされるキーポイントを判定し、ビデオ・フィードにおける話者の頭上に最も新しくもたらされたキーポイントを掲げる吹き出しを表示することが可能である。音声要約プログラムの動作は、図２の考察でさらに詳細に記載される。

図２は、本発明の実施形態に従って、ビデオ会議において話者によってもたらされるキーポイントを判定および表示する際の音声要約プログラム１１８の動作を示すフローチャートである。音声要約プログラム１１８がビデオ会議プログラム１１６と統合される実施形態例において、音声要約プログラム１１８は、ビデオ会議プログラム１１６との統合でビデオ会議のオーディオおよびビデオ・フィードを検出する（ステップ２０２）。音声要約プログラム１１８がビデオ会議プログラム１１６と統合されない他の実施形態において、音声要約プログラム１１８は、ユーザ入力またはオペレーティング・システムとの通信でビデオ会議のオーディオおよびビデオ・フィードを検出する。たとえば、参加者アルファがコンピューティング装置１２０上の参加者ベータとのビデオ会議のためにコンピューティング装置１１０上のビデオ会議プログラム１１６を活用している場合、コンピューティング装置１１０の音声要約プログラム１１８は、ビデオ会議プログラム１１６からコンピューティング装置１２０上の参加者ベータからのオーディオおよびビデオ・フィードを検出する。

音声要約プログラム１１８がビデオ会議プログラム１１６と統合される実施形態例において、音声要約プログラム１１８は、ビデオ会議プログラム１１６を介して受信されるオーディオ・データから話者の声紋を識別するが、音声要約プログラム１１８がビデオ会議プログラム１１６と統合されない他の実施形態において、音声要約プログラム１１８は、ネットワーク１０８を介して受信されるオーディオ・フィード・データから話者の声紋を識別してもよい（ステップ２０４）。実施形態例において、音声要約プログラム１１８は隠れマルコフ・モデル（ＨＭＭ）を活用して話者の声紋を識別するが、他の実施形態において、音声要約プログラム１１８は、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルなどの他の音声バイオメトリクス技法を活用して声紋を識別してもよい。音声要約プログラム１１８は、隠れマルコフ・モデルを活用して、デシベル範囲、周波数スペクトル、フォルマント、基音および反射率などの共通の音響音声特性を解析する。ビデオ会議において参加者によって論述がなされるにつれて、音声要約プログラム１１８は、音声波形の短い記録を解析して、前述した音響音声特性のパラメータを定義するモデルまたは声紋を抽出する。短い記録は約１０ミリ秒続く記録に対応してもよいが、他の長さも使用されてもよい。音声要約プログラム１１８は、次いでその声紋をコンピューティング装置１１０に記憶される声紋データベースにおける既存の声紋と合致させようと試みる。実施形態例において、音声要約プログラム１１８がビデオ会議の参加者の声紋を識別して声紋データベースに記憶するようにするために、ビデオ会議の参加者はビデオ会議の最初に自分の名前を述べる。自分の名前を述べる参加者は、音声要約プログラム１１８に参加者の声紋を識別および記憶する機会を提供し、そしてまた音声要約プログラム１１８にその声紋と関連付ける名前または識別子を認識および識別する機会を提供する（口頭の名前を識別する音声認識技法がステップ２１０でさらに詳細に論じられる）。たとえば、上記した参加者アルファとの会議電話中のコンピューティング装置１２０上の参加者ベータに参加者チャーリーが加わる場合、コンピューティング装置１１０上の音声要約プログラム１１８は２つのオーディオ・フィード（ベータおよびチャーリー）間を区別しなければならない。音声要約プログラム１１８は、短期間にわたりベータおよびチャーリー両者の音声波形を解析し、特性パラメータを抽出することによってベータおよびチャーリーの２つの異なる声紋を判定する。音声要約プログラム１１８は、次いでベータおよびチャーリーの声紋を声紋データベースにおける既存の声紋に合致させようと試みる。参加者ベータおよびチャーリーが新たな参加者であれば、音声要約プログラムは、声紋データベースで一致を見つけなくてもよく、参加者ベータおよびチャーリーの声紋は、会議の最初に述べられた場合、ベータおよびチャーリーという名で声紋データベースに追加されてもよい。参加者ベータおよびチャーリーが声紋データベースに既存の声紋を有すれば、参加者ベータおよびチャーリーによってなされる論述は、参加者ベータおよびチャーリーに対応する既存の声紋情報と関連付けられてもよい。

音声要約プログラム１１８は、ネットワーク１０８を介して受信されるビデオ・フィードから話者の顔を識別する（ステップ２０６）。実施形態例において、音声要約プログラム１１８は、テンプレート・マッチング手法を活用してビデオ・フィードから話者を識別するが、他の実施形態において、音声要約プログラム１１８は、幾何ベースの手法、断片的／全体論的手法、またはアピアランス・ベース／モデル・ベースの手法を活用してもよい。テンプレート・マッチングは、テンプレート画像に一致する画像の小さい部分を見つけるためのデジタル画像処理における技法である。テンプレート・ベースの手法を活用して、音声要約プログラム１１８は、ビデオ・フィードにおける話者の顔を一組の記憶されたテンプレートと比較する。テンプレートは、音声要約プログラム１１８にプレロードされる、いくつかは発話中の、いくつかは発話中でない無作為の人間の顔の写真を含む。音声要約プログラム１１８は、まず声紋が判定されるときのビデオ・フィードにおける参加者の顔の画像を撮ることによってテンプレート・マッチングを活用する。音声要約プログラム１１８は、次いで画像を記憶されたテンプレートと比較して、各画像から多数の画素をサンプリングし、画素が色合、明るさ、色および他の要素で一致するかどうかを判定することによって、ビデオ・フィード画像における話者の顔がテンプレートにおける発話中の顔または非発話中の顔のいずれに似ているかを判定する。ビデオ会議を行っているユーザ・アルファ、ユーザ・ベータおよびユーザ・チャーリーに関して以上の例を続けることで、コンピューティング装置１１０上の音声要約プログラム１１８は、記憶されたテンプレートをビデオ・フィードにおけるユーザ・ベータおよびユーザ・チャーリーの顔と比較して、特定の瞬間に誰が話しているかを判定する。チャーリーが話していれば、ビデオ・フィードにおける彼の顔が発話中の人物の顔のテンプレートに似ていることになり、音声要約プログラム１１８は参加者チャーリーが話していると判定する。

音声要約プログラム１１８は、ステップ２０４で識別した参加者の声紋をステップ２０６で識別した話者と関連付ける（ステップ２０８）。音声要約プログラム１１８は、音声要約プログラム１１８が話者の声紋を識別するときに、ビデオ・フィードにおけるどの参加者の顔が、話者を示すかを判定する。音声要約プログラム１１８は、次いでその声紋をビデオ・フィードにおいて識別した顔と関連付け、声紋が名前（または他の識別子）と関連付けられていれば、名前も顔と関連付ける。ユーザ・アルファがユーザ・ベータおよびユーザ・チャーリー（コンピューティング装置１２０上で参加している）とコンピューティング装置１１０上でビデオ会議を行っている場合に以上の例を続けることで、声紋が識別されるときに、音声要約プログラム１１８が、チャーリーの顔の表情のテンプレート・マッチングに基づいて彼が話していると判定すれば、音声要約プログラム１１８は、識別した声紋を参加者チャーリーの顔と関連付ける。追加的に、チャーリーが会議の最初に自分自身を「チャーリー」と紹介するか、または彼の声紋が別の方法で名前「チャーリー」と関連付けられれば（ステップ２０４に記載される）、音声要約プログラム１１８は、チャーリーの顔を声紋とだけでなく、名前「チャーリー」とも関連付けることになる。

音声要約プログラム１１８は、音声の内容を判定し、話者によってもたらされる音声の内容を転写する（ステップ２１０）。実施形態例において、音声要約プログラム１１８は隠れマルコフ・モデル（ＨＭＭ）を活用して話者によってなされる論述の音声を認識するが、他の実施形態において、音声要約プログラム１１８は、発音転写、正書転写、動的時間伸縮、ニューラル・ネットワークまたはディープ・ニューラル・ネットワークなどの方法を活用して話者によってなされる論述の内容を転写してもよい。隠れマルコフ・モデル（ＨＭＭ）は、シンボルまたは量の系列を出力する統計モデルである。音声信号を区分的定常信号として見ることができ、これらの短時間で、音声を定常過程として近似することができるので、ＨＭＭは音声認識に使用される。ＨＭＭは、およそ１０ミリ秒ごとにｎ次元実数値ベクトルの系列を出力し、各ベクトルは音素（他の音素と組み合わせて単語を形成する言語の音韻論の基本単位）を表す。ベクトルは、解析される音声の短い窓のフーリエ変換にコサイン変換を適用することによって得られるスペクトルから脱相関される、ケプストラム係数として知られる最上位係数から成る。結果としての統計分布は、観察される各ベクトルに対する尤度または各音素に対する尤度を与える対角共分散ガウス分布の混合である。各音素の出力分布または尤度は、次いで個々のＨＭＭを単語および文へと連結するために使用される。

音声要約プログラム１１８は、会議全体の転写した内容をビデオ会議と関連付けられるファイルでコンピューティング装置１１０にローカルに記憶する。前述した例では、参加者チャーリーが「私は、我々が販売するべきだと思う」と述べる場合、音声要約プログラム１１８は、論述を区分的定常信号に分割し、論述の単語を構成する音素のＨＭＭを作成してもよい。音声要約プログラム１１８は、結果としての出力分布をさらに連結して、チャーリーが述べた単語および文を判定してもよい。さらに、名前「チャーリー」がチャーリーの声紋と関連付けられていれば、音声要約プログラム１１８は、会議と関連付けられたファイルに「チャーリー：私は、我々が販売するべきだと思う」と転写する。しかしながら、名前「チャーリー」がチャーリーの声紋と関連付けられていなければ、音声要約プログラム１１８は、会議と関連付けられたファイルに「身元不明の参加者１：私は、我々が販売するべきだと思う」と転写する。

音声要約プログラム１１８は、ステップ２１０で転写した論述内でもたらされるキーポイントを判定する（ステップ２１２）。実施形態例において、音声要約プログラム１１８は、会議の参加者または司会者によって指定される予め選択されたキーワードを監視すること、一般的な冗漫を除去（すなわち「および」や「その」などの単語を除去）した後に会議中に高頻度で使用される単語を監視すること、および話者の口調、音高および話す速度を監視することを含め、いくつかの方法を活用することによってキーポイントを判定する。音声要約プログラム１１８は、特定の話者の声紋から、デシベル範囲、フォルマントおよびその他の前述した音響音声特性の変動を監視することによって話者の口調および音高の変化を検出する。追加的に、音声要約プログラム１１８は、話者の毎秒平均単語から変動を監視することによって話者の話す速度の変化を検出する。上記したアルファ、ベータおよびチャーリー間のビデオ会議例を続けることで、音声要約プログラム１１８は、チャーリーによってなされる論述を転写し、チャーリーが予め選択されたキーワード「投資」、「販売」および「利益」と発したと判定してもよい。追加的に、音声要約プログラム１１８は、チャーリーが単語「株式」を３回繰り返した、およびチャーリーが話し方を遅くし、かつ口調を変化させて単語「市場暴落」を強調したと判定してもよい。音声要約プログラム１１８は、チャーリーのキーポイントが投資、販売、利益、株式および市場暴落について彼の論述に関してもたらされたと、判定してもよい。

音声要約プログラム１１８は、ステップ２１２で判定したキーポイントであった話者の論述を掲げるオーバーレイを生成および表示する（ステップ２１４）。実施形態例において、最も新しいキーポイントが、ビデオ・フィードにおける話者の頭上に表示される半透明の吹き出しで掲げられ、それをビデオ会議の参加者は見ることができる。追加的に、ユーザが自分のマウスで吹き出し上に合わせて、ビデオ会議の継続時間の全体を通じて特定の話者によってもたらされるキーポイントのすべてを含むように最近のキーポイントのリストを展開してもよい。チャーリーが論述した場合に以上の例を続けることで、音声要約プログラム１１８は、単語「投資」、「販売」、「利益」、「株式」および「市場暴落」を含む文がキーポイントであると判定した。単語「市場暴落」、「株式」および「利益」を含む論述がチャーリーによってもたらされた最も新しいキーポイントであったので、これらの点を含む論述は、他の参加者が読むためにビデオ・フィードにおけるチャーリーの顔の上に半透明の吹き出しで表示されたであろう。追加的に、参加者がチャーリーの頭上の半透明の吹き出し上に自分のマウスで合わせれば、リストは、単語「販売」および「投資」を含む論述も含むように展開されるであろう。

図３は、本発明の実施形態に従って、図１の音声要約システム１００のコンピューティング装置１１０の部品のブロック図を示す。図３が１つの実装の例示を提供するのみであり、かつ異なる実施形態が実装されてもよい環境に関していかなる限定も暗示しないことが理解されるべきである。図示された環境への多くの変更がなされてもよい。

コンピューティング装置１１０は、１つまたは複数のプロセッサ３０２、１つまたは複数のコンピュータ可読ＲＡＭ３０４、１つまたは複数のコンピュータ可読ＲＯＭ３０６、１つまたは複数のコンピュータ可読記憶媒体３０８、デバイス・ドライバ３１２、読み書きドライブまたはインタフェース３１４、ネットワーク・アダプタまたはインタフェース３１６を含んでもよく、すべてが通信ファブリック３１８を通じて相互接続される。通信ファブリック３１８は、プロセッサ（マイクロプロセッサ、通信およびネットワーク・プロセッサなどといった）、システム・メモリ、周辺装置、およびシステム内の任意の他のハードウェア部品間でデータまたは制御情報あるいはその両方を受け渡すように設計される任意のアーキテクチャで実装されてもよい。

１つまたは複数のオペレーティング・システム３１０、および１つまたは複数のアプリケーション・プログラム３１１、たとえば音声要約プログラム１１８が、それぞれのＲＡＭ３０４（典型的にキャッシュ・メモリを含む）の１つまたは複数を介するプロセッサ３０２の１つまたは複数による実行のためにコンピュータ可読記憶媒体３０８の１つまたは複数に記憶される。例示される実施形態において、コンピュータ可読記憶媒体３０８の各々は、内部ハード・ドライブの磁気ディスク記憶装置、ＣＤ−ＲＯＭ、ＤＶＤ、メモリ・スティック、磁気テープ、磁気ディスク、光ディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、フラッシュ・メモリなどの半導体記憶装置、またはコンピュータ・プログラムおよびデジタル情報を記憶することができる任意の他のコンピュータ可読有形記憶装置でもよい。

コンピューティング装置１１０は、１つまたは複数のポータブル・コンピュータ可読記憶媒体３２６との間で読み書きするＲ／Ｗドライブまたはインタフェース３１４も含んでもよい。コンピューティング装置１１０上のアプリケーション・プログラム３１１は、ポータブル・コンピュータ可読記憶媒体３２６の１つまたは複数に記憶され、それぞれのＲ／Ｗドライブまたはインタフェース３１４を介して読み出され、それぞれのコンピュータ可読記憶媒体３０８にロードされてもよい。

コンピューティング装置１１０は、ＴＣＰ／ＩＰアダプタ・カードまたはワイヤレス通信アダプタ（ＯＦＤＭＡ技術を使用する４Ｇワイヤレス通信アダプタなど）といったネットワーク・アダプタまたはインタフェース３１６も含んでもよい。コンピューティング装置１１０上のアプリケーション・プログラム３１１は、ネットワーク（たとえば、インターネット、ローカル・エリア・ネットワークまたは他のワイド・エリア・ネットワークもしくはワイヤレス・ネットワーク）およびネットワーク・アダプタまたはインタフェース３１６を介して外部コンピュータまたは外部記憶装置からコンピューティング装置にダウンロードされてもよい。プログラムは、ネットワーク・アダプタまたはインタフェース３１６からコンピュータ可読記憶媒体３０８上へロードされてもよい。ネットワークは、銅線、光ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバ、あるいはそれらの組合せを備えてもよい。

また、コンピューティング装置１１０は、ディスプレイ画面３２０、キーボードまたはキーパッド３２２、およびコンピュータ・マウスまたはタッチパッド３２４も含んでもよい。デバイス・ドライバ３１２は、画像化のためのディスプレイ画面３２０に、キーボードまたはキーパッド３２２に、コンピュータ・マウスまたはタッチパッド３２４にまたは英数字入力およびユーザ選択の圧力感知のためのディスプレイ画面３２０に、あるいはそれらの組合せにインタフェース接続する。デバイス・ドライバ３１２、Ｒ／Ｗドライブまたはインタフェース３１４、およびネットワーク・アダプタまたはインタフェース３１６は、ハードウェアおよびソフトウェア（コンピュータ可読記憶媒体３０８またはＲＯＭ３０６あるいはその両方に記憶される）を備えてもよい。

本明細書に記載されるプログラムは、それらが本発明の具体的な実施形態において実装される用途に基づいて識別される。しかしながら、本明細書における任意の特定のプログラム命名は単に便宜上使用されるにすぎず、したがって本発明は単にそのような命名によって識別または暗示あるいはその両方が行われる任意の具体的な用途での使用に限定されるべきでないことが理解されるべきである。

上記に基づいて、コンピュータ・システム、方法およびコンピュータ・プログラム製品が開示された。しかしながら、多数の変更および置換を、本発明の範囲から逸脱することなく行うことができる。したがって、本発明は、限定ではなく例として開示された。

本発明の様々な実施形態は、システム、方法またはコンピュータ・プログラム製品、あるいはそれらの組合せでもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有する（１つまたは複数の）コンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行装置による使用のための命令を保持および記憶することができる有形装置であることができる。コンピュータ可読記憶媒体は、たとえば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適切な組合せでもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙は、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチ・カードまたは命令が記録される溝内の隆起構造などの機械的に符合化された装置、および上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通って伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通って伝送される電気信号など、それ自体が一時的信号であるとは解釈されないものである。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理装置に、あるいはネットワーク、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくはワイヤレス・ネットワーク、またはそれらの組合せを介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバ、あるいはそれらの組合せを備えてもよい。各コンピューティング／処理装置におけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令をそれぞれのコンピューティング／処理装置内のコンピュータ可読記憶媒体における記憶のために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Ｊａｖａ（Ｒ）、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などといったオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれるソース・コードまたはオブジェクト・コードのいずれかでもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む、任意の種類のネットワークを通じてユーザのコンピュータに接続されてもよく、または外部コンピュータに接続がなされてもよい（たとえば、インターネット・サービス・プロバイダを使用してインターネットを通じて）。いくつかの実施形態において、たとえば、プログラマブル論理回路網、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）を含む電子回路網は、本発明の態様を行うために、コンピュータ可読プログラム命令の状態情報を活用して電子回路網を個人化することによってコンピュータ可読プログラム命令を実行してもよい。

本発明の態様は、本発明の実施形態に係る方法、装置（システム）およびコンピュータ・プログラム製品のフローチャート例またはブロック図あるいはその両方を参照しつつ本明細書に記載される。フローチャート例またはブロック図あるいはその両方の各ブロック、およびフローチャート例またはブロック図あるいはその両方におけるブロックの組合せをコンピュータ可読プログラム命令によって実装することができることが理解されるであろう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて特定される機能／動作を実装するための手段を作り出すように、汎用コンピュータ、専用コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作の態様を実装する命令を含む製品を構成するように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置または他の装置、あるいはそれらの組合せに特定の方式で機能するように指示することができるものであってもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置または他の装置上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実装するように、コンピュータ実装プロセスを生成すべく、コンピュータ、他のプログラマブル・データ処理装置または他の装置にロードされ、コンピュータ、他のプログラマブル装置または他の装置上で一連の動作ステップを実行させるものであってもよい。

図におけるフローチャートおよびブロック図は、本発明の様々な実施形態に係るシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を例示する。この点で、フローチャートまたはブロック図における各ブロックは命令のモジュール、セグメントまたは部分を表してもよく、それは特定された論理機能を実装するための１つまたは複数の実行可能命令を備える。いくつかの代替の実装では、ブロックに示される機能は、図に示される順序と異なって生じてもよい。たとえば、連続して図示される２つのブロックは、実際、実質的に並行して実行されてもよく、またはブロックは時には逆順に実行されてもよく、関与する機能性次第である。ブロック図またはフローチャート例、あるいはその両方の各ブロック、およびブロック図またはフローチャート例、あるいはその両方におけるブロックの組合せは、特定された機能または動作を行うか、または専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実装することができることも留意されるであろう。

Claims

音声を要約するための方法であって、
オーディオ成分およびビデオ成分を含む、ビデオ会議に対応するデータを受信するステップと、
前記ビデオ成分に含まれる第１の参加者の１つまたは複数の画像を１つまたは複数のテンプレート画像と比較することに基づいて、前記第１の参加者が話していると判定するステップと、
前記受信したオーディオ成分を活用することによって前記第１の参加者の声紋を判定するステップであって、
前記第１の参加者の前記声紋が、前記第１の参加者の音声波形の１つまたは複数の固有のパラメータを詳述する情報を含む、前記ステップと、
前記第１の参加者の前記判定した声紋を前記第１の参加者の前記１つまたは複数の画像の少なくとも１つと関連付けるステップと、
前記第１の参加者の前記判定した声紋に基づいて前記第１の参加者によって話された内容内の１つまたは複数のキーポイントを判定するステップと
を含み、
前記方法の１つまたは複数のステップが１つまたは複数のコンピュータを使用して行われる、方法。
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントを電子ディスプレイ装置に表示するステップと、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントを記憶するステップと、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントをクライアント装置に通信するステップと、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントをプリントするステップと
の１つまたは複数をさらに含む、請求項１に記載の方法。
前記第１の参加者の前記声紋を判定する前記ステップが、
前記受信したオーディオ成分に、隠れマルコフ・モデル、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルの１つまたは複数を適用するステップをさらに含む、請求項１に記載の方法。
前記隠れマルコフ・モデルを活用し、前記第１の参加者の音声波形を解析してデシベル範囲、周波数スペクトル、フォルマント、基音および反射率の１つまたは複数の１つまたは複数のパラメータを判定することによって、前記第１の参加者の前記声紋を判定する、請求項３に記載の方法。
前記第１の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの１つまたは複数を活用する、請求項１に記載の方法。
前記テンプレート・マッチングが、前記第１の参加者の前記１つまたは複数の画像および前記１つまたは複数のテンプレート画像から１つまたは複数の画素をサンプリングして、前記１つまたは複数の画素が色合、明るさおよび色で一致するかどうかを判定する、請求項５に記載の方法。
音声要約システムのためのコンピュータ・プログラム製品であって、
１つまたは複数のコンピュータ可読記憶媒体および前記１つまたは複数のコンピュータ可読記憶媒体に記憶されるプログラム命令を備え、前記プログラム命令が、
オーディオ成分およびビデオ成分を含む、ビデオ会議に対応するデータを受信するプログラム命令と、
前記ビデオ成分に含まれる第１の参加者の１つまたは複数の画像を１つまたは複数のテンプレート画像と比較することに基づいて、前記第１の参加者が話していると判定するプログラム命令と、
前記受信したオーディオ成分を活用することによって前記第１の参加者の声紋を判定するプログラム命令であって、前記第１の参加者の前記声紋が、前記第１の参加者の音声波形の１つまたは複数の固有のパラメータを詳述する情報を含む、前記プログラム命令と、
前記第１の参加者の前記判定した声紋を前記第１の参加者の前記１つまたは複数の画像の少なくとも１つと関連付けるプログラム命令と、
前記第１の参加者の前記判定した声紋に基づいて前記第１の参加者によって話された内容内の１つまたは複数のキーポイントを判定するプログラム命令と
を備える、コンピュータ・プログラム製品。
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントを電子ディスプレイ装置に表示するプログラム命令と、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントを記憶するプログラム命令と、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントをクライアント装置に通信するプログラム命令と、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントをプリントするプログラム命令と
の１つまたは複数をさらに備える、請求項７に記載のコンピュータ・プログラム製品。
前記第１の参加者の前記声紋を判定する前記ステップが、
前記受信したオーディオ成分に、隠れマルコフ・モデル、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルの１つまたは複数を適用するプログラム命令をさらに備える、請求項７に記載のコンピュータ・プログラム製品。
前記隠れマルコフ・モデルを活用し、前記第１の参加者の音声波形を解析してデシベル範囲、周波数スペクトル、フォルマント、基音および反射率の１つまたは複数の１つまたは複数のパラメータを判定することによって、前記第１の参加者の前記声紋を判定する、請求項９に記載のコンピュータ・プログラム製品。
前記第１の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの１つまたは複数を活用する、請求項７に記載のコンピュータ・プログラム製品。
前記テンプレート・マッチングが、前記第１の参加者の前記１つまたは複数の画像および前記１つまたは複数のテンプレート画像から１つまたは複数の画素をサンプリングして、前記１つまたは複数の画素が色合、明るさおよび色で一致するかどうかを判定する、請求項１１に記載のコンピュータ・プログラム製品。
音声要約システムのためのコンピュータ・システムであって、
１つまたは複数のコンピュータ・プロセッサ、１つまたは複数のコンピュータ可読記憶媒体、および前記１つまたは複数のプロセッサの少なくとも１つによる実行のために前記コンピュータ可読記憶媒体の１つまたは複数に記憶されるプログラム命令を備え、前記プログラム命令が、
オーディオ成分およびビデオ成分を含む、ビデオ会議に対応するデータを受信するプログラム命令と、
前記ビデオ成分に含まれる第１の参加者の１つまたは複数の画像を１つまたは複数のテンプレート画像と比較することに基づいて、前記第１の参加者が話していると判定するプログラム命令と、
前記受信したオーディオ成分を活用することによって前記第１の参加者の声紋を判定するプログラム命令であって、前記第１の参加者の前記声紋が、前記第１の参加者の音声波形の１つまたは複数の固有のパラメータを詳述する情報を含む、前記プログラム命令と、
前記第１の参加者の前記判定した声紋を前記第１の参加者の前記１つまたは複数の画像の少なくとも１つと関連付けるプログラム命令と、
前記第１の参加者の前記判定した声紋に基づいて前記第１の参加者によって話された内容内の１つまたは複数のキーポイントを判定するプログラム命令と
を備える、コンピュータ・システム。
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントを電子ディスプレイ装置に表示するプログラム命令と、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントを記憶するプログラム命令と、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントをクライアント装置に通信するプログラム命令と、
前記第１の参加者によって話された前記内容内の前記１つまたは複数のキーポイントをプリントするプログラム命令と
の１つまたは複数をさらに備える、請求項１３に記載のコンピュータ・システム。
前記第１の参加者の前記声紋を判定する前記ステップが、
前記受信したオーディオ成分に、隠れマルコフ・モデル、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルの１つまたは複数を適用するプログラム命令をさらに備える、請求項１３に記載のコンピュータ・システム。
前記隠れマルコフ・モデルを活用し、前記第１の参加者の音声波形を解析してデシベル範囲、周波数スペクトル、フォルマント、基音および反射率の１つまたは複数の１つまたは複数のパラメータを判定することによって、前記第１の参加者の前記声紋を判定する、請求項１５に記載のコンピュータ・システム。
前記第１の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの１つまたは複数を活用する、請求項１３に記載のコンピュータ・システム。
前記第１の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの１つまたは複数を活用する、請求項１７に記載のコンピュータ・システム。