JP2018513991A - 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム - Google Patents

音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム Download PDF

Info

Publication number
JP2018513991A
JP2018513991A JP2017547110A JP2017547110A JP2018513991A JP 2018513991 A JP2018513991 A JP 2018513991A JP 2017547110 A JP2017547110 A JP 2017547110A JP 2017547110 A JP2017547110 A JP 2017547110A JP 2018513991 A JP2018513991 A JP 2018513991A
Authority
JP
Japan
Prior art keywords
participant
voiceprint
program instructions
computer
keypoints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017547110A
Other languages
English (en)
Other versions
JP6714607B2 (ja
Inventor
チェン、イェチイン
ニェ、ウェンジュイアン
ウー、ティン
ヤン、ジャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2018513991A publication Critical patent/JP2018513991A/ja
Application granted granted Critical
Publication of JP6714607B2 publication Critical patent/JP6714607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ビデオ会議中に話者によってもたらされるキーポイントを判定すること。【解決手段】本発明の実施形態は、音声要約のための方法、システムおよびコンピュータ・プログラム製品を開示する。コンピュータは、ビデオ会議からオーディオおよびビデオ成分を受信する。コンピュータは、参加者の画像を発話中および非発話中の顔のテンプレート画像と比較することに基づいて、どの参加者が話しているかを判定する。コンピュータは、参加者の音声波形の短い記録に隠れマルコフ・モデルを適用することによって話している参加者の声紋を判定し、判定した声紋を話している参加者の顔と関連付ける。コンピュータは、話者によってなされる論述の内容を認識および転写し、キーポイントを判定し、ビデオ会議において参加者の顔にかけてそれらを表示する。【選択図】図1

Description

本発明は、概して音声解析に関し、より詳細にはビデオ会議中に話者によってもたらされるキーポイントを判定することに関する。
ビデオ会議は、ある場所に物理的に赴いて対面会話をする必要を回避する効果的かつ簡便な通信方法として業務用および私用でしばしば使用される。単一のビデオ会議がライブでの対面会話に地球上のどこからでも何百もの人々を同時に接続することができるので、ビデオ会議はますます普及しつつある。しかしながら、すべての会話と同様に、ビデオ会議は、言語障壁、認識不可能なアクセント、早口、または出席者が多者会議に遅れて到着し、すでに議論されたことを逃すといった事態によって妨げられることがある。
本発明の目的は、ビデオ会議中に話者によってもたらされるキーポイントを判定することである。
本発明の実施形態は、音声要約のための方法、システムおよびコンピュータ・プログラムを開示する。コンピュータは、ビデオ会議からオーディオおよびビデオ成分を受信する。コンピュータは、参加者の画像を発話中および非発話中の顔のテンプレート画像と比較することに基づいて、どの参加者が話しているかを判定する。コンピュータは、参加者の音声波形の短い記録に隠れマルコフ・モデルを適用することによって話している参加者の声紋を判定し、判定した声紋を話している参加者の顔と関連付ける。コンピュータは、話者によってなされる論述の内容を認識および転写し、キーポイントを判定し、ビデオ会議において参加者の顔の上にそれらを表示する。
本発明の実施形態に従って、音声要約システムを例示する図である。 本発明の実施形態に従って、ビデオ会議電話において話者によってもたらされるキーポイントを判定および表示するための図1の音声要約プログラムの動作を例示するフローチャートである。 本発明の実施形態に従って、図1の音声要約システムのハードウェア部品を示すブロック図である。
本発明の実施形態がここで、添付の図を参照しつつ詳細に記載されることになる。
図1は、本発明の実施形態に従って、音声要約システム100を例示する。実施形態例において、音声要約システム100は、コンピューティング装置110、ビデオ・カメラ114、マイクロホン112、コンピューティング装置120、ビデオ・カメラ124、マイクロホン122、およびネットワーク108を含む。
ネットワーク108は、インターネットでもよく、インターネットに接続される装置間の通信をサポートするネットワークおよびゲートウェイの世界的な集合を表す。ネットワーク108は、たとえば、有線、無線または光ファイバ接続を含んでもよい。他の実施形態において、ネットワーク108は、イントラネット、ローカル・エリア・ネットワーク(LAN)、またはワイド・エリア・ネットワーク(WAN)として実装されてもよい。一般に、ネットワーク108は、コンピューティング装置110とコンピューティング装置120との間の通信をサポートする接続およびプロトコルの任意の組合せであることができる。
マイクロホン122は、音によって引き起こされる空気圧力変動を電気信号に変換する音響電気トランスデューサでもよい。実施形態例において、マイクロホン122は、コンピューティング装置120と統合される。マイクロホン122は、コンピューティング装置120のユーザによってなされる論述を電気信号に変換し、電気信号をコンピューティング装置120に伝送する。
ビデオ・カメラ124は、動画取得のために使用されるカメラでもよい。実施形態例において、ビデオ・カメラ124は、コンピューティング装置120と統合され、ビデオ会議の間コンピューティング装置120のユーザを視覚的に記録する。
コンピューティング装置120は、ビデオ会議プログラム126および音声要約プログラム128を含む。実施形態例において、コンピューティング装置120は、ラップトップ・コンピュータ、ノートブック、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、携帯情報端末(PDA)、スマートフォン、シン・クライアント、または他のコンピューティング装置との間でデータを受信および送信することが可能な任意の他の電子装置もしくはコンピューティング・システムでもよい。コンピューティング装置120が単一の装置として図示されるが、他の実施形態において、コンピューティング装置120は、互いに機能するかまたは別々に機能する、一群または複数のコンピューティング装置から成ってもよい。コンピューティング装置120は、図3を参照しつつさらに詳細に記載される。
ビデオ会議プログラム126は、ユーザがコンピューティング装置間でオーディオおよびビデオ・フィードを伝送することでビデオ会議を行うようにする能力を提供することが可能なプログラムである。実施形態例において、ビデオ会議プログラム126は、ネットワーク108などのネットワークを介して、コンピューティング装置110などの他のコンピューティング装置にオーディオおよびビデオ・フィードを伝送する。他の実施形態において、ビデオ会議プログラム126は、有線接続を介してオーディオおよびビデオ・フィードを伝送してもよい。
マイクロホン112は、音によって引き起こされる空気圧力変動を電気信号に変換する音響電気トランスデューサでもよい。実施形態例において、マイクロホン112は、コンピューティング装置110と統合される。マイクロホン112は、コンピューティング装置110のユーザによってなされる論述を電気信号に変換し、電気信号をコンピューティング装置110に伝送する。
ビデオ・カメラ114は、動画取得のために使用されるカメラでもよい。実施形態例において、ビデオ・カメラ114は、コンピューティング装置110と統合され、ビデオ会議の間コンピューティング装置110のユーザを視覚的に記録する。
コンピューティング装置110は、ビデオ会議プログラム116および音声要約プログラム118を含む。実施形態例において、コンピューティング装置110は、ラップトップ・コンピュータ、ノートブック、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、携帯情報端末(PDA)、スマートフォン、シン・クライアント、または他のコンピューティング装置との間でデータを受信および送信することが可能な任意の他の電子装置もしくはコンピューティング・システムでもよい。コンピューティング装置110が単一の装置として図示されるが、他の実施形態において、コンピューティング装置110は、互いに機能するかまたは別々に機能する、一群または複数のコンピューティング装置から成ってもよい。コンピューティング装置110は、図3を参照しつつさらに詳細に記載される。
ビデオ会議プログラム116は、ユーザがコンピューティング装置間でオーディオおよびビデオ・フィードを伝送することでビデオ会議を行うようにする能力を提供することが可能なプログラムである。実施形態例において、ビデオ会議プログラム116は、ネットワーク108などのネットワークを介して、コンピューティング装置120などの他のコンピューティング装置にオーディオおよびビデオ・フィードを伝送する。他の実施形態において、ビデオ会議プログラム116は、有線接続を介してオーディオおよびビデオ・フィードを伝送してもよい。
実施形態例において、音声要約プログラム118は、ビデオ会議プログラム116と部分的に統合され、ビデオ会議プログラム116に伝送されるオーディオおよびビデオ・フィードを受信する。しかしながら、他の実施形態において、音声要約プログラム118は、ビデオ会議プログラム116と完全に統合されても、または統合されなくてもよい。音声要約プログラム118は、たとえば、隠れマルコフモデル(HMM)を活用して、デシベル範囲、周波数スペクトル、フォルマント、基音および反射率を含む共通の音響音声特性を解析することによってオーディオ・フィードにおける話者の声紋または固有の音声波形パラメータを識別することが可能である。音声要約プログラム118は、テンプレート・ベースの顔認識方法を使用して参加者の顔の表情を解析することによってビデオ・フィードにおける話者を識別することが追加的に可能である。さらには、音声要約プログラム118は、オーディオ・フィードにおける話者の声紋をビデオ・フィードにおける話者の顔と合致させ、ユーザ・データベースに話者の声紋を記憶することが可能である。実施形態例において、声紋データベースはコンピューティング装置110にローカルに記憶されるが、他の実施形態において、声紋データベースは、リモートで記憶され、ネットワーク108を介してアクセスされてもよい。音声要約プログラム118は、HMMを活用することによって話者によってなされる論述の内容を判定および転写することも可能である。さらには、音声要約プログラム118は、話者によってもたらされるキーポイントを判定し、ビデオ・フィードにおける話者の頭上に最も新しくもたらされたキーポイントを掲げる吹き出しを表示することが可能である。音声要約プログラムの動作は、図2の考察でさらに詳細に記載される。
図2は、本発明の実施形態に従って、ビデオ会議において話者によってもたらされるキーポイントを判定および表示する際の音声要約プログラム118の動作を示すフローチャートである。音声要約プログラム118がビデオ会議プログラム116と統合される実施形態例において、音声要約プログラム118は、ビデオ会議プログラム116との統合でビデオ会議のオーディオおよびビデオ・フィードを検出する(ステップ202)。音声要約プログラム118がビデオ会議プログラム116と統合されない他の実施形態において、音声要約プログラム118は、ユーザ入力またはオペレーティング・システムとの通信でビデオ会議のオーディオおよびビデオ・フィードを検出する。たとえば、参加者アルファがコンピューティング装置120上の参加者ベータとのビデオ会議のためにコンピューティング装置110上のビデオ会議プログラム116を活用している場合、コンピューティング装置110の音声要約プログラム118は、ビデオ会議プログラム116からコンピューティング装置120上の参加者ベータからのオーディオおよびビデオ・フィードを検出する。
音声要約プログラム118がビデオ会議プログラム116と統合される実施形態例において、音声要約プログラム118は、ビデオ会議プログラム116を介して受信されるオーディオ・データから話者の声紋を識別するが、音声要約プログラム118がビデオ会議プログラム116と統合されない他の実施形態において、音声要約プログラム118は、ネットワーク108を介して受信されるオーディオ・フィード・データから話者の声紋を識別してもよい(ステップ204)。実施形態例において、音声要約プログラム118は隠れマルコフ・モデル(HMM)を活用して話者の声紋を識別するが、他の実施形態において、音声要約プログラム118は、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルなどの他の音声バイオメトリクス技法を活用して声紋を識別してもよい。音声要約プログラム118は、隠れマルコフ・モデルを活用して、デシベル範囲、周波数スペクトル、フォルマント、基音および反射率などの共通の音響音声特性を解析する。ビデオ会議において参加者によって論述がなされるにつれて、音声要約プログラム118は、音声波形の短い記録を解析して、前述した音響音声特性のパラメータを定義するモデルまたは声紋を抽出する。短い記録は約10ミリ秒続く記録に対応してもよいが、他の長さも使用されてもよい。音声要約プログラム118は、次いでその声紋をコンピューティング装置110に記憶される声紋データベースにおける既存の声紋と合致させようと試みる。実施形態例において、音声要約プログラム118がビデオ会議の参加者の声紋を識別して声紋データベースに記憶するようにするために、ビデオ会議の参加者はビデオ会議の最初に自分の名前を述べる。自分の名前を述べる参加者は、音声要約プログラム118に参加者の声紋を識別および記憶する機会を提供し、そしてまた音声要約プログラム118にその声紋と関連付ける名前または識別子を認識および識別する機会を提供する(口頭の名前を識別する音声認識技法がステップ210でさらに詳細に論じられる)。たとえば、上記した参加者アルファとの会議電話中のコンピューティング装置120上の参加者ベータに参加者チャーリーが加わる場合、コンピューティング装置110上の音声要約プログラム118は2つのオーディオ・フィード(ベータおよびチャーリー)間を区別しなければならない。音声要約プログラム118は、短期間にわたりベータおよびチャーリー両者の音声波形を解析し、特性パラメータを抽出することによってベータおよびチャーリーの2つの異なる声紋を判定する。音声要約プログラム118は、次いでベータおよびチャーリーの声紋を声紋データベースにおける既存の声紋に合致させようと試みる。参加者ベータおよびチャーリーが新たな参加者であれば、音声要約プログラムは、声紋データベースで一致を見つけなくてもよく、参加者ベータおよびチャーリーの声紋は、会議の最初に述べられた場合、ベータおよびチャーリーという名で声紋データベースに追加されてもよい。参加者ベータおよびチャーリーが声紋データベースに既存の声紋を有すれば、参加者ベータおよびチャーリーによってなされる論述は、参加者ベータおよびチャーリーに対応する既存の声紋情報と関連付けられてもよい。
音声要約プログラム118は、ネットワーク108を介して受信されるビデオ・フィードから話者の顔を識別する(ステップ206)。実施形態例において、音声要約プログラム118は、テンプレート・マッチング手法を活用してビデオ・フィードから話者を識別するが、他の実施形態において、音声要約プログラム118は、幾何ベースの手法、断片的/全体論的手法、またはアピアランス・ベース/モデル・ベースの手法を活用してもよい。テンプレート・マッチングは、テンプレート画像に一致する画像の小さい部分を見つけるためのデジタル画像処理における技法である。テンプレート・ベースの手法を活用して、音声要約プログラム118は、ビデオ・フィードにおける話者の顔を一組の記憶されたテンプレートと比較する。テンプレートは、音声要約プログラム118にプレロードされる、いくつかは発話中の、いくつかは発話中でない無作為の人間の顔の写真を含む。音声要約プログラム118は、まず声紋が判定されるときのビデオ・フィードにおける参加者の顔の画像を撮ることによってテンプレート・マッチングを活用する。音声要約プログラム118は、次いで画像を記憶されたテンプレートと比較して、各画像から多数の画素をサンプリングし、画素が色合、明るさ、色および他の要素で一致するかどうかを判定することによって、ビデオ・フィード画像における話者の顔がテンプレートにおける発話中の顔または非発話中の顔のいずれに似ているかを判定する。ビデオ会議を行っているユーザ・アルファ、ユーザ・ベータおよびユーザ・チャーリーに関して以上の例を続けることで、コンピューティング装置110上の音声要約プログラム118は、記憶されたテンプレートをビデオ・フィードにおけるユーザ・ベータおよびユーザ・チャーリーの顔と比較して、特定の瞬間に誰が話しているかを判定する。チャーリーが話していれば、ビデオ・フィードにおける彼の顔が発話中の人物の顔のテンプレートに似ていることになり、音声要約プログラム118は参加者チャーリーが話していると判定する。
音声要約プログラム118は、ステップ204で識別した参加者の声紋をステップ206で識別した話者と関連付ける(ステップ208)。音声要約プログラム118は、音声要約プログラム118が話者の声紋を識別するときに、ビデオ・フィードにおけるどの参加者の顔が、話者を示すかを判定する。音声要約プログラム118は、次いでその声紋をビデオ・フィードにおいて識別した顔と関連付け、声紋が名前(または他の識別子)と関連付けられていれば、名前も顔と関連付ける。ユーザ・アルファがユーザ・ベータおよびユーザ・チャーリー(コンピューティング装置120上で参加している)とコンピューティング装置110上でビデオ会議を行っている場合に以上の例を続けることで、声紋が識別されるときに、音声要約プログラム118が、チャーリーの顔の表情のテンプレート・マッチングに基づいて彼が話していると判定すれば、音声要約プログラム118は、識別した声紋を参加者チャーリーの顔と関連付ける。追加的に、チャーリーが会議の最初に自分自身を「チャーリー」と紹介するか、または彼の声紋が別の方法で名前「チャーリー」と関連付けられれば(ステップ204に記載される)、音声要約プログラム118は、チャーリーの顔を声紋とだけでなく、名前「チャーリー」とも関連付けることになる。
音声要約プログラム118は、音声の内容を判定し、話者によってもたらされる音声の内容を転写する(ステップ210)。実施形態例において、音声要約プログラム118は隠れマルコフ・モデル(HMM)を活用して話者によってなされる論述の音声を認識するが、他の実施形態において、音声要約プログラム118は、発音転写、正書転写、動的時間伸縮、ニューラル・ネットワークまたはディープ・ニューラル・ネットワークなどの方法を活用して話者によってなされる論述の内容を転写してもよい。隠れマルコフ・モデル(HMM)は、シンボルまたは量の系列を出力する統計モデルである。音声信号を区分的定常信号として見ることができ、これらの短時間で、音声を定常過程として近似することができるので、HMMは音声認識に使用される。HMMは、およそ10ミリ秒ごとにn次元実数値ベクトルの系列を出力し、各ベクトルは音素(他の音素と組み合わせて単語を形成する言語の音韻論の基本単位)を表す。ベクトルは、解析される音声の短い窓のフーリエ変換にコサイン変換を適用することによって得られるスペクトルから脱相関される、ケプストラム係数として知られる最上位係数から成る。結果としての統計分布は、観察される各ベクトルに対する尤度または各音素に対する尤度を与える対角共分散ガウス分布の混合である。各音素の出力分布または尤度は、次いで個々のHMMを単語および文へと連結するために使用される。
音声要約プログラム118は、会議全体の転写した内容をビデオ会議と関連付けられるファイルでコンピューティング装置110にローカルに記憶する。前述した例では、参加者チャーリーが「私は、我々が販売するべきだと思う」と述べる場合、音声要約プログラム118は、論述を区分的定常信号に分割し、論述の単語を構成する音素のHMMを作成してもよい。音声要約プログラム118は、結果としての出力分布をさらに連結して、チャーリーが述べた単語および文を判定してもよい。さらに、名前「チャーリー」がチャーリーの声紋と関連付けられていれば、音声要約プログラム118は、会議と関連付けられたファイルに「チャーリー:私は、我々が販売するべきだと思う」と転写する。しかしながら、名前「チャーリー」がチャーリーの声紋と関連付けられていなければ、音声要約プログラム118は、会議と関連付けられたファイルに「身元不明の参加者1:私は、我々が販売するべきだと思う」と転写する。
音声要約プログラム118は、ステップ210で転写した論述内でもたらされるキーポイントを判定する(ステップ212)。実施形態例において、音声要約プログラム118は、会議の参加者または司会者によって指定される予め選択されたキーワードを監視すること、一般的な冗漫を除去(すなわち「および」や「その」などの単語を除去)した後に会議中に高頻度で使用される単語を監視すること、および話者の口調、音高および話す速度を監視することを含め、いくつかの方法を活用することによってキーポイントを判定する。音声要約プログラム118は、特定の話者の声紋から、デシベル範囲、フォルマントおよびその他の前述した音響音声特性の変動を監視することによって話者の口調および音高の変化を検出する。追加的に、音声要約プログラム118は、話者の毎秒平均単語から変動を監視することによって話者の話す速度の変化を検出する。上記したアルファ、ベータおよびチャーリー間のビデオ会議例を続けることで、音声要約プログラム118は、チャーリーによってなされる論述を転写し、チャーリーが予め選択されたキーワード「投資」、「販売」および「利益」と発したと判定してもよい。追加的に、音声要約プログラム118は、チャーリーが単語「株式」を3回繰り返した、およびチャーリーが話し方を遅くし、かつ口調を変化させて単語「市場暴落」を強調したと判定してもよい。音声要約プログラム118は、チャーリーのキーポイントが投資、販売、利益、株式および市場暴落について彼の論述に関してもたらされたと、判定してもよい。
音声要約プログラム118は、ステップ212で判定したキーポイントであった話者の論述を掲げるオーバーレイを生成および表示する(ステップ214)。実施形態例において、最も新しいキーポイントが、ビデオ・フィードにおける話者の頭上に表示される半透明の吹き出しで掲げられ、それをビデオ会議の参加者は見ることができる。追加的に、ユーザが自分のマウスで吹き出し上に合わせて、ビデオ会議の継続時間の全体を通じて特定の話者によってもたらされるキーポイントのすべてを含むように最近のキーポイントのリストを展開してもよい。チャーリーが論述した場合に以上の例を続けることで、音声要約プログラム118は、単語「投資」、「販売」、「利益」、「株式」および「市場暴落」を含む文がキーポイントであると判定した。単語「市場暴落」、「株式」および「利益」を含む論述がチャーリーによってもたらされた最も新しいキーポイントであったので、これらの点を含む論述は、他の参加者が読むためにビデオ・フィードにおけるチャーリーの顔の上に半透明の吹き出しで表示されたであろう。追加的に、参加者がチャーリーの頭上の半透明の吹き出し上に自分のマウスで合わせれば、リストは、単語「販売」および「投資」を含む論述も含むように展開されるであろう。
図3は、本発明の実施形態に従って、図1の音声要約システム100のコンピューティング装置110の部品のブロック図を示す。図3が1つの実装の例示を提供するのみであり、かつ異なる実施形態が実装されてもよい環境に関していかなる限定も暗示しないことが理解されるべきである。図示された環境への多くの変更がなされてもよい。
コンピューティング装置110は、1つまたは複数のプロセッサ302、1つまたは複数のコンピュータ可読RAM304、1つまたは複数のコンピュータ可読ROM306、1つまたは複数のコンピュータ可読記憶媒体308、デバイス・ドライバ312、読み書きドライブまたはインタフェース314、ネットワーク・アダプタまたはインタフェース316を含んでもよく、すべてが通信ファブリック318を通じて相互接続される。通信ファブリック318は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなどといった)、システム・メモリ、周辺装置、およびシステム内の任意の他のハードウェア部品間でデータまたは制御情報あるいはその両方を受け渡すように設計される任意のアーキテクチャで実装されてもよい。
1つまたは複数のオペレーティング・システム310、および1つまたは複数のアプリケーション・プログラム311、たとえば音声要約プログラム118が、それぞれのRAM304(典型的にキャッシュ・メモリを含む)の1つまたは複数を介するプロセッサ302の1つまたは複数による実行のためにコンピュータ可読記憶媒体308の1つまたは複数に記憶される。例示される実施形態において、コンピュータ可読記憶媒体308の各々は、内部ハード・ドライブの磁気ディスク記憶装置、CD−ROM、DVD、メモリ・スティック、磁気テープ、磁気ディスク、光ディスク、RAM、ROM、EPROM、フラッシュ・メモリなどの半導体記憶装置、またはコンピュータ・プログラムおよびデジタル情報を記憶することができる任意の他のコンピュータ可読有形記憶装置でもよい。
コンピューティング装置110は、1つまたは複数のポータブル・コンピュータ可読記憶媒体326との間で読み書きするR/Wドライブまたはインタフェース314も含んでもよい。コンピューティング装置110上のアプリケーション・プログラム311は、ポータブル・コンピュータ可読記憶媒体326の1つまたは複数に記憶され、それぞれのR/Wドライブまたはインタフェース314を介して読み出され、それぞれのコンピュータ可読記憶媒体308にロードされてもよい。
コンピューティング装置110は、TCP/IPアダプタ・カードまたはワイヤレス通信アダプタ(OFDMA技術を使用する4Gワイヤレス通信アダプタなど)といったネットワーク・アダプタまたはインタフェース316も含んでもよい。コンピューティング装置110上のアプリケーション・プログラム311は、ネットワーク(たとえば、インターネット、ローカル・エリア・ネットワークまたは他のワイド・エリア・ネットワークもしくはワイヤレス・ネットワーク)およびネットワーク・アダプタまたはインタフェース316を介して外部コンピュータまたは外部記憶装置からコンピューティング装置にダウンロードされてもよい。プログラムは、ネットワーク・アダプタまたはインタフェース316からコンピュータ可読記憶媒体308上へロードされてもよい。ネットワークは、銅線、光ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバ、あるいはそれらの組合せを備えてもよい。
また、コンピューティング装置110は、ディスプレイ画面320、キーボードまたはキーパッド322、およびコンピュータ・マウスまたはタッチパッド324も含んでもよい。デバイス・ドライバ312は、画像化のためのディスプレイ画面320に、キーボードまたはキーパッド322に、コンピュータ・マウスまたはタッチパッド324にまたは英数字入力およびユーザ選択の圧力感知のためのディスプレイ画面320に、あるいはそれらの組合せにインタフェース接続する。デバイス・ドライバ312、R/Wドライブまたはインタフェース314、およびネットワーク・アダプタまたはインタフェース316は、ハードウェアおよびソフトウェア(コンピュータ可読記憶媒体308またはROM306あるいはその両方に記憶される)を備えてもよい。
本明細書に記載されるプログラムは、それらが本発明の具体的な実施形態において実装される用途に基づいて識別される。しかしながら、本明細書における任意の特定のプログラム命名は単に便宜上使用されるにすぎず、したがって本発明は単にそのような命名によって識別または暗示あるいはその両方が行われる任意の具体的な用途での使用に限定されるべきでないことが理解されるべきである。
上記に基づいて、コンピュータ・システム、方法およびコンピュータ・プログラム製品が開示された。しかしながら、多数の変更および置換を、本発明の範囲から逸脱することなく行うことができる。したがって、本発明は、限定ではなく例として開示された。
本発明の様々な実施形態は、システム、方法またはコンピュータ・プログラム製品、あるいはそれらの組合せでもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有する(1つまたは複数の)コンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行装置による使用のための命令を保持および記憶することができる有形装置であることができる。コンピュータ可読記憶媒体は、たとえば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適切な組合せでもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙は、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチ・カードまたは命令が記録される溝内の隆起構造などの機械的に符合化された装置、および上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波もしくは他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通って伝搬する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通って伝送される電気信号など、それ自体が一時的信号であるとは解釈されないものである。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置に、あるいはネットワーク、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくはワイヤレス・ネットワーク、またはそれらの組合せを介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバ、あるいはそれらの組合せを備えてもよい。各コンピューティング/処理装置におけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令をそれぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体における記憶のために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Java(R)、Smalltalk(R)、C++などといったオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれるソース・コードまたはオブジェクト・コードのいずれかでもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む、任意の種類のネットワークを通じてユーザのコンピュータに接続されてもよく、または外部コンピュータに接続がなされてもよい(たとえば、インターネット・サービス・プロバイダを使用してインターネットを通じて)。いくつかの実施形態において、たとえば、プログラマブル論理回路網、フィールド・プログラマブル・ゲート・アレイ(FPGA)またはプログラマブル論理アレイ(PLA)を含む電子回路網は、本発明の態様を行うために、コンピュータ可読プログラム命令の状態情報を活用して電子回路網を個人化することによってコンピュータ可読プログラム命令を実行してもよい。
本発明の態様は、本発明の実施形態に係る方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート例またはブロック図あるいはその両方を参照しつつ本明細書に記載される。フローチャート例またはブロック図あるいはその両方の各ブロック、およびフローチャート例またはブロック図あるいはその両方におけるブロックの組合せをコンピュータ可読プログラム命令によって実装することができることが理解されるであろう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて特定される機能/動作を実装するための手段を作り出すように、汎用コンピュータ、専用コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作の態様を実装する命令を含む製品を構成するように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置または他の装置、あるいはそれらの組合せに特定の方式で機能するように指示することができるものであってもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置または他の装置上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実装するように、コンピュータ実装プロセスを生成すべく、コンピュータ、他のプログラマブル・データ処理装置または他の装置にロードされ、コンピュータ、他のプログラマブル装置または他の装置上で一連の動作ステップを実行させるものであってもよい。
図におけるフローチャートおよびブロック図は、本発明の様々な実施形態に係るシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を例示する。この点で、フローチャートまたはブロック図における各ブロックは命令のモジュール、セグメントまたは部分を表してもよく、それは特定された論理機能を実装するための1つまたは複数の実行可能命令を備える。いくつかの代替の実装では、ブロックに示される機能は、図に示される順序と異なって生じてもよい。たとえば、連続して図示される2つのブロックは、実際、実質的に並行して実行されてもよく、またはブロックは時には逆順に実行されてもよく、関与する機能性次第である。ブロック図またはフローチャート例、あるいはその両方の各ブロック、およびブロック図またはフローチャート例、あるいはその両方におけるブロックの組合せは、特定された機能または動作を行うか、または専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実装することができることも留意されるであろう。

Claims (18)

  1. 音声を要約するための方法であって、
    オーディオ成分およびビデオ成分を含む、ビデオ会議に対応するデータを受信するステップと、
    前記ビデオ成分に含まれる第1の参加者の1つまたは複数の画像を1つまたは複数のテンプレート画像と比較することに基づいて、前記第1の参加者が話していると判定するステップと、
    前記受信したオーディオ成分を活用することによって前記第1の参加者の声紋を判定するステップであって、
    前記第1の参加者の前記声紋が、前記第1の参加者の音声波形の1つまたは複数の固有のパラメータを詳述する情報を含む、前記ステップと、
    前記第1の参加者の前記判定した声紋を前記第1の参加者の前記1つまたは複数の画像の少なくとも1つと関連付けるステップと、
    前記第1の参加者の前記判定した声紋に基づいて前記第1の参加者によって話された内容内の1つまたは複数のキーポイントを判定するステップと
    を含み、
    前記方法の1つまたは複数のステップが1つまたは複数のコンピュータを使用して行われる、方法。
  2. 前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントを電子ディスプレイ装置に表示するステップと、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントを記憶するステップと、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントをクライアント装置に通信するステップと、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントをプリントするステップと
    の1つまたは複数をさらに含む、請求項1に記載の方法。
  3. 前記第1の参加者の前記声紋を判定する前記ステップが、
    前記受信したオーディオ成分に、隠れマルコフ・モデル、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルの1つまたは複数を適用するステップをさらに含む、請求項1に記載の方法。
  4. 前記隠れマルコフ・モデルを活用し、前記第1の参加者の音声波形を解析してデシベル範囲、周波数スペクトル、フォルマント、基音および反射率の1つまたは複数の1つまたは複数のパラメータを判定することによって、前記第1の参加者の前記声紋を判定する、請求項3に記載の方法。
  5. 前記第1の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの1つまたは複数を活用する、請求項1に記載の方法。
  6. 前記テンプレート・マッチングが、前記第1の参加者の前記1つまたは複数の画像および前記1つまたは複数のテンプレート画像から1つまたは複数の画素をサンプリングして、前記1つまたは複数の画素が色合、明るさおよび色で一致するかどうかを判定する、請求項5に記載の方法。
  7. 音声要約システムのためのコンピュータ・プログラム製品であって、
    1つまたは複数のコンピュータ可読記憶媒体および前記1つまたは複数のコンピュータ可読記憶媒体に記憶されるプログラム命令を備え、前記プログラム命令が、
    オーディオ成分およびビデオ成分を含む、ビデオ会議に対応するデータを受信するプログラム命令と、
    前記ビデオ成分に含まれる第1の参加者の1つまたは複数の画像を1つまたは複数のテンプレート画像と比較することに基づいて、前記第1の参加者が話していると判定するプログラム命令と、
    前記受信したオーディオ成分を活用することによって前記第1の参加者の声紋を判定するプログラム命令であって、前記第1の参加者の前記声紋が、前記第1の参加者の音声波形の1つまたは複数の固有のパラメータを詳述する情報を含む、前記プログラム命令と、
    前記第1の参加者の前記判定した声紋を前記第1の参加者の前記1つまたは複数の画像の少なくとも1つと関連付けるプログラム命令と、
    前記第1の参加者の前記判定した声紋に基づいて前記第1の参加者によって話された内容内の1つまたは複数のキーポイントを判定するプログラム命令と
    を備える、コンピュータ・プログラム製品。
  8. 前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントを電子ディスプレイ装置に表示するプログラム命令と、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントを記憶するプログラム命令と、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントをクライアント装置に通信するプログラム命令と、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントをプリントするプログラム命令と
    の1つまたは複数をさらに備える、請求項7に記載のコンピュータ・プログラム製品。
  9. 前記第1の参加者の前記声紋を判定する前記ステップが、
    前記受信したオーディオ成分に、隠れマルコフ・モデル、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルの1つまたは複数を適用するプログラム命令をさらに備える、請求項7に記載のコンピュータ・プログラム製品。
  10. 前記隠れマルコフ・モデルを活用し、前記第1の参加者の音声波形を解析してデシベル範囲、周波数スペクトル、フォルマント、基音および反射率の1つまたは複数の1つまたは複数のパラメータを判定することによって、前記第1の参加者の前記声紋を判定する、請求項9に記載のコンピュータ・プログラム製品。
  11. 前記第1の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの1つまたは複数を活用する、請求項7に記載のコンピュータ・プログラム製品。
  12. 前記テンプレート・マッチングが、前記第1の参加者の前記1つまたは複数の画像および前記1つまたは複数のテンプレート画像から1つまたは複数の画素をサンプリングして、前記1つまたは複数の画素が色合、明るさおよび色で一致するかどうかを判定する、請求項11に記載のコンピュータ・プログラム製品。
  13. 音声要約システムのためのコンピュータ・システムであって、
    1つまたは複数のコンピュータ・プロセッサ、1つまたは複数のコンピュータ可読記憶媒体、および前記1つまたは複数のプロセッサの少なくとも1つによる実行のために前記コンピュータ可読記憶媒体の1つまたは複数に記憶されるプログラム命令を備え、前記プログラム命令が、
    オーディオ成分およびビデオ成分を含む、ビデオ会議に対応するデータを受信するプログラム命令と、
    前記ビデオ成分に含まれる第1の参加者の1つまたは複数の画像を1つまたは複数のテンプレート画像と比較することに基づいて、前記第1の参加者が話していると判定するプログラム命令と、
    前記受信したオーディオ成分を活用することによって前記第1の参加者の声紋を判定するプログラム命令であって、前記第1の参加者の前記声紋が、前記第1の参加者の音声波形の1つまたは複数の固有のパラメータを詳述する情報を含む、前記プログラム命令と、
    前記第1の参加者の前記判定した声紋を前記第1の参加者の前記1つまたは複数の画像の少なくとも1つと関連付けるプログラム命令と、
    前記第1の参加者の前記判定した声紋に基づいて前記第1の参加者によって話された内容内の1つまたは複数のキーポイントを判定するプログラム命令と
    を備える、コンピュータ・システム。
  14. 前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントを電子ディスプレイ装置に表示するプログラム命令と、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントを記憶するプログラム命令と、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントをクライアント装置に通信するプログラム命令と、
    前記第1の参加者によって話された前記内容内の前記1つまたは複数のキーポイントをプリントするプログラム命令と
    の1つまたは複数をさらに備える、請求項13に記載のコンピュータ・システム。
  15. 前記第1の参加者の前記声紋を判定する前記ステップが、
    前記受信したオーディオ成分に、隠れマルコフ・モデル、周波数推定、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木およびコホート・モデルの1つまたは複数を適用するプログラム命令をさらに備える、請求項13に記載のコンピュータ・システム。
  16. 前記隠れマルコフ・モデルを活用し、前記第1の参加者の音声波形を解析してデシベル範囲、周波数スペクトル、フォルマント、基音および反射率の1つまたは複数の1つまたは複数のパラメータを判定することによって、前記第1の参加者の前記声紋を判定する、請求項15に記載のコンピュータ・システム。
  17. 前記第1の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの1つまたは複数を活用する、請求項13に記載のコンピュータ・システム。
  18. 前記第1の参加者が話していると判定する前記ステップが、テンプレート・マッチング、幾何ベースのマッチング、断片的マッチングおよびモデル・ベースのマッチングの1つまたは複数を活用する、請求項17に記載のコンピュータ・システム。
JP2017547110A 2015-03-23 2016-02-03 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム Active JP6714607B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/665,592 2015-03-23
US14/665,592 US9672829B2 (en) 2015-03-23 2015-03-23 Extracting and displaying key points of a video conference
PCT/CN2016/073357 WO2016150257A1 (en) 2015-03-23 2016-02-03 Speech summarization program

Publications (2)

Publication Number Publication Date
JP2018513991A true JP2018513991A (ja) 2018-05-31
JP6714607B2 JP6714607B2 (ja) 2020-06-24

Family

ID=56976777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547110A Active JP6714607B2 (ja) 2015-03-23 2016-02-03 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム

Country Status (4)

Country Link
US (1) US9672829B2 (ja)
JP (1) JP6714607B2 (ja)
CN (1) CN107409061B (ja)
WO (1) WO2016150257A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2919142B1 (en) * 2014-03-14 2023-02-22 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing health status information
US10614418B2 (en) * 2016-02-02 2020-04-07 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
KR102444165B1 (ko) * 2017-01-20 2022-09-16 삼성전자주식회사 적응적으로 회의를 제공하기 위한 장치 및 방법
US11024316B1 (en) 2017-07-09 2021-06-01 Otter.ai, Inc. Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
US10978073B1 (en) 2017-07-09 2021-04-13 Otter.ai, Inc. Systems and methods for processing and presenting conversations
JP2019101754A (ja) * 2017-12-01 2019-06-24 キヤノン株式会社 要約装置及びその制御方法、要約システム、プログラム
WO2019121901A1 (en) 2017-12-20 2019-06-27 Huddle Room Technology S.R.L. Mobile terminal and hub apparatus for use in a video communication system
CN108346034B (zh) * 2018-02-02 2021-10-15 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
US10673913B2 (en) 2018-03-14 2020-06-02 8eo, Inc. Content management across a multi-party conference system by parsing a first and second user engagement stream and transmitting the parsed first and second user engagement stream to a conference engine and a data engine from a first and second receiver
CN110612568B (zh) * 2018-03-29 2023-01-03 京瓷办公信息系统株式会社 信息处理装置
US10958458B2 (en) * 2018-04-03 2021-03-23 International Business Machines Corporation Cognitive meeting proxy
CN108511001B (zh) * 2018-04-09 2020-05-12 上海智臻智能网络科技股份有限公司 语音监控方法及装置、存储介质、终端
US10762906B2 (en) * 2018-05-01 2020-09-01 International Business Machines Corporation Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
US11183195B2 (en) * 2018-09-27 2021-11-23 Snackable Inc. Audio content processing systems and methods
US11423911B1 (en) * 2018-10-17 2022-08-23 Otter.ai, Inc. Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches
CN111667837A (zh) * 2019-02-21 2020-09-15 奇酷互联网络科技(深圳)有限公司 会议记录的获取方法、智能终端及具有存储功能的装置
US20200272693A1 (en) * 2019-02-21 2020-08-27 Microsoft Technology Licensing, Llc Topic based summarizer for meetings and presentations using hierarchical agglomerative clustering
US20200273453A1 (en) * 2019-02-21 2020-08-27 Microsoft Technology Licensing, Llc Topic based summarizer for meetings and presentations using hierarchical agglomerative clustering
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11227606B1 (en) * 2019-03-31 2022-01-18 Medallia, Inc. Compact, verifiable record of an audio communication and method for making same
US11322148B2 (en) * 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation
CN110309799B (zh) * 2019-07-05 2022-02-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
US11170784B2 (en) 2020-03-03 2021-11-09 Capital One Services, Llc Systems and methods for party authentication and information control in a video call with a server controlling the authentication and flow of information between parties whose identities are not revealed to each other
CN111739527B (zh) * 2020-06-01 2023-06-27 广东小天才科技有限公司 语音识别方法及电子设备、计算机可读存储介质
US11516347B2 (en) * 2020-06-30 2022-11-29 ROVl GUIDES, INC. Systems and methods to automatically join conference
CN112231498A (zh) * 2020-09-29 2021-01-15 北京字跳网络技术有限公司 互动信息处理方法、装置、设备及介质
US11252205B1 (en) * 2020-10-15 2022-02-15 Fuze, Inc. Real time information analysis for a teleconference
CN112270918A (zh) * 2020-10-22 2021-01-26 北京百度网讯科技有限公司 信息处理方法、装置、系统、电子设备及存储介质
CN113010698B (zh) * 2020-11-18 2023-03-10 北京字跳网络技术有限公司 多媒体的交互方法、信息交互方法、装置、设备及介质
CN112601045A (zh) * 2020-12-10 2021-04-02 广州虎牙科技有限公司 视频会议的发言控制方法、装置、设备及存储介质
US11676623B1 (en) 2021-02-26 2023-06-13 Otter.ai, Inc. Systems and methods for automatic joining as a virtual meeting participant for transcription
CN113948090B (zh) * 2021-12-17 2022-05-17 阿里巴巴达摩院(杭州)科技有限公司 语音检测方法、会话记录产品及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002527919A (ja) * 1998-10-02 2002-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク調整された会話型サービスを提供するためのシステムおよび方法
JP2004118314A (ja) * 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム
JP2009540414A (ja) * 2006-06-09 2009-11-19 ソニー エリクソン モバイル コミュニケーションズ, エービー メディア識別
JP2011119943A (ja) * 2009-12-02 2011-06-16 Canon Inc 情報処理装置およびその制御方法
JP2013109346A (ja) * 2011-11-14 2013-06-06 Google Inc 自動利得制御
JP2014165565A (ja) * 2013-02-22 2014-09-08 Hitachi Ltd テレビ会議装置およびシステムおよび方法

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2285895A (en) * 1994-01-19 1995-07-26 Ibm Audio conferencing system which generates a set of minutes
US6377995B2 (en) 1998-02-19 2002-04-23 At&T Corp. Indexing multimedia communications
US6298129B1 (en) * 1998-03-11 2001-10-02 Mci Communications Corporation Teleconference recording and playback system and associated method
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6826159B1 (en) * 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
US6894714B2 (en) * 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US7598975B2 (en) * 2002-06-21 2009-10-06 Microsoft Corporation Automatic face extraction for use in recorded meetings timelines
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US7466334B1 (en) * 2002-09-17 2008-12-16 Commfore Corporation Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings
US6931113B2 (en) * 2002-11-08 2005-08-16 Verizon Services Corp. Facilitation of a conference call
US7756923B2 (en) * 2002-12-11 2010-07-13 Siemens Enterprise Communications, Inc. System and method for intelligent multimedia conference collaboration summarization
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
JP4458888B2 (ja) * 2004-03-22 2010-04-28 富士通株式会社 会議支援システム、議事録生成方法、およびコンピュータプログラム
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
CA2630002C (en) * 2005-11-15 2014-03-18 Google Inc. Displaying compact and expanded data items
US8120638B2 (en) 2006-01-24 2012-02-21 Lifesize Communications, Inc. Speech to text conversion in a videoconference
US8909740B1 (en) * 2006-03-28 2014-12-09 Amazon Technologies, Inc. Video session content selected by multiple users
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US7920158B1 (en) 2006-07-21 2011-04-05 Avaya Inc. Individual participant identification in shared video resources
US20080077952A1 (en) 2006-09-25 2008-03-27 St Jean Randy Dynamic Association of Advertisements and Digital Video Content, and Overlay of Advertisements on Content
US7847815B2 (en) * 2006-10-11 2010-12-07 Cisco Technology, Inc. Interaction based on facial recognition of conference participants
US20080276159A1 (en) * 2007-05-01 2008-11-06 International Business Machines Corporation Creating Annotated Recordings and Transcripts of Presentations Using a Mobile Device
CN101068271A (zh) 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成系统、通信终端、媒体服务器及方法
US9195754B2 (en) * 2008-06-13 2015-11-24 International Business Machines Corporation Expansion of search result information
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
US8797380B2 (en) 2010-04-30 2014-08-05 Microsoft Corporation Accelerated instant replay for co-present and distributed meetings
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US8630854B2 (en) * 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
US20120326993A1 (en) 2011-01-26 2012-12-27 Weisman Jordan K Method and apparatus for providing context sensitive interactive overlays for video
US8698872B2 (en) * 2011-03-02 2014-04-15 At&T Intellectual Property I, Lp System and method for notification of events of interest during a video conference
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
CN102572372B (zh) 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN102572356B (zh) * 2012-01-16 2014-09-03 华为技术有限公司 记录会议的方法和会议系统
US20130311595A1 (en) 2012-05-21 2013-11-21 Google Inc. Real-time contextual overlays for live streams
US9223396B2 (en) * 2012-07-24 2015-12-29 Casio Computer Co., Ltd Information processing apparatus and computer readable medium
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9262175B2 (en) * 2012-12-11 2016-02-16 Nuance Communications, Inc. Systems and methods for storing record of virtual agent interaction
US9282284B2 (en) * 2013-05-20 2016-03-08 Cisco Technology, Inc. Method and system for facial recognition for a videoconference
KR20140144104A (ko) * 2013-06-10 2014-12-18 삼성전자주식회사 전자기기 및 이의 서비스 제공 방법
CN103338348B (zh) * 2013-07-17 2016-08-10 天脉聚源(北京)传媒科技有限公司 一种网络音视频会议的实现方法、系统和服务器
KR20150020740A (ko) * 2013-08-14 2015-02-27 삼성전자주식회사 메시지 기반의 대화 기능 실행 방법 및 이를 지원하는 전자장치
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
CN104427292A (zh) 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item
CN104301557A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时显示功能的智能会议系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002527919A (ja) * 1998-10-02 2002-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク調整された会話型サービスを提供するためのシステムおよび方法
JP2004118314A (ja) * 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム
JP2009540414A (ja) * 2006-06-09 2009-11-19 ソニー エリクソン モバイル コミュニケーションズ, エービー メディア識別
JP2011119943A (ja) * 2009-12-02 2011-06-16 Canon Inc 情報処理装置およびその制御方法
JP2013109346A (ja) * 2011-11-14 2013-06-06 Google Inc 自動利得制御
JP2014165565A (ja) * 2013-02-22 2014-09-08 Hitachi Ltd テレビ会議装置およびシステムおよび方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
JP6999734B2 (ja) 2019-05-10 2022-01-19 ネイバー コーポレーション オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置

Also Published As

Publication number Publication date
JP6714607B2 (ja) 2020-06-24
CN107409061A (zh) 2017-11-28
CN107409061B (zh) 2020-12-08
US20160284354A1 (en) 2016-09-29
US9672829B2 (en) 2017-06-06
WO2016150257A1 (en) 2016-09-29

Similar Documents

Publication Publication Date Title
JP6714607B2 (ja) 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US10706873B2 (en) Real-time speaker state analytics platform
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
US20210209315A1 (en) Direct Speech-to-Speech Translation via Machine Learning
WO2019210557A1 (zh) 语音质检方法、装置、计算机设备及存储介质
US10581625B1 (en) Automatically altering the audio of an object during video conferences
US20180197548A1 (en) System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
CN110600013B (zh) 非平行语料声音转换数据增强模型训练方法及装置
US11545136B2 (en) System and method using parameterized speech synthesis to train acoustic models
JP7255032B2 (ja) 音声認識
Sterpu et al. How to teach DNNs to pay attention to the visual modality in speech recognition
Ahsiah et al. Tajweed checking system to support recitation
Kopparapu Non-linguistic analysis of call center conversations
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
KR20200087623A (ko) 외국어 교육을 위한 발음 정확도 평가 장치 및 방법
Gazeau et al. Automatic spoken language recognition with neural networks
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
CN108665901B (zh) 一种音素/音节提取方法及装置
US20180342235A1 (en) System and method for segmenting audio files for transcription
Johar Paralinguistic profiling using speech recognition
US11948550B2 (en) Real-time accent conversion model
Sinha et al. Fusion of multi-stream speech features for dialect classification
JP2020173441A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171017

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200605

R150 Certificate of patent or registration of utility model

Ref document number: 6714607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150