JP2016192599A

JP2016192599A - ビデオ会議システムと音声認識技術を組み合わせた装置および方法

Info

Publication number: JP2016192599A
Application number: JP2015070342A
Authority: JP
Inventors: 和宏高柳; Kazuhiro Takayanagi; 真櫛野; Makoto Kushino; 康仁日吉; Yasuhito Hiyoshi; 幸子福田; Sachiko Fukuda
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2016-11-10
Anticipated expiration: 2035-03-30
Also published as: JP6507010B2

Abstract

【課題】音声認識技術を組み合わせたビデオ会議システムにおいて、誤認識を修正する手段を実現しようとした場合、発話者以外の出席者が誤認識に気付き修正する場合も想定される。また、ビデオ会議端末のディスプレイに表示する画面の内容は、会議の参加者で共有することを前提としている。そのため、修正および修正可否の問合せによっては会議の進行を妨げてしまう恐れがある。【解決手段】ビデオ会議システムにおいて、発言修正者と発話者とが異なる場合は発話者に対し修正可否に関する問合せを行なう。また、ビデオ会議の出席者は、個々に用いるコンピュータ端末を操作することにより、ビデオ会議端末に表示される共有画面に影響を与えることなく、発言テキストを見直したり修正したりすることができる。【選択図】図８

Description

本発明は、ビデオ会議システムと音声認識技術を組み合わせた装置および方法に関する。具体的には、ビデオ会議の共有データを出力するビデオ会議端末、ビデオ会議の出席者が個々にまたは共有して持つコンピュータ端末、および音声認識サーバを少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、音声認識した発言を出席者が修正できる装置および方法に関する。また、ビデオ会議端末およびコンピュータ端末の入力音声データから、発言の発話者を特定し、発言修正者と発話者とが異なる場合は発話者に修正可否に関する問合せを行なう。

複数の遠隔地に設置されたビデオ会議端末を多地点接続装置（Multi-point Control Unit／以下、「ＭＣＵ」という）を介してネットワークで結んで双方向の画像および音声を通信し、会議を行なうビデオ会議システムがある。当該ビデオ会議システムにおいて、会議の出席者（発話者）が発言した音声を音声認識し発言テキストを作成および表示することにより会議をより円滑に進めることができる。さらに音声を翻訳し、翻訳結果を表示することにより出席者の使用言語が異なる場合の支援を図ることもできる。ＭＣＵは、特許文献１に示されるように、ＭＣＵに接続された複数の端末からの音声データや映像データを合成し、例えば字幕付き映像データを作成し、複数の端末に送信するものである。

特開２０１３−２０１５０５号公報

ビデオ会議システムにおける音声認識の際、発話者の発音の仕方や周囲の雑音により、さらに音声が日本語の場合は同音異義語などが要因で誤認識が発生してしまう場合がある。しかしながら、音声認識技術を組み合わせたビデオ会議システムにおいて、誤認識を修正する手段を実現しようとした場合、発話者以外の出席者が誤認識に気付き修正する場合も想定される。このような場合、発話者以外の出席者が誤認識を修正し、発話者に修正内容の可否確認をし、問題なければ修正内容を確定させる処理フローが想定される。しかしながら、このような複数人が関わる処理フローの場合、修正および修正可否の問合せによっては会議の進行を妨げたり、最悪の場合は会議を中断させてしまったりする恐れがある。

また、ビデオ会議システムでは、各会議室に設置されたビデオ会議端末のディスプレイに表示する画面の内容は、各会議室内の会議の参加者で共有することを前提としているものがほとんどである。そのため、例えば、ある会議室のビデオ会議端末のディスプレイに表示された画面に各発話者の発言テキストが流れていく中で、ある発話者が自分の発言を見直すために、流れた発言テキストをスクロールするなどして自分の発言テキストを表示させることは会議の進行を妨げてしまうことも想定される。

本発明は、このような課題を解決するために、ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる前記装置であって、前記装置は、
前記ビデオ会議端末から第１の入力音声データを受信する手段と、
前記入力音声データに基づいて発言データを作成する手段と、
前記発言データを前記ビデオ会議端末および前記コンピュータ端末に送信する手段と、
前記コンピュータ端末から前記発言データに対する修正データを受信する手段と、
前記修正データに基づいて前記発言データを修正する手段と、
前記発言データの修正データを前記ビデオ会議端末および前記コンピュータ端末に送信する手段と
を備えたことを特徴とする。

また、前段落に記載の発明において、前記装置は、
前記コンピュータ端末から第２の入力音声データを受信する手段と
前記第１の入力音声データと前記第２の入力音声データとを照合する手段と、
前記第１の入力音声データと前記第２の入力音声データとの照合により両音声データが対応する場合、前記両音声データに基づいて、前記発言の発話者を特定する手段と
をさらに備えたことを特徴とする。

さらに、前段落に記載の発明において、前記修正データに基づいて前記発言データを修正することは、
前記発話者と、前記修正データに係る修正者とが同一であるか否かを判定し、
前記発話者と前記修正者とが同一である場合に実行され、
前記装置は、
前記発話者と前記修正者とが異なる場合、前記発話者が用いる前記コンピュータ端末に修正可否に関する問合せを送信する手段と、
前記問合せに対する回答を受信する手段と
をさらに備え、前記修正データに基づいて前記発言データを修正することは、
前記回答が修正可能であることを示す場合に実行される
ことを特徴とする。

そして、前３段落に記載の発明において、１つの前記ビデオ会議端末と複数の前記コンピュータ端末とが同一の地点に存在することを特徴とする。

以上説明したように、ビデオ会議システムにおいて、ビデオ会議端末およびコンピュータ端末からの入力音声データから発言の発話者を特定し、発言修正者と発話者とが異なる場合は発話者が用いるコンピュータ端末に修正可否に関する問合せを行なうことにより会議を中断させることなく誤認識を修正することができる。また、ビデオ会議の出席者は、個々に用いるコンピュータ端末を操作することにより、ビデオ会議端末に表示される共有画面に影響を与えることなく、発言テキストを見直したり修正したりすることができる。

本発明の一実施形態に係るビデオ会議システムの構成を示す図である。本発明の一実施形態に係る音声認識サーバの構成を示す図である。本発明の一実施形態に係る入力音声データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る入力音声履歴データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る発言データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る発言修正データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る使用言語データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る音声認識処理を示すフローチャートである。本発明の一実施形態に係る誤認識修正処理を示すフローチャートである。

以下、添付した図面を参照して、本発明の一実施形態に係る、ビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、出席者が音声認識した発言を修正できる装置および方法を詳細に説明する。

まず始めに、本システムの概要を説明する。図１は、本発明の一実施形態に係るビデオ会議システムの構成を示す図である。図１において、各会議室（会議室Ａ、会議室Ｂなど物理的に離れた地点を示す）に設置されたビデオ会議端末１０１Ａおよび１０１Ｂ（以下、まとめて示す場合は「ビデオ会議端末１０１」という）、ユーザ端末１０２Ａおよび１０２Ｂ（以下、まとめて示す場合は「ユーザ端末１０２」という）、ＭＣＵ１０４、ならびに音声認識サーバ１００は、ネットワーク１０３（例えば、インターネット）を介して通信を行うように構成される。なお、図１では、サーバコンピュータ側を音声認識サーバ１００とＭＣＵ１０４との２台構成で示しているが、これらを単一のサーバコンピュータで構成することも、さらに多くのサーバコンピュータで構成することも可能である。また、図１では、会議室Ａおよび会議室Ｂの２地点を示しているが、より多くの地点に渡るビデオ会議システムであってもよい。さらに、図１では、１つの会議室に１つのユーザ端末１０２を示しているが、例えば１つの会議室に複数の出席者がいる場合など、１つの会議室に複数のユーザ端末１０２があってもよい（すなわち、１つのビデオ会議端末１０１と、複数のユーザ端末１０２とが同一の地点に存在する場合もある）。

ビデオ会議端末１０１は、ＭＣＵから受信した映像表示するためのディスプレイ、会議室内の様子を撮影するカメラ、および音声を収集するマイクなどを備えた装置である。ビデオ会議端末１０１は、会議室内の映像データおよび音声データをＭＣＵ１０４に送信する。また、ビデオ会議端末１０１は、ＭＣＵ１０４で合成された合成映像データおよび音声データを受信し出力する。当該合成された合成映像データおよび音声データは主に各会議室での発話者の発言内容（発話者の映像や画像、名前、発言内容の音声、翻訳音声および音声のテキスト）などをまとめた共有データである。

ユーザ端末１０２は、ビデオ会議の出席者が個々にまたは共有して持つコンピュータ端末である（図１ではタブレット型のモバイル端末として示しているがデスクトップ端末であってもよい）。ユーザ端末１０２にもマイクが接続または内蔵され、ユーザ端末１０２はユーザ端末１０２を使用する出席者（発話者）の音声を入力音声データとして音声認識サーバ１００に送信する。また、ユーザ端末１０２は、音声認識サーバ１００から音声データをテキスト化した発言テキストを含む発言データを受信し出力する。ただし、ユーザ端末１０２に出力される映像は個々にカスタマイズされたものであってもよい。また、出席者は、ユーザ端末１０２を使用して発言テキストを修正し、音声認識サーバ１００を介して修正された発言テキストを含む発言データを再送信することができる。

ＭＣＵ１０４は、ビデオ会議端末１０１から映像データおよび音声データを受信する。また、音声認識サーバから、音声データをテキスト化した発言テキストが含まれる発言データを受信し、当該発言データと映像データとを合成する。さらに、ＭＣＵ１０４は、合成した発言データと映像データをビデオ会議端末１０１に送信する。

音声認識サーバ１００は、ＭＣＵ１０４を介してビデオ会議端末１０１から音声データを受信する。また、音声認識サーバ１００は、ユーザ端末１０２から音声データを受信する。音声認識サーバ１００は、受信した、ビデオ会議端末１０１の音声データとユーザ端末１０２の音声データとを照合し、一致する音声データを音声認識し、テキスト化する。音声認識サーバ１００は、音声データをテキスト化した発言テキストを含む発言データをユーザ端末１０２およびＭＣＵ１０４に送信する（ＭＣＵ１０４に送信された発言データは、ＭＣＵ１０４において映像データと合成され、ビデオ会議端末１０１に送信される）。さらに、音声認識サーバ１００は、ユーザ端末１０２から発言テキストに対する修正データを受信し、発話者と修正者が異なる場合は発話者の使用するユーザ端末１０２に対し修正可否の問合せを行なう。当該問合せに対して修正可能という回答を受信した場合、音声認識サーバ１００は修正データにより発言テキストを更新する。更新された発言テキストを含む発言データは音声認識サーバ１００によって、再度、各ユーザ端末１０２およびＭＣＵ１０４に送信される。また、ユーザ端末１０２およびＭＣＵ１０４に発言データを送信する際、音声認識サーバ１００は、送信先のユーザ端末１０２で用いられる使用言語を特定し、送信する翻訳テキストを絞り込むことができる。

次に、音声認識サーバ１００の構成を詳細に説明する。なお、図２では、音声認識サーバ１００を単一のサーバコンピュータと想定し、必要な機能構成のみを示している。

音声認識サーバ１００は、ＣＰＵ１１０に、システムバス１１５を介してＲＡＭ１１１、入力装置１１２、出力装置１１３、通信制御装置１１４、および不揮発性記憶媒体（ＲＯＭやＨＤＤなど）で構成される記憶装置１１６が接続された構成を有する。記憶装置１１６は、ビデオ会議システムの各機能を奏するためのソフトウェアプログラムを格納するプログラム格納領域と、当該ソフトウェアプログラムが取り扱うデータを格納するデータ格納領域とを備えている。以下に説明するプログラム格納領域の各手段は、実際は独立したソフトウェアプログラム、そのルーチンやコンポーネントなどであり、ＣＰＵ１１０によって記憶装置１１６から呼び出された後、ＲＡＭ１１１のワークエリアに展開され、かつデータベースなどを適宜参照しながら順次実行されることで、各機能を奏するものである。

記憶装置１１６におけるプログラム格納領域に格納されているソフトウェアプログラムは、本発明に関連するもののみを列挙すると、音声認識手段１２０、発話者特定手段１２１、誤認識修正手段１２２、および使用言語特定手段１２３を備えている。これらの手段は、ＣＰＵ１１０によって実行される。

音声認識手段１２０は、ＭＣＵ１０４を介したビデオ会議端末１０１、およびユーザ端末１０２からの入力音声データ（図３）を受信し、入力音声データ記憶部１３１に格納する。音声認識手段１２０は、入力音声データの受信ごとに、受信した入力音声データ（図３）と、既に受信済みの入力音声データを蓄積した入力音声履歴データ（図４）とを照合し、一致する入力音声データが存在するか否か判定する。

一致する入力音声データが存在する場合は、当該入力音声データに基づいて音声認識を実行し、入力音声データをテキスト化することにより認識結果として発言データ（図５）を作成し、発言データ記憶部１３３に格納する。また、音声認識手段１２０は、後述する使用言語特定手段１２３によって取得した入力音声データの言語情報に基づいて音声認識し、音声認識したテキストを翻訳し翻訳テキストを生成して発言データ記憶部１３３に格納する。音声認識手段１２０は、一致した入力音声データを入力音声履歴データ記憶部１３２に蓄積し、一致した両入力音声データの「一致フラグ」を「１」（一致済）に設定する。また、音声認識手段１２０は、入力音声データに対してノイズリダクションを実行することもできる。特に、本実施形態の場合、ＭＣＵ１０４を介したビデオ会議端末１０１からの入力音声データと、ユーザ端末１０２からの入力音声データとの２つの入力音声データがあるため、これを比較することにより、音声データとノイズをより明確に区別することができる。さらに、音声認識手段１２０は、作成した発言データをユーザ端末１０２およびＭＣＵ１０４に送信する。ユーザ端末１０２に送信する場合は、使用言語特定手段１２３によって取得した送信先のユーザ端末１０２に合わせた言語の翻訳テキストを含む発言データを送信する。一方、一致する入力音声データが存在しない場合は、受信した入力音声データを入力音声履歴データ記憶部１３２に格納し、対応する入力音声データが受信されるのを待つ。

発話者特定手段１２１は、受信した入力音声データがＭＣＵ１０４を介したビデオ会議端末１０１からのものである場合は、一致するユーザ端末１０２からの入力音声データに基づいて、発話者を特定する。

誤認識修正手段１２２は、ユーザ端末１０２から発言修正データ（図６）を受信し、発言修正データ記憶部１３４に格納する。また、誤認識修正手段１２２は、受信した発言修正データの送信者（修正者）が発話者と同一であるか否かを判定し、同一であれば、対応する発言データのテキストを発言データ記憶部１３３から検索し、修正内容を反映する。一方、修正者と発話者が異なる場合は、誤認識修正手段１２２は、発話者のユーザ端末１０２に対し、修正可否の問合せを送信する。さらに、誤認識修正手段１２２は、発話者のユーザ端末１０２から問合せの回答を受信し、修正可能である場合は、修正内容を発言データ記憶部１３３に反映し、修正不可の場合は、修正者のユーザ端末１０２に対しその旨の連絡を送信する。また、修正内容を反映した場合は、修正したテキストを再度翻訳して、ユーザ端末１０２およびＭＣＵ１０４に送信する。

使用言語特定手段１２３は、入力音声データに対する音声認識のため、入力音声データの送信元であるユーザ端末１０２の使用言語を使用言語データ記憶部１３５に格納されたデータから特定する。また、使用言語特定手段１２３は、各ユーザ端末１０２に発言データを送信する際も同様に、送信先のユーザ端末１０２の使用言語を特定する。

次に、記憶装置１１６におけるデータ格納領域は、本発明に関連するもののみを列挙すると、入力音声データ記憶部１３１、入力音声履歴データ記憶部１３２、発言データ記憶部１３３、発言修正データ記憶部１３４、および使用言語データ記憶部１３５を備えている。いずれも、記憶装置１１６内に確保された一定の記憶領域である。

入力音声データ記憶部１３１は、ビデオ会議端末１０１またはユーザ端末１０２から送信される入力音声に関するデータを格納する。図３は、本発明の一実施形態に係る入力音声データ記憶部１３１に格納されたデータを示す図である。図３における入力音声データは、入力元の端末を一意に示す「入力元」、音声が入力された時間を示す「時間」、およびアナログ音声を入力音声としてデジタル変換したデータである「音声」を含む。「入力元」は、例えば、ＩＰアドレスやＭＡＣアドレスである。また、図３における「時間」は時分秒で示されているが、日付のデータまで持つこともできる。

入力音声履歴データ記憶部１３２は、ＭＣＵ１０４を介したビデオ会議端末１０１、およびユーザ端末１０２からの入力音声データを蓄積して格納する。図４は、本発明の一実施形態に係る入力音声履歴データ記憶部１３２に格納されたデータを示す図である。図４における入力音声履歴データは、入力音声履歴データを一意に示す「音声ＩＤ」、入力元の端末を一意に示す「入力元」、入力元の端末名を示す「端末名」、音声が入力された時間を示す「時間」、アナログ音声を入力音声としてデジタル変換したデータである「音声」、および後述する「一致フラグ」を含む。「端末名」は、「入力元」とのマッピングデータ（図示せず）を音声認識サーバ１００に持つことにより取得することができる。

本実施形態では、受信した入力音声データ（図３）を入力音声履歴データ（図４）として蓄積し、当該入力音声履歴データに対して、新たに受信した入力音声データ（図３）を照合させ、「音声」が一致（音声データであるため、厳密には類似）するものが存在するかを判定する。一致したものは「一致フラグ」が「１」（ＯＮ）になり、入力音声データ（図３）との照合対象から外すことができる。

発言データ記憶部１３３は、入力音声に対する音声認識結果の履歴データを格納する。図５は、本発明の一実施形態に係る発言データ記憶部１３３に格納されたデータを示す図である。図５における発言データは、発言データを一意に示す「発言ＩＤ」、音声が入力された時間を示す「時間」、アナログ音声を入力音声としてデジタル変換したデータである「音声」、発話者を一意に示す「発話者」、入力音声を音声認識した結果のテキストデータを示す「テキスト」、テキストデータに対する各言語の翻訳結果を示す「＊＊語訳」を含む。「＊＊語訳」は、「テキスト」を特定言語で翻訳した翻訳テキストを格納するデータ項目である。「＊＊語訳」について、図５の例では、日本語訳、英語訳、仏語訳、および独語訳と４ヵ国語分のデータ項目を示しているが、会議の出席者の使用言語によって、例えば「中国語訳」、「韓国語訳」・・・などとデータ項目を増やすなどして、それぞれの翻訳結果を格納することもできる。

発言修正データ記憶部１３４は、入力音声の音声認識結果に対する修正データを格納する。図６は、本発明の一実施形態に係る発言修正データ記憶部１３４に格納されたデータを示す図である。図６における発言修正データは、修正対象の発言データ（図５）を一意に示す「発言ＩＤ」、修正元の端末を一意に示す「修正元」、および音声認識結果のテキストデータに対する修正内容を示す「修正テキスト」を含む。「修正元」は、例えば、ＩＰアドレスやＭＡＣアドレスである。

使用言語データ記憶部１３５は、ユーザ端末１０２において使用される言語データを格納する。図７は、本発明の一実施形態に係る使用言語データ記憶部１３５に格納されたデータを示す図である。図７における使用言語データは、ユーザ端末を一意に示す「端末ＩＤ」、および使用言語を一意に示す「使用言語」を含む。「端末ＩＤ」は、例えばＩＰアドレスや、ＭＡＣアドレス、端末名など、ビデオ会議システムを利用するユーザ端末１０２を一意に識別できるデータである。また、「使用言語」は図７上では便宜上、文字列として示しているが、１：日本語、２：英語・・・などと、使用言語を一意に識別できる数値などであってもよい。なお、本データは、会議が始まる前など、ビデオ会議システムを使用する前に予め登録しておく必要がある。ただし、会議中（ビデオ会議システム使用中）に使用言語を変更することや、新たな端末に対する使用言語を登録することもできる。

次に、本発明の音声認識処理について流れに沿って説明する。図８は、本発明の一実施形態に係る音声認識処理を示すフローチャートである。まず、ステップ１０１にて、音声認識手段１２０は、入力音声データ（図３）を受信し、入力音声データ記憶部１３１に格納する。当該入力音声データは、ＭＣＵ１０４を介してビデオ会議端末１０１から送信されたもの、またはユーザ端末１０２から送信されたものである。

入力音声データを受信すると、音声認識手段１２０は、受信した入力音声データと、既に受信済みの入力音声データを蓄積した入力音声履歴データ（図４）とを照合し（ステップ１０２）、入力音声データが一致（音声データであるため、厳密には類似）するものが存在するか否かを判定する（ステップ１０３）。具体的には、入力音声履歴データ（図４）において「一致フラグ」が０（まだ一致する音声データが見つかっていないデータ）のレコードを対象として、受信した入力音声データ（図３）の「音声」と入力音声履歴データ（図４）の「音声」が一致するか否かを判定する。なお、音声の一致は、照合する音声間における周波数の類似度が所定の閾値を超えた場合に一致するとみなすことを含む。

図３に示す入力音声データは、ユーザ端末１０２から送信されたものであり、入力音声履歴データ（図４）において、「一致フラグ」が０（未一致）であり、かつ「音声」が一致するデータを検索すると、「音声ＩＤ」が５のデータと一致する。この場合、ステップ１０３のＹｅｓルートに進み、発話者特定手段１２１は、入力音声データに基づいて発話者を特定する（ステップ１０４）。また、この場合、入力音声履歴データから一致する入力音声データが見つかったため、「音声ＩＤ」が５のデータの「一致フラグ」を１（一致済）に更新する。また、受信した入力音声データ（図３）を入力音声履歴データ記憶部１３２に格納し、入力音声データを蓄積しておくこともできる（この場合、「一致フラグ」は１を設定する）。なお、入力音声履歴データに一致する入力音声データが存在しない場合、ステップ１０３のＮｏルートに進み、音声認識手段１２０は、受信した入力音声データを入力音声履歴データ記憶部１３２に格納し（ステップ１０７）、対応する入力音声データが受信されるのを待つ（この場合、「一致フラグ」は０（未一致）を設定する）。ステップ１０７の後、本処理は終了する。

ステップ１０４における発話者の特定は、音声認識サーバ１００に、入力元と発話者とのマッピングテーブル（図示せず）を持ち、ユーザ端末１０２からの入力音声データ、すなわち、図３における「入力元」に基づいて発話者を特定する（図４の「音声ＩＤ」が５のデータの発話者はＡとして特定されたものとする）。なお、ステップ１０１で受信した入力音声データがＭＣＵ１０４を介したビデオ会議端末１０１からのものである場合は、入力音声履歴データ（図４）の対応するデータがユーザ端末１０２からの入力音声データであるため、図４における「入力元」を検索キーとしてマッピングテーブルを検索し発話者を特定する。

次に、ステップ１０５にて、音声認識手段１２０は、入力音声データに基づいて音声認識処理および翻訳処理を実行し認識結果として発言データ（図５）を作成する。図３および図４の例では、ステップ１０４において図４の「音声ＩＤ」が５のデータの発話者はａとして特定され、「発言ＩＤ」が３の発言データが作成される。また、音声認識手段１２０は、図３または図４における「音声」を音声認識し、テキスト化したものを図５における「テキスト」に格納する。さらに、音声認識手段１２０は、「テキスト」を所定言語で翻訳し翻訳結果を各言語に応じた「＊＊語訳」に格納する。この際、入力音声データの送信元であるユーザ端末１０２の使用言語を特定する必要があるが、これは使用言語特定手段１２３により特定される。具体的には、入力音声データに基づいてユーザ端末１０２の端末ＩＤは特定できるため、使用言語特定手段１２３は、当該端末ＩＤを検索キーとして使用言語データ（図７）を検索し、使用言語を特定する。

次に、ステップ１０６にて、音声認識手段１２０は、ユーザ端末１０２およびＭＣＵ１０４に、作成した発言データ（図５）を送信する。この際、使用言語特定手段１２３は、使用言語データ（図７）から送信先のユーザ端末１０２で用いられる使用言語を特定し、送信する翻訳テキストを絞り込むことができる（例えば、送信先のユーザ端末１０２の使用言語が英語である場合、発言データ（図５）の「英語訳」のみが翻訳テキストとして送信される）。また、別の実施形態では、送信する翻訳テキストを絞り込まずに送信し、送信先のユーザ端末１０２側で、表示する翻訳テキストを選択することもできる。ステップ１０６の後、本処理は終了する。なお、ＭＣＵ１０４に送信された発言データは、ＭＣＵ１０４において映像データと合成され、ビデオ会議端末１０１に送信される。

次に、本発明の誤認識修正処理について流れに沿って説明する。図９は、本発明の一実施形態に係る誤認識修正処理を示すフローチャートである。まず、ステップ２０１において、誤認識修正手段１２２は、ユーザ端末１０２から発言修正データ（図６）を受信し、発言修正者と、発言修正データに係る発話者が同一か否かを判定する。これは、発話者本人が修正するのであれば、その修正は正しいものであると判断できるためである。具体的には、発言修正データ（図６）の「発言ＩＤ」に対応する発言データ（図５）の「発言ＩＤ」を検索し、発言データの「発話者」と発言修正データの「修正元」が対応するものであるか否かを判定する。この際、ステップ１０４において示した入力元（修正元）と発話者とのマッピングテーブルを使用することができる。

図６における例では、発言修正データは、発言データ（図５）における「発言ＩＤ」が３の発言テキストを修正するものである。この場合、「修正元」から検索される修正者（例えば修正者ｄとする）と「発話者」（発話者はａ）は一致しないため、ステップ２０２のＮｏルートに進み、誤認識修正手段１２２は、発話者ａのユーザ端末１０２に対し、修正可否に関する問合せを送信する（ステップ２０３）。当該問合せとは、例えば、対応する発言データ（図５）の「テキスト」は誤認識されており、受信した発言修正データ（図６）の「修正テキスト」が正しいのではないか、修正することは可能かといった旨のものである。

なお、修正者と発話者が同一である場合、ステップ２０２のＹｅｓルートに進み、誤認識修正手段１２２は、発言データ（図５）に修正内容を反映し、修正された発言データをユーザ端末１０２およびＭＣＵ１０４に送信する（ステップ２０７）。この際、使用言語特定手段１２３は、使用言語データ記憶部１３５に格納されたデータから用いられる使用言語を特定し、修正された発言テキストを特定した使用言語により翻訳し翻訳テキストを作成した上で、当該翻訳テキストを含む、修正された発言データをユーザ端末１０２およびＭＣＵ１０４に送信することもできる。ステップ２０７の後、本処理は終了する。

次に、問合せを送信した発話者ａのユーザ端末１０２から、誤認識修正手段１２２は、当該問合せに対する回答を受信する（ステップ２０４）。受信した回答により、修正が可能である場合、ステップ２０５のＹｅｓルートに進み、ステップ２０７を実行し、本処理は終了する。

一方、受信した回答により、修正が不可である場合、ステップ２０５のＮｏルートに進み、誤認識修正手段１２２は、修正者ｄのユーザ端末１０２に対し、修正不可に関する連絡を送信する（ステップ２０６）。ステップ２０６の後、本処理は終了する。

また、別の実施形態として、音声認識処理（図８）におけるステップ１０３において、受信した入力音声データ（図３）と、既に受信済みの入力音声データを蓄積した入力音声履歴データ（図４）とが一致するか否かを判定する際、ＭＣＵ１０４を介したビデオ会議端末１０１からの入力音声データに、複数の発話者の音声データが含まれる場合がある。この場合、各発話者が用いるユーザ端末１０２からの入力音声データは各発話者の音声データのみを含むため、ビデオ会議端末１０１からの入力音声データとの一致率は低くなることが想定される。そのため、ステップ１０３における判定とは別に、例えば、一定時間ごとに、入力音声履歴データ（図４）から未一致（「一致フラグ」が０）のデータを抽出し、それぞれを複合的に比較し、一致するか否かを判定する。例えば、ＭＣＵ１０４を介したビデオ会議端末１０１からの入力音声データに発話者ａ、ｂ、およびｃ（それぞれが用いるユーザ端末１０１の端末名は、Ａ、Ｂ、およびＣとする）の音声データが含まれている（１つの会議室に複数人の出席者（発話者）が存在する）場合、入力音声履歴データ（図４）には、「端末名」がＡ、Ｂ、およびＣの３つの入力音声データと、「端末名」がＭＣＵの入力音声データが、未一致のデータとして残ることになる。これらを複合的に比較していくと、「端末名」がＡ、Ｂ、およびＣの３つの入力音声データの複合データと、「端末名」がＭＣＵの入力音声データとの一致率が高くなり、この場合の「端末名」がＭＣＵの入力音声データには、発話者が３名含まれると判断するができる。このように、１つの会議室に複数人の出席者（発話者）が存在する場合にも、ビデオ会議端末１０１からの入力音声データと、ユーザ端末１０２からの入力データとの比較が可能であり、発話者を特定することができる。

また、さらに別の実施形態として、音声認識処理（図８）におけるステップ１０６でユーザ端末１０２およびＭＣＵ１０４に発言データ（図５）を送信する前に、誤認識修正処理（図９）を実行することで、入力音声データに対する音声認識の誤認識が含まれた発言データをユーザ端末１０２およびＭＣＵ１０４に送信することなく、誤認識が修正された（または誤認識を含まない）発言データをユーザ端末１０２およびＭＣＵ１０４に送信することもできる。ただし、この場合、ステップ２０４における修正可否問合せに対する回答の受信がいつまでもされないと、ユーザ端末１０２およびＭＣＵ１０４に対する発言データの送信ができず、却って会議の進行を妨げる可能性がある。そのため、所定時間が経過した場合、修正可否に関する問合せ中であっても、ユーザ端末１０２およびＭＣＵ１０４に対して、発言データ（図５）を送信することができる。

以上より、ビデオ会議の共有データを出力するビデオ会議端末、ビデオ会議の出席者が個々にまたは共有して持つコンピュータ端末、および音声認識サーバを少なくとも備えたビデオ会議システムにおいて、当該システムは、会議音声など任意の発言を入力音声データとして音声認識し、音声認識した発言を出席者に修正させることができる。また、当該システムは、ビデオ会議端末およびコンピュータ端末からの入力音声データから、発言の発話者を特定し、発言修正者と発話者とが異なる場合は発話者に修正可否に関する問合せを行なうことができる。

Claims

ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる前記装置であって、前記装置は、
前記ビデオ会議端末から多地点接続装置（ＭＣＵ）を介して第１の入力音声データを受信する手段と、
前記第１の入力音声データに対して音声認識し、発言テキストを含む発言データを作成する手段と、
前記発言データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信する手段と、
前記コンピュータ端末から前記発言データに対する修正データを受信する手段と、
前記修正データに基づいて前記発言データを修正する手段と、
前記発言データの修正データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信する手段と
を備えたことを特徴とする装置。
前記装置は、
前記コンピュータ端末から第２の入力音声データを受信する手段と
前記第１の入力音声データと前記第２の入力音声データとを照合する手段と、
前記第１の入力音声データと前記第２の入力音声データとの照合により両音声データが対応する場合、前記第２の入力音声データに基づいて、前記発言の発話者を特定する手段と
をさらに備えたことを特徴とする請求項１に記載の装置。
前記修正データを送信した前記コンピュータ端末に基づく修正者と前記発話者とが同一であるか否かを判定する手段と、
前記修正者と前記発話者とが同一であるか否かの判定の結果、前記発話者と前記修正者が同一でない場合に、前記発話者の用いる前記コンピュータ端末に前記修正データに基づく修正可否に関する問合せを送信する手段と、
前記問合せに対する回答を受信する手段と
をさらに備え、
前記発言データを修正することは、前記修正者と前記発話者とが同一であるか否かの判定により前記修正者と前記発話者とが同一であると判定された場合、または前記回答が修正可能であることを示す場合に実行される
ことを特徴とする請求項２に記載の装置。
１つの前記ビデオ会議端末と複数の前記コンピュータ端末とが同一の地点に存在することを特徴とする請求項１乃至３のうちのいずれかに記載の装置。
前記装置は、
予め登録された、前記ビデオ会議端末および前記コンピュータ端末ごとの使用言語データに基づいて前記第１の入力音声データおよび前記第２の入力音声データの使用言語を特定する手段と、
前記特定された使用言語に基づいて、前記ビデオ会議端末および前記コンピュータ端末に送信するために、前記ビデオ会議端末および前記コンピュータ端末ごとに前記発言データを翻訳し、前記発言テキストを翻訳した翻訳テキストを作成する手段と、
前記特定された使用言語に基づいて、前記ビデオ会議端末および前記コンピュータ端末に送信すべき前記する前記翻訳テキストを選択する手段と
をさらに備えたことを特徴とする請求項１乃至４のうちのいずれかに記載の装置。
ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる方法であって、前記方法は、
前記ビデオ会議端末から多地点接続装置（ＭＣＵ）を介して第１の入力音声データを受信するステップと、
前記第１の入力音声データに対して音声認識し、発言テキストを含む発言データを作成するステップと、
前記発言データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信するステップと、
前記コンピュータ端末から前記発言データに対する修正データを受信するステップと、
前記修正データに基づいて前記発言データを修正するステップと、
前記発言データの修正データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信するステップと
を備えたことを特徴とする方法。
ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる方法をコンピュータに実行させるプログラムであって、前記プログラムは、前記コンピュータによって実行されると、前記コンピュータに、
前記ビデオ会議端末から多地点接続装置（ＭＣＵ）を介して第１の入力音声データを受信させ、
前記第１の入力音声データに対して音声認識し、発言テキストを含む発言データを作成させ、
前記発言データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信させ、
前記コンピュータ端末から前記発言データに対する修正データを受信させ、
前記修正データに基づいて前記発言データを修正させ、
前記発言データの修正データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信させる
ことを特徴とするプログラム。
ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる方法をコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ可読記憶媒体、前記方法は、
前記ビデオ会議端末から多地点接続装置（ＭＣＵ）を介して第１の入力音声データを受信するステップと、
前記第１の入力音声データに対して音声認識し、発言テキストを含む発言データを作成するステップと、
前記発言データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信するステップと、
前記コンピュータ端末から前記発言データに対する修正データを受信するステップと、
前記修正データに基づいて前記発言データを修正するステップと、
前記発言データの修正データを前記コンピュータ端末に、および前記ＭＣＵを介して前記ビデオ会議端末に送信するステップと
を備えたことを特徴とするコンピュータ可読記憶媒体。