JP6507010B2 - ビデオ会議システムと音声認識技術を組み合わせた装置および方法 - Google Patents

ビデオ会議システムと音声認識技術を組み合わせた装置および方法 Download PDF

Info

Publication number
JP6507010B2
JP6507010B2 JP2015070342A JP2015070342A JP6507010B2 JP 6507010 B2 JP6507010 B2 JP 6507010B2 JP 2015070342 A JP2015070342 A JP 2015070342A JP 2015070342 A JP2015070342 A JP 2015070342A JP 6507010 B2 JP6507010 B2 JP 6507010B2
Authority
JP
Japan
Prior art keywords
data
speech
video conference
terminal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015070342A
Other languages
English (en)
Other versions
JP2016192599A (ja
Inventor
和宏 高柳
和宏 高柳
真 櫛野
真 櫛野
康仁 日吉
康仁 日吉
幸子 福田
幸子 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2015070342A priority Critical patent/JP6507010B2/ja
Publication of JP2016192599A publication Critical patent/JP2016192599A/ja
Application granted granted Critical
Publication of JP6507010B2 publication Critical patent/JP6507010B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、ビデオ会議システムと音声認識技術を組み合わせた装置および方法に関する。具体的には、ビデオ会議の共有データを出力するビデオ会議端末、ビデオ会議の出席者が個々にまたは共有して持つコンピュータ端末、および音声認識サーバを少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、音声認識した発言を出席者が修正できる装置および方法に関する。また、ビデオ会議端末およびコンピュータ端末の入力音声データから、発言の発話者を特定し、発言修正者と発話者とが異なる場合は発話者に修正可否に関する問合せを行なう。
複数の遠隔地に設置されたビデオ会議端末を多地点接続装置(Multi-point Control Unit/以下、「MCU」という)を介してネットワークで結んで双方向の画像および音声を通信し、会議を行なうビデオ会議システムがある。当該ビデオ会議システムにおいて、会議の出席者(発話者)が発言した音声を音声認識し発言テキストを作成および表示することにより会議をより円滑に進めることができる。さらに音声を翻訳し、翻訳結果を表示することにより出席者の使用言語が異なる場合の支援を図ることもできる。MCUは、特許文献1に示されるように、MCUに接続された複数の端末からの音声データや映像データを合成し、例えば字幕付き映像データを作成し、複数の端末に送信するものである。
特開2013−201505号公報
ビデオ会議システムにおける音声認識の際、発話者の発音の仕方や周囲の雑音により、さらに音声が日本語の場合は同音異義語などが要因で誤認識が発生してしまう場合がある。しかしながら、音声認識技術を組み合わせたビデオ会議システムにおいて、誤認識を修正する手段を実現しようとした場合、発話者以外の出席者が誤認識に気付き修正する場合も想定される。このような場合、発話者以外の出席者が誤認識を修正し、発話者に修正内容の可否確認をし、問題なければ修正内容を確定させる処理フローが想定される。しかしながら、このような複数人が関わる処理フローの場合、修正および修正可否の問合せによっては会議の進行を妨げたり、最悪の場合は会議を中断させてしまったりする恐れがある。
また、ビデオ会議システムでは、各会議室に設置されたビデオ会議端末のディスプレイに表示する画面の内容は、各会議室内の会議の参加者で共有することを前提としているものがほとんどである。そのため、例えば、ある会議室のビデオ会議端末のディスプレイに表示された画面に各発話者の発言テキストが流れていく中で、ある発話者が自分の発言を見直すために、流れた発言テキストをスクロールするなどして自分の発言テキストを表示させることは会議の進行を妨げてしまうことも想定される。
本発明は、このような課題を解決するために、ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる前記装置であって、前記装置は、
前記ビデオ会議端末から第1の入力音声データを受信する手段と、
前記入力音声データに基づいて発言データを作成する手段と、
前記発言データを前記ビデオ会議端末および前記コンピュータ端末に送信する手段と、
前記コンピュータ端末から前記発言データに対する修正データを受信する手段と、
前記修正データに基づいて前記発言データを修正する手段と、
前記発言データの修正データを前記ビデオ会議端末および前記コンピュータ端末に送信する手段と
を備えたことを特徴とする。
また、前段落に記載の発明において、前記装置は、
前記コンピュータ端末から第2の入力音声データを受信する手段と
前記第1の入力音声データと前記第2の入力音声データとを照合する手段と、
前記第1の入力音声データと前記第2の入力音声データとの照合により両音声データが対応する場合、前記両音声データに基づいて、前記発言の発話者を特定する手段と
をさらに備えたことを特徴とする。
さらに、前段落に記載の発明において、前記修正データに基づいて前記発言データを修正することは、
前記発話者と、前記修正データに係る修正者とが同一であるか否かを判定し、
前記発話者と前記修正者とが同一である場合に実行され、
前記装置は、
前記発話者と前記修正者とが異なる場合、前記発話者が用いる前記コンピュータ端末に修正可否に関する問合せを送信する手段と、
前記問合せに対する回答を受信する手段と
をさらに備え、前記修正データに基づいて前記発言データを修正することは、
前記回答が修正可能であることを示す場合に実行される
ことを特徴とする。
そして、前3段落に記載の発明において、1つの前記ビデオ会議端末と複数の前記コンピュータ端末とが同一の地点に存在することを特徴とする。
以上説明したように、ビデオ会議システムにおいて、ビデオ会議端末およびコンピュータ端末からの入力音声データから発言の発話者を特定し、発言修正者と発話者とが異なる場合は発話者が用いるコンピュータ端末に修正可否に関する問合せを行なうことにより会議を中断させることなく誤認識を修正することができる。また、ビデオ会議の出席者は、個々に用いるコンピュータ端末を操作することにより、ビデオ会議端末に表示される共有画面に影響を与えることなく、発言テキストを見直したり修正したりすることができる。
本発明の一実施形態に係るビデオ会議システムの構成を示す図である。 本発明の一実施形態に係る音声認識サーバの構成を示す図である。 本発明の一実施形態に係る入力音声データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る入力音声履歴データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る発言データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る発言修正データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る使用言語データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る音声認識処理を示すフローチャートである。 本発明の一実施形態に係る誤認識修正処理を示すフローチャートである。
以下、添付した図面を参照して、本発明の一実施形態に係る、ビデオ会議システムにおいて、会議音声など任意の発言を入力音声データとして音声認識し、出席者が音声認識した発言を修正できる装置および方法を詳細に説明する。
まず始めに、本システムの概要を説明する。図1は、本発明の一実施形態に係るビデオ会議システムの構成を示す図である。図1において、各会議室(会議室A、会議室Bなど物理的に離れた地点を示す)に設置されたビデオ会議端末101Aおよび101B(以下、まとめて示す場合は「ビデオ会議端末101」という)、ユーザ端末102Aおよび102B(以下、まとめて示す場合は「ユーザ端末102」という)、MCU104、ならびに音声認識サーバ100は、ネットワーク103(例えば、インターネット)を介して通信を行うように構成される。なお、図1では、サーバコンピュータ側を音声認識サーバ100とMCU104との2台構成で示しているが、これらを単一のサーバコンピュータで構成することも、さらに多くのサーバコンピュータで構成することも可能である。また、図1では、会議室Aおよび会議室Bの2地点を示しているが、より多くの地点に渡るビデオ会議システムであってもよい。さらに、図1では、1つの会議室に1つのユーザ端末102を示しているが、例えば1つの会議室に複数の出席者がいる場合など、1つの会議室に複数のユーザ端末102があってもよい(すなわち、1つのビデオ会議端末101と、複数のユーザ端末102とが同一の地点に存在する場合もある)。
ビデオ会議端末101は、MCUから受信した映像表示するためのディスプレイ、会議室内の様子を撮影するカメラ、および音声を収集するマイクなどを備えた装置である。ビデオ会議端末101は、会議室内の映像データおよび音声データをMCU104に送信する。また、ビデオ会議端末101は、MCU104で合成された合成映像データおよび音声データを受信し出力する。当該合成された合成映像データおよび音声データは主に各会議室での発話者の発言内容(発話者の映像や画像、名前、発言内容の音声、翻訳音声および音声のテキスト)などをまとめた共有データである。
ユーザ端末102は、ビデオ会議の出席者が個々にまたは共有して持つコンピュータ端末である(図1ではタブレット型のモバイル端末として示しているがデスクトップ端末であってもよい)。ユーザ端末102にもマイクが接続または内蔵され、ユーザ端末102はユーザ端末102を使用する出席者(発話者)の音声を入力音声データとして音声認識サーバ100に送信する。また、ユーザ端末102は、音声認識サーバ100から音声データをテキスト化した発言テキストを含む発言データを受信し出力する。ただし、ユーザ端末102に出力される映像は個々にカスタマイズされたものであってもよい。また、出席者は、ユーザ端末102を使用して発言テキストを修正し、音声認識サーバ100を介して修正された発言テキストを含む発言データを再送信することができる。
MCU104は、ビデオ会議端末101から映像データおよび音声データを受信する。また、音声認識サーバから、音声データをテキスト化した発言テキストが含まれる発言データを受信し、当該発言データと映像データとを合成する。さらに、MCU104は、合成した発言データと映像データをビデオ会議端末101に送信する。
音声認識サーバ100は、MCU104を介してビデオ会議端末101から音声データを受信する。また、音声認識サーバ100は、ユーザ端末102から音声データを受信する。音声認識サーバ100は、受信した、ビデオ会議端末101の音声データとユーザ端末102の音声データとを照合し、一致する音声データを音声認識し、テキスト化する。音声認識サーバ100は、音声データをテキスト化した発言テキストを含む発言データをユーザ端末102およびMCU104に送信する(MCU104に送信された発言データは、MCU104において映像データと合成され、ビデオ会議端末101に送信される)。さらに、音声認識サーバ100は、ユーザ端末102から発言テキストに対する修正データを受信し、発話者と修正者が異なる場合は発話者の使用するユーザ端末102に対し修正可否の問合せを行なう。当該問合せに対して修正可能という回答を受信した場合、音声認識サーバ100は修正データにより発言テキストを更新する。更新された発言テキストを含む発言データは音声認識サーバ100によって、再度、各ユーザ端末102およびMCU104に送信される。また、ユーザ端末102およびMCU104に発言データを送信する際、音声認識サーバ100は、送信先のユーザ端末102で用いられる使用言語を特定し、送信する翻訳テキストを絞り込むことができる。
次に、音声認識サーバ100の構成を詳細に説明する。なお、図2では、音声認識サーバ100を単一のサーバコンピュータと想定し、必要な機能構成のみを示している。
音声認識サーバ100は、CPU110に、システムバス115を介してRAM111、入力装置112、出力装置113、通信制御装置114、および不揮発性記憶媒体(ROMやHDDなど)で構成される記憶装置116が接続された構成を有する。記憶装置116は、ビデオ会議システムの各機能を奏するためのソフトウェアプログラムを格納するプログラム格納領域と、当該ソフトウェアプログラムが取り扱うデータを格納するデータ格納領域とを備えている。以下に説明するプログラム格納領域の各手段は、実際は独立したソフトウェアプログラム、そのルーチンやコンポーネントなどであり、CPU110によって記憶装置116から呼び出された後、RAM111のワークエリアに展開され、かつデータベースなどを適宜参照しながら順次実行されることで、各機能を奏するものである。
記憶装置116におけるプログラム格納領域に格納されているソフトウェアプログラムは、本発明に関連するもののみを列挙すると、音声認識手段120、発話者特定手段121、誤認識修正手段122、および使用言語特定手段123を備えている。これらの手段は、CPU110によって実行される。
音声認識手段120は、MCU104を介したビデオ会議端末101、およびユーザ端末102からの入力音声データ(図3)を受信し、入力音声データ記憶部131に格納する。音声認識手段120は、入力音声データの受信ごとに、受信した入力音声データ(図3)と、既に受信済みの入力音声データを蓄積した入力音声履歴データ(図4)とを照合し、一致する入力音声データが存在するか否か判定する。
一致する入力音声データが存在する場合は、当該入力音声データに基づいて音声認識を実行し、入力音声データをテキスト化することにより認識結果として発言データ(図5)を作成し、発言データ記憶部133に格納する。また、音声認識手段120は、後述する使用言語特定手段123によって取得した入力音声データの言語情報に基づいて音声認識し、音声認識したテキストを翻訳し翻訳テキストを生成して発言データ記憶部133に格納する。音声認識手段120は、一致した入力音声データを入力音声履歴データ記憶部132に蓄積し、一致した両入力音声データの「一致フラグ」を「1」(一致済)に設定する。また、音声認識手段120は、入力音声データに対してノイズリダクションを実行することもできる。特に、本実施形態の場合、MCU104を介したビデオ会議端末101からの入力音声データと、ユーザ端末102からの入力音声データとの2つの入力音声データがあるため、これを比較することにより、音声データとノイズをより明確に区別することができる。さらに、音声認識手段120は、作成した発言データをユーザ端末102およびMCU104に送信する。ユーザ端末102に送信する場合は、使用言語特定手段123によって取得した送信先のユーザ端末102に合わせた言語の翻訳テキストを含む発言データを送信する。一方、一致する入力音声データが存在しない場合は、受信した入力音声データを入力音声履歴データ記憶部132に格納し、対応する入力音声データが受信されるのを待つ。
発話者特定手段121は、受信した入力音声データがMCU104を介したビデオ会議端末101からのものである場合は、一致するユーザ端末102からの入力音声データに基づいて、発話者を特定する。
誤認識修正手段122は、ユーザ端末102から発言修正データ(図6)を受信し、発言修正データ記憶部134に格納する。また、誤認識修正手段122は、受信した発言修正データの送信者(修正者)が発話者と同一であるか否かを判定し、同一であれば、対応する発言データのテキストを発言データ記憶部133から検索し、修正内容を反映する。一方、修正者と発話者が異なる場合は、誤認識修正手段122は、発話者のユーザ端末102に対し、修正可否の問合せを送信する。さらに、誤認識修正手段122は、発話者のユーザ端末102から問合せの回答を受信し、修正可能である場合は、修正内容を発言データ記憶部133に反映し、修正不可の場合は、修正者のユーザ端末102に対しその旨の連絡を送信する。また、修正内容を反映した場合は、修正したテキストを再度翻訳して、ユーザ端末102およびMCU104に送信する。
使用言語特定手段123は、入力音声データに対する音声認識のため、入力音声データの送信元であるユーザ端末102の使用言語を使用言語データ記憶部135に格納されたデータから特定する。また、使用言語特定手段123は、各ユーザ端末102に発言データを送信する際も同様に、送信先のユーザ端末102の使用言語を特定する。
次に、記憶装置116におけるデータ格納領域は、本発明に関連するもののみを列挙すると、入力音声データ記憶部131、入力音声履歴データ記憶部132、発言データ記憶部133、発言修正データ記憶部134、および使用言語データ記憶部135を備えている。いずれも、記憶装置116内に確保された一定の記憶領域である。
入力音声データ記憶部131は、ビデオ会議端末101またはユーザ端末102から送信される入力音声に関するデータを格納する。図3は、本発明の一実施形態に係る入力音声データ記憶部131に格納されたデータを示す図である。図3における入力音声データは、入力元の端末を一意に示す「入力元」、音声が入力された時間を示す「時間」、およびアナログ音声を入力音声としてデジタル変換したデータである「音声」を含む。「入力元」は、例えば、IPアドレスやMACアドレスである。また、図3における「時間」は時分秒で示されているが、日付のデータまで持つこともできる。
入力音声履歴データ記憶部132は、MCU104を介したビデオ会議端末101、およびユーザ端末102からの入力音声データを蓄積して格納する。図4は、本発明の一実施形態に係る入力音声履歴データ記憶部132に格納されたデータを示す図である。図4における入力音声履歴データは、入力音声履歴データを一意に示す「音声ID」、入力元の端末を一意に示す「入力元」、入力元の端末名を示す「端末名」、音声が入力された時間を示す「時間」、アナログ音声を入力音声としてデジタル変換したデータである「音声」、および後述する「一致フラグ」を含む。「端末名」は、「入力元」とのマッピングデータ(図示せず)を音声認識サーバ100に持つことにより取得することができる。
本実施形態では、受信した入力音声データ(図3)を入力音声履歴データ(図4)として蓄積し、当該入力音声履歴データに対して、新たに受信した入力音声データ(図3)を照合させ、「音声」が一致(音声データであるため、厳密には類似)するものが存在するかを判定する。一致したものは「一致フラグ」が「1」(ON)になり、入力音声データ(図3)との照合対象から外すことができる。
発言データ記憶部133は、入力音声に対する音声認識結果の履歴データを格納する。図5は、本発明の一実施形態に係る発言データ記憶部133に格納されたデータを示す図である。図5における発言データは、発言データを一意に示す「発言ID」、音声が入力された時間を示す「時間」、アナログ音声を入力音声としてデジタル変換したデータである「音声」、発話者を一意に示す「発話者」、入力音声を音声認識した結果のテキストデータを示す「テキスト」、テキストデータに対する各言語の翻訳結果を示す「**語訳」を含む。「**語訳」は、「テキスト」を特定言語で翻訳した翻訳テキストを格納するデータ項目である。「**語訳」について、図5の例では、日本語訳、英語訳、仏語訳、および独語訳と4ヵ国語分のデータ項目を示しているが、会議の出席者の使用言語によって、例えば「中国語訳」、「韓国語訳」・・・などとデータ項目を増やすなどして、それぞれの翻訳結果を格納することもできる。
発言修正データ記憶部134は、入力音声の音声認識結果に対する修正データを格納する。図6は、本発明の一実施形態に係る発言修正データ記憶部134に格納されたデータを示す図である。図6における発言修正データは、修正対象の発言データ(図5)を一意に示す「発言ID」、修正元の端末を一意に示す「修正元」、および音声認識結果のテキストデータに対する修正内容を示す「修正テキスト」を含む。「修正元」は、例えば、IPアドレスやMACアドレスである。
使用言語データ記憶部135は、ユーザ端末102において使用される言語データを格納する。図7は、本発明の一実施形態に係る使用言語データ記憶部135に格納されたデータを示す図である。図7における使用言語データは、ユーザ端末を一意に示す「端末ID」、および使用言語を一意に示す「使用言語」を含む。「端末ID」は、例えばIPアドレスや、MACアドレス、端末名など、ビデオ会議システムを利用するユーザ端末102を一意に識別できるデータである。また、「使用言語」は図7上では便宜上、文字列として示しているが、1:日本語、2:英語・・・などと、使用言語を一意に識別できる数値などであってもよい。なお、本データは、会議が始まる前など、ビデオ会議システムを使用する前に予め登録しておく必要がある。ただし、会議中(ビデオ会議システム使用中)に使用言語を変更することや、新たな端末に対する使用言語を登録することもできる。
次に、本発明の音声認識処理について流れに沿って説明する。図8は、本発明の一実施形態に係る音声認識処理を示すフローチャートである。まず、ステップ101にて、音声認識手段120は、入力音声データ(図3)を受信し、入力音声データ記憶部131に格納する。当該入力音声データは、MCU104を介してビデオ会議端末101から送信されたもの、またはユーザ端末102から送信されたものである。
入力音声データを受信すると、音声認識手段120は、受信した入力音声データと、既に受信済みの入力音声データを蓄積した入力音声履歴データ(図4)とを照合し(ステップ102)、入力音声データが一致(音声データであるため、厳密には類似)するものが存在するか否かを判定する(ステップ103)。具体的には、入力音声履歴データ(図4)において「一致フラグ」が0(まだ一致する音声データが見つかっていないデータ)のレコードを対象として、受信した入力音声データ(図3)の「音声」と入力音声履歴データ(図4)の「音声」が一致するか否かを判定する。なお、音声の一致は、照合する音声間における周波数の類似度が所定の閾値を超えた場合に一致するとみなすことを含む。
図3に示す入力音声データは、ユーザ端末102から送信されたものであり、入力音声履歴データ(図4)において、「一致フラグ」が0(未一致)であり、かつ「音声」が一致するデータを検索すると、「音声ID」が5のデータと一致する。この場合、ステップ103のYesルートに進み、発話者特定手段121は、入力音声データに基づいて発話者を特定する(ステップ104)。また、この場合、入力音声履歴データから一致する入力音声データが見つかったため、「音声ID」が5のデータの「一致フラグ」を1(一致済)に更新する。また、受信した入力音声データ(図3)を入力音声履歴データ記憶部132に格納し、入力音声データを蓄積しておくこともできる(この場合、「一致フラグ」は1を設定する)。なお、入力音声履歴データに一致する入力音声データが存在しない場合、ステップ103のNoルートに進み、音声認識手段120は、受信した入力音声データを入力音声履歴データ記憶部132に格納し(ステップ107)、対応する入力音声データが受信されるのを待つ(この場合、「一致フラグ」は0(未一致)を設定する)。ステップ107の後、本処理は終了する。
ステップ104における発話者の特定は、音声認識サーバ100に、入力元と発話者とのマッピングテーブル(図示せず)を持ち、ユーザ端末102からの入力音声データ、すなわち、図3における「入力元」に基づいて発話者を特定する(図4の「音声ID」が5のデータの発話者はAとして特定されたものとする)。なお、ステップ101で受信した入力音声データがMCU104を介したビデオ会議端末101からのものである場合は、入力音声履歴データ(図4)の対応するデータがユーザ端末102からの入力音声データであるため、図4における「入力元」を検索キーとしてマッピングテーブルを検索し発話者を特定する。
次に、ステップ105にて、音声認識手段120は、入力音声データに基づいて音声認識処理および翻訳処理を実行し認識結果として発言データ(図5)を作成する。図3および図4の例では、ステップ104において図4の「音声ID」が5のデータの発話者はaとして特定され、「発言ID」が3の発言データが作成される。また、音声認識手段120は、図3または図4における「音声」を音声認識し、テキスト化したものを図5における「テキスト」に格納する。さらに、音声認識手段120は、「テキスト」を所定言語で翻訳し翻訳結果を各言語に応じた「**語訳」に格納する。この際、入力音声データの送信元であるユーザ端末102の使用言語を特定する必要があるが、これは使用言語特定手段123により特定される。具体的には、入力音声データに基づいてユーザ端末102の端末IDは特定できるため、使用言語特定手段123は、当該端末IDを検索キーとして使用言語データ(図7)を検索し、使用言語を特定する。
次に、ステップ106にて、音声認識手段120は、ユーザ端末102およびMCU104に、作成した発言データ(図5)を送信する。この際、使用言語特定手段123は、使用言語データ(図7)から送信先のユーザ端末102で用いられる使用言語を特定し、送信する翻訳テキストを絞り込むことができる(例えば、送信先のユーザ端末102の使用言語が英語である場合、発言データ(図5)の「英語訳」のみが翻訳テキストとして送信される)。また、別の実施形態では、送信する翻訳テキストを絞り込まずに送信し、送信先のユーザ端末102側で、表示する翻訳テキストを選択することもできる。ステップ106の後、本処理は終了する。なお、MCU104に送信された発言データは、MCU104において映像データと合成され、ビデオ会議端末101に送信される。
次に、本発明の誤認識修正処理について流れに沿って説明する。図9は、本発明の一実施形態に係る誤認識修正処理を示すフローチャートである。まず、ステップ201において、誤認識修正手段122は、ユーザ端末102から発言修正データ(図6)を受信し、発言修正者と、発言修正データに係る発話者が同一か否かを判定する。これは、発話者本人が修正するのであれば、その修正は正しいものであると判断できるためである。具体的には、発言修正データ(図6)の「発言ID」に対応する発言データ(図5)の「発言ID」を検索し、発言データの「発話者」と発言修正データの「修正元」が対応するものであるか否かを判定する。この際、ステップ104において示した入力元(修正元)と発話者とのマッピングテーブルを使用することができる。
図6における例では、発言修正データは、発言データ(図5)における「発言ID」が3の発言テキストを修正するものである。この場合、「修正元」から検索される修正者(例えば修正者dとする)と「発話者」(発話者はa)は一致しないため、ステップ202のNoルートに進み、誤認識修正手段122は、発話者aのユーザ端末102に対し、修正可否に関する問合せを送信する(ステップ203)。当該問合せとは、例えば、対応する発言データ(図5)の「テキスト」は誤認識されており、受信した発言修正データ(図6)の「修正テキスト」が正しいのではないか、修正することは可能かといった旨のものである。
なお、修正者と発話者が同一である場合、ステップ202のYesルートに進み、誤認識修正手段122は、発言データ(図5)に修正内容を反映し、修正された発言データをユーザ端末102およびMCU104に送信する(ステップ207)。この際、使用言語特定手段123は、使用言語データ記憶部135に格納されたデータから用いられる使用言語を特定し、修正された発言テキストを特定した使用言語により翻訳し翻訳テキストを作成した上で、当該翻訳テキストを含む、修正された発言データをユーザ端末102およびMCU104に送信することもできる。ステップ207の後、本処理は終了する。
次に、問合せを送信した発話者aのユーザ端末102から、誤認識修正手段122は、当該問合せに対する回答を受信する(ステップ204)。受信した回答により、修正が可能である場合、ステップ205のYesルートに進み、ステップ207を実行し、本処理は終了する。
一方、受信した回答により、修正が不可である場合、ステップ205のNoルートに進み、誤認識修正手段122は、修正者dのユーザ端末102に対し、修正不可に関する連絡を送信する(ステップ206)。ステップ206の後、本処理は終了する。
また、別の実施形態として、音声認識処理(図8)におけるステップ103において、受信した入力音声データ(図3)と、既に受信済みの入力音声データを蓄積した入力音声履歴データ(図4)とが一致するか否かを判定する際、MCU104を介したビデオ会議端末101からの入力音声データに、複数の発話者の音声データが含まれる場合がある。この場合、各発話者が用いるユーザ端末102からの入力音声データは各発話者の音声データのみを含むため、ビデオ会議端末101からの入力音声データとの一致率は低くなることが想定される。そのため、ステップ103における判定とは別に、例えば、一定時間ごとに、入力音声履歴データ(図4)から未一致(「一致フラグ」が0)のデータを抽出し、それぞれを複合的に比較し、一致するか否かを判定する。例えば、MCU104を介したビデオ会議端末101からの入力音声データに発話者a、b、およびc(それぞれが用いるユーザ端末101の端末名は、A、B、およびCとする)の音声データが含まれている(1つの会議室に複数人の出席者(発話者)が存在する)場合、入力音声履歴データ(図4)には、「端末名」がA、B、およびCの3つの入力音声データと、「端末名」がMCUの入力音声データが、未一致のデータとして残ることになる。これらを複合的に比較していくと、「端末名」がA、B、およびCの3つの入力音声データの複合データと、「端末名」がMCUの入力音声データとの一致率が高くなり、この場合の「端末名」がMCUの入力音声データには、発話者が3名含まれると判断するができる。このように、1つの会議室に複数人の出席者(発話者)が存在する場合にも、ビデオ会議端末101からの入力音声データと、ユーザ端末102からの入力データとの比較が可能であり、発話者を特定することができる。
また、さらに別の実施形態として、音声認識処理(図8)におけるステップ106でユーザ端末102およびMCU104に発言データ(図5)を送信する前に、誤認識修正処理(図9)を実行することで、入力音声データに対する音声認識の誤認識が含まれた発言データをユーザ端末102およびMCU104に送信することなく、誤認識が修正された(または誤認識を含まない)発言データをユーザ端末102およびMCU104に送信することもできる。ただし、この場合、ステップ204における修正可否問合せに対する回答の受信がいつまでもされないと、ユーザ端末102およびMCU104に対する発言データの送信ができず、却って会議の進行を妨げる可能性がある。そのため、所定時間が経過した場合、修正可否に関する問合せ中であっても、ユーザ端末102およびMCU104に対して、発言データ(図5)を送信することができる。
以上より、ビデオ会議の共有データを出力するビデオ会議端末、ビデオ会議の出席者が個々にまたは共有して持つコンピュータ端末、および音声認識サーバを少なくとも備えたビデオ会議システムにおいて、当該システムは、会議音声など任意の発言を入力音声データとして音声認識し、音声認識した発言を出席者に修正させることができる。また、当該システムは、ビデオ会議端末およびコンピュータ端末からの入力音声データから、発言の発話者を特定し、発言修正者と発話者とが異なる場合は発話者に修正可否に関する問合せを行なうことができる。

Claims (8)

  1. ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声を含む任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる前記装置であって、前記装置は、
    前記ビデオ会議端末から多地点接続装置(MCU)を介して第1の入力音声データを受信する手段と、
    前記第1の入力音声データに対して音声認識し、発言テキストを含む発言データを作成する手段と、
    前記発言データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信する手段と、
    前記コンピュータ端末から前記発言データに対する修正データを受信する手段と、
    前記修正データに基づいて前記発言データを修正する手段と、
    前記発言データの修正データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信する手段と
    を備えたことを特徴とする装置。
  2. 前記装置は、
    前記コンピュータ端末から第2の入力音声データを受信する手段と
    前記第1の入力音声データと前記第2の入力音声データとを照合する手段と、
    前記第1の入力音声データと前記第2の入力音声データとの照合により両音声データが対応する場合、前記第2の入力音声データに基づいて、前記発言の発話者を特定する手段と
    をさらに備えたことを特徴とする請求項1に記載の装置。
  3. 前記修正データを送信した前記コンピュータ端末に基づく修正者と前記発話者とが同一であるか否かを判定する手段と、
    前記修正者と前記発話者とが同一であるか否かの判定の結果、前記発話者と前記修正者が同一でない場合に、前記発話者の用いる前記コンピュータ端末に前記修正データに基づく修正可否に関する問合せを送信する手段と、
    前記問合せに対する回答を受信する手段と
    をさらに備え、
    前記発言データを修正することは、前記修正者と前記発話者とが同一であるか否かの判定により前記修正者と前記発話者とが同一であると判定された場合、または前記回答が修正可能であることを示す場合に実行される
    ことを特徴とする請求項2に記載の装置。
  4. 1つの前記ビデオ会議端末と複数の前記コンピュータ端末とが同一の地点に存在することを特徴とする請求項1乃至3のうちのいずれか一項に記載の装置。
  5. 前記装置は、
    予め登録された、前記ビデオ会議端末および前記コンピュータ端末ごとの使用言語データに基づいて前記第1の入力音声データの使用言語を特定する手段と、
    前記特定された使用言語に基づいて、前記ビデオ会議端末および前記コンピュータ端末に送信するために、前記ビデオ会議端末および前記コンピュータ端末ごとに前記発言データを翻訳し、前記発言テキストを翻訳した翻訳テキストを作成する手段と、
    前記特定された使用言語に基づいて、前記ビデオ会議端末および前記コンピュータ端末に送信すべき前記翻訳テキストを選択する手段と
    をさらに備えたことを特徴とする請求項1乃至4のうちのいずれか一項に記載の装置。
  6. ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声を含む任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる方法であって、前記方法は、
    前記ビデオ会議端末から多地点接続装置(MCU)を介して第1の入力音声データを受信するステップと、
    前記第1の入力音声データに対して音声認識し、発言テキストを含む発言データを作成するステップと、
    前記発言データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信するステップと、
    前記コンピュータ端末から前記発言データに対する修正データを受信するステップと、
    前記修正データに基づいて前記発言データを修正するステップと、
    前記発言データの修正データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信するステップと
    を備えたことを特徴とする方法。
  7. ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声を含む任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる方法をコンピュータに実行させるプログラムであって、前記プログラムは、前記コンピュータによって実行されると、前記コンピュータに、
    前記ビデオ会議端末から多地点接続装置(MCU)を介して第1の入力音声データを受信させ、
    前記第1の入力音声データに対して音声認識し、発言テキストを含む発言データを作成させ、
    前記発言データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信させ、
    前記コンピュータ端末から前記発言データに対する修正データを受信させ、
    前記修正データに基づいて前記発言データを修正させ、
    前記発言データの修正データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信させる
    ことを特徴とするプログラム。
  8. ビデオ会議の共有データを出力する複数のビデオ会議端末、前記ビデオ会議の出席者が個々に持つ複数のコンピュータ端末、および音声認識サーバコンピュータ装置を少なくとも備えたビデオ会議システムにおいて、会議音声を含む任意の発言を入力音声データとして音声認識し、前記出席者に音声認識した前記発言を修正させる方法をコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ可読記憶媒体であって、前記方法は、
    前記ビデオ会議端末から多地点接続装置(MCU)を介して第1の入力音声データを受信するステップと、
    前記第1の入力音声データに対して音声認識し、発言テキストを含む発言データを作成するステップと、
    前記発言データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信するステップと、
    前記コンピュータ端末から前記発言データに対する修正データを受信するステップと、
    前記修正データに基づいて前記発言データを修正するステップと、
    前記発言データの修正データを前記コンピュータ端末に、および前記MCUを介して前記ビデオ会議端末に送信するステップと
    を備えたことを特徴とするコンピュータ可読記憶媒体。
JP2015070342A 2015-03-30 2015-03-30 ビデオ会議システムと音声認識技術を組み合わせた装置および方法 Active JP6507010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015070342A JP6507010B2 (ja) 2015-03-30 2015-03-30 ビデオ会議システムと音声認識技術を組み合わせた装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015070342A JP6507010B2 (ja) 2015-03-30 2015-03-30 ビデオ会議システムと音声認識技術を組み合わせた装置および方法

Publications (2)

Publication Number Publication Date
JP2016192599A JP2016192599A (ja) 2016-11-10
JP6507010B2 true JP6507010B2 (ja) 2019-04-24

Family

ID=57245843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015070342A Active JP6507010B2 (ja) 2015-03-30 2015-03-30 ビデオ会議システムと音声認識技術を組み合わせた装置および方法

Country Status (1)

Country Link
JP (1) JP6507010B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106604125B (zh) * 2016-12-29 2019-06-14 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置
JP6614395B2 (ja) * 2017-08-31 2019-12-04 ヤマハ株式会社 情報提供方法および情報提供装置
CN111435981B (zh) * 2019-01-11 2021-06-08 华为技术有限公司 通话处理方法及装置
CN113591491B (zh) * 2020-04-30 2023-12-26 阿里巴巴集团控股有限公司 语音翻译文本校正系统、方法、装置及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004080486A (ja) * 2002-08-20 2004-03-11 Toppan Printing Co Ltd 議事録作成システム、議事録データ作成方法、議事録データ作成プログラム
JP2005295015A (ja) * 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
JP2006050500A (ja) * 2004-08-09 2006-02-16 Jfe Systems Inc 会議支援システム
JP5003125B2 (ja) * 2006-11-30 2012-08-15 富士ゼロックス株式会社 議事録作成装置及びプログラム
US8279861B2 (en) * 2009-12-08 2012-10-02 International Business Machines Corporation Real-time VoIP communications using n-Way selective language processing
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference

Also Published As

Publication number Publication date
JP2016192599A (ja) 2016-11-10

Similar Documents

Publication Publication Date Title
JP4466666B2 (ja) 議事録作成方法、その装置及びそのプログラム
US8676577B2 (en) Use of metadata to post process speech recognition output
US7899670B1 (en) Server-based speech recognition
JP6507010B2 (ja) ビデオ会議システムと音声認識技術を組み合わせた装置および方法
KR102141116B1 (ko) 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
US11776541B2 (en) Communicating announcements
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
JP2008225068A (ja) 議事録作成方法、その装置及びそのプログラム
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
US20220343914A1 (en) Method and system of generating and transmitting a transcript of verbal communication
US20180068659A1 (en) Voice recognition device and voice recognition method
JP3141833B2 (ja) ネットワークアクセスシステム
US20140358543A1 (en) Linked-work assistance apparatus, method and program
JP5030868B2 (ja) 会議音声録音システム
US20180286388A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
JP2017120616A (ja) 機械翻訳方法、及び、機械翻訳システム
JP2020507165A (ja) データ可視化のための情報処理方法及び装置
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
WO2018020828A1 (ja) 翻訳装置および翻訳システム
WO2016129188A1 (ja) 音声認識処理装置、音声認識処理方法およびプログラム
JPWO2018043137A1 (ja) 情報処理装置及び情報処理方法
JP2013178384A (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP7058052B2 (ja) コンピュータシステム、画面共有方法及びプログラム
JP2017134162A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190401

R150 Certificate of patent or registration of utility model

Ref document number: 6507010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350