JP2022113375A - Information processing method and monitoring system - Google Patents
Information processing method and monitoring system Download PDFInfo
- Publication number
- JP2022113375A JP2022113375A JP2021009587A JP2021009587A JP2022113375A JP 2022113375 A JP2022113375 A JP 2022113375A JP 2021009587 A JP2021009587 A JP 2021009587A JP 2021009587 A JP2021009587 A JP 2021009587A JP 2022113375 A JP2022113375 A JP 2022113375A
- Authority
- JP
- Japan
- Prior art keywords
- data
- conference
- conference system
- participant terminal
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、情報処理方法及び監視システム等に関する。 The present invention relates to an information processing method, a monitoring system, and the like.
従来、インターネット等のネットワークを用いて、複数の参加者間での会議等を実現するシステムが知られている。ネットワークを介した会議等においては、ネットワークの遅延等によって音量や音質が低下する場合がある。この場合、音声の聞き取りが難しくなるため、会議の進行が妨げられる可能性がある。 2. Description of the Related Art Conventionally, there has been known a system that realizes a conference or the like among a plurality of participants using a network such as the Internet. In a conference or the like over a network, the volume or sound quality may be degraded due to network delay or the like. In this case, it becomes difficult to hear the voice, which may hinder the progress of the conference.
特許文献1には、ネットワーク会議システムにおいて、送受信される情報の帯域幅を制御する手法が開示されている。特許文献2には、ネットワークを介して電子会議を提供するシステムにおいて、データの再生時間に応じてパケットの読み出しを制御する手法が開示されている。 Patent Literature 1 discloses a technique for controlling the bandwidth of transmitted and received information in a network conference system. Japanese Patent Laid-Open No. 2002-200001 discloses a method of controlling packet readout according to data reproduction time in a system that provides an electronic conference via a network.
特許文献1や特許文献2の手法は、帯域幅やパケット読み出しを制御することによって、音声の不具合が発生することを抑制する手法である。しかしこれらの手法を用いても、ネットワーク遅延の程度等によっては、不具合発生を抑制しきれない可能性がある。従来手法では、音声の不具合が発生した場合の対処について開示がない。 The techniques of Patent Literature 1 and Patent Literature 2 are techniques for suppressing the occurrence of audio defects by controlling the bandwidth and packet reading. However, even if these methods are used, there is a possibility that failure occurrence cannot be suppressed depending on the degree of network delay. In the conventional method, there is no disclosure of how to deal with the problem of sound.
本開示のいくつかの態様によれば、音声に不具合が生じた場合に、ネットワークを介した会議等を円滑に進行する情報処理方法及び監視システム等を提供できる。
を提供できる。
According to some aspects of the present disclosure, it is possible to provide an information processing method, a monitoring system, and the like that smoothly proceed with a conference or the like via a network when a problem occurs in audio.
can provide
本開示の一態様は、複数の参加者端末装置による会議を提供する会議システムにおける音声データを監視するための情報処理方法であって、前記複数の参加者端末装置から前記会議システムへ送信された音声データを、前記会議システムから取得するステップと、前記音声データの不具合を検出するステップと、前記音声データの不具合が検出された場合に、前記音声データの音声認識結果であるテキストを含む書き下しデータを、前記会議システムに出力するステップと、を含む情報処理方法に関係する。 One aspect of the present disclosure is an information processing method for monitoring audio data in a conference system that provides a conference by a plurality of participant terminal devices, comprising: a step of acquiring voice data from the conference system; a step of detecting a defect in the voice data; and, when a defect in the voice data is detected, transcription data including text that is a voice recognition result of the voice data. to the conference system.
本開示の他の態様は、複数の参加者端末装置による会議を提供する会議システムにおける音声データを監視する監視システムであって、前記複数の参加者端末装置から前記会議システムへ送信された音声データを、前記会議システムから取得する音声データ取得部と、前記音声データの不具合を検出する処理を行う不具合検出部と、前記音声データの不具合が検出された場合に、前記音声データの音声認識結果であるテキストを含む書き下しデータを、前記会議システムに出力する処理を行う書き下しデータ出力部と、を含む監視システムに関係する。 Another aspect of the present disclosure is a monitoring system for monitoring audio data in a conference system providing a conference by a plurality of participant terminals, wherein audio data transmitted from the plurality of participant terminals to the conference system a voice data acquisition unit that acquires from the conference system, a defect detection unit that performs processing for detecting defects in the voice data, and a voice recognition result of the voice data when a defect is detected in the voice data. and a transcript data output unit that outputs transcript data including a certain text to the conference system.
以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。 Hereinafter, this embodiment will be described with reference to the drawings. In the drawings, the same or equivalent elements are denoted by the same reference numerals, and overlapping descriptions are omitted. In addition, this embodiment described below does not unduly limit the content described in the claims. Moreover, not all the configurations described in the present embodiment are essential constituent elements of the present disclosure.
1.システム構成例
1.1 全体構成
図1は、本実施形態に係る監視システム200を含む会議用の通信システム10の構成を示す図である。図1に示すように、通信システム10は、会議システム100と、監視システム200と、複数の参加者端末装置300を含む。なお通信システム10の構成は図1に限定されず、他の構成を追加する等の変形実施が可能である。例えば、図1では参加者端末装置300が2つである例を示したが、参加者端末装置300の数は3以上であってもよい。
1. System Configuration Example 1.1 Overall Configuration FIG. 1 is a diagram showing the configuration of a
通信システム10は、ネットワークを介した会議に用いられるシステムである。なお、ここでの会議とは、複数のユーザによるコミュニケーションが必要となる場面を広く表す。即ち、本実施形態における会議とは、複数のユーザが意見交換、審議、意思決定を行う場である狭義の会議に限定されず、セミナーや講演会等の形態を含んでもよい。セミナーは、所定のテーマに沿った勉強会である。講演会は、講師による発表を聴衆が聴く場である。その他、本実施形態の会議は、所与の参加者が発話を行い、他の参加者が当該発話を聞く可能性のある種々の場面を含むことが可能である。
A
参加者端末装置300は、会議システム100に参加者データを送信する。本実施形態における参加者データとは、参加者端末装置300から会議システム100に送信される種々の情報を含む。例えば参加者データは、後述するポインティングデバイス392の操作結果を表すポインタデータ、キーボード393を用いて入力されるキー入力データ、マイク394によって録音された音声データ、カメラ395によって撮像された撮像画像データを含む。
The
また参加者データは、図5を用いて後述するディスプレイ391に表示されている画面データや、ユーザによってアップロードされるファイルデータ等を含んでもよい。また参加者データは、参加者端末装置300に関する識別情報を含んでもよい。ここでの識別情報は、参加者端末装置300を一意に特定する端末識別情報や、当該参加者端末装置300を使用するユーザを識別するユーザ識別情報を含む。なおユーザ識別情報は、ユーザを一意に識別するユーザIDであってもよいし、他のユーザとの重複が許容されるユーザ名であってもよい。
The participant data may also include screen data displayed on the
会議システム100は、複数の参加者端末装置300に会議データを配信する。ここでの会議データは、会議システム100から参加者端末装置300に送信される種々の情報を含む。例えば会議データは、複数の参加者端末装置300から送信された参加者データに基づいて作成されるデータであって、複数の音声データを多重化した会議音声データや、撮像画像データや画面データに基づいて作成される会議画面データ等を含む。
The
会議システム100は、例えばサーバシステムである。会議システム100は、1つのサーバであってもよいし、複数のサーバの集合であってもよい。例えば会議システム100は、複数の参加者端末装置300に関する識別情報等を記憶するデータベースサーバと、会議データの作成処理や配信処理を行うアプリケーションサーバとを含んでもよい。ここでのサーバは、物理サーバであってもよいし仮想サーバであってもよい。例えば、上記データベースサーバとアプリケーションサーバは、それぞれが別体の物理サーバであり、会議システム100は2つの物理サーバから構成されてもよい。あるいは、上記データベースサーバとアプリケーションサーバは、それぞれが仮想サーバであってもよい。この場合、1つの仮想サーバが1つの物理サーバ上に構築されてもよいし、複数の物理サーバに分散配置されてもよい。また複数の仮想サーバが同一の物理サーバ上に構築されてもよい。以上のように、会議システム100の機能的な構成、及び、物理的な構成については種々の変形実施が可能である。
また会議システム100は、音声データを用いた会議サービスを提供する機能を有する。以下、音声データを用いた会議サービスの具体例として、音声データと画像データの両方を利用可能な、ビデオ会議サービスについて説明する。また会議システム100は、チャットサービスを提供する機能を有してもよい。この場合、1つのサーバが2つの機能を有してもよいし、各機能が異なるサーバによって実現されてもよい。例えば、会議システム100は、ビデオ会議サービスを提供するためのアプリケーションサーバと、チャットサービスを提供するためのアプリケーションサーバと、2つのサービスで共用されるデータベースサーバと、を含んでもよい。ただし、具体的な構成はこれに限定されず、種々の変形実施が可能である。なお、本実施形態における会議データは、ビデオ会議サービスに用いられるデータと、チャットサービスに用いられるデータの両方を含んでもよい。
The
監視システム200は、会議システム100によって提供される会議における音声データを監視するシステムである。監視システム200は、例えばサーバシステムであって、1つのサーバであってもよいし、複数のサーバの集合であってもよい。監視システム200の機能的な構成、及び、物理的な構成について、種々の変形実施が可能である点は、上述の会議システム100と同様である。監視システム200は、会議システム100における音声データの不具合を監視し、不具合が検出された場合に、書き下しデータを出力する。具体的な処理については後述する。
The
参加者端末装置300は、会議の参加者であるユーザによって使用される装置であり、例えばPC(Personal Computer)である。ただし参加者端末装置300は、タブレット端末やスマートフォン等の携帯端末装置であってもよい。
The
1.2 会議システム及び監視システム
図2Aは、会議システム100のハードウェア構成図である。会議システム100は、プロセッサ140、メモリ150、通信インターフェース160を含む。ただし会議システム100の構成は図2に限定されず、一部の構成要素が省略されてもよいし、他の構成要素が追加されてもよく、種々の変形実施が可能である。また具体的な構成が図面の内容に限定されない点は、後述する図2B、図3~図6においても同様である。
1.2 Conference System and Monitoring System FIG. 2A is a hardware configuration diagram of the
プロセッサ140は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。またプロセッサ140は、CPU、GPU、DSPに加えて周辺回路装置を含んでもよい。周辺回路装置は、IC(Integrated Circuit)であってもよいし、抵抗やキャパシター等を含んでもよい。
The
メモリ150は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。
The
通信インターフェース160は、ネットワークを介した通信を行うためのインターフェースであり、例えばアンテナ、RF(radio frequency)回路、及びベースバンド回路を含む。通信インターフェース160は、プロセッサ140による制御に従って動作してもよいし、プロセッサ140とは異なる通信制御用のプロセッサを含んでもよい。通信インターフェース160は、例えばTCP/IP(Transmission Control Protocol/Internet Protocol)に従った通信を行うためのインターフェースである。ただし具体的な通信方式は種々の変形実施が可能である。
The
図2Bは、会議システム100のハードウェア構成図である。会議システム100は、プロセッサ240、メモリ250、通信インターフェース260を含む。
FIG. 2B is a hardware configuration diagram of the
プロセッサ240は、CPU、GPU、DSP等、各種のプロセッサを用いることが可能である。メモリ250は、SRAM、DRAM、ROM、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。通信インターフェース260は、ネットワークを介した通信を行うためのインターフェースであり、例えばアンテナ、RF回路、及びベースバンド回路を含む。
Various processors such as a CPU, GPU, and DSP can be used as the
図3は、会議システム100の機能ブロック図である。会議システム100は、処理部110、記憶部120、通信部130を含む。処理部110は、参加者データ取得部111、第1会議データ作成部112、第1会議データ配信部113、第2会議データ作成部114、第2会議データ配信部115、制御部116、を含む。
FIG. 3 is a functional block diagram of the
処理部110は、図2Aのプロセッサ140に対応する。記憶部120は、図2Aのメモリ150に対応する。通信部130は、図2Aの通信インターフェース160に対応する。
記憶部120はコンピュータによって読み取り可能な命令を格納しており、当該命令を処理部110が実行することによって、処理部110の機能が処理として実現される。具体的には、メモリ150に記憶された命令に従ってプロセッサ140が動作することによって、処理部110に含まれる参加者データ取得部111、第1会議データ作成部112、第1会議データ配信部113、第2会議データ作成部114、第2会議データ配信部115、制御部116のそれぞれにおける処理が実行される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサ140のハードウェア回路に対して動作を指示する命令であってもよい。
The
参加者データ取得部111は、通信部130を介して、複数の参加者端末装置300から参加者データを取得する処理を行う。参加者データ取得部111は、取得した参加者データを第1会議データ作成部112及び第2会議データ作成部114に出力する。
The participant
なお、参加者端末装置300の初回接続時に、当該参加者端末装置300を一意に識別する端末識別情報が付与される。参加者データ取得部111は、当該端末識別情報を用いることによって、参加者データと、当該参加者データの送信元である参加者端末装置300を対応づけることが可能である。例えば参加者データ取得部111は、複数の参加者端末装置300からの音声データを取得した場合に、各音声データがいずれの参加者端末装置300から送信されたものであるかを識別可能である。また参加者データ取得部111は、例えば参加者端末装置300の初回接続時に、ユーザ名の入力を受け付けてもよい。記憶部120は、端末識別情報とユーザ名等のユーザ識別情報を対応づけて記憶する。
When the
第1会議データ作成部112は、参加者データ取得部111が取得した参加者データに基づいて、ビデオ会議サービスにおける会議データを作成する。ここでの参加者データは、例えばマイク394によって取得された音声データを含む。また参加者データは、カメラ395によって撮像された撮像画像データや、表示部340に表示される画面データ等を含んでもよい。またここでの会議データは、例えば複数の参加者端末装置300からの音声データを多重化した会議音声データを含む。また会議データは、複数の参加者端末装置300からの撮像画像データや画面データを、所与の規則に従って配置することによって生成される会議画面データを含んでもよい。第1会議データ作成部112は、作成した会議データを第1会議データ配信部113に出力する。
The first conference
なお会議画面データは、マークアップ言語等を用いて作成されたファイルであって、具体的な画面生成は参加者端末装置300において実行されてもよい。換言すれば、本実施形態における会議画面データは、会議に用いられる画面を参加者端末装置300の表示部340に表示するためのデータであって、画面そのもののデータには限定されない。この点は、第2会議データ作成部114が生成する会議画面データについても同様である。
The conference screen data is a file created using a markup language or the like, and specific screen generation may be executed in the
第1会議データ配信部113は、通信部130を介して、ビデオ会議サービス用の会議データを複数の参加者端末装置300に送信する処理を行う。会議システム100のうち、第1会議データ作成部112及び第1会議データ配信部113が、ビデオ会議サービスを提供するビデオ会議システムに対応する。以下、ビデオ会議システムを第1システムとも表記する。
The first conference
第2会議データ作成部114は、参加者データ取得部111が取得した参加者データに基づいて、チャットサービスにおける会議データを作成する。ここでの参加者データは、例えばキーボード393を用いて入力されたキー入力データを含む。例えば、後述する図10のチャット画面において、テキスト投稿領域Re5にテキストが入力され、且つ、投稿ボタンの押下操作が行われた場合に、参加者端末装置300の通信部330は、当該テキストを参加者データとして会議システム100に送信する。ここでのチャット画面とは、参加者端末装置300から投稿されたテキストデータを表示する画面である。第2会議データ作成部114における会議データは、上記チャット画面を表示するための会議画面データ等を含む。第2会議データ作成部114は、作成した会議データを第2会議データ配信部115に出力する。
The second conference
第2会議データ配信部115は、通信部130を介して、チャットサービス用の会議データを複数の参加者端末装置300に送信する処理を行う。会議システム100のうち、第2会議データ作成部114及び第2会議データ配信部115が、チャットサービスを提供するチャットシステムに対応する。以下、チャットシステムを第2システムとも表記する。
The second conference
制御部116は、会議システム100に含まれる各部の制御を行う。例えば制御部116は、記憶部120の読み出し/書き込み制御や、通信部130の通信制御を行う。また制御部116は、処理部110に含まれる各部の制御を行ってもよい。
The
記憶部120は、上述した参加者データ、会議データ、識別情報等の各種の情報を記憶する。また記憶部120は、参加者端末装置300において動作するプログラムを記憶してもよい。ここでのプログラムは、例えば後述するWebアプリケーションプログラムである。通信部130は、参加者データの受信、会議データの配信等の各種の通信を行う。
The
図4は、監視システム200の機能ブロック図である。監視システム200は、処理部210、記憶部220、通信部230を含む。処理部210は、音声データ取得部211、音声認識結果取得部212、不具合検出部213、書き下しデータ出力部214、制御部215、を含む。
FIG. 4 is a functional block diagram of the
処理部210は、図2Bのプロセッサ240に対応する。記憶部220は、図2Bのメモリ250に対応する。通信部230は、図2Bの通信インターフェース260に対応する。
メモリ250はコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサ240が実行することによって、処理部210に含まれる各部の機能が処理として実現される。具体的には、メモリ250に記憶された命令に従ってプロセッサ240が動作することによって、音声データ取得部211、音声認識結果取得部212、不具合検出部213、書き下しデータ出力部214、制御部215のそれぞれにおける処理が実行される。
The
音声データ取得部211は、複数の参加者端末装置300から会議システム100へ送信された音声データを、会議システム100から取得する。例えば監視システム200は、図7を用いて後述するように、ゲストユーザとして会議に参加してもよい。換言すれば、監視システム200は、参加者端末装置300として会議システム100に接続してもよい。この場合、音声データ取得部211は、会議システム100から、音声データを含む会議データを取得する。音声データ取得部211は、取得した音声データを、音声認識結果取得部212と、不具合検出部213に出力する。
The audio
音声認識結果取得部212は、音声データに対して音声認識処理を行った結果である音声認識結果を取得する。音声認識結果取得部212は、通信部230を介して、音声データを外部の音声認識サーバに出力し、当該音声認識サーバから音声認識結果を取得してもよい。音声認識処理では、まず音声データから特徴量を抽出する音響分析が行われる。音響分析の結果に対して、音響モデルを用いて特徴の近い音素を特定する処理が行われる。さらに発音辞書や言語モデルを用いて、音素を単語、文章に変換することによって音声認識結果が取得される。音声認識結果とは、音声データをテキストに変換した変換結果を表すデータである。なお本実施形態の音声認識処理では、公知の手法を広く適用可能であるため、これ以上の詳細な説明は省略する。また、音声認識処理は監視システム200の外部で行われるものには限定されない。例えば、音声認識結果取得部212が音声認識処理を行うことによって、音声データをテキストに変換する処理を行ってもよい。
The speech recognition result
不具合検出部213は、音声データの不具合を検出する不具合検出処理を行う。ここでの不具合とは、音量の低下、音質の悪化の少なくとも一方を含む。不具合検出処理の詳細は後述する。
The
書き下しデータ出力部214は、音声データの不具合が検出された場合に、音声データの音声認識結果であるテキストを含む書き下しデータを、会議システム100に出力する。例えば、監視システム200が参加者端末装置300として機能する場合、書き下しデータ出力部214は、書き下しデータを含む参加者データを作成し、当該参加者データを、会議システム100に送信する。なお、ここでの書き下しデータは、音声認識結果であるテキストデータそのものであってもよいし、当該テキストデータに何らかのメタデータが付加された情報であってもよい。メタデータとは、例えば音声データの送信元の参加者端末装置300に関する識別情報を含む。
The transcription
制御部215は、監視システム200に含まれる各部の制御を行う。例えば制御部215は、記憶部220の読み出し/書き込み制御、通信部230の通信制御、処理部210に含まれる各部の制御等を行う。
The
記憶部220は、音声データ、書き下しデータ等の各種の情報を記憶する。通信部230は、会議システム100とのデータの送受信を行う。監視システム200が参加者端末装置300として機能する場合、通信部230は、参加者データの送信、会議データの受信等を行う。
The
なお本実施形態の手法は、監視システム200の各部において実行されるステップを含む情報処理方法に適用されてもよい。当該情報処理方法は、例えば複数の参加者端末装置300による会議を提供する会議システム100における音声データを監視するための情報処理方法である。
Note that the technique of the present embodiment may be applied to an information processing method including steps executed by each unit of the
1.3 参加者端末装置
図5は、参加者端末装置300のハードウェア構成図である。参加者端末装置300は、プロセッサ360、メモリ370、通信インターフェース380、ディスプレイ391、ポインティングデバイス392、キーボード393、マイク394、カメラ395等を含む。
1.3 Participant Terminal Device FIG. 5 is a hardware configuration diagram of the
プロセッサ360は、CPU、GPU、DSP等、各種のプロセッサを用いることが可能である。メモリ370は、SRAM、DRAM、ROM、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。通信インターフェース380は、ネットワークを介した通信を行うためのインターフェースであり、例えばアンテナ、RF回路、及びベースバンド回路を含む。
Various processors such as a CPU, GPU, and DSP can be used as the
ディスプレイ391は、各種の表示画面を表示するためのものであり、例えば液晶ディスプレイや有機ELディスプレイなどにより実現できる。
The
ポインティングデバイス392は、ディスプレイ391に表示されるポインタを移動させるための操作インターフェースである。ポインティングデバイス392は、マウス、ペンタブレット、タッチパッド、トラックボール等、種々のデバイスによって実現できる。
A
キーボード393は、複数のキーを有し、当該キーに対する操作が行われることによって、対応する信号を出力する操作インターフェースである。なおキーボードの具体的な形状、キー配置、接続方法等は種々の変形実施が可能である。
The
マイク394は、音声を受け付けて、音声情報を出力するインターフェースである。なお参加者端末装置300は、プロセッサからの信号に基づいて、各種の音声を出力する不図示のスピーカを含んでもよい。
A
カメラ395は、参加者端末装置300の所与の位置に配置され、例えばユーザの顔周辺を撮像した撮像画像を出力する。カメラ395は、例えば被写体からの光が入射されるレンズユニットと、当該レンズユニットを介して被写体像を結像して撮像画像信号を出力する撮像素子と、を含む。
The
図6は、参加者端末装置300の機能ブロック図である。参加者端末装置300は、処理部310、記憶部320、通信部330、表示部340、ユーザ入力受付部350を含む。処理部310は、参加者データ送信部311、会議データ提示部312、制御部313を含む。
FIG. 6 is a functional block diagram of the
処理部310は、図5のプロセッサ360に対応する。記憶部320は、図5のメモリ370に対応する。通信部330は、図5の通信インターフェース380に対応する。表示部340は、図5のディスプレイ391に対応する。ユーザ入力受付部350は、図5のポインティングデバイス392、キーボード393、マイク394、カメラ395のうちの少なくとも1つに対応する。
メモリ370はコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサ360が実行することによって、処理部310に含まれる各部の機能が処理として実現される。例えば、会議システムの記憶部120は、Webアプリケーションプログラムを記憶している。参加者端末装置300は、通信部330を介してWebアプリケーションプログラムを受信し、受信したWebアプリケーションプログラムを記憶部320に記憶する。処理部310は、記憶部320に記憶されたWebアプリケーションプログラムに従って動作することによって、処理部310の各部の機能を実現する。
The
参加者データ送信部311は、参加者データを作成し、通信部330を介して、当該参加者データを会議システム100に送信する処理を行う。参加者データの例は上述したとおりであり、ユーザ入力受付部350が受け付けたデータであってもよいし、表示部340に表示されたデータであってもよいし、ユーザによって選択されたアップロードファイルであってもよい。
The participant
会議データ提示部312は、通信部330が会議システム100から受信した会議データを提示する処理を行う。例えば、会議データ提示部312は、第1会議データ配信部113によって送信された会議データを取得する。会議データ提示部312は、当該会議データのうちの会議画面データを表示部340に表示する処理や、会議音声データをスピーカに出力する処理を行う。これにより、ビデオ会議サービスが提供される。
The conference
また会議データ提示部312は、第2会議データ配信部115によって送信された会議データを取得する。当該会議データは、チャット画面を表示するための会議画面データであるチャット画面データである。会議データ提示部312は、チャット画面データを表示部340に表示する処理を行う。これにより、チャットサービスが提供される。なお、会議データ提示部312は、受信した会議データをそのまま提示してもよいし、何らかの処理を行った結果を提示してもよい。
Also, the conference
制御部313は、参加者端末装置300に含まれる各部の制御を行う。例えば制御部313は、記憶部320の読み出し/書き込み制御や、通信部330の通信制御、表示部340の表示制御、ユーザ入力受付部350の各部の制御を行う。また制御部313は、処理部310に含まれる各部の制御を行ってもよい。
The
記憶部320は、上述した参加者データ、会議データ等の各種の情報を記憶する。通信部330は、参加者データの送信、会議データの受信等の各種の通信を行う。表示部340は、会議画面データを表示する。ユーザ入力受付部350は、ユーザによる入力を受け付ける。ユーザ入力は、上述したように種々のデバイスを用いた入力を適用可能であり、音声やジェスチャ等を用いた入力を含んでもよい。音声はマイク394の出力に基づいて検出される。ジェスチャは、カメラ395の出力に基づいて検出される。
The
2.処理の流れ
図7は、本実施形態における処理の流れを説明するシーケンス図である。まずユーザは、参加者端末装置300を用いて会議を作成する操作を行う。ここでのユーザは、例えば会議の主催者であり、参加者端末装置300は当該主催者によって使用される装置である。例えば主催者は、会議の開始時間、参加者、各参加者に付与される権限等、会議に用いられる設定データを作成する操作を行う。当該操作に基づいて、ステップS101において、参加者端末装置300は、例えば上記設定データを含む会議作成用のデータを、会議システム100に送信する。
2. Flow of Processing FIG. 7 is a sequence diagram illustrating the flow of processing in this embodiment. First, the user performs an operation to create a conference using the
ステップS102において、会議システム100は、参加者端末装置300に会議を提供する処理を行う。具体的には、会議システム100は、会議の参加者として指定された参加者端末装置300に対して、会議ID、会議用のURL(uniform resource locator)、パスワード等、会議に参加するためのデータを送信する。各参加者端末装置300は、当該データを用いて会議への参加要求を会議システム100に送信する。会議システム100は、参加要求を承認した場合に、参加者端末装置300からの参加データの受信、及び、当該参加者端末装置300への会議データの配信を開始することによって、会議を提供する。図7では詳細な記載を省略しているが、以上の説明からわかるように、ステップS101の処理は主催者等、特定の参加者端末装置300によって行われ、ステップS102の処理は、参加者である複数の参加者端末装置300を対象として実行される。
In step S102, the
ステップS103において、監視システム200は、監視対象である会議に、ゲストとして参加する処理を行う。例えば、会議システム100は、監視システム200を会議の参加者として招待する処理を行ってもよい。具体的には、会議システム100は、会議ID等を含む会議に参加するためのデータを監視システム200に送信する。監視システム200は、当該データを用いて指定の会議への参加要求を行うことによって、ステップS103の処理を実行する。あるいは、主催者であるユーザが、音声データの監視を行うか否かを決定してもよい。例えば、主催者が音声データの監視を実行する旨の操作を行った場合に、会議システム100が監視システム200を会議に招待する処理を実行する。あるいは、主催者が監視システム200を利用する権限を有するユーザであるか否かを、会議システム100が判定してもよい。主催者が当該権限を有すると判定した場合に、会議システム100は、監視システム200を会議の参加者として招待する処理を行う。
In step S103, the
ステップS104において、会議システム100は、ステップS103の参加要求に対して、承認処理を行う。これにより、監視システム200は、複数の参加者端末装置300と同様に、会議システム100への参加者データの送信、及び、会議システム100からの会議データの受信が可能になる。
In step S104, the
ステップS101~S104の処理によって、会議システム100によって会議が提供され、複数の参加者端末装置300及び監視システム200が、当該会議に参加した状態となる。
By the processing of steps S101 to S104, a conference is provided by the
会議中は、複数の参加者端末装置300は、それぞれ所与のタイミングで参加者データを会議システム100に送信する。会議システム100は、参加者データに基づいて生成した会議データを、複数の参加者端末装置300に配信する。
During the conference, the plurality of
上述したように、会議システム100は、複数の参加者端末装置300から音声データを取得し、少なくとも音声を用いた会議を提供する第1システムと、複数の参加者端末装置300からテキストデータを参加者データとして取得し、チャットによる会議を提供する第2システムと、を含んでもよい。第1システムは、第1会議データ作成部112及び第1会議データ配信部113に対応し、ビデオ会議サービスを提供するシステムである。第2システムは、第2会議データ作成部114及び第2会議データ配信部115に対応し、チャットサービスを提供するシステムである。
As described above, the
図9は、ビデオ会議システムで用いられる表示画面の例であり、図10は、チャットシステムで用いられる表示画面の例である。図9及び図10は、会議システム100からの会議画面データに基づいて、参加者端末装置300の表示部340に表示される画面を表す。
FIG. 9 is an example of a display screen used in a video conference system, and FIG. 10 is an example of a display screen used in a chat system. 9 and 10 show screens displayed on the
図9に示すように、ビデオ会議サービスにおける表示画面は、参加者表示領域Re1、画像表示領域Re2、操作ボタン表示領域Re3等を含む。参加者表示領域Re1は、会議の参加者を表すユーザ識別情報を表示する領域である。図9の例では、会議の参加者は、参加者端末装置300を用いるユーザである参加者A及び参加者Bと、監視システム200に対応する擬似的なユーザである。図9における、「ゲスト Recorder」が擬似的なユーザを表す。画像表示領域Re2は、アップロードされたファイルの具体的な内容や、カメラ395によって撮像された各参加者の顔周辺の画像等が表示される領域である。操作ボタン表示領域Re3は、マイク394やカメラ395のオンオフ操作、音量操作等を行うためのオブジェクトが表示される領域である。
As shown in FIG. 9, the display screen in the video conference service includes a participant display area Re1, an image display area Re2, an operation button display area Re3, and the like. The participant display area Re1 is an area for displaying user identification information representing conference participants. In the example of FIG. 9, the participants of the conference are participants A and B who are users using the
図10に示すように、チャットサービスにおける表示画面は、テキスト表示領域Re4と、テキスト投稿領域Re5を含む。テキスト表示領域Re4は、参加者によって投稿されたテキストデータを、投稿した参加者と対応づけて時系列に表示する領域である。テキスト投稿領域Re5は、投稿対象となるテキストを入力する領域と、投稿ボタンを表示する領域とを含む。 As shown in FIG. 10, the display screen in the chat service includes a text display area Re4 and a text posting area Re5. The text display area Re4 is an area for displaying the text data posted by the participants in chronological order in association with the posted participants. The text posting area Re5 includes an area for inputting text to be posted and an area for displaying a post button.
図9及び図10に示すように、方式の異なる複数の会議を提供することによって、会議をより円滑に進行することが可能になる。 As shown in FIGS. 9 and 10, by providing a plurality of conferences with different methods, the conference can proceed more smoothly.
図7に戻って説明を続ける。複数の参加者端末装置300及び監視システム200が参加した会議の開始後、ステップS105において、複数の参加者端末装置300のうちの所与の参加者端末装置300が、音声データを含む参加者データを、会議システム100に送信したとする。ステップS105の処理は、例えば会議の中で繰り返し実行されるものである。
Returning to FIG. 7, the description continues. After the start of the conference in which the plurality of
ステップS106において、会議システム100は、取得した音声データを、監視システム200に送信する。ステップS106において、会議システム100は、複数の参加者端末装置300と共通の会議データを監視システム200に送信してもよい。例えば、監視システム200は、会議音声データを作成し、当該会議音声データを、複数の参加者端末装置300と監視システム200に送信する。あるいは会議システム100は、監視システム200用の会議データを別途作成、送信してもよい。例えば会議システム100は、収集した参加者データのうちの音声データを抽出し、抽出した音声データに対して、当該音声データの送信元である参加者端末装置300に関する識別情報を対応づけて監視システム200に送信する。例えば監視システム200は、複数の参加者端末装置300のうちの第1参加者端末装置からの音声データに対して、当該第1参加者端末装置に関する識別情報が対応付けられた情報を受信する。
In step S<b>106 , the
このように、会議システム100から音声データを取得するステップにおいて、監視システム200は、参加者端末装置300として、会議システム100と通信してもよい。監視システム200は、会議システム100が複数の参加者端末装置300にデータを配信する際の通信方式に従って、会議システム100から音声データを受信する。
Thus, in the step of acquiring audio data from the
このようにすれば、会議システム100は、監視システム200を参加者端末装置300の1つとして取り扱うことが可能になる。例えば、会議システム100を、参加者データの収集及び会議データの配信を行う従来のシステムと同様の構成とすること、及び、本実施形態の手法に係る音声監視の機能を、会議システム100とは異なるシステムとして実現することが可能になる。この場合、本実施形態に係るシステムを構築する際に、会議システム100自体のシステム変更が不要であるという利点がある。また監視システム200のうち、会議システム100とのデータの送受信を行うインターフェースについては、参加者端末装置300と同様の構成を利用することが可能になる。例えば、監視システム200の一部の機能は、プロセッサ240が参加者端末装置300と同様にWebアプリケーションプログラムに従って動作することによって実現されてもよい。このようにすれば、HTTPS(Hypertext Transfer Protocol Secure)等の規定のプロトコルを用いて会議システム100との入出力を実現できるため、監視システム200の実装が容易になる。
In this way, the
監視システム200の音声認識結果取得部212は、ステップS106において取得した音声データの音声認識結果を取得する。図7では、外部の音声認識サーバによって音声認識処理が行われる例を図示している。ステップS107において、監視システム200の通信部230は、音声データを音声認識サーバに送信する。
The voice recognition result
ステップS108において、音声認識サーバは、音声認識処理を行う。上述したように、ステップS108の音声認識処理は、公知の手法を広く適用可能である。ステップS109において、音声認識サーバは、音声認識結果を監視システム200に送信する。
In step S108, the speech recognition server performs speech recognition processing. As described above, the speech recognition processing in step S108 can widely apply known methods. In step S<b>109 , the speech recognition server transmits the speech recognition result to the
ステップS110において、監視システム200は、音声データの音声認識結果を取得し、当該音声認識結果を議事録データとして記憶してもよい。このようにすれば、議事録データを自動作成することが可能になる。音声認識結果が、S112以降で説明するように不具合発生時の対処として利用されるだけでなく、議事録データとしても利用されるため、データの有効活用が可能になる。音声認識結果を議事録データとして保持することで、会議に関するデータの管理や活用が容易になる。またステップS110の処理は、S112以降の処理と比較すればわかるように、音声の不具合検出結果によらず実行されてもよい。このようにすれば、会議中の多くの場面が議事録データの作成対象となるため、会議の全体的な内容の把握に有用な議事録データの作成が可能になる。
In step S110, the
またステップS111において、監視システム200の不具合検出部213は、ステップS106で取得した音声データを対象として、音声の不具合を検出する不具合検出処理を行う。ここでの音声の不具合とは、音量(音圧)が所与の基準音量に比べて所定値以上減少していること、及び、音質が所与の基準音質に比べて所定条件を満たす程度に低下していること、の少なくとも一方を表す。なお、ステップS111の処理は、ステップS106による音声データの取得後であれば任意のタイミングで実行が可能であり、ステップS107~S110との前後関係は図7に例示したものに限定されない。
Also, in step S111, the
図8は、ステップS111の不具合検出処理を説明するフローチャートである。この処理が開始されると、まずステップS201において、不具合検出部213は、不具合検出処理の対象となる検出期間の音声データの音量を検出する。ここでの音量は、音声データの振幅値であって、例えばdBを単位とする数値データである。不具合検出部213は、検出期間における音声データの平均音量を求めてもよいし、最大音量や最低音量を求めてもよい。なおここでの検出期間は任意の設定が可能であり、数秒~数十秒程度の時間であってもよいし、より長い時間であってもよい。また同一人物が継続して発話している期間を検出し、当該期間を用いて動的に検出期間が設定されてもよい。
FIG. 8 is a flowchart for explaining the defect detection processing in step S111. When this process is started, first, in step S201, the
ステップS202において、不具合検出部213は、検出された音量の値が所与の音量閾値以下かを判定する。音量が音量閾値以下と判定された場合、ステップS203において、不具合検出部213は、不具合ありと判定する。ここでの音量閾値は、所与の固定値であってもよいし、会議中に取得された音声データの平均音量等を用いて動的に設定されてもよい。
In step S202, the
ステップS202において音量の値が音量閾値より大きいと判定された場合、不具合検出部213は、音質の判定を行う。例えばステップS204において、不具合検出部213は、音声データを音声とノイズの分離する音源分離処理を行う。例えば、時間、周波数、信号成分の強さの3次元のスペクトログラムにおいて、複数の音源からの信号の重なりが少ない点に着目し、非線形フィルタリングを用いて音源分離を行う手法が知られている。また近年では、ノイズが重畳された音声データと、そのうちの音声部分が抽出されたデータとを対応づけたデータセットを用いて、音源分離処理を行うための学習済モデルを生成する機械学習手法も広く知られている。不具合検出部213は、学習済モデルを取得し、当該学習済モデルに音声データを入力することによって、ステップS204の音源分離処理を行ってもよい。
If it is determined in step S202 that the volume value is greater than the volume threshold, the
ステップS205において、不具合検出部213は、分離された音声の信号と、ノイズの信号とに基づいて、音質の指標値を算出する。ここでの指標値は、例えば音声の信号レベルとノイズの信号レベルの比であるS/N比である。
In step S205, the
ステップS206において、不具合検出部213は、算出されたS/N比が所与のSN閾値以下かを判定する。S/N比がSN閾値以下である場合に、ステップS203に移行し、不具合検出部213は、不具合ありと判定する。ここでのSN閾値は、所与の固定値であってもよいし、会議中に取得されたS/N比の平均値等を用いて動的に設定されてもよい。ステップS206でS/N比がSN閾値より大きい場合、ステップS207において、不具合検出部213は、不具合なしと判定する。
In step S206, the
なお、図8は処理の一例であり、本実施形態の不具合検出処理は、これに限定されない。例えば、音声データの不具合要因として、参加者端末装置300のマイク394に関するノイズ、参加者端末装置300と会議システム100の間の通信に関するノイズ等が想定される場合、各要因による不具合発生時の典型的なデータを、あらかじめ推定することが可能である。即ち、不具合検出部213は、あらかじめ正常データと、1または複数の異常データを保持してもよい。不具合検出部213は、取得した音声データが、正常データと異常データのいずれに類似するかに応じて、不具合の有無を判定してもよい。また、図8では音量と音質の両方が条件を満たす場合に不具合なしと判定する例について説明したが、不具合検出処理は音量のみの判定であってもよいし、音質のみの判定であってもよい。その他、本実施形態の不具合検出は、音量や音質に関する他の処理に拡張可能である。
Note that FIG. 8 is an example of processing, and the defect detection processing of the present embodiment is not limited to this. For example, if noise related to the
図7に戻って説明を続ける。不具合検出処理によって音声データの不具合が検出された場合、監視システム200は、当該不具合による会議の進行停止を抑制するための処理を実行する。具体的には、まずステップS112において、書き下しデータ出力部214は、音声データの音声認識結果である書き下しデータを含む参加者データを作成する。ここでの書き下しデータは、例えば不具合ありと判定された音声データの音声認識結果である。ただし書き下しデータは、不具合が検出された音声データよりも前に取得された音声データ、及び、不具合が検出された音声データよりも後に取得された音声データの少なくとも一方の音声認識結果を含んでもよい。また不具合が検出された音声データのすべてが書き下しデータに含まれることは必須ではなく、その一部が省略されてもよい。ステップS113において、書き下しデータ出力部214は、書き下しデータを会議システム100に送信する。
Returning to FIG. 7, the description continues. When a problem in the audio data is detected by the problem detection process, the
上述したように、監視システム200は参加者端末装置300として会議システム100に接続してもよい。ステップS112及びステップS113に示したように、監視システム200は、複数の参加者端末装置300が会議システム100にデータを送信する際の通信方式に従って、書き下しデータを、会議システム100に送信してもよい。
As described above, the
このようにすれば、監視システム200を参加者端末装置300の1つとして取り扱うことが可能になる。そのため、上述したように、会議システム100自体を変更することなく、本実施形態の手法を容易に実現することが可能である。また監視システム200と会議システム100との入出力インターフェースを、参加者端末装置300と同様の構成によって実現できるため、監視システム200の実装が容易になる。
In this way, it becomes possible to treat the
ステップS114において、会議システム100は、書き下しデータを含む会議データを作成する。なお、ステップS113に示した書き下しデータを出力するステップにおいて、監視システム200は、書き下しデータを第2システムに出力してもよい。即ち、ステップS114において作成される会議データは、チャットシステムにおいて用いられる会議画面データであるチャット画面データであり、第2会議データ作成部114によって作成されてもよい。このようにチャットシステムを利用することによって、不具合に関する音声データの内容を、時系列や内容を視認しやすい態様で、ユーザに提示することが可能になる。
In step S114, the
ステップS115において、会議システム100の第2会議データ配信部115は、チャット画面データを複数の参加者端末装置300に配信する。ステップS116において、複数の参加者端末装置300は、それぞれ受信したチャット画面データに基づいて、書き下しデータが表示されるチャット画面を、表示部340に表示する。
In step S<b>115 , the second conference
なお上述したように、ステップS106に示した音声データを会議システム100から取得するステップにおいて、監視システム200は、音声データの送信元である参加者端末装置300に関する識別情報を、音声データに関連付けて取得してもよい。そしてステップS113に示した書き下しデータを会議システム100に出力するステップにおいて、監視システム200は、不具合が検出された音声データの送信元を表す識別情報と、書き下しデータを関連付けて会議システム100に出力してもよい。
As described above, in the step of acquiring the voice data from the
例えば、図9に示すように参加者A及び参加者Bが存在する場合において、監視システム200は、参加者Bに対応づけられた音声データの不具合を検出したとする。この場合、書き下しデータ出力部214は、参加者Bに関連付けて書き下しデータを出力する。このようにすれば、いずれの参加者端末装置300からの音声データに不具合があるかを検出すること、及び検出結果をわかりやすくユーザに提示することが可能になる。
For example, when there are participant A and participant B as shown in FIG. In this case, the written
この際、ステップS115に示した複数の参加者端末装置300にチャット画面データを出力するステップにおいて、会議システム100の第2システムは、音声データに関連付けられた識別情報によって表されるユーザを投稿者として表示し、書き下しデータを投稿内容として表示するチャット画面データを出力してもよい。例えば、監視システム200が、あたかも自身が参加者Bの参加者端末装置300であるかのように偽装したデータを会議システム100に送信してもよい。あるいは会議システム100の第2会議データ作成部114が、監視システム200から投稿されたデータを、参加者Bの参加者端末装置300が投稿したかのように修正してもよい。
At this time, in the step of outputting the chat screen data to the plurality of
図10の例であれば、実際の投稿者は監視システム200であるが、投稿者を表す領域に参加者Bが表示され、投稿内容を表す領域に書き下しデータに対応するテキストが表示される。このようにすれば、いずれの参加者の音声に不具合があったかをチャット画面を閲覧したユーザに容易に理解させることが可能になる。その際、投稿が監視システム200によって行われたものであることを明示することによって、実際に参加者Bが投稿した場合のデータとの区別が容易になる。例えば図10では、「参加者Bの音声の途切れが認められたため、書き下しを開始します」という案内文や「BOT」等の表示が行われる。
In the example of FIG. 10, although the actual contributor is the
図7~図10を用いて上述したように、本実施形態の手法では、音声データに不具合が検出された場合に、関連する音声認識結果が書き下しデータとして会議システム100に出力される。そのため、会議システム100では、音声の不具合を適切に検出できる。例えば、会議システム100が書き下しデータを参加者端末装置300に配信することによって、音声の不具合を参加者に通知できる。音声データの発話者本人は、書き下しデータが配信されたことで音声データの不具合がわかるため、発言の継続を抑制し、不具合要因の特定や解消等の対応が可能になる。また、発話者以外の参加者は、書き下しデータを参照することによって、不具合発生時の発話内容をある程度理解できるため、会議の進行が停止してしまうことを抑制できる。なお、音声データに不具合がある場合、音声が途切れる、音が小さい、ノイズが多い等の要因により、人であるユーザがその内容を認識することが難しい可能性がある。しかし音声認識処理では、ノイズ低減処理や補間処理等の信号処理が可能であるため、発話の大まかな内容を理解できる程度の音声認識結果を取得することが可能と考えられる。
As described above with reference to FIGS. 7 to 10, according to the method of the present embodiment, when a problem is detected in voice data, related voice recognition results are output to the
また図7に示したように、ステップS111の不具合検出処理によって音声データの不具合が検出されなかった場合、監視システム200は、ステップS112以降の処理をスキップする。即ち、監視システム200は、音声データの不具合が検出された場合に、音声データの音声認識結果であるテキストを含む書き下しデータを、会議システム100に出力しない。このようにすれば、不具合のない場合に必要性の低い情報の出力を抑制することが可能になる。異なる観点から言えば、書き下しデータが出力された場合、その要因が音声データの不具合であることを明確にすることが可能である。
Further, as shown in FIG. 7, if no problem is detected in the audio data by the problem detection process of step S111, the
3.変形例
3.1 通信システムの他の構成
以上では、会議システム100と、監視システム200が別体として設けられる例について説明した。会議システム100と監視システム200を別体とし、当該2つのシステムが例えばネットワークを介して接続される構成にすることによって、いずれか一方にエラーが発生した場合に、当該エラーが他方に伝播することを抑制できる。ただし本実施形態の通信システム10の構成はこれに限定されない。
3. Modified Example 3.1 Other Configurations of Communication System An example in which the
図11は、通信システム10の他の構成を示す図である。図11に示すように、通信システム10は、会議システム100の機能と、監視システム200の機能を含む一体のサーバ400と、複数の参加者端末装置300を含んでもよい。例えば、サーバ400のハードウェア構成は図2Aと同様であって、プロセッサとメモリと通信インターフェースを含む。メモリに記憶された命令に従ってプロセッサが動作することによって、参加者データ取得部111、第1会議データ作成部112、第1会議データ配信部113、第2会議データ作成部114、第2会議データ配信部115、制御部116、音声データ取得部211、音声認識結果取得部212、不具合検出部213、書き下しデータ出力部214、制御部215の各部の機能が実現される。なお、制御部116と制御部215のいずれか一方が省略されてもよい。
FIG. 11 is a diagram showing another configuration of the
図11の構成において、サーバ400内の監視システム200が仮想的な参加者端末装置300として機能し、同一装置内の会議システム100に接続する構成としてもよい。あるいは、監視システム200は、参加者端末装置300として会議参加することなく、音声データの取得、及び書き下しデータの出力を行ってもよい。例えば、会議システム100が取得した音声データがメモリの所与の領域に格納され、監視システム200は、メモリの当該領域を読み出すことによって音声データを取得してもよい。この場合、ネットワークを介した通信が不要となるため、会議システム100と監視システム200との間の通信における遅延やエラーを考慮しなくてよいという利点がある。監視システム200から会議システム100への書き下しデータの送信についても同様であり、監視システム200が仮想的な参加者端末装置300として機能してもよいし、メモリを介した入出力が行われてもよい。
In the configuration of FIG. 11, the
3.2 識別情報
また、以上では監視システム200が書き下しデータを出力する際に、識別情報を対応づける例について説明した。例えば図10に示したように、「参加者B」等の音声データの送信元に関する識別情報と、書き下しデータが対応づけられる。ただし本実施形態の手法において識別情報は必須ではない。
3.2 Identification Information Also, an example in which identification information is associated when the
例えば監視システム200は、書き下しデータを識別情報と対応づけずに出力してもよい。会議システム100は、発話者を特定することなく、書き下しデータを複数の参加者端末装置300に配信する。この場合であっても、書き下しデータが投稿されたことで、会議の参加者は音声の不具合を把握できる。
For example, the
また、会議において複数の参加者が同時に発言すると聞き取りが難しくなるため、偶発的な場面を除いて、所与の1タイミングでは単一の参加者が発言するケースが多いことが想定される。そのため、識別情報が対応づけられていない場合であっても、書き下しデータが投稿されたタイミングや具体的な発話内容を参照することによって、各参加者は不具合が自身の音声データに関するものであるか否かを判定することが可能と考えられる。そのため、発話者が自身の音声データの不具合を認識すること、及び、他の参加者が発話の大まかな内容を把握することが可能である。 Also, when a plurality of participants speak at the same time in a conference, it becomes difficult to hear them. Therefore, it is assumed that there are many cases in which a single participant speaks at a given timing, except for occasional situations. Therefore, even if identification information is not associated, each participant can check whether the problem is related to their own voice data by referring to the timing when the draft data was posted and the specific utterance content. It is considered possible to determine whether or not Therefore, it is possible for the utterer to recognize defects in his/her own voice data, and for other participants to roughly grasp the content of the utterance.
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また会議システム、監視システム、参加者端末装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。 Although the present embodiment has been described in detail as above, those skilled in the art will easily understand that many modifications that do not substantially deviate from the novel matters and effects of the present embodiment are possible. . Accordingly, all such modifications are intended to be included within the scope of this disclosure. For example, a term described at least once in the specification or drawings together with a different broader or synonymous term can be replaced with the different term anywhere in the specification or drawings. All combinations of this embodiment and modifications are also included in the scope of the present disclosure. Also, the configurations and operations of the conference system, monitoring system, participant terminal devices, etc. are not limited to those described in the present embodiment, and various modifications are possible.
10…通信システム、100…会議システム、110…処理部、111…参加者データ取得部、112…第1会議データ作成部、113…第1会議データ配信部、114…第2会議データ作成部、115…第2会議データ配信部、116…制御部、120…記憶部、130…通信部、140…プロセッサ、150…メモリ、160…通信インターフェース、200…監視システム、210…処理部、211…音声データ取得部、212…音声認識結果取得部、213…不具合検出部、214…書き下しデータ出力部、215…制御部、220…記憶部、230…通信部、240…プロセッサ、250…メモリ、260…通信インターフェース、300…参加者端末装置、310…処理部、311…参加者データ送信部、312…会議データ提示部、313…制御部、320…記憶部、330…通信部、340…表示部、350…ユーザ入力受付部、360…プロセッサ、370…メモリ、380…通信インターフェース、391…ディスプレイ、392…ポインティングデバイス、393…キーボード、394…マイク、395…カメラ、400…サーバ、Re1…参加者表示領域、Re2…画像表示領域、Re3…操作ボタン表示領域、Re4…テキスト表示領域、Re5…テキスト投稿領域
DESCRIPTION OF
Claims (8)
前記複数の参加者端末装置から前記会議システムへ送信された音声データを、前記会議システムから取得するステップと、
前記音声データの不具合を検出するステップと、
前記音声データの不具合が検出された場合に、前記音声データの音声認識結果であるテキストを含む書き下しデータを、前記会議システムに出力するステップと、
を含む情報処理方法。 An information processing method for monitoring voice data in a conference system providing a conference by a plurality of participant terminal devices,
obtaining from the conference system audio data transmitted from the plurality of participant terminal devices to the conference system;
detecting defects in the audio data;
a step of outputting transcript data including text, which is a speech recognition result of the speech data, to the conference system when a defect in the speech data is detected;
Information processing methods, including
前記会議システムは、
前記複数の参加者端末装置から前記音声データを取得し、少なくとも音声を用いた会議を提供する第1システムと、
前記複数の参加者端末装置からテキストデータを取得し、チャットによる会議を提供する第2システムと、を含み、
前記書き下しデータを出力するステップにおいて、前記書き下しデータを前記第2システムに出力する情報処理方法。 In claim 1,
The conference system is
a first system that acquires the audio data from the plurality of participant terminal devices and provides a conference using at least audio;
a second system that acquires text data from the plurality of participant terminal devices and provides a chat conference,
The information processing method of outputting the draft data to the second system in the step of outputting the draft data.
前記音声データを、前記会議システムから取得するステップにおいて、
前記複数の参加者端末装置のうちの、前記音声データの送信元である第1参加者端末装置に関する識別情報を、前記音声データに関連付けて取得し、
前記書き下しデータを、前記会議システムに出力するステップにおいて、
不具合が検出された前記音声データの送信元を表す前記識別情報と、前記書き下しデータを関連付けて前記会議システムに出力する情報処理方法。 In claim 1 or 2,
In the step of acquiring the audio data from the conference system,
Acquiring, of the plurality of participant terminal devices, identification information relating to a first participant terminal device, which is a transmission source of the audio data, in association with the audio data;
In the step of outputting the draft data to the conference system,
An information processing method for associating the identification information indicating the transmission source of the voice data in which the defect is detected with the draft data and outputting the data to the conference system.
前記会議システムの前記第2システムが、前記複数の参加者端末装置にチャット画面データを出力するステップを更に含み、
前記音声データを、前記会議システムから取得するステップにおいて、
前記複数の参加者端末装置のうちの、前記音声データの送信元である第1参加者端末装置に関する識別情報を、前記音声データに関連付けて取得し、
前記書き下しデータを、前記会議システムに出力するステップにおいて、
不具合が検出された前記音声データの送信元を表す前記識別情報と、前記書き下しデータを関連付けて前記会議システムに出力し、
前記チャット画面データを出力するステップにおいて、
前記音声データに関連付けられた前記識別情報によって表されるユーザを投稿者として表示し、前記書き下しデータを投稿内容として表示する前記チャット画面データを出力する情報処理方法。 In claim 2,
The second system of the conference system further comprising a step of outputting chat screen data to the plurality of participant terminals;
In the step of acquiring the audio data from the conference system,
Acquiring, of the plurality of participant terminal devices, identification information relating to a first participant terminal device, which is a transmission source of the audio data, in association with the audio data;
In the step of outputting the draft data to the conference system,
associating the identification information representing the transmission source of the audio data in which the defect is detected with the draft data and outputting the data to the conference system;
In the step of outputting the chat screen data,
An information processing method for outputting the chat screen data in which the user represented by the identification information associated with the voice data is displayed as a poster, and the written data is displayed as posted content.
前記音声データを、前記会議システムから取得するステップにおいて、
前記複数の参加者端末装置のうちの1つとして、前記会議システムと通信し、
前記会議システムが前記複数の参加者端末装置にデータを配信する際の通信方式に従って、前記会議システムから前記音声データを受信する情報処理方法。 In any one of claims 1 to 4,
In the step of acquiring the audio data from the conference system,
communicating with the conferencing system as one of the plurality of participant terminals;
An information processing method for receiving the voice data from the conference system according to a communication method used when the conference system distributes data to the plurality of participant terminal devices.
前記書き下しデータを、前記会議システムに出力するステップにおいて、
前記複数の参加者端末装置が前記会議システムにデータを送信する際の通信方式に従って、前記書き下しデータを、前記会議システムに送信する情報処理方法。 In claim 5,
In the step of outputting the draft data to the conference system,
An information processing method for transmitting the written data to the conference system according to a communication method used when the plurality of participant terminal devices transmit data to the conference system.
前記音声データの不具合の検出結果によらず、前記音声データの前記音声認識結果を取得し、前記音声認識結果を議事録データとして記憶するステップを含む情報処理方法。 In any one of claims 1 to 6,
An information processing method comprising the steps of acquiring the speech recognition result of the speech data and storing the speech recognition result as meeting minutes data regardless of the detection result of a defect in the speech data.
前記複数の参加者端末装置から前記会議システムへ送信された音声データを、前記会議システムから取得する音声データ取得部と、
前記音声データの不具合を検出する処理を行う不具合検出部と、
前記音声データの不具合が検出された場合に、前記音声データの音声認識結果であるテキストを含む書き下しデータを、前記会議システムに出力する処理を行う書き下しデータ出力部と、
を含む監視システム。 A monitoring system for monitoring audio data in a conference system providing a conference by a plurality of participant terminal devices,
an audio data acquisition unit configured to acquire, from the conference system, audio data transmitted from the plurality of participant terminal devices to the conference system;
a defect detection unit that performs processing for detecting defects in the audio data;
a transcription data output unit that performs a process of outputting transcription data including text, which is a speech recognition result of the audio data, to the conference system when a defect in the audio data is detected;
Surveillance system including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021009587A JP2022113375A (en) | 2021-01-25 | 2021-01-25 | Information processing method and monitoring system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021009587A JP2022113375A (en) | 2021-01-25 | 2021-01-25 | Information processing method and monitoring system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022113375A true JP2022113375A (en) | 2022-08-04 |
Family
ID=82658188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021009587A Pending JP2022113375A (en) | 2021-01-25 | 2021-01-25 | Information processing method and monitoring system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022113375A (en) |
-
2021
- 2021-01-25 JP JP2021009587A patent/JP2022113375A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10019989B2 (en) | Text transcript generation from a communication session | |
US11025967B2 (en) | Method for inserting information push into live video streaming, server, and terminal | |
US10984346B2 (en) | System and method for communicating tags for a media event using multiple media types | |
JP2024026295A (en) | Privacy-friendly conference room transcription from audio-visual stream | |
CN112653902B (en) | Speaker recognition method and device and electronic equipment | |
US10250846B2 (en) | Systems and methods for improved video call handling | |
US11650790B2 (en) | Centrally controlling communication at a venue | |
CN107527623A (en) | Screen transmission method and device, electronic equipment and computer readable storage medium | |
US20220415333A1 (en) | Using audio watermarks to identify co-located terminals in a multi-terminal session | |
CN113241070B (en) | Hotword recall and update method and device, storage medium and hotword system | |
US10762913B2 (en) | Image-based techniques for audio content | |
US12008997B2 (en) | Determination of conference participant contribution | |
JP2022113375A (en) | Information processing method and monitoring system | |
CN111798872B (en) | Processing method and device for online interaction platform and electronic equipment | |
CN115550595A (en) | Online conference implementation method, device, equipment and readable storage medium | |
CN111355919B (en) | Communication session control method and device | |
CN113312928A (en) | Text translation method and device, electronic equipment and storage medium | |
US20240129432A1 (en) | Systems and methods for enabling a smart search and the sharing of results during a conference | |
JP2023072720A (en) | Conference server and conference server control method | |
JP2022127676A (en) | Server system, program, and communication system | |
JP2022134202A (en) | Information processing device, information processing method, and information processing program | |
TW202343438A (en) | Systems and methods for improved group communication sessions | |
TR202021891A2 (en) | A SYSTEM PROVIDING AUTOMATIC TRANSLATION ON VIDEO CONFERENCE SERVER | |
Patil et al. | MuteTrans: A communication medium for deaf |