JP2023120068A - Speech processing system, device and speech processing method - Google Patents
Speech processing system, device and speech processing method Download PDFInfo
- Publication number
- JP2023120068A JP2023120068A JP2022023261A JP2022023261A JP2023120068A JP 2023120068 A JP2023120068 A JP 2023120068A JP 2022023261 A JP2022023261 A JP 2022023261A JP 2022023261 A JP2022023261 A JP 2022023261A JP 2023120068 A JP2023120068 A JP 2023120068A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- site
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 125
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 16
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 16
- 230000010365 information processing Effects 0.000 claims description 97
- 238000004891 communication Methods 0.000 claims description 74
- 238000000034 method Methods 0.000 claims description 55
- 238000012790 confirmation Methods 0.000 claims description 33
- 230000002194 synthesizing effect Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 description 76
- 230000006870 function Effects 0.000 description 33
- 238000003384 imaging method Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Abstract
Description
本発明は、音声処理システム、デバイス、及び、音声処理方法に関する。 TECHNICAL FIELD The present invention relates to an audio processing system, a device, and an audio processing method.
一方の拠点から1つ以上の他の拠点にリアルタイムに画像や音声を送信し、遠隔地にいるユーザー同士で画像や音声を用いた会議を行う遠隔会議サービスシステムが知られている。また、会議などの遠隔コミュニケーションの内容を議事録として記録する方法として、各拠点のユーザーの音声をテキストに変換して、テキストデータを保存する方法が知られている。 2. Description of the Related Art Teleconference service systems are known in which images and voices are transmitted in real time from one base to one or more other bases, and users at remote locations hold conferences using the images and voices. Also, as a method of recording the content of remote communication such as a meeting as minutes, a method of converting the voices of users at each site into text and saving the text data is known.
複数の話者のうち誰が発言したのかをテキストデータに関連付ける技術が知られている(例えば、特許文献1参照。)。特許文献1には、声紋識別により話者の声紋を区別することで発言している話者を区別し、各発言文章に対していずれかの話者の識別情報を付加する情報処理装置が開示されている。
A technology is known that associates text data with which of a plurality of speakers has spoken (see, for example, Patent Document 1).
しかしながら、従来の技術では、テキストデータへの変換の処理負荷が大きいという問題がある。すなわち、従来の技術は、複数の話者が発言した各音声を別々に音声認識しているため、音声認識のためのリソースを圧迫するおそれや認識に時間がかかるおそれがある。 However, the conventional technology has a problem that the processing load of conversion to text data is large. In other words, the conventional technology separately recognizes each voice uttered by a plurality of speakers, so there is a risk that resources for voice recognition will be pressed and recognition will take time.
本発明は、上記課題に鑑み、テキストデータへの変換の処理負荷を低減する技術を提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a technique for reducing the processing load of conversion into text data.
上記課題に鑑み、本発明は、端末装置と、マイクを備えたデバイスとが通信する音声処理システムであって、前記端末装置が外部から受信した第一の音声と前記デバイスが集音した第二の音声を合成して合成音声を生成する音声合成部と、前記音声合成部が合成した合成音声のテキストデータへの変換を外部に要求するテキスト変換要求部と、を有することを特徴とする。 In view of the above problems, the present invention provides a voice processing system in which a terminal device and a device equipped with a microphone communicate with each other, wherein a first voice received by the terminal device from the outside and a second voice collected by the device are provided. and a text conversion requesting unit for externally requesting conversion of the synthesized speech synthesized by the speech synthesis unit into text data.
テキストデータへの変換の処理負荷を低減する音声処理システムを提供できる。 It is possible to provide a speech processing system that reduces the processing load of conversion into text data.
以下、本発明を実施するための形態の一例として、記録情報作成システムと記録情報作成システムが行う音声処理方法について説明する。 Hereinafter, as an example of a mode for carrying out the present invention, a recording information creation system and an audio processing method performed by the recording information creation system will be described.
<遠隔会議におけるテキストデータの作成方法の一例>
まず、図1を参照して、パノラマ画像とアプリの画面を用いた議事録の作成方法の概略を説明する。図1は、遠隔会議中に実行されたアプリの画面を周囲のパノラマ画像と共に保存する記録情報の作成の概略を説明する図である。図1に示すように、図示する自拠点102にいるユーザーが遠隔会議サービスシステム90を利用して、他の拠点101と遠隔会議を行っている。
<Example of how to create text data in a teleconference>
First, with reference to FIG. 1, an outline of a method of creating minutes using a panorama image and an application screen will be described. FIG. 1 is a diagram for explaining an overview of creation of recording information for saving a screen of an application executed during a teleconference together with a surrounding panoramic image. As shown in FIG. 1, a user at his
本実施形態の記録情報作成システム100は、マイクとスピーカーを備えたミーティングデバイス60が撮像した水平パノラマ画像(以下、パノラマ画像という)と、端末装置10が実行するアプリケーション(以下、アプリという)が作成する画面と、を用いて、記録情報(議事録)を作成する。音声については、記録情報作成システム100(音声処理システムの一例)は、遠隔会議アプリ42が受信する音声と、ミーティングデバイス60が取得する音声とを合成して、記録情報に含める。以下、概略を説明する。
The recorded
(1) 端末装置10では、後述する情報記録アプリ41と遠隔会議アプリとが動作している。この他、資料表示用のアプリなども動作していてよい。情報記録アプリ41は、端末装置10が出力する音声(遠隔会議アプリが他拠点から受信した音声を含む。第一の音声データの一例。)をミーティングデバイス60に送信する。ミーティングデバイス60は、自身が取得している音声(第二の音声データの一例)と、遠隔会議アプリの音声とをミキシング(合成)する。ミーティングデバイス60は、端末装置10が出力する音声の音圧に基づいて発言した拠点を判断する。
(1) In the
(2) ミーティングデバイス60はマイクを備え、音声を取得した方向に基づき、パノラマ画像から話者を切り出す処理を行い、話者画像を作成する。ミーティングデバイス60は、パノラマ画像と話者画像の両方を端末装置10に送信する。
(2) The
(3) 端末装置10で動作する情報記録アプリ41は、パノラマ画像203と話者画像204を表示できる。情報記録アプリ41は、ユーザーが選択した任意のアプリの画面(例えば遠隔会議アプリの画面103)と、パノラマ画像203と話者画像204と、を結合する。例えば、左側にパノラマ画像203と話者画像204、右側に遠隔会議アプリの画面103が配置されるように、パノラマ画像203、話者画像204、アプリの画面103を結合する(以下、結合画像105という)。(3)の処理は繰り返し実行されるので、結合画像105は動画となる(以下、結合画像動画という)。また、情報記録アプリ41は、結合画像動画に、合成された音声(以下、合成音声という)を結合して音声付きの動画を作成する。
(3) The
なお、本実施形態では、パノラマ画像203、話者画像204、アプリの画面103を結合する例を説明するが、情報記録アプリ41がこれらを別々に保存し、再生時に画面に配置してもよい。
In this embodiment, an example in which the
(4) 情報記録アプリ41は、編集作業(ユーザーによる不要箇所のカット等)を受け付け、結合画像動画を完成させる。結合画像動画は記録情報の一部を構成する。
(4) The
(5) 情報記録アプリ41は、作成した結合画像動画(音声付き)をストレージサービスシステム70に送信し保存しておく。
(5) The
(6) 音声の一括変換の場合、情報記録アプリ41は、結合画像動画から音声のみを抽出しておき(結合前の音声を取っておいてもよい)、抽出した音声を、情報処理システム50に送信する。情報処理システム50は音声をテキストデータに変換する音声認識サービスシステム80に送信し、音声をテキスト化する。テキストデータには、録画開始から何分後に話したか、というデータも含まれる。
(6) In the case of batch conversion of audio, the
(7) リアルタイム変換の場合、ミーティングデバイス60が拠点の判断後に合成音声Cを情報処理システム50に送信する。情報処理システム50はリアルタイムに音声認識サービスシステムでテキストデータに変換し、このテキストデータを情報記録アプリ41に送信する。本実施形態では、主にリアルタイム変換の場合を説明する。
(7) In the case of real-time conversion, the
なお、情報処理システム50は、ユーザーに対し利用したサービスに応じた課金処理を実行できる。例えば、課金はテキストデータ量、結合画像動画のファイルサイズ、処理時間などに基づいて算出される。
Note that the
(8) 情報処理システム50は、結合画像動画を格納したストレージサービスシステム70に、テキストデータを追加で格納する。ユーザーは結合画像動画を端末装置10で再生できる。テキストデータは記録情報の一部を構成する。
(8) The
このように、結合画像動画には、ユーザーを含む周囲のパノラマ画像、話者画像、及び、遠隔会議中に表示されたアプリの画面が表示され、録画される。音声認識が合成音声に対し行われるので、別々に音声認識するよりも音声認識サービスシステムの処理負荷を低減できる。また、合成音声は、音圧情報に基づいて発言された拠点が判断されるので、音声データがどの拠点で発言されたものか記録できる。 In this way, in the combined image moving image, the surrounding panorama image including the user, the speaker image, and the screen of the application displayed during the teleconference are displayed and recorded. Since the speech recognition is performed on the synthesized speech, the processing load of the speech recognition service system can be reduced as compared with separate speech recognition. In addition, since the site where the synthetic voice was spoken is determined based on the sound pressure information, it is possible to record the site where the voice data was spoken.
<用語について>
アプリケーション(アプリ)とは、ある特定の機能や目的のために開発・使用されるソフトウェアで、コンピュータの操作自体のためのものではないものである。アプリケーションにはネイティブアプリとWebアプリがある。
<Terms>
An application (app) is software that is developed and used for a specific function or purpose, not for operating a computer itself. Applications include native apps and web apps.
実行中のアプリとは、アプリが起動されてから終了されるまでの間の状態のアプリをいう。アプリはアクティブ(最も手前にあるアプリ)でなくてもよく、バックグラウンドで動作していればよい。 A running application is an application that is in a state from when the application is started until it is terminated. The app doesn't have to be active (the one in the foreground), it just needs to run in the background.
デバイスとは、周囲の画像を撮像でき、周囲の音声を集音できる装置である。本実施形態では、ミーティングデバイス60という用語で説明される。
A device is a device capable of capturing an image of the surroundings and collecting sounds of the surroundings. In this embodiment, the
ミーティングデバイス60が取得した周囲の画像は、水平方向に通常の画角より広い画角で撮像された画像をいう。本実施形態では、周囲の画像は、パノラマ画像という用語で説明される。パノラマ画像はおおむね水平方向に180°~360°の画角がある画像である。ミーティングデバイス60は1台でパノラマ画像を撮像しなくてもよく、通常の画角の撮像装置が複数個、組み合わされていてもよい。
The image of the surroundings acquired by the
記録情報とは、情報記録アプリ41が記録する情報である。情報記録アプリ41が遠隔会議アプリの画面を録画した場合、記録情報が議事録となる場合がある。記録情報は、例えば、結合画像動画(音声を含む)及び音声が音声認識されたテキストデータを含む。
Recorded information is information recorded by the
テナントとは、サービスの提供者からサービスを受けることを契約したユーザーのグループ(企業や自治体、これらの一部の組織等)である。本実施形態の記録情報の作成やテキストデータへの変換は、テナントがサービス提供元と契約しているために実行される。 A tenant is a group of users (companies, local governments, some of these organizations, etc.) who have contracted to receive services from a service provider. Creation of record information and conversion into text data in this embodiment are executed because the tenant has a contract with the service provider.
遠隔コミュニケーションとは、物理的に離れた拠点にいる相手と、ソフトウェアや端末装置を活用することによって音声や映像を通じたコミュニケーションを取ることをいう。遠隔コミュニケーションの一例に遠隔会議があり、会議は、会合、ミーティング、打ち合わせ、集会、寄り合い、集まり、セミナーは、講習会、勉強会、ゼミ、研修会等と呼ばれてもよい。 Remote communication refers to communicating with a person at a physically distant base through voice and video using software and terminal devices. An example of remote communication is a teleconference, and the conference may be called a meeting, a meeting, a meeting, a gathering, a get-together, a gathering, and a seminar may be called a workshop, a study group, a seminar, a training session, or the like.
拠点とは、活動のよりどころとする場所をいう。拠点の例として会議室がある。会議室は、主に会議に使用することを目的に設置された部屋のことである。 A base is a place where activities are based. An example of a base is a conference room. A conference room is a room set up mainly for the purpose of using it for a conference.
音声とは人間が発する言語音や周囲の音等であり、音声データは音声をデータ化したものであるが、本実施形態では、厳密には区別せずに説明する。 Speech refers to language sounds uttered by humans, ambient sounds, etc., and speech data is speech data converted into data.
<機能に関するシステムブロック図>
図2は、記録情報作成システム100の機能に関するシステムブロック図である。記録情報作成システム100は、遠隔会議における自拠点音声Aを取得する自拠点音声入力部7と、自拠点以外の拠点の他拠点音声Bを取得する他拠点音声入力部8を有する。
<System block diagram related to functions>
FIG. 2 is a system block diagram relating to the functions of the recorded
自拠点音声入力部7は、例えば一般的なマイクロホンでよい。また、他拠点音声入力部8は、自拠点音声入力部7とは別に、他拠点音声Bを取得できるモジュールである。他拠点音声入力部8は、例えば遠隔会議に参加している端末装置と記録情報作成システム100を接続する接続部を介して他拠点音声Bを取得できるUSBコネクタ、Bluetooth(登録商標)、Wi-Fiなどの無線通信モジュールなどが考えられる。
The local site voice input unit 7 may be, for example, a general microphone. Also, the other-site
上記構成により、記録情報作成システム100は、複数の専用端末や専用アカウントを用意せずとも、一般的な遠隔コミュニケーションシステムを利用する遠隔会議においても自拠点音声Aと他拠点音声Bをそれぞれ別音声として取得可能となる。
With the above configuration, the recorded
更に、自拠点音声Aと他拠点音声Bは音声合成部65に入力され、合成処理されたことで合成音声Cとして出力される。合成音声Cは音声認識部55で音声認識技術によりテキスト化され、音声認識結果Dとして音声認識結果記録部57に保存される。更に、合成音声Cは音声記録部56により音声データとして録音される。
Further, the local site's voice A and the other site's voice B are input to the
音声認識技術として、音声認識サービスシステム80は、一般的な音声認識エンジンを利用可能である。音声認識エンジンの実装形態としてはハードウェアへの組み込みやクラウドサービスの利用などが考えられシステムごとに選択可能である。
As a speech recognition technology, the speech
自拠点音声Aと他拠点音声Bを合成音声Cに合成することにより、通信環境が悪い環境においてもデータ量が増大しにくいので音声認識部55へ音声データを入力できる。
By synthesizing the local site's voice A and the other site's voice B into the synthesized voice C, it is possible to input the voice data to the
また、複数拠点の音声を合成せずに音声認識すると2つの音声認識を並行処理する必要があるため、音声認識に際してパフォーマンス低下が懸念され、リアルタイム性も損なわれる可能性がある。しかし、複数拠点の音声を合成して合成音声Cとして音声認識部55に音声データを入力することで、低パフォーマンス、低コストで音声認識によりテキスト化が可能になり、リアルタイム性も向上する。更に、合成音声Cを音声認識することで、文脈を推定した音声認識も行うことが可能であり、音声認識率が向上する。
In addition, if voice recognition is performed without synthesizing voices from a plurality of sites, two voice recognition processes must be performed in parallel, so there is concern about performance degradation during voice recognition, and there is a possibility that real-time performance will be impaired. However, by synthesizing the voices of a plurality of bases and inputting the voice data as synthesized voice C to the
更に、音声記録部56が合成音声Cを記録することで、合成前のどちらかの音声データが紛失したり、再生時に発言のタイミングがずらされたりせず、同時に発声された音声がそのまま記録できるため、ユーザーは会議音声を違和感なく後日、会議記録として確認することができる。
Furthermore, since the
なお、記録情報作成システム100は、音声認識前や音声合成前に音声データを処理・加工する音声データ加工部を有していてもよい。
Note that the recorded
また、記録情報作成システム100は拠点判断処理部64を有する。拠点判断処理部64は自拠点音声Aと他拠点音声Bから、自拠点音圧情報A'と他拠点音圧情報B'とをそれぞれ検知する音圧検知部64aを有する。拠点判断部64bは、自拠点音圧情報A'と他拠点音圧情報B'を比較することにより合成音声Cが自拠点音声Aと他拠点音声Bのどちらで主に構成されているかを判断することにより、拠点識別情報Eを生成する。拠点識別情報Eは拠点判断結果記録部58に保存される。
The recorded
発言拠点の識別に、音圧情報を比較するという簡易な手段を用いることにより、声紋を利用した音声識別AIや発言者の顔画像を利用する顔認識AIなどの話者識別AIを用いずとも、拠点識別可能になるため低パフォーマンスで拠点識別が可能になり、低コストで実装が可能である。 By using a simple means of comparing sound pressure information for identifying the speaking base, it is possible to identify the speech base without using speaker identification AI such as voice recognition AI using voiceprints and face recognition AI using the face image of the speaker. , it is possible to identify bases with low performance, and it is possible to implement at low cost.
更に、記録情報作成システム100は、拠点判断結果記録部58と、音声認識結果記録部57と、音声記録部56からそれぞれ拠点識別情報Eと、音声認識結果Dと、合成音声Cを同期して読み出しユーザーに表示する会議記録確認部59を有する。
Furthermore, the recorded
以上によりユーザーは音声認識結果が自拠点の発言に基づくテキストであるか、他拠点の発言に基づくテキストであるかが分かるようになり、議事録の理解が促進する。 As described above, the user can recognize whether the speech recognition result is a text based on the utterance of the user's own site or a text based on the utterance of another site, thereby facilitating understanding of the minutes.
<システム構成例>
続いて、図3を参照して、記録情報作成システム100のシステム構成を説明する。図3は、記録情報作成システム100の構成例を示す。図3では、遠隔会議を行う複数の拠点のうち1つの拠点(自拠点102)を示し、自拠点102における端末装置10がネットワークを介して情報処理システム50と、ストレージサービスシステム70と、遠隔会議サービスシステム90と、通信する。自拠点102には更に、ミーティングデバイス60が配置され、端末装置10はこのミーティングデバイス60とUSBケーブル等を介して通信可能に接続されている。
<System configuration example>
Next, with reference to FIG. 3, the system configuration of the recording
端末装置10では、少なくとも情報記録アプリ41と遠隔会議アプリ42とが動作する。遠隔会議アプリ42は、他の拠点101の端末装置10とネットワーク上の遠隔会議サービスシステム90を介して通信することができ、各拠点のユーザー同士が遠隔地から会議できるようになっている。情報記録アプリ41は、遠隔会議アプリ42が実施する遠隔会議における記録情報を、情報処理システム50及びミーティングデバイス60の機能を使って作成する。
At least an
なお、本実施形態では、遠隔会議中の記録情報を作成する例を説明するが、記録される会議は、遠隔の拠点と通信する会議でなくてもよい。つまり、会議は1拠点内の参加者のみが参加する会議でもよい。この場合、ミーティングデバイス60が集音した音声のみが合成なしに保存される他、情報記録アプリ41の処理に変更はない。
In this embodiment, an example of creating recorded information during a remote conference will be described, but the conference to be recorded does not have to be a conference that communicates with a remote site. In other words, the conference may be a conference in which only participants within one base participate. In this case, only the sound collected by the
端末装置10には通常の画角のカメラが内蔵されており(外付けでもよい)、端末装置10を操作するユーザー107を含む正面の画像を撮像している。通常の画角とは、パノラマ画像でない画像であるが、本実施形態では、主に全天球画像のように曲面でない平面画像である。また、端末装置10にはマイクが内蔵されており(外付けでもよい)、端末装置10を操作するユーザー等の周囲の音声を集音している。したがって、ユーザーは、情報記録アプリ41を意識することなく、遠隔会議アプリ42を使用した従来の遠隔会議が可能である。情報記録アプリ41やミーティングデバイス60は、端末装置10の処理負荷増を除けば遠隔会議アプリ42に影響を与えない。なお、遠隔会議アプリ42はミーティングデバイス60が撮像するパノラマ画像や話者画像を遠隔会議サービスシステム90に送信することも可能である。
The
情報記録アプリ41はミーティングデバイス60と通信して記録情報を作成する。ミーティングデバイス60は、パノラマ画像の撮像装置、マイク、及び、スピーカーを備えたミーティング用のデバイスである。端末装置10が有するカメラは正面の限られた範囲しか撮像できないが、ミーティングデバイス60はミーティングデバイス60を囲む全周囲(必ずしも全周囲でなくてもよい)を撮像できる。ミーティングデバイス60は図3に示す複数の参加者106を常に画角に収めることができる。
The
この他、ミーティングデバイス60は、パノラマ画像からの話者画像の切り出し、ミーティングデバイス60が取得した音声と端末装置10が出力する音声(遠隔会議アプリ42が受信した音声を含む)との合成等を行う。なお、ミーティングデバイス60は、机の上に限らず自拠点102のどこに配置されてもよい。ミーティングデバイス60は全天球画像を撮像できるので、例えば天井に配置されてもよい。
In addition, the
情報記録アプリ41は、端末装置10で実行中のアプリの一覧表示、上記した記録情報のための画像合成(結合画像動画の作成)、結合画像動画の再生、編集の受け付け等を行う。また、情報記録アプリ41は、実施された又はこれらか実施される予定の遠隔会議の一覧表示、等を行う。遠隔会議の一覧は、記録情報に関する情報に使用され、ユーザーが遠隔会議と記録情報とを結びつけることができる。
The
遠隔会議アプリ42は、他の拠点101との通信接続、他の拠点101との画像及び音声の送受信、画像の表示や音声の出力等を行う。
The
なお、情報記録アプリ41及び遠隔会議アプリ42はWebアプリでもネイティブアプリでもよい。Webアプリとは、Webサーバー上のプログラムとWebブラウザ上のプログラムが協働して処理を行うアプリであり、端末装置10へのインストールが不要なアプリである。ネイティブアプリとは、端末装置10にインストールして利用されるアプリである。本実施形態では、両者ともネイティブアプリであるとして説明する。
Note that the
端末装置10は、例えば、PC(Personal Computer)、スマートフォン、タブレット端末等、通信機能を備えた汎用的な情報処理装置でよい。端末装置10は、この他、電子黒板、ゲーム機、PDA(Personal Digital Assistant)、ウェアラブルPC、カーナビ、産業機械、医療機器、ネットワーク家電等でもよい。端末装置10は情報記録アプリ41と遠隔会議アプリ42が動作する装置であればよい。
The
情報処理システム50は、ネットワーク上に配置された一台以上の情報処理装置である。情報処理システム50は、情報記録アプリ41と協働して処理を行う1つ以上のサーバーアプリと、基盤サービスを有している。このサーバーアプリは、会議管理システム9が管理する遠隔会議のリストの取得、遠隔会議で記録された記録情報の管理、各種設定やストレージパスの管理等を行う。基盤サービスは、ユーザー認証や契約、課金処理等を行う。
The
会議管理システム9は会議室の予約、会議の予定の管理などを行うシステムである。会議管理システム9と情報処理システム50とが一体でもよい。
The
なお、情報処理システム50の機能の全て又は一部は、クラウド環境に存在してもよいし、オンプレミス環境に存在してもよい。情報処理システム50は複数台のサーバー装置により構成されてもよいし、一台の情報処理装置により構成されてもよい。例えば、サーバーアプリと基盤サービスが別々の情報処理装置より提供されてよいし、更にサーバーアプリ内の機能ごとに情報処理装置が存在してもよい。情報処理システム50と次述するストレージサービスシステム70、音声認識サービスシステム80が一体でもよい。
All or part of the functions of the
ストレージサービスシステム70は、ネットワーク上の記憶手段であり、ファイル等の保存を受け付けるストレージサービスを提供する。ストレージサービスシステム70としてはOne Drive(登録商標)、Google Workspace(登録商標)、DropBox(登録商標)等が知られている。ストレージサービスシステム70は、オンプレミスのNAS(Network Attached Storage)等でもよい。
The
音声認識サービスシステム80は、音声データに音声認識を行いテキストデータに変換するサービスを提供する。音声認識サービスシステム80は、汎用的な商用サービスでもよいし、情報処理システム50の機能の一部でもよい。
The voice
<ハードウェア構成例>
図4を参照して、本実施形態に係る情報処理システム50及び端末装置10のハードウェア構成について説明する。
<Hardware configuration example>
Hardware configurations of the
<<情報処理システム及び端末装置>>
図4は、本実施形態に係る情報処理システム50及び端末装置10の一例のハードウェア構成を示す図である。図4に示されているように、情報処理システム50及び端末装置10はコンピュータによって構築されており、CPU501、ROM502、RAM503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティングデバイス512、光学ドライブ514、メディアI/F516を備えている。
<<information processing system and terminal device>>
FIG. 4 is a diagram showing an example hardware configuration of the
これらのうち、CPU501は、情報処理システム50及び端末装置10全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、ネットワークN2を利用してデータ通信をするためのインターフェースである。バスライン510は、図4に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
Among these, the
また、キーボード511は、文字、数値、又は各種指示などの入力に使用される複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。光学ドライブ514は、着脱可能な記録媒体の一例としての光記憶媒体513に対する各種データの読み出し又は書き込みを制御する。なお、光記憶媒体513は、CD,DVD、Blu-ray(登録商標)等でよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
Also, the
<<ミーティングデバイス>>
図5を用いて、ミーティングデバイス60のハードウェア構成を説明する。図5は、360°の動画を撮像可能なミーティングデバイス60のハードウェア構成図の一例である。以下では、ミーティングデバイス60は撮像素子を使用した、デバイスの周囲360°の動画を所定の高さで撮像する装置とするが、撮像素子は1つでも2つ以上のいくつでもよい。また、必ずしも専用装置である必要はなくPCやデジタルカメラ、スマートフォン等に後付けの360°動画の撮像ユニットを取り付けることで、実質的に同じ機能を有するようにしてもよい。
<<Meeting Device>>
The hardware configuration of the
図5に示されているように、ミーティングデバイス60は、撮像ユニット601、画像処理ユニット604、撮像制御ユニット605、マイク608、音処理ユニット609、CPU(Central Processing Unit)611、ROM(Read Only Memory)612、SRAM(Static Random Access Memory)613、DRAM(Dynamic Random Access Memory)614、操作部615、外部機器接続I/F616、通信部617、アンテナ617a、音声センサー618、及びMicro USB用の凹状の端子621によって構成されている。
As shown in FIG. 5, the
このうち、撮像ユニット601は、半球画像を結像するための360°の画角を有する広角レンズ(いわゆる魚眼レンズ)602と、各広角レンズに対応させて設けられている撮像素子603(イメージセンサー)を備えている。撮像素子603は、魚眼レンズ602による光学像を電気信号の画像データに変換して出力するCMOS(Complementary Metal Oxide Semiconductor)センサーやCCD(Charge Coupled Device)センサーなどの画像センサー、この画像センサーの水平又は垂直同期信号や画素クロックなどを生成するタイミング生成回路、この撮像素子の動作に必要な種々のコマンドやパラメータなどが設定されるレジスタ群などを有している。
Among them, the
撮像ユニット601の撮像素子603(イメージセンサー)は、各々、画像処理ユニット604とパラレルI/Fバスで接続されている。一方、撮像ユニット601の撮像素子603は、撮像制御ユニット605とは、シリアルI/Fバス(I2Cバス等)で接続されている。画像処理ユニット604、撮像制御ユニット605及び音処理ユニット609は、バス610を介してCPU611と接続される。更に、バス610には、ROM612、SRAM613、DRAM614、操作部615、外部機器接続I/F616、通信部617、及び音声センサー618なども接続される。
The imaging elements 603 (image sensors) of the
画像処理ユニット604は、撮像素子603から出力される画像データをパラレルI/Fバスを通して取り込み、それぞれの画像データに対して所定の処理を施して、魚眼映像からパノラマ画像や話者画像のデータを作成する。更に、画像処理ユニット604は、パノラマ画像と話者画像等を合成処理して、1つの動画を出力する。
The
撮像制御ユニット605は、一般に撮像制御ユニット605をマスタデバイス、撮像素子603をスレーブデバイスとして、I2Cバスを利用して、撮像素子603のレジスタ群にコマンド等を設定する。必要なコマンド等は、CPU611から受け取る。また、撮像制御ユニット605は、同じくI2Cバスを利用して、撮像素子603のレジスタ群のステータスデータ等を取り込み、CPU611に送る。
The
また、撮像制御ユニット605は、操作部615の撮像開始ボタンが押下されたタイミングあるいはPCから撮像開始指示を受信したタイミングで、撮像素子603a,603bに画像データの出力を指示する。ミーティングデバイス60によっては、ディスプレイ(例えば、PCやスマートフォンのディスプレイ)によるプレビュー表示機能や動画表示に対応する機能を持つ場合もある。この場合は、撮像素子603からの画像データの出力は、所定のフレームレート(フレーム/分)によって連続して行われる。
Also, the
また、撮像制御ユニット605は、後述するように、CPU611と協働して撮像素子603の画像データの出力タイミングの同期をとる同期制御手段としても機能する。なお、本実施形態では、ミーティングデバイス60にはディスプレイが設けられていないが、表示部を設けてもよい。
The
マイク608は、音を音(信号)データに変換する。音処理ユニット609は、マイク608から出力される音声データをI/Fバスを通して取り込み、音声データに対して所定の処理を施す。
A
CPU611は、ミーティングデバイス60の全体の動作を制御すると共に必要な処理を実行する。ROM612は、CPU611のための種々のプログラムを記憶している。SRAM613及びDRAM614はワークメモリであり、CPU611で実行するプログラムや処理途中のデータ等を記憶する。特にDRAM614は、画像処理ユニット604での処理途中の画像データや処理済みの正距円筒射影画像のデータを記憶する。
The
操作部615は、撮像開始ボタン615aなどの操作ボタンの総称である。ユーザーは操作部615を操作することで、撮像や録画を開始する他、電源ON/OFFの実行、通信接続の実行、種々の撮像モードや撮像条件などの設定を入力する。
The
外部機器接続I/F616は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、PC(Personal Computer)等である。DRAM614に記憶された動画データや画像データは、この外部機器接続I/F616を介して外部端末に送信されたり、外付けのメディアに記録されたりする。
The external device connection I/
通信部617は、ミーティングデバイス60に設けられたアンテナ617aを介して、Wi-Fi等の無線通信技術によって、インターネット経由でクラウドサーバと通信し、記憶した動画データや画像データをクラウドサーバに送信してもよい。また、通信部617は、BLE(Bluetooth Low Energy。登録商標)やNFC等の近距離無線通信技術を用いて付近のデバイスと通信してもよい。
The
音声センサー618は、ミーティングデバイス60の周辺(水平面)の360°においてどの方向から音声が大きい音で入力されたかを特定するために、360°の音声データを取得するセンサーである。音処理ユニット609は入力した360°の音声パラメータに基づき、最も強い方向を特定して360°における音声入力方向を出力する。
The audio sensor 618 is a sensor that acquires 360° audio data in order to identify from which direction a loud sound is input in 360° around the meeting device 60 (horizontal plane). The
なお、他のセンサー(方位・加速度センサーやGPS等)が方位・位置・角度・加速度等を算出し、画像補正や位置情報付加に用いてもよい。 Note that other sensors (azimuth/acceleration sensor, GPS, etc.) may calculate the azimuth, position, angle, acceleration, etc., and use them for image correction and addition of position information.
また画像処理ユニット604は、以下の処理を行う。
The
・CPU611は、パノラマ画像の作成を次の方法で行う。CPU611は、球面映像を入力するイメージセンサーから入力されたRAWデータをBayer変換(RGB補完処理)等の所定のカメラ映像処理を行って魚眼映像(曲面の映像)を作成する。更に作成した魚眼映像(曲面の映像)に対してDeWarp処理(歪み補正処理)を行い、ミーティングデバイス60の周辺の360°が写ったパノラマ画像(平面の映像)を作成する。
- The
・CPU611は話者画像の作成を次の方法で行う。CPU611は周辺の360°が写ったパノラマ画像(平面の映像)から、話者を切り出した話者画像を作成する。CPU611は、音声センサー618及び音処理ユニット609を用いて出力した360°から特定した音声入力方向を、話者の方向として、上記パノラマ画像から話者画像を切り出す。このとき音声入力方向から人の画像を切り出す方法は、360°から特定した音声方向を中心に30°を切り取って、その中で顔検出(人物検出等でも可)を実施して切り出す。CPU611は、更に切り出した話者画像のうち、直近で発言のあった特定人数分(3名等)の話者画像を特定する。
- The
パノラマ画像と、1以上の話者画像は個別に情報記録アプリ41に送信されてもよいし、ミーティングデバイス60がこれらから1枚の画像を作成して、情報記録アプリ41に送信してもよい。本実施形態では、パノラマ画像と1以上の話者画像は個別にミーティングデバイス60から情報記録アプリ41に送信されるものとする。
The panorama image and one or more speaker images may be individually sent to the
図6は、ミーティングデバイス60の撮像範囲を説明する図である。図6(a)に示すように、ミーティングデバイス60は水平方向に360°の範囲を撮像する。図6(b)に示すように、ミーティングデバイス60は、ミーティングデバイス60の高さに水平な方向を0°とし、上下に所定の角度を撮像範囲とする。
FIG. 6 is a diagram for explaining the imaging range of the
図7は、パノラマ画像と話者画像の切り出しを説明する図である。図7に示すように、ミーティングデバイス60が撮像する画像は球体の一部110をなすため、三次元の形状を有している。ミーティングデバイス60は、図6(b)で示したように、上下の所定角度と左右の所定角度ごとに画角を区切って透視投影変換を行う。透視投影変換を水平方向360°の全体で隙間なく行うことで、所定数の平面画像が得られるので、所定数の平面画像を左右に連結することでパノラマ画像111が得られる。また、ミーティングデバイス60はパノラマ画像から音声方向を中心に所定の範囲で顔検出を実施して、顔の中心から左右に15°(全体で30°)を切り出すことで、話者画像112を作成する。
FIG. 7 is a diagram for explaining the extraction of the panorama image and the speaker image. As shown in FIG. 7, the image captured by the
<機能について>
次に、図8を参照して、記録情報作成システム100が有する機能構成について説明する。図8は、記録情報作成システム100における端末装置10、ミーティングデバイス60、及び、情報処理システム50の機能をブロックに分けて説明する機能ブロック図の一例である。
<About functions>
Next, with reference to FIG. 8, the functional configuration of the recorded
<<端末装置>>
端末装置10で動作する情報記録アプリ41は、通信部11、操作受付部12、表示制御部13、アプリ画面取得部14、音声取得部15、デバイス通信部16、動画保存部17、音声データ処理部18、録画再生部19、アップロード部20、編集処理部21、及び、検索部22を有している。端末装置10が有するこれら各部は、図4に示されている各構成要素のいずれかが、HD504からRAM503に展開された情報記録アプリ41に従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、端末装置10は、図4に示されているHD504等によって構築される記憶部1000を有している。記憶部1000には情報記憶部1001が構築されている。
<< terminal device >>
The
通信部11は、ネットワークを介して情報処理システム50と各種の情報を通信する。通信部11は、例えば、遠隔会議のリストを情報処理システム50から受信したり、音声データの認識要求を情報処理システム50に送信したりする。
The
表示制御部13は情報記録アプリ41に設定されている画面遷移にしたがって情報記録アプリ41においてユーザーインターフェースとなる各種の画面を表示する。操作受付部12は、情報記録アプリ41に対する各種の操作を受け付ける。
The
アプリ画面取得部14は、デスクトップ画面、又は、ユーザーが選択したアプリの画面をOS(Operating System)等から取得する。ユーザーが選択したアプリが遠隔会議アプリ42の場合、遠隔会議アプリ42が生成する画面(各拠点の画像、資料の画像等)が得られる。
The application
音声取得部15は、端末装置10がマイクやイヤホンから出力する音声(遠隔会議アプリ42から遠隔会議において受信された音声データを含む)を取得する。出力音声がミュート状態でも、音声取得部15は音声を取得できる。音声データに関してユーザーは遠隔会議アプリ42を選択するなどの操作は必要なく、音声取得部15は、端末装置10が出力できる音声を、OSやAPI(Application Interface)を介して取得できる。これにより、遠隔会議アプリ42が他の拠点101から受信する音声データも取得される。遠隔会議アプリ42が実行中でなかったり、遠隔会議中でなかったりする場合、情報記録アプリ41は音声データを取得できない場合がある。なお、音声取得部15が取得する音声は、端末装置10が集音する音声は含まれず、出力する音声データのみである点に注意されたい。ミーティングデバイス60が別に、音声を集音しているためである。
The
デバイス通信部16は、USBケーブルなどを利用してミーティングデバイス60と通信する。デバイス通信部16は、無線LANやBluetooth(登録商標)等でミーティングデバイス60と通信してよい。デバイス通信部16は、パノラマ画像と話者画像をミーティングデバイス60から受信し、音声取得部15が取得した音声データをミーティングデバイス60に送信する。デバイス通信部16は、ミーティングデバイス60で合成された音声データを受信する。
The
動画保存部17は、デバイス通信部16が受信したパノラマ画像と話者画像、及び、アプリ画面取得部14が取得したアプリの画面を結合し、結合画像を作成する。また、動画保存部17は繰り返し作成する結合画像を時系列に接続して結合画像動画を作成し、合成された音声データを結合画像動画に結合して音声付きの結合画像動画を作成する。
The moving
音声データ処理部18は、結合画像動画に結合された音声データを抽出するか、又は、ミーティングデバイス60から受信した合成後の音声データの、テキストデータへの変換を情報処理システム50に要求する。
The audio
録画再生部19は、結合画像動画の再生を行う。結合画像動画は、録画中は端末装置10に保存され、その後、情報処理システム50にアップロードされる。
The recording/
アップロード部20は、遠隔会議が終了すると、結合画像動画を情報処理システム50に送信する。
The upload
編集処理部21は、ユーザーの操作に応じて、結合画像動画の編集(一部の削除、つなぎ合わせ等)を実行する。
The
検索部22は、キーワードによるテキストデータの検索を受け付け、テキストデータを検索し、検索結果を表示する。
The
図9は、情報記憶部1001が記憶している動画記録情報を示す。動画記録情報は、会議ID、録画ID、更新日時、タイトル、アップロード、保存先等の各項目を有している。ユーザーが情報処理システム50にログインすると、情報記録アプリ41は情報処理システム50の会議情報記憶部5001から会議情報をダウンロードする。会議情報に含まれる会議IDなどが動画記録情報に反映される。図9の動画記録情報は、あるユーザーが操作する端末装置10が保持するものである。
FIG. 9 shows moving image recording information stored in the
・会議IDは、開催された遠隔会議を識別する識別情報である。会議IDは、会議管理システム9に遠隔会議の予定が登録された際に採番されるか、又は、情報記録アプリ41からの要求で情報処理システム50が採番する。
- The conference ID is identification information for identifying the held remote conference. The conference ID is numbered when a remote conference schedule is registered in the
・録画IDは、遠隔会議において録画された結合画像動画を識別する識別情報である。録画IDはミーティングデバイス60が採番するが、情報記録アプリ41や情報処理システム50が採番してもよい。同じ会議IDに異なる録画IDが付与されるのは、遠隔会議の途中で録画が終了したが、何らかの理由で再開した場合を示す。
- The recording ID is identification information for identifying the combined image video recorded in the teleconference. The recording ID is numbered by the
・更新日時は、結合画像動画が更新された(録画が終了した)日時である。結合画像動画が編集された場合、編集された日時である。 - The updated date and time is the date and time when the combined image moving image was updated (recording ended). When the combined image moving image is edited, it is the date and time when it was edited.
・タイトルは、会議の会議名である。会議管理システム9への会議の登録時に設定されてもよいし、ユーザーが任意に設定してもよい。
• The title is the conference name of the conference. It may be set when the conference is registered in the
・アップロードは、結合画像動画が情報処理システム50にアップロードされたか否かを示す。
· Upload indicates whether or not the combined image moving image has been uploaded to the
・保存先は、ストレージサービスシステム70において、結合画像動画とテキストデータが保存されている場所(URLやファイルパス)を示す。したがって、ユーザーはアップロードされた結合画像動画を任意に閲覧できる。なお、結合画像動画とテキストデータは、例えばURLに続いて別々のファイル名で保存される。
The storage destination indicates the location (URL or file path) where the combined image moving image and the text data are stored in the
<<ミーティングデバイス>>
図8に戻って説明する。ミーティングデバイス60は、通信部61、パノラマ画像作成部62、話者画像作成部63、拠点判断処理部64、音声合成部65、テキスト変換要求部66、デバイス接続部67、及び、集音部68を有している。ミーティングデバイス60が有するこれら各部は、図5に示されている各構成要素のいずれかがハード的に実現する機能、又は機能する手段である。ただし、これら各部は、ROM612からDRAM614に展開されたプログラムに従ったCPU611からの命令によって動作することで実現されてもよい。
<<Meeting Device>>
Returning to FIG. 8, description will be made. The
通信部61は、情報処理システム50と各種の情報を送受信する。通信部61は、音声認識サービスシステムやストレージサービスシステム70とも通信できる。
The
デバイス接続部67は、端末装置10からの音声の入力を受け付ける。デバイス接続部67はUSBケーブルなどを利用して端末装置10と通信する。デバイス接続部67は、無線LANやBluetooth(登録商標)等で端末装置10と通信してよい。ミーティングデバイス60は、デバイス接続部67が取得した他拠点音声Bを出力可能なスピーカーを備えてもよい。デバイス接続部67は、図2の他拠点音声入力部8に相当する。
The
パノラマ画像作成部62はパノラマ画像を作成する。話者画像作成部63は話者画像を作成する。これらの作成方法は図6、図7にて説明した。
A panorama
拠点判断処理部64は、自拠点音声Aと他拠点音声Bを所定の規則で分割し、分割された自拠点音声Aの自拠点音圧情報A'と、他拠点音声Bの他拠点音圧情報B'に基づいて、自拠点音声A又は他拠点音声Bが発言された拠点を判断する。詳細は後述する。
The site
音声合成部65は、端末装置10から送信された音声と集音部68が集音した音声を合成する。これにより、他の拠点101で発言された音声と、自拠点102の発言がまとめられる。
The
集音部68は、ミーティングデバイス60が有するマイクが取得する自拠点音声Aの音声信号を音声データ(デジタル)に変換する。これにより、端末装置10側の拠点でユーザーや参加者が発言した内容が集音される。集音部68が集音した自拠点音声Aはデバイス接続部67を介して、端末装置10に送信されるとよい。これにより、ユーザーはミーティングデバイス60を一般的な外付けマイクデバイスと同様に使用可能である。集音部68(及び音声取得部15も含めてよい)は、図2の自拠点音声入力部7に相当する。
The
また、ミーティングデバイス60は集音部68とデバイス接続部67をそれぞれ有することにより、自拠点音声Aと他拠点音声Bを個別に取得可能になる。よって、自拠点音圧情報A'と他拠点音圧情報B'を別々に取得することが可能になる。
Also, the
テキスト変換要求部66は、通信部61を介して、情報処理システム50に合成音声Cを送信し、リアルタイム音声認識(テキストデータへの変換)を要求する。
The text
<<情報処理システム>>
情報処理システム50は、通信部51、認証部52、画面生成部53、会議情報取得部54、音声認識部55、音声記録部56、音声認識結果記録部57、拠点判断結果記録部58、会議記録確認部59、を有する。情報処理システム50が有するこれら各部は、図4に示されている各構成要素のいずれかが、HD504からRAM503に展開されたプログラムに従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、情報処理システム50は、図4に示されているHD504等によって構築される記憶部5000を有している。記憶部5000には、会議情報記憶部5001と録画情報記憶部5002が構築される。
<<Information Processing System>>
The
通信部51は、端末装置10と各種の情報を送受信する。通信部51は、例えば、遠隔会議のリストを端末装置10に送信したり、音声データの認識要求を端末装置10から受信したりする。
The
認証部52は、端末装置10を操作するユーザーを認証する。認証部52は、例えば、通信部51によって受信された認証要求に含まれている認証情報(ユーザーID及びパスワード)が予め保持する認証情報と一致するか否かにより、ユーザーを認証する。なお、認証情報は、ICカードのカード番号、顔や指紋などの生体認証情報等でもよい。また、認証部52は、外部の認証システムやOAUTHなどの認証方法で認証してもよい。
The
画面生成部53は端末装置10が表示する画面情報の生成を行う。端末装置10がネイティブアプリを実行する場合は、画面情報は端末装置10が保持しており、表示される情報がXML等で送信される。端末装置10がWebアプリを実行する場合は、画面情報は、HTML、XML、CSS(Cascade Style Sheet)、及びJavaScript(登録商標)等により作成される。
The
会議情報取得部54は、各ユーザーのアカウント又は情報処理システム50に付与されたシステム用のアカウントで、遠隔会議に関する情報を会議管理システム9から取得する。会議情報取得部54は、テナントに所属するユーザーに閲覧権限がある遠隔会議のリストを取得できる。遠隔会議には会議IDが設定されているので、会議IDにより遠隔会議と記録情報が対応付けられる。
The conference
音声認識部55は、端末装置10又はミーティングデバイス60からテキストデータへの変換を要求された合成音声Cを外部の音声認識サービスを利用してテキストデータに変換する。音声認識部55自身が変換してもよい。
The
音声記録部56は、少なくとも合成音声Cを記録しておく。音声認識結果記録部57は、音声認識結果Dを保存しておく。拠点判断結果記録部58は、拠点識別情報Eを保存しておく。拠点判断結果記録部58と音声認識結果記録部57と音声記録部56は、情報処理システム50でこれらを保存してもよいし、ストレージサービスシステム70に保存してもよい。すなわち、拠点判断結果記録部58と音声認識結果記録部57と音声記録部56は受動的なストレージとして機能してもよいし、ストレージサービスシステム70の記録情報記憶部7001と連携する機能でもよい。本実施形態では、主に後者として説明する。
The
合成音声C、音声認識結果D、及び、拠点識別情報Eは分割された状態で、互いに対応付けて保存される。認識結果文字列は、音声認識の区切りごとに生成される文字列である。どこで音声認識を区切るかは、適宜設定されるが、例えば、無音状態、一定時間などである。 Synthesized speech C, speech recognition result D, and site identification information E are stored in a divided state in association with each other. A recognition result character string is a character string generated for each segment of speech recognition. Where to break the speech recognition is appropriately set, for example, silent state, fixed time, and the like.
会議記録確認部59は、拠点識別情報Eと、音声認識結果Dと、合成音声Cを同期して取得し、ユーザーに提示することで、拠点の判断の確認を受け付ける。
The conference
このような構成により、ミーティングデバイス60は、広く普及している遠隔コミュニケーションシステムを用いた遠隔会議を利用可能であり、音声の集音、発言拠点の識別のために複数の専用マイクを用いずとも自然な形態で音声を収音し、発言拠点を識別可能となる。
With such a configuration, the
<<会議情報記憶部>>
図10は、会議情報取得部54が管理する、会議情報記憶部5001に記憶された会議情報の一例である。会議情報取得部54は上記のアカウントを使ってテナントに所属する当該ユーザーが閲覧権限のある遠隔会議のリストを取得できる。本実施形態では、遠隔会議を例にしているが、遠隔会議のリストには1つの会議室だけで開催される会議も含まれている。
<<meeting information storage>>
FIG. 10 shows an example of conference information stored in the conference information storage unit 5001 managed by the conference
会議情報は会議IDで管理され、参加者、タイトル(会議名)、開始時刻、終了時刻、場所などと対応付けられている。これらは会議情報の一例であり、会議情報は、他にも情報を含みうる。 The conference information is managed by a conference ID, and is associated with participants, title (meeting name), start time, end time, location, and the like. These are examples of conference information, and the conference information may include other information.
・会議IDは、会議の識別情報である。 - Meeting ID is the identification information of a meeting.
・テナントIDは、会議が開催されるテナントの識別情報である。 - Tenant ID is the identification information of the tenant where the conference is held.
・タイトルは、会議の件名や議題である。 • The title is the subject or agenda of the meeting.
・開催者は、当該会議の開催者である。 ・The organizer is the organizer of the conference.
・参加者は、会議に招待された参加者のリストである。 • Participants is a list of participants invited to the conference.
・閲覧権限があるユーザーは、結合画像動画を含む会議リソースへのアクセス可能なユーザーのリストである。 - The users with viewing authority is a list of users who can access the conference resource including the combined image video.
・アドホック参加者は、ゲスト参加者のリストである。 • Ad hoc participants is a list of guest participants.
・場所は、会議室の名称など、会議室に関する情報である。 - The location is information about the conference room, such as the name of the conference room.
・開始時刻は、会議が開始される予定時刻である。 • The start time is the scheduled time at which the conference will start.
・終了時刻は、会議が終了される予定時刻である。 • The end time is the scheduled time at which the conference will end.
・会議作成者は、会議情報を登録したユーザーID等である。 - The conference creator is the user ID or the like that registered the conference information.
・パスワードは、参加者が会議にログインするためのパスワードである。 - The password is the password for the participant to log in to the conference.
・場所は、会議の開催場所であり、例えば会議室や、支社名、建屋などである。 - The location is the place where the conference is held, such as a conference room, a branch office name, a building, and the like.
図9,図10に示すように、会議IDにより会議で録画された結合画像動画が特定される。 As shown in FIGS. 9 and 10, the combined image moving image recorded at the conference is specified by the conference ID.
図11は、録画情報記憶部5002に記憶されている録画情報を示す。録画情報は、テナントに所属する全てのユーザーが録画した結合画像動画のリストを有する。録画情報は、会議ID、録画ID、更新日時、タイトル、保存先等の各項目を有してる。これらの項目は図9と同様でよい。
FIG. 11 shows recording information stored in the recording
<<ストレージサービスシステム>>
ストレージサービスシステム70は記録情報を記憶するサービスシステムであればよい。記録情報記憶部7001には、記録情報(結合画像動画、テキストデータ)が保存されている。図12では、記録情報記憶部7001に保存されるテキストデータの構造を説明する。
<<Storage Service System>>
The
図12は、ストレージサービスシステム70に保存されているテキストデータの構造を説明する図である。図12に示すように、テキストデータは、ID、time、認識結果文字列、音声データ、拠点識別情報Eの項目が対応付けられている。なお、テキストデータは会議IDに対応付けて保存されている。
FIG. 12 is a diagram illustrating the structure of text data stored in the
・IDは自拠点音声Aと他拠点音声Bが所定の規則で分割された場合に採番される識別情報である。所定の規則は、ミーティングデバイス60(及び音声認識サービスシステム80の少なくとも一方)に設定されており、例えば、一定時間の無音状態が継続すると区切る、無音状態がなくても一定時間で強制的に区切る、形態素解析により検出した一文ずつ区切る、などである。 - ID is identification information numbered when own site audio A and other site audio B are divided according to a predetermined rule. Predetermined rules are set in the meeting device 60 (and at least one of the speech recognition service system 80), and for example, when a silent state continues for a certain period of time, it is forcibly separated at a certain period of time even if there is no silent state. , segment each sentence detected by morphological analysis, and so on.
・timeは、録画開始からの継続時間による発言時刻である。記録開始時にいわゆる時刻も保存されるので、textが発言された時刻(絶対的な時刻)も分かる。 • time is the utterance time based on the duration from the start of recording. Since the so-called time is also saved at the start of recording, the time (absolute time) when the text was said can also be known.
・認識結果文字列は分割された合成音声Cが音声認識で変換されたテキストデータの一部である。合成音声Cは、認識結果文字列の変換元となった音声データである。 ・The recognition result character string is a part of the text data obtained by converting the divided synthesized speech C by speech recognition. Synthesized speech C is speech data that is the source of conversion of the recognition result character string.
・音声データは、拠点の判断後に自拠点音声Aと他拠点音声Bが合成された合成音声C(分割済み)である。 ・Speech data is the synthesized speech C (divided) obtained by synthesizing the self-site speech A and the other-site speech B after the determination of the site.
・拠点識別情報Eは、自拠点音圧情報A'と他拠点音圧情報B'の音圧に基づいて判断された、音声データが発言された拠点の識別情報である。拠点識別情報Eは、例えば1が自拠点、2が他拠点を表す。 The base identification information E is the identification information of the base where the voice data was uttered, determined based on the sound pressure of the own base sound pressure information A' and the other base sound pressure information B'. As for the base identification information E, for example, 1 indicates the own base and 2 indicates the other base.
このように、timeと認識結果文字列が対応付けられているので、テキストデータが検索に適合すると、情報記録アプリ41はこのtimeに対応する再生時刻から結合画像動画を再生できる。
In this way, since the time and the recognition result character string are associated with each other, if the text data matches the search, the
<画面遷移>
続いて、図13~図16を参照して、端末装置10が遠隔会議中に表示するいくつかの画面について説明する。図13は、端末装置10で動作する情報記録アプリ41が表示するログイン後の初期画面200である。端末装置10のユーザーが情報記録アプリ41を情報処理システム50に接続させる。ユーザーが認証情報を入力してログインに成功すると、図13の初期画面200が表示される。
<Screen transition>
Next, some screens displayed by the
初期画面200は、固定表示ボタン201、正面変更ボタン202、パノラマ画像203、1つ以上の話者画像204a~204c(以下、区別しない場合、話者画像204という)、及び、記録開始ボタン205を有している。ログイン時にすでにミーティングデバイス60が起動して、周囲を撮像している場合、初期画面200にミーティングデバイス60が作成するパノラマ画像203、及び話者画像204が表示される。したがって、ユーザーはこれらを見ながら、記録開始するかどうか決めることができる。ミーティングデバイス60が起動していない(撮像していない)場合、パノラマ画像203と話者画像204は表示されない。
The
なお、情報記録アプリ41は、パノラマ画像203から検出された全ての顔に基づく全ての参加者の話者画像204を表示してもよいし、直近に発言したN人の話者画像204のみを表示してもよい。図13では、最大3人まで話者画像204が表示される例を示す。参加者が発言するまでの間、話者画像204がなくてもよいし(発言に応じて一人ずつ増える)、所定の方向の参加者の3人の話者画像204が表示されてもよい(発言に応じて入れ替わる)。
Note that the
なお、ミーティングデバイス60が起動した直後など、誰も発言していない場合、水平360°のうちの予め決められた方向(0°、120°、240°など)を話者画像204として作成する。後述する固定表示が設定されている場合は、固定表示の設定が優先される。
When no one is speaking, such as immediately after the
固定表示ボタン201は、パノラマ画像203のある領域を話者画像204として固定でクローズアップする操作をユーザーが行うためのボタンである。
A fixed
正面変更ボタン202は、パノラマ画像203の正面を変更する操作をユーザーが行うためのボタンである(パノラマ画像は水平方向に360°写っているので、右端と左端の方向が一致する)。ユーザーはポインティングデバイスでパノラマ画像203を左右にスライドさせて、正面に写る参加者を決定できる。ユーザーの操作はミーティングデバイス60に送信され、ミーティングデバイス60は、水平方向360°のうち正面にする角度を変更してパノラマ画像を作成し、端末装置10に送信する。
The
ユーザーが記録開始ボタン205を押下すると情報記録アプリ41が図14の録画設定画面210を表示する。
When the user presses the
図14は、情報記録アプリ41が表示する録画設定画面210の一例である。録画設定画面210では、ミーティングデバイス60が作成したパノラマ画像及び話者画像、並びに、端末装置10のデスクトップ画面又は動作するアプリの画面、を録画するかをユーザーが(録画に含めるか)設定できる。パノラマ画像及び話者画像、及び、デスクトップ画面又は動作するアプリの画面のどちらも、情報記録アプリ41が録画しない場合は音声(端末装置10が出力する音声+ミーティングデバイス60が集音した音声)のみ記録される。
FIG. 14 is an example of a
カメラトグルボタン211は、ミーティングデバイス60が作成したパノラマ画像及び話者画像の録画のオンとオフを切り替えるボタンである。カメラトグルボタン211は、パノラマ画像と話者画像を個別に録画する設定が可能でもよい。
The
PC画面トグルボタン212は、端末装置10のデスクトップ画面、端末装置10で動作するアプリの画面の、録画のオンとオフを切り替えるボタンである。PC画面トグルボタン212がオンの状態で、デスクトップ画面が録画される。
The PC
ユーザーがアプリの画面を録画したい場合、更に、アプリ選択欄213で、アプリを選択する。アプリ選択欄213には端末装置10が実行中のアプリ名がプルダウン形式で表示される。ユーザーは録画するアプリを選択できる。このアプリ名は、情報記録アプリ41がOSから取得する。情報記録アプリ41は実行中のアプリのうち、UI(画面)を持つアプリのみを表示することができる。選択されるアプリの中に、遠隔会議アプリ42が含まれてよい。このため、情報記録アプリ41は、遠隔会議アプリ42で表示した資料や各拠点の参加者なども動画で記録できる。この他、プルダウンで表示されるアプリは、プレゼンテーション用アプリ、ワープロアプリ、表計算アプリ、Webブラウザアプリ、など様々である。したがって、ユーザーは結合画像動画に含めるアプリの画面を柔軟に選択できる。
When the user wants to record the screen of an application, the application is further selected in the
また、アプリ単位で録画する場合、ユーザーは複数のアプリを選択できる。情報記録アプリ41は、選択された全てのアプリの画面を録画できる。
Also, when recording by app, users can select multiple apps. The
カメラトグルボタン211とPC画面トグルボタン212が双方ともオフの場合、録画内容確認ウィンドウ214に「音声のみ記録されます」と表示される。この音声は、端末装置10が出力する音声(遠隔会議アプリ42が他の拠点101から受信する音声)と、ミーティングデバイス60が集音する音声である。つまり、遠隔会議が実施されていれば、遠隔会議アプリ42の音声とミーティングデバイス60の音声は、画像の記録に関係なく保存される。ただし、ユーザーは、ユーザーの設定で遠隔会議アプリ42の音声、ミーティングデバイス60の音声の保存を選択的に停止できてよい。
When both the
カメラトグルボタン211とPC画面トグルボタン212のオンとオフの組み合わせに応じて、以下のように結合画像動画が録画される。また、録画内容確認ウィンドウ214にはリアルタイムに結合画像動画が表示される。
A combined image moving image is recorded as follows according to the combination of ON and OFF of the
・カメラトグルボタン211がオン、PC画面トグルボタン212がオフの場合は、録画内容確認ウィンドウ214に、ミーティングデバイス60が撮像したパノラマ画像と話者画像が表示される。
When the
・カメラトグルボタン211がオフ、PC画面トグルボタン212がオン(画面も選択済)の場合、録画内容確認ウィンドウ214に、デスクトップ画面や選択されたアプリの画面が表示される。
When the
・カメラトグルボタン211がオン、PC画面トグルボタン212がオンの場合、録画内容確認ウィンドウ214に、ミーティングデバイス60が撮像したパノラマ画像と話者画像、及び、デスクトップ画面や選択されたアプリの画面が横に並んだ状態で表示される。
・When the
したがって、パノラマ画像、話者画像、及びアプリの画面が録画されない場合や、パノラマ画像、話者画像、及びアプリの画面が一切録画されない場合があるが、本実施形態では、便宜上、情報記録アプリ41が作成する画像を結合画像動画という。 Therefore, the panoramic image, the speaker image, and the application screen may not be recorded, or the panoramic image, the speaker image, and the application screen may not be recorded at all. The image created by is called a combined image movie.
更に、録画設定画面210は、「記録をアップロード後に自動で文字おこしする」というメッセージと共にチェックボックス215を有する。また、録画設定画面210は今すぐ記録開始ボタン216を有する。ユーザーがチェックボックス215にチェックを入れると、記録動画に、遠隔会議中の発言が変換されたテキストデータが添付される。この場合、録画終了後に情報記録アプリ41がテキストデータへの変換要求と共に音声を情報処理システム50にアップロードする。また、ユーザーが今すぐ記録開始ボタン216を押下すると、録画中画面が表示される。
Additionally, the recording settings screen 210 has a
図15は、情報記録アプリ41が表示する会議一覧画面230の一例である。会議一覧画面230は、会議の一覧であるが、遠隔会議において録画された記録情報のリストを表示できる。また、遠隔の会議に関わらず、ある会議室内のみで行われた会議も含まれる。会議一覧画面230には、会議情報記憶部5001においてログインユーザーが閲覧権限のある会議情報が表示される。情報記憶部1001に保存された動画記録情報の情報が更に統合されてもよい。
FIG. 15 is an example of a
会議一覧画面230は、図13の初期画面200においてユーザーが会議一覧タブ231を選択すると表示される。会議一覧画面230は、このユーザーに閲覧権限がある記録情報のリスト236を表示する。会議作成者(議事録作成者)は参加者に閲覧権限を設定できる。なお会議一覧は、記憶した記録情報の一覧であっても、会議予定や会議データの一覧であってもよい。
The
会議一覧画面230はチェックボックス232、更新日時233、タイトル234、及びステータス235の各項目を有する。
The
・チェックボックス232は録画ファイルの選択を受け付ける。チェックボックス232は、ユーザーがまとめて録画ファイルを削除したい場合に使用される。
• Check
・更新日時233は、結合画像動画の録画の開始時と終了時を示す。編集された場合は編集日時でよい。
The update date/
・タイトルは234、会議のタイトル(議題等)である。会議情報から転記されてもよいし、ユーザーが設定してもよい。 ・The title is 234, the title of the meeting (agenda, etc.). It may be transcribed from the meeting information, or may be set by the user.
・ステータス235は、結合画像動画が情報処理システム50にアップロード済みか否かを示す。アップロード済みでない場合、「ローカルPC」が表示され、アップロード済みの場合「アップロード済み」が表示される。アップロード済みでない場合、アップロードボタンが表示される。未アップロードの結合画像動画がある場合、ユーザーが情報処理システム50にログイン時に、情報記録アプリ41が自動アップロードするとよい。
· The
ユーザーが結合画像動画のリスト236から任意のタイトル等をポインティングデバイスで選択すると、情報記録アプリ41が録画再生画面を表示するが本実施形態では省略する。録画再生画面では、結合画像動画の再生などが可能である。
When the user selects an arbitrary title or the like from the combined
なお、ユーザーは、更新日時や、タイトル、キーワードなどから会議を絞り込むことができることが望ましい。また、表示される会議の数が多く、該当の会議を見つけにくい場合は、検索機能として、ユーザーが語句を入力することで、会議の発言やタイトルなどに含まれる語句から記録情報を絞り込むことができることが望ましい。検索機能により、ユーザーは記録情報が多くなった場合でも短時間で所望の記録情報を見つけることが可能である。また、会議一覧画面では、ユーザーが更新日時やタイトル順で会議をソートできてもよい。 In addition, it is desirable that the user can narrow down the conferences based on update dates, titles, keywords, and the like. In addition, if it is difficult to find the appropriate meeting due to the large number of displayed meetings, the user can enter words and phrases in the search function to narrow down the recorded information based on the words and phrases included in the meeting remarks and titles. It is desirable to be able to The search function allows the user to find desired recorded information in a short time even when there is a large amount of recorded information. Also, on the conference list screen, the user may be able to sort the conferences by update date and time or by title.
<会議記録確認部が提示する画面例>
図16は、会議記録確認部59が提示し、端末装置10が表示する会議記録確認画面240の一例である。
<Screen example presented by the meeting record confirmation section>
FIG. 16 is an example of a conference
会議記録確認画面240は任意の数のセグメント表示部130-1~130-nを有する。以下では、セグメント表示部130-1~130-nのうち、任意のセグメント表示部を単にセグメント表示部130という。
The conference
セグメント表示部130はそれぞれ、少なくとも音声認識結果表示部133と拠点識別情報表示部131と合成音声再生部132を有する。音声認識結果表示部133は、音声認識結果Dを表示する。拠点識別情報表示部131は音声認識結果Dに対応する拠点識別情報Eを表示する。合成音声再生部132は、少なくとも音声を再生するための再生ボタンを有し、ユーザーは再生ボタンを押下することで、音声認識結果表示部133に表示される音声認識結果Dに対応する合成音声Cを再生可能である。また、合成音声再生部132は、一時停止、倍速再生、シークバーによる再生位置の変更機能、及び、任意の時間のスキップ機能などを備えてもよい。
Each
音声認識結果Dと、音声認識結果Dに対応する拠点識別情報Eを対応付けて表示することで、ユーザーは会議記録の理解が促進され、発言拠点の違いによる誤認識などを防止することができる。合成音声Cを音声により再生可能であることで、ユーザーはより簡便に議事録を確認可能である。 By displaying the voice recognition result D and the base identification information E corresponding to the voice recognition result D in association with each other, the user can be promoted to understand the conference record, and misrecognition due to the difference in speaking bases can be prevented. . By being able to reproduce the synthesized speech C as voice, the user can more easily check the minutes.
図16において、右側にある拠点識別情報表示部131と合成音声再生部132と、左側にある拠点識別情報表示部131と合成音声再生部132とがあるのは、拠点の違いを示す。例えば、発言が自拠点の場合、拠点識別情報表示部131と合成音声再生部132は右側に表示され、発言が他拠点の場合、左側に表示される。こうすることで、ユーザーは一目で拠点を判断できる。
In FIG. 16, the point identification
音声認識結果表示部133、拠点識別情報表示部131に表示されている情報は後からユーザーが任意に編集できることが好ましい。また、セグメント表示部130-1~nは任意の個所をユーザーの操作により削除できることが好ましい。これにより、音声認識結果に間違いがあった場合や、議事録に不要なテキストデータがあった場合にユーザーは任意に認識結果文字列の修正、削除が可能である。
It is preferable that the information displayed in the speech recognition
ユーザーが拠点識別情報表示部131を編集すると(変更すると)、編集後の拠点に応じて、表示制御部13が拠点識別情報表示部131と合成音声再生部132の配置を左から右、又は右から左に変更して表示する。この画面表示に関する変更処理は、画面生成部53が行ってもよい。会議記録確認部59は、ユーザーが拠点識別情報Eを編集すると、端末装置10から編集内容を受信して、図12に示したテキストデータの拠点識別情報Eを変更する。
When the user edits (changes) the site identification
<拠点の判断>
図17は、拠点判断条件を説明する図である。図17(a)(b)(c)の上図と下図はそれぞれ自拠点音声Aと他拠点音声Bの音圧情報の例を示す。音圧は、図17(a)(b)(c)の波形の振幅であり、入力電圧VINから式(1)でデシベルフルスケール(dBFS)に変換することで取得される。すなわち、デシベルフルスケールが音圧である。図17(a)(b)(c)は、このようにして求められている。
<Judgment of base>
FIG. 17 is a diagram for explaining base determination conditions. 17A, 17B, and 17C show examples of sound pressure information of own site audio A and other site audio B, respectively. The sound pressure is the amplitude of the waveforms shown in FIGS. 17A, 17B, and 17C, and is obtained by converting the input voltage V IN into decibel full scale (dBFS) using Equation (1). That is, the decibel full scale is the sound pressure. 17(a), (b) and (c) are obtained in this way.
ピーク値は、音声波形のピーク値(最大値)をある音声データの音圧情報の代表値として用いる方法である。また、実効値(RMS値)はある音声の入力電圧VINの波形の実効値VIN-rmsを、上記式(1)を用いて音圧(dBFS)に変換した値を音圧情報の代表値として用いる方法である。実効値は、式(2)を用いて計算できる。 The peak value is a method of using the peak value (maximum value) of an audio waveform as a representative value of sound pressure information of certain audio data. The effective value (RMS value) is the value obtained by converting the effective value V IN -rms of the waveform of the input voltage V IN of a certain sound into sound pressure (dBFS) using the above equation (1), which is representative of the sound pressure information. This is the method used as a value. The rms value can be calculated using equation (2).
次に拠点判断処理部64が拠点を判断するための条件の例を示す。拠点判断の条件としては、以下で説明する条件1よりも条件2が好ましいがこれらに限定されるものではなく、システムごとに最適な条件を選択できる。下記の拠点判断条件においては、自拠点音圧情報A'を単にA'、他拠点音圧情報B'を単にB'と記載するが、これらはそれぞれ、先述したピーク値、実効値(RMS値)などを利用できる。
Next, an example of conditions for the site
<<拠点判断条件1-1>>
(1) 拠点判断処理部64は、A'とB'の値を比較して、A'がB'よりも大きければ自拠点で発言があったと判断する。
<<Base Judgment Conditions 1-1>>
(1) The site
(2) 拠点判断処理部64は、A'とB'の値を比較して、B'がA'よりも大きければ他拠点で発言があったと判断する。
(2) The site
(3) 拠点判断処理部64は、音圧が同一の場合は「NA(不明)」と判断する。
(3) When the sound pressures are the same, the site
以上の判断例をフローチャート図で表すと図18のようになる。なお、一般に、NAの場合、拠点識別情報Eが不明であるので、認識結果文字列も削除される。ただし、拠点判断処理部64は、認識結果文字列を残してもよいし、拠点判断条件によってNAと判断された認識結果文字列を残すかどうかを切り替えてよい。
FIG. 18 is a flow chart showing the above determination example. In the case of NA, generally speaking, the recognition result character string is also deleted because the base identification information E is unknown. However, the site
図18は、拠点判断条件1-1による拠点の判断方法を説明するフローチャート図の一例である。 FIG. 18 is an example of a flow chart for explaining a method of determining a site based on the site determination condition 1-1.
上記のように、拠点判断処理部64は、所定の規則で音声を自拠点音声Aと他拠点音声Bを分割し、A'とB'の値の大小関係を判断する(S101)。
As described above, the site
拠点判断処理部64は、A'>B'の場合、自拠点で発言があったと判断する(S102)。
If A'>B', the base
拠点判断処理部64は、A'<B'の場合、他拠点で発言があったと判断する(S103)。
If A'<B', the site
拠点判断処理部64は、A'=B'の場合、不明であると判断する(S104)。
The site
<<拠点判断条件1-2>>
(1) 拠点判断処理部64は、A'とB'の値を比較して、A'がB'よりも大きければ自拠点で発言があったと判断する。
<<Base Judgment Conditions 1-2>>
(1) The site
(2) 拠点判断処理部64は、A'とB'の値を比較して、B'がA'以上であれば他拠点で発言があったと判断する(音圧が同一の場合は「他拠点」と判断)。
拠点判断条件1-2によると、A'とB'を比較して大きい方の音声を拠点と判断することにより、音声認識結果と拠点識別情報Eを高確率で一致させることが可能になる。また、他拠点の音声は遠隔コミュニケーションシステムを介して受信される音声のためわずかにWeb会議システムのノイズキャンセリング機能により音声が小さくなることがあり、実際は同じ声量で話していても取得できる音圧としては小さくなることもある。そのため、拠点判断条件1-2によりA'とB'が同一音圧の場合は、他拠点と判断することで拠点の誤判断が少なくなる。
(2) The base
According to the site determination condition 1-2, by comparing A' and B' and determining the louder voice as the site, it is possible to match the voice recognition result and the site identification information E with a high probability. In addition, since the voice of other sites is received via the remote communication system, the voice may be slightly reduced due to the noise canceling function of the web conferencing system. may be smaller. Therefore, if A' and B' have the same sound pressure according to site determination condition 1-2, misjudgment of the site can be reduced by determining that the site is another site.
図19は、拠点判断条件1-2による拠点の判断方法を説明するフローチャート図の一例である。 FIG. 19 is an example of a flowchart for explaining a method of determining a site based on the site determination condition 1-2.
上記のように、拠点判断処理部64は、所定の規則で音声を自拠点音声Aと他拠点音声Bを分割し、A'がB'より大きいか判断する(S111)。
As described above, the site
拠点判断処理部64は、A'>B'の場合、自拠点で発言があったと判断する(S112)。
If A'>B', the base
拠点判断処理部64は、A'≦B'の場合、他拠点で発言があったと判断する(S113)。
If A'≦B', the site
<<拠点判断条件2>>
(1) 拠点判断処理部64は、B'の値がノイズ閾値X以上で、かつ、B'がA'の値よりも大きい場合は、他拠点で発言があったと判断する。
<<
(1) If the value of B' is greater than or equal to the noise threshold X and the value of B' is greater than the value of A', the site
(2) 拠点判断処理部64は、A'の値がノイズ閾値X以上で、かつ、A'がB'の値よりも大きい場合は、自拠点で発言があったと判断する。
(2) If the value of A' is equal to or greater than the noise threshold value X and A' is greater than the value of B', the site
(3) 拠点判断処理部64は、A'もB'のいずれの値もノイズ閾値X未満であった場合は、両拠点で発言がなかった(N/A(不明))と判断する。
(3) If both the values of A' and B' are less than the noise threshold value X, the site
条件2によると、拠点判断処理部64は、まず、A'とB'の大きさとノイズ閾値Xを比較し、更にA'とB'の大きさを比較して大きい方の拠点を拠点識別情報Eとして返す。これにより、環境ノイズがある環境で環境ノイズの影響により拠点が誤識別されてしまうことを防止可能である。
According to
ノイズ閾値Xはシステムにより適切な値を選択可能であるが、音圧情報としてデシベルフルスケールのピーク値を用いる場合は-40dBFS程度、音圧情報としてデシベルフルスケールの実効値(RMS値)を用いる場合は-50dBFS程度が好ましい。 An appropriate value for the noise threshold X can be selected depending on the system, but when using the peak value of the decibel full scale as sound pressure information, use about -40 dBFS, and use the effective value (RMS value) of the decibel full scale as the sound pressure information. -50 dBFS is preferable.
図20は、拠点判断条件2による拠点の判断方法を説明するフローチャート図の一例である。
FIG. 20 is an example of a flowchart for explaining a method of determining a site based on the
拠点判断処理部64は、所定の規則で音声を自拠点音声Aと他拠点音声Bを分割する。拠点判断処理部64は、B'の値がノイズ閾値X以上か否かを判断する(S121)。ステップS121の判断がYesの場合、拠点判断処理部64は、B'の値がA'よりも大きいか否かを判断する(S122)。
The site
ステップS122の判断がYesの場合、拠点判断処理部64は、他拠点で発言があったと判断する(S123)。
If the determination in step S122 is Yes, the site
ステップS121、又はS122の判断がNoの場合、拠点判断処理部64は、A'の値がノイズ閾値X以上か否かを判断する(S124)。
If the determination in step S121 or S122 is No, the base
ステップS124の判断がYesの場合、拠点判断処理部64は、A'の値がB'よりも大きいか否かを判断する(S125)。
If the determination in step S124 is Yes, the base
ステップS125の判断がYesの場合、拠点判断処理部64は、自拠点で発言があったと判断する(S126)。
If the determination in step S125 is YES, the site
ステップS124、又はS125の判断がNoの場合、拠点判断処理部64は、拠点が不明であると判断する(S127)。
If the determination in step S124 or S125 is No, the base
なお、他拠点と自拠点の判断の順番は逆でもよい。 It should be noted that the order of determination between the other sites and the own site may be reversed.
<<判断例>>
拠点判断条件1,2を図16の音圧に適用した場合の判断例について説明する。
<<Judgment example>>
An example of determination when
図17(a)において、拠点判断条件1-1を利用し、音圧情報としてピーク値を用いた場合は、拠点識別情報Eとして自拠点と判断される。 In FIG. 17(a), when the site determination condition 1-1 is used and the peak value is used as the sound pressure information, the site identification information E is determined as the own site.
図17(a)において、拠点判断条件1-2を利用し、音圧情報として実効値(RSM値)を用いた場合は、拠点識別情報Eとして自拠点と判断される。 In FIG. 17(a), when site determination condition 1-2 is used and effective value (RSM value) is used as sound pressure information, site identification information E is determined to be the site itself.
図17(a)において、ノイズ閾値-40dBFSとし、拠点判断条件2を利用し、音圧情報としてピーク値を用いた場合は、拠点識別情報Eとしては自拠点と判断される。
In FIG. 17A, when the noise threshold is -40 dBFS,
図17(a)において、ノイズ閾値-50dBFSとし、拠点判断条件2を利用し、音圧情報として実効値(RSM値)を用いた場合は、拠点識別情報Eとして自拠点と判断される。
In FIG. 17A, when the noise threshold is -50 dBFS,
拠点判断条件1及び2を利用することにより、拠点判断において発言があったと推測される自拠点を拠点識別情報Eとして判断できるようになった。
By using the
図17(b)において、拠点判断条件1-1を利用し、音圧情報としてピーク値を用いた場合は、拠点識別情報Eとして他拠点と判断される。 In FIG. 17(b), when the site determination condition 1-1 is used and the peak value is used as the sound pressure information, the site identification information E is determined to be another site.
図17(b)において、拠点判断条件1-2を利用し、音圧情報として実効値(RSM値)を用いた場合は、拠点識別情報としては自拠点と判断される。 In FIG. 17(b), when site determination condition 1-2 is used and an effective value (RSM value) is used as sound pressure information, the site is determined to be the site itself as site identification information.
図17(b)において、ノイズ閾値-40dBFSとし、拠点判断条件2を利用し、音圧情報としてピーク値を用いた場合は、拠点識別情報Eとしては他拠点と判断される。
In FIG. 17(b), when the noise threshold is -40 dBFS,
図17(b)において、ノイズ閾値-50dBFSとし、拠点判断条件2を利用し、音圧情報として実効値(RSM値)を用いた場合は、拠点識別情報Eとしては自拠点と判断される。
In FIG. 17(b), when the noise threshold is -50 dBFS,
拠点判断条件2を利用することにより、拠点判断結果がノイズの影響を受けにくくなった。
By using
図17(c)において、拠点判断条件1-1を利用し、音圧情報としてピーク値を用いた場合は、拠点識別情報Eとしては自拠点と判断される。 In FIG. 17(c), when the site determination condition 1-1 is used and the peak value is used as the sound pressure information, the site identification information E is determined as the own site.
図17(c)において、拠点判断条件1-2を利用し、音圧情報として実効値(RSM値)を用いた場合は、拠点識別情報Eとしては自拠点と判断される。 In FIG. 17(c), when site determination condition 1-2 is used and effective value (RSM value) is used as sound pressure information, site identification information E is determined to be the site itself.
図17(c)において、ノイズ閾値-40dBFSとし、拠点判断条件2を利用し、音圧情報としてピーク値を用いた場合は、拠点識別情報Eとしては自拠点と判断される。
In FIG. 17(c), when the noise threshold is -40 dBFS,
図17(c)において、ノイズ閾値-50dBFSとし、拠点判断条件2を利用し、音圧情報として実効値(RSM値)を用いた場合は、拠点識別情報EとしてはN/A (拠点識別情報無し)と判断される。
In FIG. 17(c), when the noise threshold is -50 dBFS,
音圧情報として実効値(RMS値)を利用することにより、拠点判断結果が突発的な音の影響を受けにくくなった。 By using the effective value (RMS value) as the sound pressure information, the site judgment result is less likely to be affected by sudden sounds.
<拠点識別情報Eと音声認識結果Dと合成音声Cの対応付け>
図12では、拠点識別情報Eと音声認識結果Dと合成音声Cの対応付けにIDが用いられているが、拠点識別情報Eと音声認識結果Dと合成音声Cに同じIDを対応付ける方法として、キュー方式とタイムスタンプ方式などの方式が考えられる。
<Association of Site Identification Information E, Speech Recognition Result D, and Synthesized Speech C>
In FIG. 12, IDs are used to associate the base identification information E, the speech recognition result D, and the synthesized speech C, but as a method of associating the same ID with the base identification information E, the speech recognition result D, and the synthesized speech C, Methods such as a queue method and a time stamp method are conceivable.
<<キュー方式>>
図21は、キュー方式で、拠点識別情報E、音声認識結果D、及び、合成音声Cを情報処理システム50が対応付ける方法を説明する図である。キューとは、要素を入ってきた順に一列に並べ、先に入れた要素から順に取り出すデータ構造をいう。キュー方式では、拠点識別情報Eと音声認識結果Dと合成音声Cがそれぞれ、拠点判断結果記録部58と音声認識結果記録部57と音声記録部56に入力された順番に応じて、情報処理システム50が拠点識別情報E、音声認識結果D、及び、合成音声Cに同じIDを設定する。
<< queue method >>
FIG. 21 is a diagram for explaining how the
会議記録確認画面240は、1番目のセグメント表示部130であるセグメント表示部130-1に、拠点識別情報E-1と音声認識結果D-1と合成音声C-1を対応付けて表示させる。会議記録確認画面240は、n番目のセグメント表示部130であるセグメント表示部130-nには、拠点識別情報E-nと音声認識結果D-nと合成音声C-nを対応付けて表示させる。
The conference
キュー方式は、簡易なアルゴリズムでユーザーに拠点識別情報Eと音声認識結果Dと合成音声Cを対応付けて表示可能である。 The cue method can display the base identification information E, the speech recognition result D, and the synthesized speech C in correspondence with each other to the user by a simple algorithm.
<<タイムスタンプ方式>>
図22は、タイムスタンプ方式で、拠点識別情報E、音声認識結果D、及び、合成音声Cを情報処理システム50が対応付ける方法を説明する図である。タイムスタンプ方式は、拠点識別情報Eと音声認識結果Dと合成音声Cにメタデータとして同一のタイムスタンプを付加する方法である。タイムスタンプとは、時刻やハッシュ値などのタイムスタンプに記載されたタイムスタンプ情報Fを元にデータの同一性を確実かつ簡単に確認できる方法である。拠点識別情報Eと合成音声Cに対するタイムスタンプは、ミーティングデバイス60が付加する。音声認識結果Dに対するタイムスタンプは情報処理システム50が付加する。
<< Timestamp method >>
FIG. 22 is a diagram for explaining how the
情報処理システム50は、同一のタイムスタンプ情報Fを持つ、拠点識別情報Eと音声認識結果Dと合成音声Cに同じIDを設定する。会議記録確認画面240は、同一のタイムスタンプ情報Fを持つ、拠点識別情報Eと音声認識結果Dと合成音声Cを対応付けて表示する。
The
会議記録確認画面240は、1番目のセグメント表示部130であるセグメント表示部130-1に、タイムスタンプ情報F-1を持つデータである、拠点識別情報E-1と音声認識結果D-1と合成音声C-1を対応付けて表示させる。会議記録確認画面240は、n番目のセグメント表示部130であるセグメント表示部130-nに、タイムスタンプ情報F-nを持つデータである、拠点識別情報E-nと音声認識結果D-nと合成音声C-nを対応付けて表示させる。
The conference
タイムスタンプ方式は、簡易なアルゴリズムでユーザーに拠点識別情報Eと音声認識結果Dと合成音声Cを対応付けて開示可能である。更に、データの遅延などがあり拠点識別情報Eと音声認識結果Dと合成音声Cが拠点判断結果記録部58と音声認識結果記録部57と音声記録部56に入る順番が入れ替わったとしても確実に拠点識別情報Eと音声認識結果Dと合成音声Cを同期できる。
The time stamp method can disclose to the user the base identification information E, the speech recognition result D, and the synthesized speech C in association with each other using a simple algorithm. Furthermore, even if the order in which the site identification information E, the voice recognition result D, and the synthesized voice C enter the site determination
タイムスタンプの生成に際しては、自拠点音声A又は他拠点音声B取得のタイミングで生成することが好ましい。しかし、ミーティングデバイス60は、合成音声Cの生成のタイミングや自拠点音圧情報A'又は他拠点音圧情報B'取得のタイミングや拠点識別情報Eの生成のタイミングで生成してもよい。拠点識別情報Eと音声認識結果Dと合成音声Cとを対応付けられるタイミングであれば、タイムスタンプの生成タイミングは、これらに限定されない。
When generating the time stamp, it is preferable to generate it at the timing of acquiring own-site audio A or other-site audio B. FIG. However, the
<動作手順>
続いて、以上の構成に基づいて、記録情報作成システム100が行う動作及び処理について説明する。
<Operation procedure>
Next, operations and processes performed by the recording
<<結合画像動画の保存>>
図23を参照し、結合画像動画の保存処理について説明する。図23は、情報記録アプリ41がパノラマ画像、話者画像及びアプリの画面を録画する手順を示すシーケンス図の一例である。図23では、リアルタイム音声認識の処理を説明する。
<<Save Combined Image Movie>>
With reference to FIG. 23, processing for saving a combined image moving image will be described. FIG. 23 is an example of a sequence diagram showing a procedure for the
S1:ユーザーは端末装置10で情報記録アプリ41を起動し、端末装置10(情報記録アプリ41)を情報処理システム50に接続させる。アクセストークンの有効期限が切れている場合、表示制御部13がログイン画面を表示する。ユーザーは情報記録アプリ41に、テナントにログインするための認証情報(例えばユーザーID、パスワード)を入力する。情報記録アプリ41の操作受付部12が入力を受け付ける。
S1: The user activates the
S2:情報記録アプリ41の通信部11が、認証情報を指定してログイン要求を情報処理システム50に送信する。
S2: The
S3:情報処理システム50の通信部51はログイン要求を受信し、認証部52が認証情報に基づいてユーザーを認証する。ここでは認証が成功したものとする。情報処理システム50の通信部51はアクセストークン1を情報記録アプリ41に送信する。図では明記しないが、以降、通信部51は、アクセストークン1を情報処理システム50との通信に添付する。アクセストークン1にはログインしたユーザーの権限が対応付けられている。
S3: The
S4:同様に、ユーザーはストレージサービスシステム70にもログインする。記録情報は、ストレージサービスシステム70に保存されるためである。ユーザーはストレージサービスシステム70にログインするための認証情報(例えばユーザーID、パスワード)を入力する。情報記録アプリ41の操作受付部12が入力を受け付ける。
S4: Similarly, the user logs into the
S5:情報記録アプリ41の通信部11が、認証情報を指定してログイン要求を情報処理システム50に送信する。
S5: The
S6:情報処理システム50の通信部51はログイン要求を受信し、ストレージサービスシステム70へのログイン要求なので、ログイン要求をストレージサービスシステム70に転送する。
S6: The
S7:ストレージサービスシステム70は認証情報に基づいてユーザーを認証する。ここでは認証が成功したものとする。ストレージサービスシステム70はアクセストークン2を情報処理システム50に送信する。
S7: The
S8:情報処理システム50の通信部51はアクセストークン2を受信し、情報記録アプリ41に送信する。図では明記しないが、以降、通信部51は、アクセストークン2をストレージサービスシステム70との通信に添付する。アクセストークン2にはログインしたユーザーの権限が対応付けられている。
S8: The
S21:続いて、ユーザーは遠隔会議アプリ42を操作して遠隔会議を開始する。ここでは、自拠点102と他の拠点101の遠隔会議アプリ42が遠隔会議を開始したものとする。自拠点102の遠隔会議アプリ42は、端末装置10が有するカメラが撮像する画像、マイクが集音する音声を他の拠点101の遠隔会議アプリ42に送信する。他の拠点101の遠隔会議アプリ42は、受信した画像をディスプレイに表示し、受信した音声をスピーカーから出力する。同様に、他の拠点101の遠隔会議アプリ42は、端末装置10が有するカメラが撮像する画像、マイクが集音する音声を自拠点102の遠隔会議アプリ42に送信する。自拠点102の遠隔会議アプリ42は、受信した画像をディスプレイに表示し、受信した音声をスピーカーから出力する。各遠隔会議アプリ42はこれを繰り返して、遠隔会議を実現する。
S21: Subsequently, the user operates the
S22:ユーザーは図16に示した情報記録アプリ41の録画設定画面210に対し、録画に関する設定を行う。情報記録アプリ41の操作受付部12が設定を受け付ける。ここでは、カメラトグルボタン211、及び、PC画面トグルボタン212が共にオンであるとする。
S22: The user makes settings related to recording on the
ユーザーは遠隔会議を事前に予約済みの場合、図15のような遠隔会議のリストを表示し、結合画像動画を対応付ける遠隔会議を選択できる。ユーザーは情報処理システム50にログイン済みなので、情報処理システム50はログインしたユーザーが閲覧権限のある遠隔会議を特定する。情報処理システム50は特定した遠隔会議のリストを端末装置10に送信するので、ユーザーは開催中又はこれから開催される遠隔会議を選択する。これにより、会議ID等、遠隔会議に関する情報が決定される。
When a remote conference is reserved in advance, the user can display a list of remote conferences as shown in FIG. 15 and select the remote conference with which the combined image video is associated. Since the user has already logged into the
また、ユーザーは遠隔会議を事前に予約していなくても、結合画像動画を作成する際に会議を作成できる。以下では、情報記録アプリ41が、結合画像動画を作成する際に会議を作成し、会議IDを情報処理システム50から取得する場合を説明する。
In addition, even if the user does not reserve a teleconference in advance, the user can create the conference when creating the combined image video. A case will be described below in which the
S23:ユーザーは録画開始(今すぐ記録開始ボタン216)を情報記録アプリ41に指示する。情報記録アプリ41の操作受付部12が指示を受け付ける。表示制御部13は録画中画面を表示する。
S23: The user instructs the
S24:遠隔会議が選択されていないので(会議IDが決まってないため)、情報記録アプリ41の通信部11が、遠隔会議作成要求を情報処理システム50に送信する。
S24: Since the remote conference has not been selected (because the conference ID has not been determined), the
S25:情報処理システム50の通信部51は遠隔会議作成要求を受信し、会議情報取得部54が、会議管理システム9が採番した重複しない会議IDを取得し、通信部51が会議IDを情報記録アプリ41に送信する。
S25: The
S26:また、会議情報取得部54は、通信部51を介して、結合画像動画の保存先(ストレージサービスシステム70のURL)を情報記録アプリ41に送信する。
S<b>26 : The meeting
S27:情報記録アプリ41の通信部11が会議IDと録画ファイルの保存先を受信することで、動画保存部17が録画の準備が整ったと判断し、録画を開始する。
S27: When the
S28:情報記録アプリ41のアプリ画面取得部14は、ユーザーが選択したアプリの画面をアプリに対し要求する(アプリ画面取得部14は、より詳細にはOSを介して、アプリの画面を取得する)。図23では、ユーザーが選択したアプリを遠隔会議アプリ42とする。
S28: The application
S29:情報記録アプリ41の動画保存部17は、デバイス通信部16を介して、ミーティングデバイス60に録画開始を通知する。通知の際、動画保存部17は、カメラトグルボタン211がオンである旨(パノラマ画像と話者画像の要求)も通知するとよい。要求の有無に関係なくミーティングデバイス60はパノラマ画像と話者画像を情報記録アプリ41に送信している。
S29: The
S30:ミーティングデバイス60のデバイス接続部67が録画開始を受信すると、重複しない録画IDを採番し、録画IDを情報記録アプリ41に返す。なお、録画IDは情報記録アプリ41が採番してもよいし、情報処理システム50から取得してもよい。
S30: When the
S31:遠隔会議サービスシステム90は繰り返し、他拠点から送信された音声データ及び画像データを遠隔会議アプリに送信する。
S31: The
S32:情報記録アプリ41の音声取得部15は端末装置10が出力する音声データ(遠隔会議アプリ42が受信した音声データ)を取得する。
S32: The
S33:デバイス通信部16が、音声取得部15が取得した音声データと合成要求をミーティングデバイス60に送信する。
S<b>33 : The
S34:ミーティングデバイス60のデバイス接続部67は音声データと合成要求を受信する。集音部68は常に周囲の音声を集音している。拠点判断処理部64は、デバイス接続部67が受信した他拠点音声Bと、集音部68が集音した自拠点音声Aを所定の規則で分割し、それぞれの音圧に基づいて拠点を判断する。
S34: The
S35:次に、音声合成部65が、集音部68が集音した自拠点音声A(周囲の音声データ)と、デバイス接続部67が受信した他拠点音声Bを合成する。したがって、合成音声Cは分割された状態で生成される。例えば、音声合成部65は、自拠点音声Aと他拠点音声Bを足し合わせる。ミーティングデバイス60の周辺の鮮明な音声が記録されるので、特にミーティングデバイス60周辺(会議室側)の音声のテキスト化精度が向上する。
S35: Next, the
この音声の合成は、端末装置10でも可能である。しかし、録画機能が端末装置10に、音声処理がミーティングデバイス60に分散して配置されることで、端末装置10とミーティングデバイス60の負荷を低減できる。録画機能がミーティングデバイス60に、音声処理が端末装置10に分散して配置されてもよい。
This speech synthesis can also be performed by the
S36:ミーティングデバイス60のテキスト変換要求部66は、通信部61を介して、音声認識要求(分割済みの合成音声C)と拠点識別情報Eを情報処理システム50に送信する。
S36 : The text
S37:情報処理システム50の通信部51は、音声認識要求(分割済みの合成音声C)と拠点識別情報Eを受信し、音声認識部55が音声認識要求(分割済みの合成音声C)を音声認識サービスシステムに送信し、認識結果文字列を取得する。
S37: The
S38:情報処理システム50は、認識結果文字列、音声データ、及び、拠点識別情報Eを情報記録アプリ41に返す。情報処理システム50が情報記録アプリ41にこれらを返すため、ミーティングデバイス60はステップS36で自機の識別情報を添付しておく。また、情報記録アプリ41は予め、端末装置10のIPアドレスと、ミーティングデバイス60から取得した識別情報を、情報処理システム50に設定しておく。こうすることで、情報処理システム50がミーティングデバイス60の識別情報に基づいて端末装置10を特定できる。
S38: The
S39:情報処理システム50の拠点判断結果記録部58と音声認識結果記録部57と音声記録部56は、通信部51を介して、認識結果文字列、音声データ、拠点識別情報Eを結合画像動画と同じ保存先に保存する。なお、これらには会議IDが添付される。
S39: The site determination
S40:また、ミーティングデバイス60のパノラマ画像作成部62はパノラマ画像を作成し、話者画像作成部63は話者画像を作成する。
S40: Further, the panorama
S41:情報記録アプリ41のデバイス通信部16は、パノラマ画像と話者画像を繰り返しミーティングデバイス60から取得する。また、デバイス通信部16は、合成後の音声データを繰り返しミーティングデバイス60に要求して取得する。これらの取得は、デバイス通信部16がミーティングデバイス60に要求することで行われてもよい。あるいは、カメラトグルボタン211がオンである旨を受け取ったミーティングデバイス60が自動的にパノラマ画像と話者画像を送信してもよい。音声データの合成要求を受け取ったミーティングデバイス60が自動的に合成後の音声データを情報記録アプリ41に送信してもよい。
S<b>41 : The
S42:情報記録アプリ41の表示制御部13はアプリの画面、パノラマ画像、話者画像を並べて、録画中画面220に表示する。また、情報記録アプリ41の動画保存部17は、遠隔会議アプリ42から取得したアプリの画面と、パノラマ画像と、話者画像を結合して結合画像動画として保存する。すなわち、動画保存部17は、繰り返し受信されるアプリの画面と、パノラマ画像と、話者画像を結合して結合画像を作成し、結合画像動画を構成するフレームに結合画像を指定することで結合画像動画を作成する。また、動画保存部17はミーティングデバイス60から受信した音声データを保存しておく。
S42: The
情報記録アプリ41は以上のステップS32~S42を繰り返す。
The
S43:遠隔会議が終わり、録画の必要がなくなると、ユーザーが録画終了(例えば、録画終了ボタン227)を情報記録アプリ41に指示する。情報記録アプリ41の操作受付部12が指示を受け付ける。
S43: When the remote conference ends and recording is no longer necessary, the user instructs the
S44:情報記録アプリ41のデバイス通信部16は、ミーティングデバイス60に録画終了を通知する。ミーティングデバイス60は、引き続きパノラマ画像と話者画像の作成や音声の合成を継続する。ただし、ミーティングデバイス60は録画中かどうかで解像度やfpsを変えるなど処理の不可を変更してもよい。
S44: The
S45:情報記録アプリ41の動画保存部17は、結合画像動画に音声データを結合して音声付きの結合画像動画を作成する。パノラマ画像、話者画像及びアプリの画面が一切保存されない場合は、音声データは独立していてよい。
S45: The moving
S46:情報記録アプリ41のアップロード部20は、通信部11を介して、結合画像動画の保存先に結合画像動画を保存する。録画情報記憶部5002において結合画像動画は会議ID及び録画IDと対応付けられている。結合画像動画にはアップロード済みが記録される。
S46: The upload
保存先はユーザーに通知されているので、ユーザーはメールなどで保存先を知らせることで結合画像動画を参加者と共有できる。結合画像動画、音声データ、テキストデータを作成する装置がそれぞれ異なっても、1つの格納場所に集めて格納でき、後でユーザー等が容易に閲覧できる。 Since the save destination is notified to the user, the user can share the combined image video with the participants by notifying the save destination by e-mail or the like. Even if the devices that create the combined image moving image, audio data, and text data are different, they can be collected and stored in one storage location so that users can easily view them later.
なお、ステップS32~S42の処理は、図23に示すとおりの順番でなくてもよく、音声データの合成と結合画像動画の保存が前後してもよい。 Note that the processing of steps S32 to S42 may not be performed in the order shown in FIG. 23, and the synthesis of the audio data and the storage of the combined image moving image may be performed in sequence.
<<録画終了後の音声認識>>
次に、図24を参照して、録画終了後に音声認識する処理手順を説明する。図24は、情報記録アプリ41がパノラマ画像、話者画像及びアプリの画面を録画する手順を示すシーケンス図の一例である。図24では主に図23との相違を説明する。ステップS1~S35は図23のステップS1~S35と同様でよい。しかし、ミーティングデバイス60が音声認識を情報処理システム50に要求するステップS36~S39がない。
<< Voice recognition after recording >>
Next, with reference to FIG. 24, a processing procedure for recognizing voice after the end of recording will be described. FIG. 24 is an example of a sequence diagram showing a procedure for the
S51:ミーティングデバイス60のデバイス接続部67はパノラマ画像、話者画像、音声データ(合成音声C)、拠点識別情報Eを情報記録アプリ41に送信する。したがって、この時点では認識結果文字列は存在しないが、音声データは区分されている。
S51: The
S52:情報記録アプリ41のデバイス通信部16は、パノラマ画像、話者画像、音声データ、拠点識別情報Eを繰り返しミーティングデバイス60から取得する。情報記録アプリ41の表示制御部13はアプリの画面、パノラマ画像、話者画像を並べて、録画中画面220に表示する。
S52: The
S53、S54:録画終了処理は図23のステップS43,S44と同様でよい。 S53, S54: Recording end processing may be the same as steps S43 and S44 in FIG.
S55:ユーザーが録画設定画面210で「記録をアップロード後に自動で文字おこしする」に対応付けられたチェックボックス215をチェックした場合、音声データ処理部18が、音声データのテキストデータへの変換を情報処理システム50に要求する。詳細には、音声データ処理部18は、通信部11を介して、保存先のURLと拠点識別情報Eを指定し、会議ID及び録画IDと共に、結合画像動画に結合された音声データ(分割済みの合成音声C)の変換要求を情報処理システム50に送信する。
S55: When the user checks the
S56:情報処理システム50の通信部51は音声データの変換要求を受信し、音声認識部55が音声認識サービスシステム80を利用して音声データをテキストデータに変換する。
S56: The
S57:通信部51は認識結果文字列を音声認識サービスシステムから取得する。
S57: The
S58:拠点判断結果記録部58と音声認識結果記録部57と音声記録部56は、通信部51を介して、認識結果文字列、音声データ(分割済みの合成音声C)、拠点識別情報Eを結合画像動画と同じ保存先に保存する。
S58: The site determination
S59:情報記録アプリ41の動画保存部17は、結合画像動画に音声データを結合して音声付きの結合画像動画を作成する。パノラマ画像、話者画像及びアプリの画面が一切保存されない場合は、音声データは独立していてよい。
S59: The moving
S60:情報記録アプリ41のアップロード部20は、通信部11を介して、結合画像動画の保存先に結合画像動画を保存する。録画情報記憶部5002において結合画像動画は会議ID及び録画IDと対応付けられている。結合画像動画にはアップロード済みが記録される。
S60: The upload
このように、情報記録アプリ41が録画終了後に音声認識しても、拠点を判断できる。
In this way, even if the
<<拠点識別情報の編集>>
図25は、ユーザーが拠点識別情報Eを編集する処理を説明するシーケンス図の一例である。
<<Edit base identification information>>
FIG. 25 is an example of a sequence diagram for explaining the process of editing the site identification information E by the user.
S71:ユーザーが端末装置10を情報処理システム50と接続し、会議一覧画面を表示させる。会議一覧画面には、ログインしたユーザーに閲覧権限がある会議の一覧が表示される。
S71: The user connects the
S72:ユーザーが会議を選択して、会議記録確認画面240を表示する操作を入力する。操作受付部12が操作を受け付ける。
S72: The user selects a meeting and inputs an operation to display the meeting
S73:端末装置10の通信部11が会議IDを指定して会議記録確認画面240を情報処理システム50に要求する。
S73: The
S74、S75:情報処理システム50の通信部51は、会議記録確認画面240の要求を受信し、会議IDで特定される認識結果文字列、音声データ、拠点識別情報Eをストレージサービスシステム70から取得する。
S74, S75: The
S76:情報処理システム50の会議記録確認部59は、認識結果文字列、音声データ、拠点識別情報Eを用いて会議記録確認画面240を生成する。会議記録確認部59は、拠点識別情報Eに応じて認識結果文字列の配置を会議記録確認画面240の左側と右側に寄せて配置する。
S76: The conference
S77:情報処理システム50の通信部51が会議記録確認画面240の画面情報を端末装置10に送信する。端末装置10の通信部11は会議記録確認画面240の画面情報を受信し、表示制御部13が表示する。
S77: The
S78:ユーザーが例えば拠点識別情報Eを変更すると、操作受付部12が変更を受け付ける。
S78: When the user changes, for example, the base identification information E, the
S79:端末装置10の通信部11は会議IDを指定して編集結果を情報処理システム50に送信する。
S79: The
S80:情報処理システム50の通信部51は編集結果を受信し、拠点判断結果記録部58が編集内容に応じてストレージサービスシステム70におけるテキストデータの拠点識別情報Eを変更する。
S80: The
<主な効果>
このように、結合画像動画には、ユーザーを含む周囲のパノラマ画像、話者画像、及び、遠隔会議中に表示されたアプリの画面が表示され、録画される。音声認識が合成音声Cに対し行われるので、別々に音声認識するよりも音声認識サービスシステムの処理負荷を低減できる。また、合成音声Cは、音圧情報に基づいて発言された拠点が判断されるので、音声データがどの拠点で発言されたものか記録できる。
<Main effects>
In this way, in the combined image moving image, the surrounding panorama image including the user, the speaker image, and the screen of the application displayed during the teleconference are displayed and recorded. Since speech recognition is performed on the synthesized speech C, the processing load on the speech recognition service system can be reduced as compared with separate speech recognition. In addition, since the site where the synthetic voice C was uttered is determined based on the sound pressure information, it is possible to record the site where the voice data was uttered.
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
<Other application examples>
Although the best mode for carrying out the present invention has been described above using examples, the present invention is by no means limited to such examples, and various modifications can be made without departing from the scope of the present invention. and substitutions can be added.
例えば、本実施形態では、自拠点の音声か他拠点の音声かのみを判断したが、他拠点の音声に拠点IDが添付されている場合、他拠点のうちどの拠点の音声かを記録することもできる。 For example, in the present embodiment, only the voice of one's own site or the voice of another site is determined, but if the site ID is attached to the voice of the other site, the voice of which site among the other sites is recorded. can also
また、本実施形態では、パノラマ画像、話者画像、アプリの画面を結合して結合画像動画を保存したが、これらは別々の動画として保存されてもよい。この場合、情報記録アプリ41が動画の再生時に、パノラマ画像、話者画像、アプリの画面を再生画面にそれぞれ配置する。
Further, in the present embodiment, the panorama image, the speaker image, and the screen of the application are combined and saved as a combined image video, but these may be saved as separate videos. In this case, the
また、端末装置10とミーティングデバイス60が一体でもよい。端末装置10にミーティングデバイス60が外付けされてもよい。また、ミーティングデバイス60は、全天球カメラとマイクとスピーカーがケーブルで接続されたものでもよい。
Also, the
また、他の拠点101においてもミーティングデバイス60が配置されてよい。他の拠点101は別途、ミーティングデバイス60を使用して結合画像動画とテキストデータを作成する。また、1つの拠点に複数のミーティングデバイス60が配置されてもよい。この場合、ミーティングデバイス60ごとに複数の記録情報が作成される。
また、本実施形態で使用した、結合画像動画における、パノラマ画像203,話者画像204、及び、アプリの画面の配置は一例に過ぎない。パノラマ画像203が下で話者画像204が上でもよいし、ユーザーが配置を変更したり、再生時にはパノラマ画像203と話者画像204の表示と非表示を個別に切り替えたりしてもよい。
Also, the arrangement of the
また、図8などの構成例は、端末装置10、ミーティングデバイス60、及び、情報処理システム50による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。端末装置10、ミーティングデバイス60、及び、情報処理システム50の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
Also, the configuration example of FIG. 8 and the like is divided according to main functions in order to facilitate understanding of the processing by the
また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理システム50は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
Moreover, the devices described in the examples are only representative of one of several computing environments for implementing the embodiments disclosed herein. In some embodiments,
更に、情報処理システム50は、開示された処理ステップ、例えば図23等を様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、情報処理システム50が有する複数の情報処理装置によって実行され得る。また、情報処理システム50は、1つのサーバー装置にまとめられていても良いし、複数の装置に分けられていても良い。
Further, the
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」は、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、及び、従来の回路モジュール等のデバイスを含む。 Each function of the embodiments described above may be implemented by one or more processing circuits. Here, "processing circuitry" as used herein refers to processors programmed by software to perform the functions, such as processors implemented by electronic circuitry, or processors designed to perform the functions described above. It includes devices such as ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), FPGAs (Field Programmable Gate Arrays), and conventional circuit modules.
10 端末装置
50 情報処理システム
60 ミーティングデバイス
100 記録情報作成システム
10
Claims (12)
前記端末装置が外部から受信した第一の音声と前記デバイスが集音した第二の音声を合成して合成音声を生成する音声合成部と、
前記音声合成部が合成した合成音声のテキストデータへの変換を外部に要求するテキスト変換要求部と、
を有することを特徴とする音声処理システム。 A voice processing system in which a terminal device and a device equipped with a microphone communicate,
a speech synthesizing unit that synthesizes a first speech externally received by the terminal device and a second speech collected by the device to generate synthesized speech;
a text conversion request unit that requests an external conversion of the synthesized speech synthesized by the speech synthesis unit into text data;
A speech processing system characterized by comprising:
前記音声合成部が前記第一の音声と前記第二の音声を合成する前に、前記第一の音声と前記第二の音声の音圧に基づいて、前記第一の音声と前記第二の音声がそれぞれ発言された拠点を判断する拠点判断処理部を有することを特徴とする請求項1に記載の音声処理システム。 the terminal device receives the first audio from a terminal device at another base via a network;
Before the speech synthesis unit synthesizes the first speech and the second speech, the first speech and the second speech are synthesized based on the sound pressures of the first speech and the second speech. 2. The voice processing system according to claim 1, further comprising a base judgment processing unit for judging a base where each voice is uttered.
分割された前記第一の音声と前記第二の音声の音圧に基づいて拠点を判断し、
拠点の判断後に前記第一の音声と前記第二の音声が合成された前記合成音声、該合成音声が変換された認識結果文字列、及び、前記拠点判断処理部が判断した拠点識別情報を対応付けて保存することを特徴とする請求項2に記載の音声処理システム。 The base determination processing unit divides the first sound and the second sound according to a predetermined rule,
determining a base based on the sound pressure of the divided first audio and the second audio;
Corresponding the synthetic voice obtained by synthesizing the first voice and the second voice after determining the site, the recognition result character string obtained by converting the synthesized voice, and the site identification information determined by the site determination processing unit. 3. The voice processing system according to claim 2, wherein the voice processing system is stored with an attachment.
前記第二の音声の音圧が閾値以上であり、かつ、前記第二の音声の音圧が前記第一の音声の音圧より大きい場合、前記合成音声が自拠点で発言されたと判断し、
前記第一の音声の音圧及び前記第二の音声の音圧が閾値未満の場合、前記合成音声が発言された拠点が不明であると判断することを特徴とする請求項2又は3に記載の音声処理システム。 When the sound pressure of the first sound is equal to or greater than a threshold and the sound pressure of the first sound is greater than the sound pressure of the second sound, the base determination processing unit determines that the synthesized sound is different from the sound pressure of the second sound. Judging that it was said at the base,
when the sound pressure of the second voice is equal to or greater than a threshold and the sound pressure of the second voice is greater than the sound pressure of the first voice, determining that the synthesized voice is spoken at its own site;
4. The method according to claim 2, wherein when the sound pressure of the first voice and the sound pressure of the second voice are less than a threshold, it is determined that the site where the synthesized voice was uttered is unknown. audio processing system.
前記端末装置と通信する情報処理システムを有し、
前記情報処理システムは、
前記合成音声が変換された認識結果文字列、及び、前記拠点判断処理部が判断した拠点識別情報を対応付けて表示する画面を端末装置に提供する会議記録確認部を有し、
前記会議記録確認部は、前記画面において、前記拠点識別情報に応じて前記認識結果文字列の配置を変更することを特徴とする請求項2に記載の音声処理システム。 The synthesized speech, the recognition result character string obtained by converting the synthesized speech, and the site identification information determined by the site determination processing unit are associated and stored on a network,
Having an information processing system that communicates with the terminal device,
The information processing system is
a meeting record confirmation unit that provides a terminal device with a screen displaying the recognition result character string converted from the synthesized voice and the site identification information determined by the site determination processing unit in association with each other;
3. The speech processing system according to claim 2, wherein the conference record confirmation unit changes the arrangement of the recognition result character string on the screen according to the site identification information.
前記ボタンが押下された場合、前記端末装置は前記ボタンに対応する前記合成音声を再生することを特徴とする請求項6に記載の音声処理システム。 The conference record confirmation unit associates a button for reproducing the synthesized speech with the recognition result character string and the base identification information, and arranges it for each of the divided synthetic speeches,
7. The speech processing system according to claim 6, wherein when said button is pressed, said terminal device reproduces said synthesized speech corresponding to said button.
前記拠点識別情報の編集を受け付ける操作受付部と、
編集された前記拠点識別情報を前記情報処理システムに送信する通信部と、を有することを特徴とする請求項6又は7に記載の音声処理システム。 The terminal device
an operation receiving unit that receives editing of the base identification information;
8. The voice processing system according to claim 6, further comprising a communication unit that transmits the edited site identification information to the information processing system.
前記合成音声が音声認識により変換されたテキストデータを前記記録情報と対応付けて保存することを特徴とする請求項1~8のいずれか1項に記載の音声処理システム。 The terminal device creates record information in which a screen acquired from an application running on the terminal device and a surrounding image acquired by the device are combined,
9. The speech processing system according to any one of claims 1 to 8, wherein text data obtained by converting said synthesized speech by speech recognition is stored in association with said recorded information.
前記タイムスタンプに基づいて、前記合成音声、前記認識結果文字列、及び、前記拠点識別情報を対応付けて保存することを特徴とする請求項3に記載の音声処理システム。 A time stamp is added to the synthesized speech, the recognition result character string obtained by converting the synthesized speech, and the site identification information determined by the site determination processing unit,
4. The speech processing system according to claim 3, wherein the synthesized speech, the recognition result character string, and the site identification information are stored in association with each other based on the time stamp.
前記端末装置が外部から受信した第一の音声と前記デバイスが集音した第二の音声を合成して合成音声を生成する音声合成部と、
前記音声合成部が合成した合成音声のテキストデータへの変換を外部に要求するテキスト変換要求部と、
を有することを特徴とするデバイス。 A device equipped with a microphone capable of communicating with a terminal device,
a speech synthesizing unit that synthesizes a first speech externally received by the terminal device and a second speech collected by the device to generate synthesized speech;
a text conversion request unit that requests an external conversion of the synthesized speech synthesized by the speech synthesis unit into text data;
A device comprising:
音声合成部が、前記端末装置が外部から受信した第一の音声と前記デバイスが集音した第二の音声を合成して合成音声を生成するステップと、
テキスト変換要求部が、前記音声合成部が合成した合成音声のテキストデータへの変換を外部に要求するステップと、
を有することを特徴とする音声処理方法。 A voice processing method performed by a voice processing system in which a terminal device and a device equipped with a microphone communicate,
a step in which a speech synthesizing unit synthesizes a first speech externally received by the terminal device and a second speech collected by the device to generate synthesized speech;
a step in which the text conversion request unit requests an external conversion of the synthesized speech synthesized by the speech synthesis unit into text data;
A speech processing method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022023261A JP2023120068A (en) | 2022-02-17 | 2022-02-17 | Speech processing system, device and speech processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022023261A JP2023120068A (en) | 2022-02-17 | 2022-02-17 | Speech processing system, device and speech processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023120068A true JP2023120068A (en) | 2023-08-29 |
Family
ID=87778072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022023261A Pending JP2023120068A (en) | 2022-02-17 | 2022-02-17 | Speech processing system, device and speech processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023120068A (en) |
-
2022
- 2022-02-17 JP JP2022023261A patent/JP2023120068A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150279424A1 (en) | Sound quality of the audio portion of audio/video files recorded during a live event | |
JP7427408B2 (en) | Information processing device, information processing method, and information processing program | |
CN111010529A (en) | Video conference method and system capable of realizing multi-person real-time annotation | |
US20230292011A1 (en) | Information processing system, image-capturing device, and display method | |
US20230231973A1 (en) | Streaming data processing for hybrid online meetings | |
JP2012178028A (en) | Album creation device, control method thereof, and program | |
JP2016063477A (en) | Conference system, information processing method and program | |
JP2023120068A (en) | Speech processing system, device and speech processing method | |
US20200177405A1 (en) | Computer system, method for assisting in web conference speech, and program | |
JP7226600B1 (en) | Recorded information creation system, recorded information creation method, program | |
JP4850690B2 (en) | Teleconferencing equipment | |
JP2023120142A (en) | Recorded information display system, program, and recorded information display method | |
EP4231632A1 (en) | Display system, display method, and carrier medium | |
JP6610076B2 (en) | Information processing apparatus, information processing system, program, and recording medium | |
JP2023131635A (en) | Display system, display method, imaging apparatus, and program | |
US20230280961A1 (en) | Device management system, information processing system, information processing device, device management method, and non-transitory recording medium | |
JP2019135609A (en) | Character input support system, character input support control device, and character input support program | |
US20230289126A1 (en) | System, method for adjusting audio volume, and apparatus | |
JP6063739B2 (en) | Singing video generation system | |
JP2012199911A (en) | Information processor | |
JP2023137823A (en) | Equipment system, information processing method, information processing system, program, and imaging device | |
KR20230051308A (en) | Video editing device, video editing method and computer program | |
JP6390607B2 (en) | Program and remote conference method | |
JP2022126454A (en) | Display control program, display control apparatus, and display control method | |
JP2024008632A (en) | Information processing system, display method, program, and recording information creation system |