JP2022165144A - Support device and program - Google Patents

Support device and program Download PDF

Info

Publication number
JP2022165144A
JP2022165144A JP2021070378A JP2021070378A JP2022165144A JP 2022165144 A JP2022165144 A JP 2022165144A JP 2021070378 A JP2021070378 A JP 2021070378A JP 2021070378 A JP2021070378 A JP 2021070378A JP 2022165144 A JP2022165144 A JP 2022165144A
Authority
JP
Japan
Prior art keywords
detection
external device
microphone
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021070378A
Other languages
Japanese (ja)
Inventor
直 藤原
Nao Fujiwara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Building Solutions Corp
Original Assignee
Mitsubishi Electric Building Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Building Solutions Corp filed Critical Mitsubishi Electric Building Solutions Corp
Priority to JP2021070378A priority Critical patent/JP2022165144A/en
Publication of JP2022165144A publication Critical patent/JP2022165144A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Abstract

To provide a support device capable of appropriately controlling a mute function of a microphone.SOLUTION: A voice output section 15 outputs voice from a speaker 6 on the basis of voice data received by a communication section 13 from an external device. A detection section 16 detects that a person on an image is uttering on the basis of the image photographed by a camera 3. A voice silencing section 17 performs silencing not to output the voice to be input to a microphone 4 from the external device unless the detection section 16 detects utterance. The communication section 13 transmits the data of the voice that has been input to the microphone 4 to the external device when the detection section 16 detects utterance.SELECTED DRAWING: Figure 2

Description

本開示は、会議を支援するための装置とプログラムとに関する。 TECHNICAL FIELD The present disclosure relates to devices and programs for supporting meetings.

特許文献1に、会議を支援するためのシステムが記載されている。特許文献1に記載されたシステムでは、ネットワークを介して複数の端末が接続される。当該システムであれば、遠隔の複数の拠点から会議に参加することができる。 US Pat. No. 6,200,000 describes a system for supporting meetings. In the system described in Patent Literature 1, multiple terminals are connected via a network. With this system, participants can participate in conferences from multiple remote sites.

特開2019-61594号公報JP 2019-61594 A

このような会議に参加している人は、自分が発言するタイミングでマイクのミュート機能を解除する。しかし、発言の際にミュート機能を解除し忘れることもあり、その操作が煩わしいといった問題があった。 Participants in such meetings unmute their microphones when they speak. However, there is a problem that the mute function may be forgotten when speaking, and the operation is troublesome.

本開示は、上述のような課題を解決するためになされた。本開示の目的は、マイクのミュート機能を適切に制御できる支援装置を提供することである。本開示の他の目的は、マイクのミュート機能を適切に制御するためのプログラムを提供することである。 The present disclosure has been made to solve the problems described above. An object of the present disclosure is to provide a support device capable of appropriately controlling a microphone mute function. Another object of the present disclosure is to provide a program for appropriately controlling a microphone mute function.

本開示に係る支援装置は、外部機器から音声データを受信する通信手段と、通信手段が外部機器から受信した音声データに基づいて、スピーカから音声を出力する音声出力手段と、カメラによって撮影された画像に基づいて、当該画像に写っている人が発話していることを検出する検出手段と、検出手段が発話を検出していなければ、マイクに入力される音声が外部機器から出力されないように消音する消音手段と、を備える。通信手段は、検出手段が発話を検出していれば、マイクに入力された音声のデータを外部機器に送信する。 The support device according to the present disclosure includes communication means for receiving audio data from an external device, audio output means for outputting audio from a speaker based on the audio data received by the communication means from the external device, and Based on the image, detection means for detecting that the person in the image is speaking, and if the detection means does not detect the speech, the sound input to the microphone is not output from the external device. and muffling means for muffling. The communication means transmits data of the voice input to the microphone to the external device if the detection means detects the utterance.

本開示に係るプログラムは、外部機器から音声データを受信する第1通信処理と、第1通信処理で外部機器から受信した音声データに基づいて、スピーカから音声を出力する音声出力処理と、カメラによって撮影された画像に基づいて、当該画像に写っている人が発話していることを検出する検出処理と、検出処理で発話が検出されていなければ、マイクに入力される音声が外部機器から出力されないように消音する消音処理と、検出処理で発話が検出されていれば、マイクに入力された音声のデータを外部機器に送信する第2通信処理と、をコンピュータに実行させるためのものである。 A program according to the present disclosure includes a first communication process for receiving audio data from an external device, an audio output process for outputting audio from a speaker based on the audio data received from the external device in the first communication process, and a camera. Based on the captured image, detection processing detects that the person in the image is speaking, and if the detection processing does not detect speech, the sound input to the microphone is output from the external device. and a second communication process for transmitting voice data input to the microphone to an external device if speech is detected by the detection process. .

本開示によれば、会議を支援するための装置において、マイクのミュート機能を適切に制御できる。 Advantageous Effects of Invention According to the present disclosure, a microphone mute function can be appropriately controlled in a device for supporting a conference.

実施の形態1における支援装置を用いたシステムの例を示す図である。1 is a diagram showing an example of a system using a support device according to Embodiment 1; FIG. 支援装置の例を示す図である。It is a figure which shows the example of a support apparatus. 制御装置の動作例を示すフローチャートである。4 is a flowchart showing an operation example of a control device; 制御装置の他の動作例を示すフローチャートである。8 is a flowchart showing another operation example of the control device; 編集部によって作成された議事録がディスプレイに表示されている例を示す図である。FIG. 10 is a diagram showing an example of minutes created by an editorial department being displayed on the display; 制御装置のハードウェア資源の例を示す図である。It is a figure which shows the example of the hardware resources of a control apparatus. 制御装置のハードウェア資源の他の例を示す図である。FIG. 10 is a diagram showing another example of hardware resources of a control device;

以下に、図面を参照して詳細な説明を行う。重複する説明は、適宜簡略化或いは省略する。各図において、同一の符号は同一の部分又は相当する部分を示す。 A detailed description is given below with reference to the drawings. Duplicate descriptions are appropriately simplified or omitted. In each figure, the same reference numerals denote the same or corresponding parts.

実施の形態1.
図1は、実施の形態1における支援装置1を用いたシステムの例を示す図である。図1に示すシステムでは、複数の支援装置1がネットワーク2を介して接続される。複数の支援装置1は同じ建物の中に存在していても良い。当該複数の支援装置1のそれぞれが離れた場所に存在していても良い。
Embodiment 1.
FIG. 1 is a diagram showing an example of a system using a support device 1 according to Embodiment 1. As shown in FIG. In the system shown in FIG. 1, a plurality of support devices 1 are connected via a network 2. FIG. A plurality of support devices 1 may exist in the same building. Each of the plurality of support devices 1 may exist at a remote location.

本システムの利用者は、支援装置1を用いて所謂Web会議を行う。支援装置1は、例えばパーソナルコンピュータである。支援装置1は、スマートフォンでも良い。支援装置1は、タブレット型の端末でも良い。 A user of this system uses the support device 1 to hold a so-called Web conference. The support device 1 is, for example, a personal computer. The support device 1 may be a smart phone. The support device 1 may be a tablet terminal.

一例として、ネットワーク2はIPネットワークである。IPネットワークは、通信プロトコルとしてIP(Internet Protocol)を用いた通信ネットワークである。ネットワーク2は、クローズドネットワークでも良いし、オープンネットワークでも良い。 As an example, network 2 is an IP network. An IP network is a communication network using IP (Internet Protocol) as a communication protocol. Network 2 may be a closed network or an open network.

図2は、支援装置1の例を示す図である。支援装置1は、カメラ3、マイク4、ディスプレイ5、スピーカ6、及び制御装置7を備える。制御装置7は、記憶部10、画像処理部11、音声処理部12、通信部13、画像出力部14、音声出力部15、検出部16、及び消音部17を備える。 FIG. 2 is a diagram showing an example of the support device 1. As shown in FIG. The support device 1 includes a camera 3 , a microphone 4 , a display 5 , a speaker 6 and a control device 7 . The control device 7 includes a storage unit 10 , an image processing unit 11 , an audio processing unit 12 , a communication unit 13 , an image output unit 14 , an audio output unit 15 , a detection unit 16 and a muffling unit 17 .

カメラ3は画像を撮影する。例えば、利用者が支援装置1の前に座ると、カメラ3によって利用者の画像が撮影される。カメラ3によって撮影された画像のデータは、制御装置7に入力される。画像処理部11は、カメラ3によって撮影された画像のデータを処理する。以下においては、画像を表すデータのことを単に画像データとも表記する。 Camera 3 takes an image. For example, when the user sits in front of the support device 1, the camera 3 takes an image of the user. Data of images captured by the camera 3 are input to the control device 7 . The image processing unit 11 processes image data captured by the camera 3 . In the following, data representing an image is also simply referred to as image data.

マイク4に入力された音声のデータは、制御装置7に入力される。音声処理部12は、マイク4に入力された音声のデータを処理する。一例として、音声処理部12は、マイク4からのアナログデータをデジタルデータに変換する。以下においては、音声を表すデータのことを単に音声データとも表記する。 Voice data input to the microphone 4 is input to the control device 7 . The audio processing unit 12 processes audio data input to the microphone 4 . As an example, the audio processing unit 12 converts analog data from the microphone 4 into digital data. In the following, data representing audio is also simply referred to as audio data.

通信部13は、外部機器との通信を行う。本実施の形態に示す例では、外部機器は、ネットワーク2を介して接続された他の支援装置1である。通信部13は、カメラ3によって撮影された画像のデータとマイク4に入力された音声のデータとを外部機器に送信する。具体的に、通信部13は、画像処理部11からの画像データと音声処理部12からの音声データとを外部機器に送信する。 The communication unit 13 communicates with external devices. In the example shown in this embodiment, the external device is another support device 1 connected via network 2 . The communication unit 13 transmits image data captured by the camera 3 and audio data input to the microphone 4 to an external device. Specifically, the communication unit 13 transmits image data from the image processing unit 11 and audio data from the audio processing unit 12 to the external device.

外部機器においても同様の処理が行われるため、通信部13は、外部機器から画像データと音声データとを受信する。画像出力部14は、通信部13が外部機器から受信した画像データに基づいて、ディスプレイ5に画像を表示する。音声出力部15は、通信部13が外部機器から受信した音声データに基づいて、スピーカ6から音声を出力する。このような基本動作により、利用者は、支援装置1を用いて遠隔にいる人とWeb会議を行うことができる。 Since similar processing is performed in the external device, the communication unit 13 receives image data and audio data from the external device. The image output unit 14 displays an image on the display 5 based on the image data received by the communication unit 13 from the external device. The audio output unit 15 outputs audio from the speaker 6 based on the audio data received by the communication unit 13 from the external device. With such basic operations, the user can hold a web conference with a remote person using the support device 1 .

図3は、制御装置7の動作例を示すフローチャートである。以下に、図3も参照し、本支援装置1が備える特徴的な機能について詳しく説明する。 FIG. 3 is a flow chart showing an operation example of the control device 7. As shown in FIG. Characteristic functions of the support device 1 will be described in detail below with reference to FIG. 3 as well.

会議が開始されると、カメラ3によって撮影された画像のデータが制御装置7に入力される(S101)。検出部16は、カメラ3によって撮影された画像に基づいて、当該画像に写っている人が発話していることを検出する。一例として、検出部16は、画像処理部11によって処理された画像のデータから、人の顔を特定する。検出部16は、特定した顔から更にその人の口を特定する。検出部16は、特定した口の動きを表す指標を算出する。検出部16は、算出した指標が閾値を超えると、画像に写っている人が発話していることを検出する。 When the conference starts, image data taken by the camera 3 is input to the control device 7 (S101). Based on the image captured by the camera 3, the detection unit 16 detects that the person in the image is speaking. As an example, the detection unit 16 identifies a person's face from the image data processed by the image processing unit 11 . The detection unit 16 further identifies the person's mouth from the identified face. The detection unit 16 calculates an index representing the movement of the specified mouth. When the calculated index exceeds the threshold, the detection unit 16 detects that the person in the image is speaking.

他の例として、検出部16は、特定した顔からその人の視線を更に特定しても良い。検出部16は、算出した指標と視線とに基づいて、画像に写っている人が発話していることを検出しても良い。 As another example, the detection unit 16 may further identify the line of sight of the person from the identified face. The detection unit 16 may detect that the person in the image is speaking based on the calculated index and line of sight.

制御装置7では、画像に写っている人が発話していることが検出部16によって検出されたか否かが判定される(S102)。検出部16が発話を検出していれば、S102でYesと判定される。 In the control device 7, it is determined whether or not the detection unit 16 has detected that the person in the image is speaking (S102). If the detection unit 16 has detected the speech, it is determined as Yes in S102.

消音部17は、マイク4のミュート機能を司る。即ち、マイク4のミュート機能は、消音部17によってオン(有効)及びオフ(無効)に自動的に切り替えられる。S102でYesと判定されると、消音部17は、マイク4のミュート機能をオフにする(S103)。このため、S102でYesと判定されると、通信部13は、マイク4に入力された音声のデータを外部機器に送信する。会議に参加している他の利用者は、マイク4に入力された音声を聞くことができる。 The muffling section 17 controls the mute function of the microphone 4 . That is, the mute function of the microphone 4 is automatically switched on (enabled) and off (disabled) by the muffling section 17 . If it is determined as Yes in S102, the muffling section 17 turns off the mute function of the microphone 4 (S103). Therefore, when it is determined as Yes in S102, the communication unit 13 transmits data of the voice input to the microphone 4 to the external device. Other users participating in the conference can hear the voice input to the microphone 4 .

一方、検出部16が発話を検出していなければ、S102でNoと判定される。S102でNoと判定されると、消音部17は、マイク4のミュート機能をオンにする(S104)。即ち、S102でNoと判定されると、消音部17は、マイク4に入力される音声が外部機器から出力されないように消音する。当該消音の方法は、どのような方法であっても構わない。S102でNoと判定されると、通信部13から外部機器に対して音声データは送信されない。 On the other hand, if the detection unit 16 has not detected an utterance, a determination of No is made in S102. If it is determined No in S102, the muffling unit 17 turns on the mute function of the microphone 4 (S104). That is, when the determination in S102 is No, the muffling unit 17 muffles the sound input to the microphone 4 so that the sound is not output from the external device. Any method may be used for the muffling. If it is determined as No in S102, the voice data is not transmitted from the communication section 13 to the external device.

このように、支援装置1では、カメラ3によって撮影された画像のデータに基づいて、当該画像に写っている人が発話していることが検出される。そして、検出部16が発話を検出していれば、マイク4のミュート機能がオフになる。検出部16が発話を検出していなければ、マイク4のミュート機能がオンになる。したがって、会議が行われている間、マイク4のミュート機能を適切に制御できる。 As described above, the support device 1 detects that the person in the image is speaking based on the data of the image captured by the camera 3 . Then, if the detection unit 16 detects the speech, the mute function of the microphone 4 is turned off. If the detection unit 16 does not detect speech, the mute function of the microphone 4 is turned on. Therefore, the mute function of the microphone 4 can be appropriately controlled during the conference.

図4は、制御装置7の他の動作例を示すフローチャートである。図4に示す例では、制御装置7は判定部18を更に備える。また、第1検出基準及び第2検出基準が予め設定される。第1検出基準及び第2検出基準は、検出部16が発話を検出するための基準である。第2検出基準は、第1検出基準とは異なる基準である。 FIG. 4 is a flow chart showing another operation example of the control device 7 . In the example shown in FIG. 4 , the control device 7 further includes a determination section 18 . Also, a first detection criterion and a second detection criterion are set in advance. The first detection criteria and the second detection criteria are criteria for the detection unit 16 to detect speech. The second detection criterion is a criterion different from the first detection criterion.

図4のS201に示す処理は、図3のS101に示す処理と同様である。会議が開始されると、カメラ3によって撮影された画像のデータが制御装置7に入力される。 The process shown in S201 of FIG. 4 is the same as the process shown in S101 of FIG. When the conference starts, image data captured by the camera 3 is input to the control device 7 .

判定部18は、カメラ3によって撮影された画像に基づいて、当該画像に写っている人がマスクをしているか否かを判定する(S202)。一例として、判定部18は、画像処理部11によって処理された画像のデータから、人の目を特定する。判定部18は、カメラ3によって撮影された画像において、特定した目の下の一定の範囲が布状のもので覆われていると判断できれば、当該画像に写っている人がマスクを着用していると判定する(S202のYes)。判定部18は、カメラ3によって撮影された画像において、特定した目の下にその人の口を特定することができれば、当該画像に写っている人がマスクを着用していないと判定する(S202のNo)。判定部18による判定の方法は、当該例に限定されない。 Based on the image captured by the camera 3, the determination unit 18 determines whether or not the person in the image is wearing a mask (S202). As an example, the determination unit 18 identifies human eyes from image data processed by the image processing unit 11 . If the determining unit 18 can determine that a certain area under the identified eye is covered with a cloth-like object in the image captured by the camera 3, it can be determined that the person in the image is wearing a mask. Determine (Yes in S202). If the determination unit 18 can identify the person's mouth under the identified eyes in the image captured by the camera 3, the determination unit 18 determines that the person in the image is not wearing a mask (No in S202). ). The method of determination by the determination unit 18 is not limited to this example.

S202でYesと判定されると、検出部16は、発話を検出するための基準として第1検出基準を選択する(S203)。S202でNoと判定されると、検出部16は、発話を検出するための基準として第2検出基準を選択する(S204)。 If determined as Yes in S202, the detection unit 16 selects the first detection criterion as a criterion for detecting speech (S203). When determined as No in S202, the detection unit 16 selects the second detection criterion as a criterion for detecting speech (S204).

S205に示す処理は、図3のS102に示す処理と同様である。即ち、制御装置7では、画像に写っている人が発話していることが検出部16によって検出されたか否かが判定される。なお、S205では、検出部16は、S202でYesと判定されていれば第1検出基準に基づいて発話を検出する。検出部16は、S202でNoと判定されていれば第2検出基準に基づいて発話を検出する。一例として、検出部16は、S202でYesと判定された場合は、Noと判定された場合よりも広い範囲のデータに基づいて動きを表す指標を算出しても良い。 The process shown in S205 is the same as the process shown in S102 of FIG. That is, in the control device 7, it is determined whether or not the detection unit 16 has detected that the person in the image is speaking. In addition, in S205, the detection unit 16 detects an utterance based on the first detection criterion if it is determined as Yes in S202. The detection unit 16 detects an utterance based on the second detection criterion if determined as No in S202. As an example, when the determination in S202 is Yes, the detection unit 16 may calculate the index representing the movement based on a wider range of data than when the determination is No.

S206及びS207に示す処理は、図3のS103及びS104に示す処理と同様である。即ち、S205でYesと判定されると、消音部17は、マイク4のミュート機能をオフにする(S206)。S205でNoと判定されると、消音部17は、マイク4のミュート機能をオンにする(S207)。 The processes shown in S206 and S207 are the same as the processes shown in S103 and S104 of FIG. That is, when it is determined as Yes in S205, the muffling unit 17 turns off the mute function of the microphone 4 (S206). If it is determined No in S205, the muffling unit 17 turns on the mute function of the microphone 4 (S207).

図4に示す例であれば、感染症が流行っている時期或いは花粉症の季節で利用者がマスクを着用している場合でも、マイク4のミュート機能を適切に制御できる。 In the example shown in FIG. 4, the mute function of the microphone 4 can be appropriately controlled even when the user wears a mask during the season when infectious diseases are prevalent or when hay fever occurs.

他の例として、制御装置7は保存部19を更に備えても良い。本実施の形態に示す例では、検出部16は、カメラ3によって撮影された画像に基づいて、当該画像に写っている人が発話していることを検出する。このため、制御装置7の処理能力が低いと、マイク4のミュート機能がオフになるタイミングが、発話が開始されたタイミングから僅かに遅れてしまう。 As another example, the control device 7 may further include a storage section 19 . In the example shown in this embodiment, the detection unit 16 detects, based on an image captured by the camera 3, that a person in the image is speaking. Therefore, if the processing capability of the control device 7 is low, the timing at which the mute function of the microphone 4 is turned off is slightly delayed from the timing at which the speech is started.

保存部19は、マイク4に入力された音声のデータを記憶部10に保存する。なお、この音声データの保存は、マイク4のミュート機能がオンである間も行われる。そして、通信部13は、検出部16が発話を検出すると、検出部16が発話を検出する一定時間前から保存部19によって保存されていた音声のデータを外部機器に送信する。当該一定時間は予め設定される。例えば、当該一定時間は0.5秒である。これにより、発話開始時からの音声データを外部機器に送信することができる。通信部13は、検出部16が発話を検出してから一定時間経過後にマイク4に入力された音声のデータをそのまま外部機器に送信することができるように、音声データの送信を制御しても良い。 The storage unit 19 stores voice data input to the microphone 4 in the storage unit 10 . Note that this audio data is saved even while the mute function of the microphone 4 is on. Then, when the detection unit 16 detects the speech, the communication unit 13 transmits the voice data stored in the storage unit 19 from a predetermined time before the detection unit 16 detects the speech to the external device. The certain period of time is set in advance. For example, the certain period of time is 0.5 seconds. As a result, it is possible to transmit the voice data from the beginning of the speech to the external device. The communication unit 13 controls the transmission of the voice data so that the data of the voice input to the microphone 4 can be transmitted to the external device as it is after a certain period of time has elapsed since the detection unit 16 detected the utterance. good.

他の例として、制御装置7は編集部20を更に備えても良い。編集部20は、会議中に保存部19によって記憶部10に保存された音声データ及び画像データを編集し、議事録を作成する。編集部20によって作成された議事録は、利用者の操作に応じてディスプレイ5及びスピーカ6から出力される。 As another example, the control device 7 may further include an editing section 20 . The editing unit 20 edits the audio data and image data stored in the storage unit 10 by the storage unit 19 during the meeting, and creates minutes. The minutes created by the editing unit 20 are output from the display 5 and the speaker 6 according to the user's operation.

この例では、保存部19は、検出部16が検出した結果をマイク4に入力された音声のデータに紐付けて記憶部10に保存することが好ましい。更に、保存部19は、検出部16が検出した結果をカメラ3によって撮影された画像のデータに紐付けて記憶部10に記憶しても良い。検出部16が検出した結果とは、例えば「発話あり」を示す第1情報と「発話なし」を示す第2情報である。更に、通信部13は、検出部16が検出した結果が紐付けられた音声データ及び画像データを外部機器に送信しても良い。 In this example, the storage unit 19 preferably stores the result detected by the detection unit 16 in the storage unit 10 in association with the voice data input to the microphone 4 . Furthermore, the storage unit 19 may store the result detected by the detection unit 16 in the storage unit 10 in association with the data of the image captured by the camera 3 . The results detected by the detection unit 16 are, for example, first information indicating "speech" and second information indicating "no speech". Furthermore, the communication unit 13 may transmit the audio data and image data associated with the results detected by the detection unit 16 to the external device.

外部機器においても同様の処理が行われる。このため、通信部13は、第1情報或いは第2情報が紐付けられた音声データ及び画像データを外部機器から受信する。通信部13が外部機器から受信した音声データ及び画像データは、第1情報或いは第2情報が紐付けられた状態で保存部19によって記憶部10に保存される。 Similar processing is performed in the external device. Therefore, the communication unit 13 receives audio data and image data linked with the first information or the second information from the external device. The audio data and image data received by the communication unit 13 from the external device are stored in the storage unit 10 by the storage unit 19 while being associated with the first information or the second information.

編集部20は、例えば会議が終了すると、当該会議の議事録を作成する。この時、編集部20は、第1情報が紐付けられた音声データ及び画像データのみを用いて議事録を作成しても良い。 For example, when a meeting ends, the editing section 20 creates minutes of the meeting. At this time, the editing unit 20 may create the minutes using only the audio data and image data associated with the first information.

図5は、編集部20によって作成された議事録がディスプレイ5に表示されている例を示す図である。図5に示す例では、ディスプレイ5に、画像表示領域5a、シークバー5b、及び再生リスト5cが表示される。 FIG. 5 is a diagram showing an example in which the minutes created by the editing unit 20 are displayed on the display 5. As shown in FIG. In the example shown in FIG. 5, the display 5 displays an image display area 5a, a seek bar 5b, and a playlist 5c.

再生リスト5cに含まれる各コンテンツは、会議中に記憶部10に保存された音声データ及び画像データのうち第1情報が紐付けられたものを示す。再生リスト5cには、当該コンテンツが時系列で並べられている。図5に示す例では、各コンテンツに、発話している人の氏名A~Fとその発話時間とが表記されている。再生リスト5cに含まれるコンテンツの1つを選択することにより、当該コンテンツの音声がスピーカ6から出力され、当該コンテンツの画像が画像表示領域5aに表示される。なお、編集部20が作成する議事録は、図5に示す例に限定されない。例えば、編集部20は、音声データのみの議事録を作成しても良い。 Each content included in the play list 5c indicates the audio data and image data stored in the storage unit 10 during the meeting that are associated with the first information. The contents are arranged in chronological order in the play list 5c. In the example shown in FIG. 5, each content is labeled with the names A to F of the person speaking and the speaking time. By selecting one of the contents included in the reproduction list 5c, the sound of the content is output from the speaker 6, and the image of the content is displayed in the image display area 5a. Note that the minutes created by the editing unit 20 are not limited to the example shown in FIG. For example, the editing unit 20 may create minutes of only audio data.

図6は、制御装置7のハードウェア資源の例を示す図である。制御装置7は、ハードウェア資源として、プロセッサ31とメモリ32とを含む処理回路30を備える。処理回路30に複数のプロセッサ31が含まれても良い。処理回路30に複数のメモリ32が含まれても良い。 FIG. 6 is a diagram showing an example of hardware resources of the control device 7. As shown in FIG. The control device 7 includes a processing circuit 30 including a processor 31 and a memory 32 as hardware resources. A plurality of processors 31 may be included in the processing circuitry 30 . A plurality of memories 32 may be included in the processing circuitry 30 .

本実施の形態において、符号10~20に示す各部は、制御装置7が有する機能を示す。符号11~20に示す各部の機能は、プログラムとして記述されたソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせによって実現できる。当該プログラムは、メモリ32に記憶される。制御装置7は、メモリ32に記憶されたプログラムをプロセッサ31(コンピュータ)によって実行することにより、符号11~20に示す各部の機能を実現する。記憶部10の機能はメモリ32によって実現される。メモリ32として、半導体メモリ等が採用できる。 In the present embodiment, each part indicated by reference numerals 10 to 20 indicates the function of the control device 7. FIG. The functions of the units indicated by reference numerals 11 to 20 can be implemented by software written as a program, firmware, or a combination of software and firmware. The program is stored in memory 32 . The control device 7 implements the functions of the units indicated by reference numerals 11 to 20 by executing the programs stored in the memory 32 by the processor 31 (computer). The functions of the storage unit 10 are implemented by the memory 32 . A semiconductor memory or the like can be used as the memory 32 .

図7は、制御装置7のハードウェア資源の他の例を示す図である。図7に示す例では、制御装置7は、プロセッサ31、メモリ32、及び専用ハードウェア33を含む処理回路30を備える。図7は、制御装置7が有する機能の一部を専用ハードウェア33によって実現する例を示す。制御装置7が有する機能の全部を専用ハードウェア33によって実現しても良い。専用ハードウェア33として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又はこれらの組み合わせを採用できる。 FIG. 7 is a diagram showing another example of hardware resources of the control device 7. As shown in FIG. In the example shown in FIG. 7 , the control device 7 comprises processing circuitry 30 including a processor 31 , memory 32 and dedicated hardware 33 . FIG. 7 shows an example in which a part of the functions of the control device 7 are implemented by dedicated hardware 33 . All the functions of the control device 7 may be realized by dedicated hardware 33 . Dedicated hardware 33 can be a single circuit, multiple circuits, programmed processors, parallel programmed processors, ASICs, FPGAs, or combinations thereof.

1 支援装置
2 ネットワーク
3 カメラ
4 マイク
5 ディスプレイ
6 スピーカ
7 制御装置
10 記憶部
11 画像処理部
12 音声処理部
13 通信部
14 画像出力部
15 音声出力部
16 検出部
17 消音部
18 判定部
19 保存部
20 編集部
30 処理回路
31 プロセッサ
32 メモリ
33 専用ハードウェア
1 support device 2 network 3 camera 4 microphone 5 display 6 speaker 7 control device 10 storage unit 11 image processing unit 12 audio processing unit 13 communication unit 14 image output unit 15 audio output unit 16 detection unit 17 muffling unit 18 determination unit 19 storage unit 20 editor 30 processing circuit 31 processor 32 memory 33 dedicated hardware

Claims (6)

外部機器から音声データを受信する通信手段と、
前記通信手段が前記外部機器から受信した音声データに基づいて、スピーカから音声を出力する音声出力手段と、
カメラによって撮影された画像に基づいて、当該画像に写っている人が発話していることを検出する検出手段と、
前記検出手段が発話を検出していなければ、マイクに入力される音声が前記外部機器から出力されないように消音する消音手段と、
を備え、
前記通信手段は、前記検出手段が発話を検出していれば、マイクに入力された音声のデータを前記外部機器に送信する支援装置。
a communication means for receiving audio data from an external device;
audio output means for outputting audio from a speaker based on the audio data received by the communication means from the external device;
detection means for detecting, based on an image captured by a camera, that a person in the image is speaking;
mute means for muting the sound input to the microphone so that it is not output from the external device if the detection means does not detect an utterance;
with
The communication means is a support device that transmits data of voice input to a microphone to the external device if the detection means detects an utterance.
前記カメラによって撮影された画像に基づいて、当該画像に写っている人がマスクをしているか否かを判定する判定手段を更に備え、
前記検出手段は、
マスクをしていると前記判定手段によって判定されると、特定の第1検出基準に基づいて発話を検出し、
マスクをしていないと前記判定手段によって判定されると、前記第1検出基準とは異なる特定の第2検出基準に基づいて発話を検出する請求項1に記載の支援装置。
Based on the image taken by the camera, further comprising determination means for determining whether or not the person in the image is wearing a mask,
The detection means is
When the determining means determines that the mask is being worn, detecting the utterance based on a specific first detection criterion,
2. The assisting device according to claim 1, wherein when said determining means determines that said speech is not masked, said speech is detected based on a specific second detection criterion different from said first detection criterion.
前記マイクに入力された音声のデータを保存する保存手段を更に備え、
前記通信手段は、前記検出手段が発話を検出すると、前記検出手段が発話を検出する一定時間前から前記保存手段によって保存されていた音声のデータを前記外部機器に送信する請求項1又は請求項2に記載の支援装置。
Further comprising storage means for storing data of the voice input to the microphone,
1 or claim 1, wherein, when said detection means detects an utterance, said communication means transmits to said external device the voice data stored by said storage means from a predetermined time before said detection means detects an utterance. 3. The support device according to 2.
前記検出手段が検出した結果を前記マイクに入力された音声のデータに紐付けて保存する保存手段と、
前記保存手段によって保存された音声のデータを編集し、議事録を作成する編集手段と、
を更に備え、
前記通信手段は、前記検出手段が検出した結果が紐付けられた音声のデータを前記外部機器に送信する請求項1又は請求項2に記載の支援装置。
a storage means for storing the result detected by the detection means in association with data of the voice input to the microphone;
Editing means for editing the audio data saved by the saving means to create minutes;
further comprising
3. The support device according to claim 1, wherein said communication means transmits audio data associated with a result detected by said detection means to said external device.
外部機器から音声データを受信する第1通信処理と、
前記第1通信処理で前記外部機器から受信した音声データに基づいて、スピーカから音声を出力する音声出力処理と、
カメラによって撮影された画像に基づいて、当該画像に写っている人が発話していることを検出する検出処理と、
前記検出処理で発話が検出されていなければ、マイクに入力される音声が前記外部機器から出力されないように消音する消音処理と、
前記検出処理で発話が検出されていれば、マイクに入力された音声のデータを前記外部機器に送信する第2通信処理と、
をコンピュータに実行させるためのプログラム。
a first communication process for receiving audio data from an external device;
an audio output process for outputting audio from a speaker based on the audio data received from the external device in the first communication process;
a detection process for detecting, based on an image captured by a camera, that a person in the image is speaking;
mute processing for muting the sound input to the microphone so that it is not output from the external device if no speech is detected in the detection processing;
a second communication process for transmitting data of voice input to a microphone to the external device if an utterance is detected in the detection process;
A program that causes a computer to run
前記カメラによって撮影された画像に基づいて、当該画像に写っている人がマスクをしているか否かを判定する判定処理をコンピュータに更に実行させ、
前記検出処理では、
マスクをしていると前記判定処理で判定されると、特定の第1検出基準に基づいて発話を検出し、
マスクをしていないと前記判定処理で判定されると、前記第1検出基準とは異なる特定の第2検出基準に基づいて発話を検出する請求項5に記載のプログラム。
Based on the image captured by the camera, causing the computer to further execute determination processing for determining whether or not the person in the image is wearing a mask,
In the detection process,
When it is determined in the determination process that the mask is being worn, the speech is detected based on a specific first detection criterion,
6. The program according to claim 5, wherein if the determination processing determines that the mask is not applied, the program detects speech based on a specific second detection criterion different from the first detection criterion.
JP2021070378A 2021-04-19 2021-04-19 Support device and program Pending JP2022165144A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021070378A JP2022165144A (en) 2021-04-19 2021-04-19 Support device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021070378A JP2022165144A (en) 2021-04-19 2021-04-19 Support device and program

Publications (1)

Publication Number Publication Date
JP2022165144A true JP2022165144A (en) 2022-10-31

Family

ID=83845812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021070378A Pending JP2022165144A (en) 2021-04-19 2021-04-19 Support device and program

Country Status (1)

Country Link
JP (1) JP2022165144A (en)

Similar Documents

Publication Publication Date Title
US10499136B2 (en) Providing isolation from distractions
EP3163748B1 (en) Method, device and terminal for adjusting volume
US9386147B2 (en) Muting and un-muting user devices
JP6651989B2 (en) Video processing apparatus, video processing method, and video processing system
RU2628473C2 (en) Method and device for sound signal optimisation
US11782674B2 (en) Centrally controlling communication at a venue
WO2023151526A1 (en) Audio acquisition method and apparatus, electronic device and peripheral component
TWI578755B (en) System and method for adjusting volume of multiuser conference
WO2017166495A1 (en) Method and device for voice signal processing
JP6874437B2 (en) Communication robots, programs and systems
US10659907B2 (en) System for distraction avoidance via soundscaping and headset coordination
JP2022165144A (en) Support device and program
JP2022016997A (en) Information processing method, information processing device, and information processing program
JP2013183280A (en) Information processing device, imaging device, and program
JP3047259B2 (en) Speaker automatic selection device of electronic conference system
EP4075822A1 (en) Microphone mute notification with voice activity detection
US20240048901A1 (en) Processing method and device
JP2015056676A (en) Sound processing device and program
US20230098333A1 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method
WO2023245390A1 (en) Smart earphone control method and apparatus, electronic device and storage medium
JP7293863B2 (en) Speech processing device, speech processing method and program
JP2023088360A (en) Video call device, video call method, and control program of video call device
JP2023047956A (en) Information processing device, information processing method, and information processing program
JP2022038891A (en) Server device
JP2005084628A (en) System and method for rumbling shutter sound of portable terminal device with camera function