JP2022139436A - Conference support device, conference support system, conference support method, and program - Google Patents

Conference support device, conference support system, conference support method, and program Download PDF

Info

Publication number
JP2022139436A
JP2022139436A JP2021039820A JP2021039820A JP2022139436A JP 2022139436 A JP2022139436 A JP 2022139436A JP 2021039820 A JP2021039820 A JP 2021039820A JP 2021039820 A JP2021039820 A JP 2021039820A JP 2022139436 A JP2022139436 A JP 2022139436A
Authority
JP
Japan
Prior art keywords
attendee
conference
conference support
speak
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021039820A
Other languages
Japanese (ja)
Inventor
威一郎 横尾
Iichiro Yokoo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2021039820A priority Critical patent/JP2022139436A/en
Publication of JP2022139436A publication Critical patent/JP2022139436A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide a conference support device, a conference support system, a conference support method, and a program that support progress of an online conference.SOLUTION: In a conference support device 1, conference support devices 10 to 30 that support progress of a conference each includes: an emotion analysis unit that detects emotional expression of conference attendee; a prediction unit that predicts whether the attendee has intention of speaking on the basis of the emotional expression; and a questions unit that asks the attendee for an opinion thereof if the attendee is predicted to have an intention to speak.SELECTED DRAWING: Figure 1

Description

本発明は、会議支援装置、会議支援システム、会議支援方法、およびプログラムに関し、特に、オンライン会議の進行を支援する会議支援装置、会議支援システム、会議支援方法、およびプログラムに関する。 The present invention relates to a meeting support device, a meeting support system, a meeting support method, and a program, and more particularly to a meeting support device, a meeting support system, a meeting support method, and a program that support the progress of an online meeting.

近年、テレワーク、リモートワーク、あるいは在宅勤務など、社員が個別に業務を実施する形態が急速に普及している。これに伴って、社員たちが会議室に集合する代わりに、インターネットなどのネットワークを通じて、オンライン会議(あるいはWeb会議、またはリモート会議とも呼ばれる)が開催される機会が増大している。オンライン会議において、会議の出席者がマイクロフォンおよびカメラを備えた端末を用いてビデオ通話することを可能にするオンライン会議支援システム(以下、単に会議支援システムと呼ぶ)が利用されている。 In recent years, telework, remote work, telecommuting, and other forms in which employees perform their own work have rapidly spread. Along with this, there are increasing opportunities for employees to hold online meetings (also called web meetings or remote meetings) through networks such as the Internet instead of gathering employees in conference rooms. In an online conference, an online conference support system (hereinafter simply referred to as a conference support system) is used that enables conference attendees to make video calls using terminals equipped with microphones and cameras.

特許文献1には、オンライン会議をより効率的かつ快適にするための会議支援システムが開示されている。具体的には、特許文献1には、出席者がオンライン会議に入室する際、出席者がユーザIDおよびパスワードを入力する代わりに、予め登録された顔画像データと、出席者の端末から取得した顔画像データとを照合することによって、出席者を顔認証することが記載されている。さらに、特許文献1には、仮想空間における出席者の分身を表すアバターを生成して、さらに、出席者の感情や状態を示す感情アイコンを、そのアバターに付加することが記載されている。 Patent Literature 1 discloses a meeting support system for making online meetings more efficient and comfortable. Specifically, in Patent Document 1, when attendees enter an online conference, instead of the attendees entering a user ID and password, pre-registered face image data and It describes face authentication of attendees by matching with face image data. Furthermore, Patent Literature 1 describes generating an avatar that represents an attendee's alter ego in a virtual space, and adding an emotion icon that indicates the attendee's emotion or state to the avatar.

特開2019-061594号公報JP 2019-061594 A

会議の出席者同士の発言が重なったり、長時間にわたって誰も発言しなかったりするなど、議論が滞ることが度々ありうる。特に、オンライン会議では、出席者が発言のタイミングをつかみづらいという問題もある。オンライン会議が円滑に進行するように、ファシリテーションを行うことができる会議支援システムが要望されている。 Discussions can often be stagnant, such as when participants in a meeting speak at the same time, or when no one speaks for a long period of time. Especially in an online conference, there is also the problem that it is difficult for attendees to grasp the timing of their remarks. There is a demand for a conference support system that can facilitate an online conference to proceed smoothly.

本発明は上記の課題に鑑みてなされたものであり、その目的は、会議の進行を支援することにある。 SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and an object of the present invention is to support the progress of a conference.

上記の課題を解決するために、本発明の一態様に係わる会議支援装置は、会議の出席者の感情表現を検出する感情分析手段と、前記感情表現に基づいて、前記出席者が発言の意図を有するか予測する予測手段と、前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる質問手段とを備えている。 In order to solve the above problems, a conference support apparatus according to one aspect of the present invention includes emotion analysis means for detecting emotional expressions of attendees in a conference, and analysis of intentions of remarks by the attendees based on the emotional expressions. and a questioning means for asking an opinion of the attendee when it is predicted that the attendee has an intention to speak.

本発明の一態様に係わる会議支援方法では、会議の出席者の感情表現を検出し、前記感情表現に基づいて、前記出席者が発言の意図を有するか予測し、前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる。 A conference support method according to an aspect of the present invention detects an emotional expression of a conference attendee, predicts whether the attendee has an intention to speak based on the emotional expression, and predicts whether the attendee has an intention to speak. , ask the attendees for their opinion.

本発明の一態様に係わるプログラムは、会議の出席者の感情表現を検出する処理と、前記感情表現に基づいて、前記出席者が発言の意図を有するか予測する処理と、前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる処理とをコンピュータに実行させる。 A program according to an aspect of the present invention includes processing for detecting an emotional expression of a conference attendee, processing for predicting whether the attendee has an intention to speak based on the emotional expression, processing for predicting whether the attendee has an intention to speak, If the intention is predicted, the computer is caused to execute a process of asking the attendees for their opinions.

上記の一態様によれば、会議の進行を支援することができる。 According to the aspect described above, it is possible to assist progress of the conference.

実施形態1~3に係わる会議支援装置が適用可能な会議支援システムの構成の一例を概略的に示す図である。1 is a diagram schematically showing an example of configuration of a conference support system to which conference support devices according to Embodiments 1 to 3 can be applied; FIG. 実施形態1または2に係わる会議支援装置の構成を示すブロック図である。1 is a block diagram showing the configuration of a conference support device according to Embodiment 1 or 2; FIG. 実施形態1に係わる会議支援装置の動作を示すフローチャートである。4 is a flow chart showing the operation of the conference support device according to the first embodiment; 実施形態2に係わる会議支援装置の動作を示すフローチャートである。9 is a flow chart showing the operation of the conference support device according to the second embodiment; 実施形態3に係わる会議支援装置の構成を示すブロック図である。11 is a block diagram showing the configuration of a conference support device according to Embodiment 3; FIG. 実施形態3に係わる会議支援装置の動作を示すフローチャートである。11 is a flow chart showing the operation of the conference support device according to the third embodiment; 予測器の再学習のためのデータベースの一例である。1 is an example of a database for predictor retraining; 実施形態1~3に係わる会議支援装置のハードウェア構成を示すブロック図である。2 is a block diagram showing a hardware configuration of a conference support device according to Embodiments 1-3; FIG.

(会議支援システム1)
図1は、後述する実施形態1~3に係わる会議支援装置10,20,30のいずれか(以下、「会議支援装置10(20,30)」と記載する)を適用することが可能な会議支援システム1の構成の一例を概略的に示す図である。図1に示すように、会議支援システム1は、会議支援装置10(20,30)および端末100X,100Y,100Zを備えている。会議支援システム1は、生体認証装置200、音声認識装置300、及びアバター生成装置400をさらに備えている。なお、生体認証装置200、音声認識装置300、及びアバター生成装置400は、会議支援システム1の必須構成ではない。会議支援システム1は、生体認証装置200、音声認識装置300、及びアバター生成装置400の一部または全部を備えていなくてもよい。
(Meeting support system 1)
FIG. 1 shows a conference to which any one of conference support devices 10, 20, and 30 (hereinafter referred to as "conference support device 10 (20, 30)") according to Embodiments 1 to 3, which will be described later, can be applied. 1 is a diagram schematically showing an example of a configuration of a support system 1; FIG. As shown in FIG. 1, the conference support system 1 includes conference support devices 10 (20, 30) and terminals 100X, 100Y, 100Z. The conference support system 1 further includes a biometric authentication device 200 , a speech recognition device 300 and an avatar generation device 400 . Note that the biometric authentication device 200 , the voice recognition device 300 and the avatar generation device 400 are not essential components of the conference support system 1 . The meeting support system 1 may not include some or all of the biometric authentication device 200 , the speech recognition device 300 and the avatar generation device 400 .

会議支援システム1では、出席者x,y,zの端末100X,100Y,100Zが、それぞれ、インターネットなどの広域ネットワークを介して、会議支援装置10(20,30)と接続されている。会議支援装置10(20,30)は、生体認証装置200、音声認識装置300、およびアバター生成装置400と接続されている。生体認証装置200、音声認識装置300、およびアバター生成装置400は、会議支援装置10(20,30)と同じクラウドサーバ内で構成されていてもよいし、会議支援装置10(20,30)とは異なるクラウドサーバ内で構成されていてもよい。 In the conference support system 1, terminals 100X, 100Y, and 100Z of attendees x, y, and z are respectively connected to a conference support device 10 (20, 30) via a wide area network such as the Internet. Conference support device 10 ( 20 , 30 ) is connected to biometric authentication device 200 , speech recognition device 300 , and avatar generation device 400 . Biometric authentication device 200, speech recognition device 300, and avatar generation device 400 may be configured in the same cloud server as meeting support device 10 (20, 30), or may be configured in the same cloud server as meeting support device 10 (20, 30). may be configured in different cloud servers.

各出席者は、自分の顔を写した顔画像データを会議支援システム1に登録する。また、各出席者は、オンライン会議における自分の分身であるアバターのデータを登録する。例えば、出席者xは自分のポートレートをアバターとして選択する。一方、出席者yは、好きなキャラクターをアバターとして選択する。出席者zは、似顔絵をアバターとして選択する。各出席者が会議支援システム1に登録したアバターは、オンライン会議中、各出席者の端末100の図示しない画面上に表示される。 Each attendee registers face image data showing his/her own face in the conference support system 1. - 特許庁Also, each attendee registers the data of their avatar, which is their alter ego in the online conference. For example, attendee x selects his portrait as his avatar. On the other hand, attendee y selects a favorite character as an avatar. Attendee z selects a caricature as an avatar. The avatar registered by each attendee in the conference support system 1 is displayed on the screen (not shown) of each attendee's terminal 100 during the online conference.

また、各出席者は、自分の名前またはニックネームなどの識別名を、会議支援システム1に登録する。出席者の呼称は、音声認識の目的および表示名に使用される。例えば、出席者xは、自分の氏名を呼称として登録する。出席者yは、あだ名などのニックネームを登録する。出席者zは、自分の役職(「部長」など)を登録する。端末100の図示しない画面上には、各出席者のアバターとともに、各出席者の呼称が表示される。 Also, each attendee registers his/her name or identification name such as a nickname in the conference support system 1 . Attendee names are used for voice recognition purposes and display names. For example, attendee x registers his name as a nickname. Attendee y registers a nickname such as a nickname. Attendee z registers his/her position (such as "manager"). An avatar of each attendee and a name of each attendee are displayed on a screen (not shown) of the terminal 100 .

端末100X,100Y,100Zは、出席者x,y,zによって所持され、管理されるPC(Personal Computer)などのユーザデバイスである。端末100X,100Y,100Zは同一の構成を備えている。以下では、端末100X,100Y,100Zのいずれかを、端末100と略記する。図1に示すように、端末100は、集音装置110、撮像装置120、および会議アプリケーション130を備えている。集音装置110は、出席者の発言を集音するためのマイクロフォンなどの機器である。集音装置110は、出席者の発言に伴って発生する振動情報を、音声データに変換する。撮像装置120は、出席者の顔を撮影するためのカメラなどの機器である。撮像装置120は、出席者の顔を撮影することによって、出席者の顔を写した時系列の顔画像データを生成する。 Terminals 100X, 100Y, and 100Z are user devices such as PCs (Personal Computers) owned and managed by attendees x, y, and z. Terminals 100X, 100Y, and 100Z have the same configuration. One of the terminals 100X, 100Y, and 100Z is abbreviated as the terminal 100 below. As shown in FIG. 1, the terminal 100 includes a sound collector 110, an imaging device 120, and a conference application . The sound collection device 110 is a device such as a microphone for collecting speech of attendees. The sound collecting device 110 converts vibration information generated in response to speech of attendees into audio data. The imaging device 120 is equipment such as a camera for photographing the faces of attendees. The imaging device 120 generates time-series face image data of the attendee's face by photographing the attendee's face.

会議アプリケーション130は、端末100の集音装置110が生成した音声データ、および、撮像装置120が生成した時系列の顔画像データを、ネットワークを介して、会議支援装置10(20,30)との間で送受信する。会議アプリケーション130は、端末100の集音装置110を制御することによって、集音装置110の入力のオン/オフを任意のタイミングで切り替える。通常、会議アプリケーション130は、出席者が自らミュート解除する操作を行わない限り、集音装置110の入力をオフにする。また、会議アプリケーション130は、アバターや会議資料を表示するためのブラウザなど、さまざまなUI(User Interface)を生成して、端末100が有する図示しない画面上にUIを表示する。 The conference application 130 transmits audio data generated by the sound collector 110 of the terminal 100 and time-series face image data generated by the imaging device 120 to the conference support device 10 (20, 30) via the network. send and receive between The conference application 130 controls the sound collector 110 of the terminal 100 to switch on/off the input of the sound collector 110 at arbitrary timing. Normally, the conference application 130 turns off the input of the sound collector 110 unless the attendee performs an operation to unmute themselves. The conference application 130 also generates various UIs (User Interfaces) such as avatars and a browser for displaying conference materials, and displays the UIs on a screen (not shown) of the terminal 100 .

会議の予約時間になったとき、またはその所定時間前になったとき、会議アプリケーション130は、自動的に起動して、端末100の前にいる人物を、撮像装置120に撮影させる。会議アプリケーション130は、撮像装置120によって取得された顔画像データを、会議支援装置10(20,30)へ送信する。会議アプリケーション130は、会議支援装置10(20,30)から、生体認証装置200による認証結果を受信する。生体認証に成功した場合、会議アプリケーション130は、オンライン会議に自動で入室する。なお、生体認証に失敗した場合、会議アプリケーション130は、ユーザIDおよびパスワードを用いて、手動でログインすることを、出席者に要求してもよい。 When the reserved time for the conference comes or a predetermined time comes before it, the conference application 130 automatically starts up and causes the imaging device 120 to photograph a person in front of the terminal 100 . The conference application 130 transmits face image data acquired by the imaging device 120 to the conference support device 10 (20, 30). The conference application 130 receives the authentication result by the biometric authentication device 200 from the conference support device 10 (20, 30). If the biometric authentication is successful, the conference application 130 automatically enters the online conference. Note that if the biometric authentication fails, the conference application 130 may request the attendee to manually log in using the user ID and password.

生体認証装置200は、顔、指紋、虹彩、静脈、声紋、又はその他の生体情報を用いて、生体認証を実行する。一例では、生体認証装置200は、会議支援装置10(20,30)から、端末100の撮像装置120が生成した顔画像データを取得する。生体認証装置200は、会議支援装置10(20,30)から取得した顔画像データと、出席者の識別情報と紐づけられてDB(Data Base)に登録された顔画像データとを照合する。生体認証装置200は、顔画像データから抽出した特徴を比較する照合技術によって、端末100の前にいる人物が、DBに登録された出席者本人であるかどうかを判定する。そして、生体認証装置200は、認証の成功又は失敗を、会議支援装置10(20,30)へ通知する。会議支援装置10(20,30)は、生体認証装置200から得た認証結果に基づいて、端末100が会議支援装置10(20,30)に接続することの可否を決定する。 The biometric authentication device 200 performs biometric authentication using face, fingerprint, iris, vein, voiceprint, or other biometric information. In one example, the biometric authentication device 200 acquires face image data generated by the imaging device 120 of the terminal 100 from the conference support device 10 (20, 30). The biometrics authentication device 200 collates the face image data acquired from the meeting support device 10 (20, 30) with the face image data linked to the identification information of the attendees and registered in a DB (Data Base). The biometric authentication device 200 determines whether or not the person in front of the terminal 100 is the attendee registered in the DB by a matching technique that compares features extracted from face image data. Then, the biometric device 200 notifies the meeting support device 10 (20, 30) of the success or failure of the authentication. Based on the authentication result obtained from the biometric device 200, the conference support device 10 (20, 30) determines whether or not the terminal 100 can connect to the conference support device 10 (20, 30).

音声認識装置300は、音響モデル及び言語モデルに基づいて、音声データを、言語を表すテキストデータに変換する。音響モデルは、音声データが持つ音響的な特徴を表す。一方、言語モデルは、音素の並び順に関する制約を表す。一例では、音声認識装置300は、会議支援装置10(20,30)から、端末100の集音装置110が生成した音声データを取得する。音声認識装置300は、会議支援装置10(20,30)から取得した音声データを、テキストデータに変換する。そして、音声認識装置300は、音声データから変換したテキストデータを、会議支援装置10(20,30)へ送信する。 The speech recognition device 300 converts speech data into text data representing language based on the acoustic model and the language model. The acoustic model represents acoustic features of speech data. On the other hand, the language model expresses restrictions on the order of phonemes. In one example, the speech recognition device 300 acquires speech data generated by the sound collector 110 of the terminal 100 from the conference support device 10 (20, 30). The speech recognition device 300 converts speech data acquired from the conference support device 10 (20, 30) into text data. Then, the speech recognition device 300 transmits the text data converted from the speech data to the conference support device 10 (20, 30).

アバター生成装置400は、仮想空間(ここではオンライン会議)における出席者の分身を表すアバターを生成する。アバター生成装置400は、生成したアバターのデータを、会議支援装置10(20,30)へ送信する。会議支援装置10(20,30)は、端末100へ、アバターのデータを送信する。端末100にインストールされた会議アプリケーション130は、会議支援装置10(20,30)から受信したアバターのデータを用いて、端末100の図示しない画面上にアバターを表示させる。 The avatar generation device 400 generates an avatar that represents the alter ego of the attendee in the virtual space (here, the online conference). The avatar generation device 400 transmits data of the generated avatar to the conference support device 10 (20, 30). The conference support device 10 ( 20 , 30 ) transmits avatar data to the terminal 100 . The conference application 130 installed in the terminal 100 uses the avatar data received from the conference support device 10 (20, 30) to display the avatar on the screen (not shown) of the terminal 100. FIG.

加えて、アバター生成装置400は、特許文献1に記載の関連する技術のように、出席者の表情または感情を表すアイコンをアバターに付加してもよい。この場合、アバター生成装置400は、後述する実施形態1~3に係わる会議支援装置10(20,30)のように、端末100から送信された時系列の顔画像データ、および音声データを用いて、出席者の感情表現を検出する。そして、アバター生成装置400は、感情表現の分析結果に基づいて、出席者が発言の意図を有するかどうかを判定する。 In addition, the avatar generation device 400 may add an icon representing the facial expression or emotion of the attendee to the avatar, like the related technology described in Patent Document 1. In this case, the avatar generation device 400 uses time-series face image data and voice data transmitted from the terminal 100, like the conference support device 10 (20, 30) according to Embodiments 1 to 3, which will be described later. , to detect the emotional expressions of attendees. Then, avatar generation device 400 determines whether the attendee has an intention to speak based on the analysis result of the emotional expression.

会議支援装置10(20,30)は、オンライン会議中の各出席者の表情及び動作を分析し、その分析結果に基づく感情表現を、各出席者のアバターに反映させる。特に、ある出席者が発言したのち、他の出席者に感情表現があった場合、会議支援装置10(20,30)は、アバターにその感情表現を反映させる。この機能により、オンライン会議において、現実の集合会議の雰囲気を再現することができる。 The conference support device 10 (20, 30) analyzes the facial expressions and actions of each attendee during the online conference, and reflects the emotional expression based on the analysis result on each attendee's avatar. In particular, if another attendee expresses an emotion after a certain attendee speaks, the conference support device 10 (20, 30) reflects the emotional expression on the avatar. This function makes it possible to reproduce the atmosphere of a real group meeting in an online meeting.

また、会議支援装置10(20,30)は、音声認識装置300から得たテキストデータを分析する。そして、会議支援装置10(20,30)は、テキストデータの分析結果に基づいて、オンライン会議のファシリテーションを行う。例えば、会議支援装置10(20,30)は、テキストデータにある出席者の名前が含まれる場合、その出席者に対して、意見を尋ねる。 Also, the conference support device 10 ( 20 , 30 ) analyzes the text data obtained from the speech recognition device 300 . Then, the conference support device 10 (20, 30) facilitates the online conference based on the analysis result of the text data. For example, if the name of an attendee is included in the text data, the conference support device 10 (20, 30) asks the attendee for their opinion.

以下の実施形態1~3では、会議支援システム1が3つの端末100X,100Y,100Zを含む例を説明する。しかしながら、会議支援システム1は、2つ以上の任意の数の端末100を含んでいてよい。 In Embodiments 1 to 3 below, an example in which the conference support system 1 includes three terminals 100X, 100Y, and 100Z will be described. However, the conference support system 1 may include any number of terminals 100 equal to or greater than two.

〔実施形態1〕
図2~図3を参照して、実施形態1について説明する。
[Embodiment 1]
Embodiment 1 will be described with reference to FIGS. 2 and 3. FIG.

(会議支援装置10)
図2は、本実施形態1に係わる会議支援装置10の構成を示すブロック図である。図2に示すように、会議支援装置10は、感情分析部11、予測部12、および質問部13を備えている。
(Meeting support device 10)
FIG. 2 is a block diagram showing the configuration of the conference support device 10 according to the first embodiment. As shown in FIG. 2, the conference support device 10 includes an emotion analysis section 11, a prediction section 12, and a question section 13. As shown in FIG.

感情分析部11は、会議の出席者の感情表現を検出する。感情分析部11は、感情分析手段の一例である。一例では、感情分析部11は、端末100から、時系列の顔画像データを受信する。感情分析部11は、時系列の顔画像データに写る出席者の顔の変化を検出する。例えば、感情分析部11は、時系列の顔画像データ間で、画素値の類似度に基づいて、画素を一対一で対応付ける。そして、感情分析部11は、顔の口、鼻、目などの各パーツと対応する画素の位置座標が、時系列の顔画像データにおいて、どのように変化しているのかを計算する。 The emotion analysis unit 11 detects the emotional expressions of the attendees of the conference. The emotion analysis unit 11 is an example of emotion analysis means. In one example, the emotion analysis unit 11 receives time-series face image data from the terminal 100 . The emotion analysis unit 11 detects changes in faces of attendees appearing in time-series face image data. For example, the emotion analysis unit 11 associates pixels one-to-one between time-series face image data based on the degree of similarity of pixel values. Then, the emotion analysis unit 11 calculates how the positional coordinates of the pixels corresponding to each part of the face, such as the mouth, nose, and eyes, change in the time-series face image data.

感情分析部11は、時系列の顔画像データにおける出席者の特定の表情変化を、感情表現として検出する。例えば、顔の各パーツの変化と、悲しみ、怒り、喜びなどの感情とを紐づけた第1の評価テーブル(図示せず)が、予め準備されている。例えば、第1の評価テーブルにおいて、出席者の顔の眉が上がることが、何らかの感情(例えば、怒り)に係わる感情表現であると特定されている。この場合、感情分析部11は、感情時系列の顔画像データにおいて、出席者の顔の眉が上がってゆくことを、一つの感情表現として検出する。 The emotion analysis unit 11 detects specific facial expression changes of attendees in time-series face image data as emotional expressions. For example, a first evaluation table (not shown) is prepared in advance, which associates changes in each part of the face with emotions such as sadness, anger, and joy. For example, in the first rating table, raising the eyebrows on the attendee's face is identified as an emote involving some emotion (eg, anger). In this case, the emotion analysis unit 11 detects, in the emotion time-series facial image data, that the eyebrows of the attendee's face are raised as one emotional expression.

さらに、感情分析部11は、時系列の顔画像データにおける出席者の特定の動作を、感情表現として検出してもよい。例えば、出席者の動作と、悲しみ、怒り、喜びなどの感情とを紐づけた第2の評価テーブルが、予め準備されている。例えば、第2の評価テーブルにおいて、出席者が首を振ることが、何らかの感情に係わる感情表現であると特定されている。この場合、感情分析部11は、感情時系列の顔画像データにおいて、出席者が首を振ることを、一つの感情表現として検出する。 Furthermore, the emotion analysis unit 11 may detect specific actions of attendees in time-series face image data as emotional expressions. For example, a second evaluation table is prepared in advance, in which actions of attendees are associated with emotions such as sadness, anger, and joy. For example, in the second rating table, the attendee's head shaking is identified as an emotional expression involving some emotion. In this case, the emotion analysis unit 11 detects the head shaking of the attendee as one emotional expression in the emotion time-series face image data.

感情分析部11は、上記のようにして、時系列の顔画像データから検出した感情表現のデータを、予測部12へ出力する。 The emotion analysis unit 11 outputs the data of the emotion expression detected from the time-series face image data as described above to the prediction unit 12 .

予測部12は、感情表現に基づいて、出席者が発言の意図を有するか予測する。予測部12は、予測手段の一例である。一例では、予測部12は、出席者が発言の意図を有するかどうかを予測する予測器を用いる。出席者が過去に発言した際の感情表現のデータが、図示しないデータベースに格納されている。予測器は、このデータベースに格納された、出席者が過去に発言した際の感情表現のデータを用いて、CNN(Convolutional Neural Network)を深層学習させることによって得られる。予測器を機械学習させる処理は、図示しない学習部(図6)によって実行されてもよい(実施形態3)。 The prediction unit 12 predicts whether the attendee has the intention of speaking based on the emotional expression. The prediction unit 12 is an example of prediction means. In one example, the predictor 12 uses a predictor to predict whether an attendee has an intention to speak. Emotional expression data of past statements made by attendees is stored in a database (not shown). The predictor is obtained by deep learning a CNN (Convolutional Neural Network) using the emotional expression data of the attendees' past remarks stored in this database. The process of machine learning the predictor may be executed by a learning unit (FIG. 6) not shown (third embodiment).

予測部12は、感情分析部11から受信した感情表現のデータを、機械学習した予測器へ入力する。機械学習した予測器は、入力された感情表現のデータから特徴を抽出する。機械学習した予測器は、抽出した特徴に基づいて、出席者が発言の意図を有するかどうかを予測し、その予測結果を出力する。予測部12は、出席者が発言の意図を有するか否かを示す予測結果を、質問部13へ出力する。 The prediction unit 12 inputs the emotional expression data received from the emotion analysis unit 11 to a machine learning predictor. A machine-learned predictor extracts features from input emotional expression data. A machine-learning predictor predicts whether the attendee has the intention of speaking based on the extracted features, and outputs the prediction result. The prediction unit 12 outputs to the question unit 13 a prediction result indicating whether or not the attendee has an intention to speak.

出席者が発言の意図を有すると予測された場合、質問部13は、出席者に意見を尋ねる。質問部13は、質問手段の一例である。一例では、質問部13は、予測部12から、出席者が発言の意図を有するか否かを示す予測結果を受信する。出席者が発言の意図を有すると予測された場合、例えば、質問部13は、事前に登録された出席者の識別名と、「発言をお願いします。」などの定型文とを組み合わせることによって、音声メッセージを生成する。そして、質問部13は、端末100の会議アプリケーション130に指示することによって、端末100の図示しないスピーカから、出席者の意見を尋ねる音声メッセージを出力させる。 When it is predicted that the attendee has an intention to speak, the question section 13 asks the attendee for their opinion. The question part 13 is an example of question means. In one example, the question unit 13 receives from the prediction unit 12 a prediction result indicating whether or not the attendee has an intention to speak. When it is predicted that the attendee has the intention of speaking, for example, the question unit 13 combines the identification name of the attendee registered in advance with a standard sentence such as "I would like to speak." , to generate a voice message. Then, the questioning unit 13 instructs the conference application 130 of the terminal 100 to output a voice message asking the opinion of the attendee from a speaker (not shown) of the terminal 100 .

あるいは、質問部13は、端末100の図示しない画面上に、出席者の意見を尋ねるメッセージを表示させるように、会議アプリケーション130に指示してもよい。また、質問部13は、端末100の集音装置110の入力をオン(すなわちミュートを解除)するように、会議アプリケーション130に指示する。 Alternatively, the question unit 13 may instruct the conference application 130 to display a message asking the opinions of attendees on a screen (not shown) of the terminal 100 . In addition, the question unit 13 instructs the conference application 130 to turn on the input of the sound collector 110 of the terminal 100 (that is, cancel the mute).

(会議支援装置10の動作)
図3を参照して、本実施形態1に係わる会議支援装置10の動作を説明する。図3は、会議支援装置10の各部が実行する処理の流れを示すフローチャートである。以下では、会議の出席者x、y,zのいずれかのことを、「出席者x(y,z)」と記載する。
(Operation of conference support device 10)
The operation of the conference support device 10 according to the first embodiment will be described with reference to FIG. FIG. 3 is a flow chart showing the flow of processing executed by each unit of the conference support device 10. As shown in FIG. Any one of attendees x, y, and z of the conference is hereinafter referred to as "attendee x(y,z)."

図3に示すように、感情分析部11は、出席者x(y,z)の感情表現を検出する(S1)。感情分析部11は、検出した感情表現のデータを、予測部12へ出力する。 As shown in FIG. 3, the emotion analysis section 11 detects the emotional expression of the attendee x(y,z) (S1). The emotion analysis unit 11 outputs the detected emotion expression data to the prediction unit 12 .

予測部12は、出席者x(y,z)に発言の意図があるかどうか予測する(S2)。予測部12は、出席者x(y,z)に発言の意図があるか否かを示す予測結果を、質問部13へ出力する。 The prediction unit 12 predicts whether the attendee x(y, z) has an intention to speak (S2). The prediction unit 12 outputs to the question unit 13 a prediction result indicating whether or not the attendee x(y, z) intends to speak.

出席者x(y,z)に発言の意図がないと予測された場合(S3でNo)、会議支援装置10の動作は終了する。 If it is predicted that the attendee x(y, z) has no intention of speaking (No in S3), the operation of the conference support device 10 ends.

一方、出席者x(y,z)に発言の意図があると予測された場合(S3でYes)、質問部13は、出席者x(y,z)に意見を尋ねる(S4)。例えば、質問部13は、端末100にインストールされた会議アプリケーション130に指示することによって、端末100の図示しないスピーカから、出席者x(y,z)に発言を促す音声メッセージを出力させる。あるいは、質問部13は、端末100の図示しない画面上に、出席者x(y,z)に意見を尋ねるメッセージを表示させる。 On the other hand, when it is predicted that the attendee x(y,z) intends to speak (Yes in S3), the question unit 13 asks the attendee x(y,z) for his opinion (S4). For example, the question unit 13 instructs the conference application 130 installed in the terminal 100 to output a voice message prompting the attendee x(y,z) to speak from a speaker (not shown) of the terminal 100 . Alternatively, the questioning unit 13 causes the screen (not shown) of the terminal 100 to display a message asking the attendee x(y,z) for an opinion.

以上で、会議支援装置10の動作は終了する。 Thus, the operation of the conference support device 10 ends.

(変形例)
一変形例では、会議支援装置10は、出席者の感情表現と対応する感情(例えば、喜び、楽しい、怒り、悲しい)を、端末100の画面に表示させてもよい。あるいは、会議支援装置10は、音声認識により得られたテキストデータを、端末100の画面に表示させてもよい。これにより、聴覚障害者であっても、より積極的に会議に参加することができる。
(Modification)
In a modified example, the conference support device 10 may cause the screen of the terminal 100 to display the emotional expression of the attendee and the corresponding emotion (for example, joy, joy, anger, sadness). Alternatively, the conference support device 10 may display text data obtained by speech recognition on the screen of the terminal 100 . As a result, even hearing-impaired people can more actively participate in the conference.

他の変形例では、ミュート解除のための特定のジェスチャを決めておいてもよい。例えば、出席者が瞬きを3回したとき、または出席者が挙手をしたときに、会議支援装置10は、その出席者の端末100をミュート解除する。これにより、出席者は、少ない手間でミュートを解除することができる。 In other variations, a specific gesture for unmuting may be defined. For example, when the attendee blinks his eyes three times or raises his hand, the conference support device 10 unmutes the attendee's terminal 100 . This allows attendees to cancel muting with little effort.

(本実施形態の効果)
本実施形態の構成によれば、感情分析部11は、会議の出席者の感情表現を検出する。予測部12は、感情表現に基づいて、出席者が発言の意図を有するか予測する。出席者が発言の意図を有すると予測された場合、質問部13は、出席者に意見を尋ねる。出席者は、意見を求められることによって、きっかけを得られるので、発言をしやすくなる。これにより、会議の円滑な進行を支援することができる。
(Effect of this embodiment)
According to the configuration of this embodiment, the emotion analysis unit 11 detects the emotional expressions of the attendees of the conference. The prediction unit 12 predicts whether the attendee has the intention of speaking based on the emotional expression. When it is predicted that the attendee has an intention to speak, the question section 13 asks the attendee for their opinion. Attendees are encouraged to speak up by being asked for their opinions. As a result, smooth progress of the conference can be supported.

〔実施形態2〕
図4~図5を参照して、実施形態2について説明する。本実施形態2では、会議支援装置20は、音声認識装置300(図1)から得たテキストデータに基づいて、ファシリテーションを行う。本実施形態2と前記実施形態1との間で共通する構成に関して、本実施形態2では、前記実施形態1の説明を引用して、その説明を省略する。
[Embodiment 2]
Embodiment 2 will be described with reference to FIGS. 4 and 5. FIG. In Embodiment 2, the conference support device 20 performs facilitation based on text data obtained from the speech recognition device 300 (FIG. 1). Regarding the configuration common between the second embodiment and the first embodiment, the description of the first embodiment is quoted in the second embodiment, and the description thereof is omitted.

本実施形態2に係わる会議支援装置20の構成は、前記実施形態1に係わる会議支援装置10(図2)と同じである。 The configuration of the conference support device 20 according to the second embodiment is the same as that of the conference support device 10 (FIG. 2) according to the first embodiment.

(会議支援装置20の動作)
図4を参照して、本実施形態2に係わる会議支援装置20の動作を説明する。図4は、会議支援装置20の各部が実行する処理の流れを示すフローチャートである。以下では、会議の出席者y,zのいずれかのことを、「出席者y(z)」と記載する。最初、出席者xが発言している。出席者y(z)は、出席者y(z)の端末100の集音装置110の入力をオフにしている。
(Operation of conference support device 20)
The operation of the conference support device 20 according to the second embodiment will be described with reference to FIG. FIG. 4 is a flow chart showing the flow of processing executed by each unit of the conference support device 20. As shown in FIG. In the following, either of the attendees y and z of the conference will be referred to as "attendee y(z)". First, attendee x is speaking. The attendee y(z) turns off the input of the sound collector 110 of the terminal 100 of the attendee y(z).

図4に示すように、質問部13は、出席者xの発言を分析する(S201)。例えば、質問部13は、出席者xの端末100Xから、音声データを受信する。質問部13は、音声認識装置300へ、音声データを送信する。その後、質問部13は、音声認識装置300から、音声認識されたテキストデータを受信する。質問部13は、音声認識装置300から、音声認識が完了したことを知らせるnullデータを受信したとき、出席者xが発言を終了したと判定する。 As shown in FIG. 4, the question unit 13 analyzes the statement of the attendee x (S201). For example, the question unit 13 receives voice data from the terminal 100X of the attendee x. The question unit 13 transmits voice data to the voice recognition device 300 . After that, the question unit 13 receives text data that has undergone speech recognition from the speech recognition device 300 . When the questioning unit 13 receives null data notifying that the speech recognition is completed from the speech recognition device 300, the questioning unit 13 determines that the attendee x has finished speaking.

次に、質問部13は、音声認識装置300から受信したテキストデータにおいて、出席者y(z)の識別名を検索する。出席者xが、出席者y(z)の識別名を呼称していた場合(S202でYes)、フローは後述のステップS206へ進む。 Next, the questioning unit 13 searches the text data received from the speech recognition device 300 for the identification name of the attendee y(z). If attendee x called the identification name of attendee y(z) (Yes in S202), the flow proceeds to step S206, which will be described later.

質問部13は、出席者xによって識別名を呼称された出席者y(z)に意見を尋ねる(S206)。このとき、質問部13は、識別名を呼称された出席者y(z)の端末100にインストールされた会議アプリケーション130に対し、集音装置110の入力をオン(ミュート解除)するように指示してもよい。一方、出席者xが出席者y(z)の識別名を呼称していない場合(S202でNo)、フローは続くステップS203へ進む。 The questioning unit 13 asks the opinion of the attendee y(z) whose identification name is called by the attendee x (S206). At this time, the question unit 13 instructs the conference application 130 installed in the terminal 100 of the attendee y(z) whose identification name is called to turn on the input of the sound collector 110 (unmute). may On the other hand, if attendee x has not called the identification name of attendee y(z) (No in S202), the flow proceeds to step S203.

続いて、感情分析部11は、出席者y(z)の感情表現を検出する(S203)。感情分析部11は、検出した感情表現のデータを、予測部12へ出力する。 Subsequently, the emotion analysis unit 11 detects the emotional expression of the attendee y(z) (S203). The emotion analysis unit 11 outputs the detected emotion expression data to the prediction unit 12 .

予測部12は、出席者y(z)に発言の意図があるかどうか予測する(S204)。予測部12は、出席者y(z)に発言の意図があるか否かを示す予測結果を、質問部13へ出力する。 The prediction unit 12 predicts whether the attendee y(z) intends to speak (S204). The prediction unit 12 outputs to the question unit 13 a prediction result indicating whether or not the attendee y(z) intends to speak.

出席者y(z)に発言の意図がないと予測された場合(S205でNo)、会議支援装置10の動作は終了する。 If it is predicted that the attendee y(z) has no intention of speaking (No in S205), the operation of the conference support device 10 ends.

一方、出席者xが出席者y(z)の識別名を呼称していた場合(S202でYes)、または、出席者y(z)に発言の意図があると予測された場合(S205でYes)、質問部13は、出席者y(z)に意見を尋ねる(S206)。 On the other hand, if attendee x called the identification name of attendee y(z) (Yes in S202), or if it was predicted that attendee y(z) intended to speak (Yes in S205) ), and the questioning unit 13 asks the attendee y(z) for an opinion (S206).

例えば、質問部13は、端末100にインストールされた会議アプリケーション130に指示することによって、端末100の図示しないスピーカから、出席者y(z)に発言を促す音声メッセージを出力させる。あるいは、質問部13は、端末100の図示しない画面上に、出席者y(z)に意見を尋ねるメッセージを表示させる。 For example, the question unit 13 instructs the conference application 130 installed in the terminal 100 to output a voice message prompting the attendee y(z) to speak from a speaker (not shown) of the terminal 100 . Alternatively, the questioning unit 13 causes the screen (not shown) of the terminal 100 to display a message asking the attendee y(z) for an opinion.

以上で、会議支援装置20の動作は終了する。 Thus, the operation of the conference support device 20 ends.

(変形例)
一変形例では、会議支援装置20の質問部13は、音声認識装置300から、テキストデータを一定時間受信しない場合、出席者の発言が滞っていると判定する。この場合、質問部13は、出席者の中で、役職が一番上の人物に発言を求める。例えば、出席者zの識別名が「部長」であることから、質問部13は、会議の決定権がzにあると推定する。したがって、質問部13は、「部長(識別名)、決議をお願いします。」などの定型文の音声データを出力する。
(Modification)
In a modified example, the question unit 13 of the conference support device 20 determines that the speech of the attendee is delayed when text data is not received from the speech recognition device 300 for a certain period of time. In this case, the questioning unit 13 asks the person with the highest position among the attendees to speak. For example, since the identification name of attendee z is "Manager", the questioning unit 13 presumes that z has the right to decide on the meeting. Therefore, the questioning unit 13 outputs voice data of fixed sentences such as "Director (identification name), please make a resolution."

(本実施形態の効果)
本実施形態の構成によれば、感情分析部11は、会議の出席者の感情表現を検出する。予測部12は、感情表現に基づいて、出席者が発言の意図を有するか予測する。出席者が発言の意図を有すると予測された場合、質問部13は、出席者に意見を尋ねる。出席者は、意見を求められることによって、きっかけを得られるので、発言をしやすくなる。これにより、会議の円滑な進行を支援することができる。
(Effect of this embodiment)
According to the configuration of this embodiment, the emotion analysis unit 11 detects the emotional expressions of the attendees of the conference. The prediction unit 12 predicts whether the attendee has the intention of speaking based on the emotional expression. When it is predicted that the attendee has an intention to speak, the question section 13 asks the attendee for their opinion. Attendees are encouraged to speak up by being asked for their opinions. As a result, smooth progress of the conference can be supported.

さらに、本実施形態の構成によれば、会議支援装置20は、音声認識装置300から得たテキストデータに基づいて、ファシリテーションを行う。具体的には、出席者xが出席者y(z)の名前を呼称していた場合、質問部13は、出席者xによって名前を呼称された出席者y(z)に意見を尋ねる。これにより、会議の円滑な進行を支援することができる。 Furthermore, according to the configuration of this embodiment, the conference support device 20 performs facilitation based on text data obtained from the speech recognition device 300 . Specifically, when attendee x calls attendee y(z) by name, question unit 13 asks attendee y(z), whose name is called by attendee x, about his/her opinion. As a result, smooth progress of the conference can be supported.

〔実施形態3〕
図5~図7を参照して、実施形態3について説明する。本実施形態3では、会議支援装置30は、出席者が発言の意図を有するかどうかに関する予測の結果(すなわち的中または外れ)に基づいて、予測器の再学習を行う。本実施形態3と前記実施形態1~2との間で共通する構成に関して、本実施形態3では、前記実施形態1~2の説明を引用して、その説明を省略する。
[Embodiment 3]
Embodiment 3 will be described with reference to FIGS. 5 to 7. FIG. In Embodiment 3, the conference support device 30 re-learns the predictor based on the prediction result (that is, hit or miss) regarding whether the attendee has the intention of speaking. Regarding the configuration common between the third embodiment and the first and second embodiments, in the third embodiment, the description of the first and second embodiments is cited, and the description thereof is omitted.

(会議支援装置30)
図5は、本実施形態3に係わる会議支援装置30の構成を示すブロック図である。図5に示すように、会議支援装置30は、感情分析部11、予測部12、および質問部13を備えている。本実施形態3に係わる会議支援装置30は、学習部34をさらに備えている。
(Meeting support device 30)
FIG. 5 is a block diagram showing the configuration of the conference support device 30 according to the third embodiment. As shown in FIG. 5, the conference support device 30 includes an emotion analysis section 11, a prediction section 12, and a question section 13. The conference support device 30 according to the third embodiment further includes a learning section 34 .

学習部34は、出席者が発言の意図を有するかに関する予測の結果を用いて、予測器を再学習する。学習部34は、学習手段の一例である。一例では、学習部34は、出席者が発言の意図を有するかに関する予測が的中したか、それとも外れたかという結果を、予測器にフィードバックする。具体的には、予測が的中した場合、学習部34は、予測器の重み係数を維持する。一方、予測が外れた場合、学習部34は、予測の結果に影響の大きい特徴の重み係数を小さくする。そのほか、学習部34は、任意の方位法で、予測器の重み係数を補正してよい。 The learning unit 34 re-learns the predictor using the prediction results regarding whether the attendee has the intention of speaking. The learning unit 34 is an example of learning means. In one example, the learner 34 feeds back to the predictor the result of whether the prediction about whether the attendee has the intention to speak was correct or not. Specifically, when the prediction is correct, the learning unit 34 maintains the weighting factor of the predictor. On the other hand, when the prediction is incorrect, the learning unit 34 reduces the weighting factor of the feature that greatly affects the prediction result. In addition, the learning unit 34 may correct the weighting factors of the predictors using any orientation method.

さらに、学習部34は、出席者に意見を尋ねた後の出席者の感情表現に基づいて、予測器を再学習してもよい。具体的には、学習部34は、出席者に意見を尋ねた後に、出席者の感情表現を、感情分析部11に再び検出させる。学習部34は、感情分析部11から、出席者の2度目の感情表現のデータを受信する。そして、学習部34は、出席者の2度目の感情表現のデータを用いて、予測器を再学習させる。例えば、学習部34は、感情分析部11から受信した出席者の2度目の感情表現のデータを用いて、予測器を深層学習させる。 Furthermore, the learning unit 34 may re-learn the predictor based on the emotional expressions of the attendees after asking their opinions. Specifically, after asking the attendees for their opinions, the learning unit 34 causes the emotion analysis unit 11 to detect the emotional expressions of the attendees again. The learning unit 34 receives the second emotional expression data of the attendee from the emotion analysis unit 11 . Then, the learning unit 34 re-learns the predictor using the second emotional expression data of the attendee. For example, the learning unit 34 deep-learns the predictor using the second emotional expression data of the attendee received from the emotion analysis unit 11 .

(会議支援装置30の動作)
図6を参照して、本実施形態3に係わる会議支援装置30の動作を説明する。図6は、会議支援装置30の各部が実行する処理の流れを示すフローチャートである。以下では、会議の出席者x、y,zのいずれかのことを、「出席者x(y,z)」と記載する。
(Operation of conference support device 30)
The operation of the conference support device 30 according to the third embodiment will be described with reference to FIG. FIG. 6 is a flow chart showing the flow of processing executed by each unit of the conference support device 30. As shown in FIG. Any one of attendees x, y, and z of the conference is hereinafter referred to as "attendee x(y,z)."

図6に示すように、感情分析部11は、出席者x(y,z)の1度目の感情表現を検出する(S301)。感情分析部11は、検出した1度目の感情表現のデータを、予測部12へ出力する。 As shown in FIG. 6, the emotion analysis unit 11 detects the first emotion expression of the attendee x(y, z) (S301). The emotion analysis unit 11 outputs the data of the detected emotion expression for the first time to the prediction unit 12 .

予測部12は、出席者x(y,z)の1度目の感情表現に基づいて、出席者x(y,z)に発言の意図があるかどうか予測する(S302)。予測部12は、出席者x(y,z)に発言の意図があるか否かを示す予測結果を、質問部13へ出力する。 The prediction unit 12 predicts whether the attendee x(y,z) intends to speak based on the first emotional expression of the attendee x(y,z) (S302). The prediction unit 12 outputs to the question unit 13 a prediction result indicating whether or not the attendee x(y, z) intends to speak.

出席者x(y,z)に発言の意図がないと予測された場合(S303でNo)、会議支援装置10の動作は終了する。 If it is predicted that the attendee x(y, z) has no intention of speaking (No in S303), the operation of the conference support device 10 ends.

一方、出席者x(y,z)に発言の意図があると予測された場合(S303でYes)、質問部13は、出席者x(y,z)に意見を尋ねる(S304)。例えば、質問部13は、端末100にインストールされた会議アプリケーション130に指示することによって、端末100の図示しないスピーカから、出席者x(y,z)に発言を促す音声メッセージを出力させる。あるいは、質問部13は、端末100の図示しない画面上に、出席者x(y,z)に意見を尋ねるメッセージを表示させる。 On the other hand, when it is predicted that attendee x(y,z) intends to speak (Yes in S303), question unit 13 asks attendee x(y,z) for his opinion (S304). For example, the question unit 13 instructs the conference application 130 installed in the terminal 100 to output a voice message prompting the attendee x(y,z) to speak from a speaker (not shown) of the terminal 100 . Alternatively, the questioning unit 13 causes the screen (not shown) of the terminal 100 to display a message asking the attendee x(y,z) for an opinion.

さらに、感情分析部11は、ステップS304において質問した出席者x(y,z)の感情表現を再び検出する(S305)。 Furthermore, the emotion analysis unit 11 again detects the emotional expression of the attendee x(y, z) who asked the question in step S304 (S305).

学習部34は、ステップS303における予測の結果と、ステップS305において検出された出席者x(y,z)の2度目の感情表現とに基づいて、再学習のためのデータベース(図7)を更新するとともに、予測器を再学習する(S306)。ステップS303における予測の結果とは、出席者x(y,z)に発言の意図があるという予測が的中したか、それとも外れたかを意味する。 The learning unit 34 updates the database for re-learning (FIG. 7) based on the prediction result in step S303 and the second emotional expression of the attendee x(y, z) detected in step S305. At the same time, the predictor is re-learned (S306). The result of the prediction in step S303 means whether the prediction that attendee x(y, z) has an intention to speak is true or false.

ステップS304の後、一定時間以内に、出席者x(y,z)の端末100から音声データが入力された場合、学習部34は、予測が的中したと判定する。一方、ステップS304の後、一定時間以内に、出席者x(y,z)の端末100から音声データが入力されなかった場合、学習部34は、予測が外れたと判定する。 After step S304, if voice data is input from the terminal 100 of the attendee x(y, z) within a certain period of time, the learning unit 34 determines that the prediction is correct. On the other hand, after step S304, if voice data is not input from the terminal 100 of the attendee x(y,z) within a certain period of time, the learning unit 34 determines that the prediction has failed.

あるいは、学習部34は、音声認識装置300から受信するテキストデータを分析して、「特にないです」「ありません」「ないです」などの否定語を検出した場合は、予測が外れたと判定してもよい。 Alternatively, the learning unit 34 analyzes the text data received from the speech recognition device 300, and if negative words such as "nothing in particular", "nothing", "nothing", etc. are detected, it is determined that the prediction is wrong. good too.

ステップS305において検出された出席者x(y,z)の感情表現が、ステップS301において検出された感情表現と部分的に重複する場合、学習部34は、それらの差分を用いて、予測器の再学習を行う。例えば、ステップS301において検出された1度目の感情表現が「眉が上がる」および「鼻が膨らむ」であり、ステップS305において検出された出席者x(y,z)の2度目の感情表現が「眉が上がる」および「頬が上がる」であるとする。この場合、学習部34は、2度目の感情表現と、1度目の感情表現との差分である「頬が上がる」を、予測器を再学習するために用いる。 If the emotional expression of the attendee x(y, z) detected in step S305 partially overlaps the emotional expression detected in step S301, the learning unit 34 uses the difference between them to Relearn. For example, the first emotional expression detected in step S301 is "eyebrows rise" and "nose puffs up", and the second emotional expression of attendee x(y, z) detected in step S305 is " Suppose that it is "eyebrows rise" and "cheeks rise". In this case, the learning unit 34 uses the difference between the second emotional expression and the first emotional expression, ie, “cheek rises” to re-learn the predictor.

以上で、会議支援装置30の動作は終了する。 Thus, the operation of the conference support device 30 ends.

(再学習のためのデータベースの一例)
図7は、学習部34が予測器を再学習させるために利用するデータベースの一例を示す。図7に示す例において、左端の列は、予測器による予測が行われた回数を示す。左端から数えて2~4列目は、感情分析部11が検出した1度目の出席者の感情表現を表す。左端から数えて5,6列目は、出席者が発言の意図を有するという予測が的中したのか、それとも外れたのかを表す。右端の列は、感情分析部11が検出した出席者の2度目の感情表現(図7では「感情表現(差分)」と表記)を表す。
(Example of database for re-learning)
FIG. 7 shows an example of a database used by the learning unit 34 to re-learn the predictor. In the example shown in FIG. 7, the leftmost column indicates the number of times predictions were made by the predictor. The second to fourth columns counted from the left end represent the emotional expressions of the first attendee detected by the emotion analysis unit 11 . The 5th and 6th columns counted from the left end indicate whether the prediction that the attendee has the intention to speak was true or false. The rightmost column represents the attendee's second emotional expression (denoted as “emotional expression (difference)” in FIG. 7) detected by the emotion analysis unit 11 .

一例では、学習部34は、ステップS305において、同一の感情表現が所定回数、検出された場合、予測器を再学習させる。一例では、図7に示すように、「頬が上がる」という感情表現が4回検出されたとき、学習部34は、予測器の再学習を実行する。 In one example, the learning unit 34 re-learns the predictor when the same emotional expression is detected a predetermined number of times in step S305. In one example, as shown in FIG. 7, the learning unit 34 re-learns the predictor when the emotional expression "cheeks go up" is detected four times.

(本実施形態の効果)
本実施形態の構成によれば、感情分析部11は、会議の出席者の感情表現を検出する。予測部12は、感情表現に基づいて、出席者が発言の意図を有するか予測する。出席者が発言の意図を有すると予測された場合、質問部13は、出席者に意見を尋ねる。出席者は、意見を求められることによって、きっかけを得られるので、発言をしやすくなる。これにより、会議の円滑な進行を支援することができる。
(Effect of this embodiment)
According to the configuration of this embodiment, the emotion analysis unit 11 detects the emotional expressions of the attendees of the conference. The prediction unit 12 predicts whether the attendee has the intention of speaking based on the emotional expression. When it is predicted that the attendee has an intention to speak, the question section 13 asks the attendee for their opinion. Attendees are encouraged to speak up by being asked for their opinions. As a result, smooth progress of the conference can be supported.

さらに、本実施形態の構成によれば、学習部34は、出席者が発言の意図を有するかに関する予測の結果を用いて、予測器を再学習する。予測器の再学習を行うことによって、出席者が発言の意図を有するかどうかに関する予測の精度を向上させることができる。 Furthermore, according to the configuration of this embodiment, the learning unit 34 re-learns the predictor using the result of prediction regarding whether the attendee has an intention to speak. By re-learning the predictor, it is possible to improve the accuracy of the prediction as to whether the attendee has the intention to speak.

(ハードウェア構成について)
前記実施形態1~3で説明した会議支援装置10,20,30の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図8に示すような情報処理装置900により実現される。図8は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
(About hardware configuration)
Each component of the conference support devices 10, 20, and 30 described in the first to third embodiments represents a functional unit block. Some or all of these components are realized by an information processing device 900 as shown in FIG. 8, for example. FIG. 8 is a block diagram showing an example of the hardware configuration of the information processing device 900. As shown in FIG.

図8に示すように、情報処理装置900は、一例として、以下のような構成を含む。 As shown in FIG. 8, the information processing apparatus 900 includes, as an example, the following configuration.

・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~3で説明した会議支援装置10,20,30の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
- CPU (Central Processing Unit) 901
・ROM (Read Only Memory) 902
・RAM (Random Access Memory) 903
Program 904 loaded into RAM 903
- Storage device 905 for storing program 904
A drive device 907 that reads and writes the recording medium 906
- A communication interface 908 that connects to the communication network 909
- An input/output interface 910 for inputting/outputting data
A bus 911 connecting each component
Each component of the conference support apparatuses 10, 20, and 30 described in the first to third embodiments is implemented by the CPU 901 reading and executing the program 904 that implements these functions. A program 904 that implements the function of each component is stored in advance in the storage device 905 or the ROM 902, for example, and is loaded into the RAM 903 and executed by the CPU 901 as necessary. The program 904 may be supplied to the CPU 901 via the communication network 909 or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply it to the CPU 901 .

上記の構成によれば、前記実施形態1~3において説明した会議支援装置10,20,30が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。 According to the above configuration, the conference support devices 10, 20, and 30 described in the first to third embodiments are implemented as hardware. Therefore, the same effects as those described in the above embodiment can be obtained.

(付記)
本発明の一態様は、以下の付記のようにも記載され得るが、以下に限定されない。
(Appendix)
One aspect of the present invention can also be described in the following supplementary remarks, but is not limited to the following.

(付記1)
会議の出席者の感情表現を検出する感情分析手段と、
前記感情表現に基づいて、前記出席者が発言の意図を有するか予測する予測手段と、
前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる質問手段と
を備えた会議支援装置。
(Appendix 1)
sentiment analysis means for detecting emotional expressions of conference attendees;
Prediction means for predicting whether the attendee has an intention to speak based on the emotional expression;
and questioning means for asking an opinion of the attendee when it is predicted that the attendee has an intention to speak.

(付記2)
前記感情分析手段は、前記出席者の顔を撮影して得られた顔画像データから、前記出席者の感情表現を検出する
ことを特徴とする付記1に記載の会議支援装置。
(Appendix 2)
The conference support apparatus according to appendix 1, wherein the emotion analysis means detects the emotional expression of the attendee from face image data obtained by photographing the face of the attendee.

(付記3)
前記感情表現は、前記出席者の動作、および前記出席者の表情の変化を含む
ことを特徴とする付記1または2に記載の会議支援装置。
(Appendix 3)
3. The conference support device according to appendix 1 or 2, wherein the emotional expression includes an action of the attendee and a change in facial expression of the attendee.

(付記4)
前記質問手段は、前記出席者に発言を促すための音声メッセージを送出する
ことを特徴とする付記1から3のいずれか1項に記載の会議支援装置。
(Appendix 4)
4. The conference support device according to any one of appendices 1 to 3, wherein the question means sends a voice message for prompting the attendee to speak.

(付記5)
前記予測手段は、前記出席者が過去に発言した際の感情表現を機械学習した予測器を用いて、前記出席者が発言の意図を有するかどうかを予測する
ことを特徴とする付記1から4のいずれか1項に記載の会議支援装置。
(Appendix 5)
Supplements 1 to 4, wherein the prediction means predicts whether or not the attendee has an intention to speak by using a predictor that performs machine learning of emotional expressions when the attendee has spoken in the past. The conference support device according to any one of 1.

(付記6)
前記質問手段は、音声認識装置を用いて、前記出席者の発言を分析し、
前記出席者の識別名が呼称された後、前記感情分析手段は、前記出席者の感情表現を検出する
ことを特徴とする付記1から5のいずれか1項に記載の会議支援装置。
(Appendix 6)
The question means uses a speech recognition device to analyze the speech of the attendee,
6. The conference support device according to any one of appendices 1 to 5, wherein the emotion analysis means detects the emotional expression of the attendee after the identification name of the attendee is called.

(付記7)
前記出席者が発言の意図を有するかに関する予測の結果を用いて、前記予測器を再学習する学習手段をさらに備えた
ことを特徴とする付記5に記載の会議支援装置。
(Appendix 7)
The conference support device according to appendix 5, further comprising learning means for re-learning the predictor using a prediction result regarding whether the attendee has an intention to speak.

(付記8)
会議の出席者の感情表現を検出し、
前記感情表現に基づいて、前記出席者が発言の意図を有するか予測し、
前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる
会議支援方法。
(Appendix 8)
Detects the emotional expressions of meeting attendees,
predicting whether the attendee has an intention to speak based on the emotional expression;
A method of supporting a meeting, which asks an opinion of the attendee when it is predicted that the attendee has an intention to speak.

(付記9)
会議の出席者の感情表現を検出する処理と、
前記感情表現に基づいて、前記出席者が発言の意図を有するか予測する処理と、
前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる処理と
をコンピュータに実行させるためのプログラム。
(Appendix 9)
a process of detecting an emotional expression of a meeting attendee;
a process of predicting whether the attendee has an intention to speak based on the emotional expression;
A program for causing a computer to execute a process of asking an opinion of said attendee when said attendee is predicted to have an intention to speak.

(付記10)
付記1から7のいずれか1項に記載の会議支援装置と、
前記出席者の顔を撮影する撮像装置と、
前記出席者の発言を集音する集音装置と、
を備えた会議支援システム。
(Appendix 10)
The conference support device according to any one of Appendices 1 to 7;
an imaging device that captures the face of the attendee;
a sound collecting device that collects the speech of the attendee;
A conference support system with

(付記11)
前記出席者を生体認証する生体認証装置をさらに備えた
ことを特徴とする付記10に記載の会議支援システム。
(Appendix 11)
11. The meeting support system according to appendix 10, further comprising a biometric authentication device that biometrically authenticates the attendee.

(付記12)
前記生体認証装置は、前記出席者の顔画像データと、事前に登録された顔画像データとを照合することによって、前記出席者を顔認証する
ことを特徴とする付記11に記載の会議支援システム。
(Appendix 12)
12. The conference support system according to appendix 11, wherein the biometric authentication device authenticates the face of the attendee by matching face image data of the attendee with face image data registered in advance. .

(付記13)
仮想空間内における前記出席者の分身を表すアバターを生成するアバター生成装置をさらに備えた
ことを特徴とする付記10から12のいずれか1項に記載の会議支援システム。
(Appendix 13)
13. The conference support system according to any one of appendices 10 to 12, further comprising an avatar generation device that generates an avatar representing the alter ego of the attendee in the virtual space.

(付記14)
前記アバター生成装置は、前記出席者の前記感情表現に応じて、前記アバターの態様を変更する
ことを特徴とする付記13に記載の会議支援システム。
(Appendix 14)
14. The conference support system according to Supplementary Note 13, wherein the avatar generation device changes the mode of the avatar according to the emotional expression of the attendee.

(付記15)
前記集音装置から入力された音声データを音声認識する音声認識装置をさらに備えた
ことを特徴とする付記10から14のいずれか1項に記載の会議支援システム。
(Appendix 15)
15. The conference support system according to any one of appendices 10 to 14, further comprising a voice recognition device that recognizes voice data input from the sound collector.

本発明は、一例では、インターネットなどのネットワークを通じたオンライン会議を支援するための会議支援システムに利用することができる。 INDUSTRIAL APPLICABILITY The present invention can be used, for example, in a conference support system for supporting an online conference through a network such as the Internet.

1 会議支援システム
10 会議支援装置
11 感情分析部
12 予測部
13 質問部
20 会議支援装置
30 会議支援装置
34 学習部
110 集音装置
120 撮像装置
200 生体認証装置
300 音声認識装置
400 アバター生成装置
1 meeting support system 10 meeting support device 11 emotion analysis unit 12 prediction unit 13 question unit 20 meeting support device 30 meeting support device 34 learning unit 110 sound collector 120 imaging device 200 biometric authentication device 300 voice recognition device 400 avatar generation device

Claims (10)

会議の出席者の感情表現を検出する感情分析手段と、
前記感情表現に基づいて、前記出席者が発言の意図を有するか予測する予測手段と、
前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる質問手段と
を備えた会議支援装置。
sentiment analysis means for detecting emotional expressions of conference attendees;
Prediction means for predicting whether the attendee has an intention to speak based on the emotional expression;
and questioning means for asking an opinion of the attendee when it is predicted that the attendee has an intention to speak.
前記感情分析手段は、前記出席者の顔の画像に対応する顔画像データから、前記出席者の感情表現を検出する
ことを特徴とする請求項1に記載の会議支援装置。
2. The conference support apparatus according to claim 1, wherein said emotion analysis means detects an emotional expression of said attendee from face image data corresponding to an image of said attendee's face.
前記感情表現は、前記出席者の動作、および前記出席者の表情の変化を含む
ことを特徴とする請求項1または2に記載の会議支援装置。
3. The conference support apparatus according to claim 1, wherein said emotional expression includes behavior of said attendee and changes in facial expression of said attendee.
前記質問手段は、前記出席者に発言を促すための音声メッセージを送出する
ことを特徴とする請求項1から3のいずれか1項に記載の会議支援装置。
4. The conference support apparatus according to any one of claims 1 to 3, wherein said question means sends out a voice message for prompting said attendee to speak.
前記予測手段は、前記出席者が過去に発言した際の感情表現を機械学習した予測器を用いて、前記出席者が発言の意図を有するかどうかを予測する
ことを特徴とする請求項1から4のいずれか1項に記載の会議支援装置。
The prediction means predicts whether or not the attendee has an intention to speak by using a predictor that has undergone machine learning of emotional expressions when the attendee has spoken in the past. 5. The conference support device according to any one of 4.
前記質問手段は、音声認識装置を用いて、前記出席者の発言を分析し、
前記出席者の識別名が呼称された後、前記感情分析手段は、前記出席者の感情表現を検出する
ことを特徴とする請求項1から5のいずれか1項に記載の会議支援装置。
The question means uses a speech recognition device to analyze the speech of the attendee,
6. The conference support device according to any one of claims 1 to 5, wherein the emotion analysis means detects the emotional expression of the attendee after the identification name of the attendee is called.
前記出席者が発言の意図を有するかに関する予測の結果を用いて、前記予測器を再学習する学習手段をさらに備えた
ことを特徴とする請求項5に記載の会議支援装置。
6. The conference support apparatus according to claim 5, further comprising learning means for re-learning said predictor using a prediction result regarding whether said attendee has an intention to speak.
会議の出席者の感情表現を検出し、
前記感情表現に基づいて、前記出席者が発言の意図を有するか予測し、
前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる
会議支援方法。
Detects the emotional expressions of meeting attendees,
predicting whether the attendee has an intention to speak based on the emotional expression;
A method of supporting a meeting, which asks an opinion of the attendee when it is predicted that the attendee has an intention to speak.
会議の出席者の感情表現を検出する処理と、
前記感情表現に基づいて、前記出席者が発言の意図を有するか予測する処理と、
前記出席者が発言の意図を有すると予測された場合、前記出席者に意見を尋ねる処理と
をコンピュータに実行させるためのプログラム。
a process of detecting an emotional expression of a meeting attendee;
a process of predicting whether the attendee has an intention to speak based on the emotional expression;
A program for causing a computer to execute a process of asking an opinion of said attendee when said attendee is predicted to have an intention to speak.
請求項1から7のいずれか1項に記載の会議支援装置と、
前記出席者の顔を撮影する撮像装置と、
前記出席者の発言を集音する集音装置と、
を備えた会議支援システム。
a meeting support device according to any one of claims 1 to 7;
an imaging device that captures the face of the attendee;
a sound collecting device that collects the speech of the attendee;
A conference support system with
JP2021039820A 2021-03-12 2021-03-12 Conference support device, conference support system, conference support method, and program Pending JP2022139436A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021039820A JP2022139436A (en) 2021-03-12 2021-03-12 Conference support device, conference support system, conference support method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021039820A JP2022139436A (en) 2021-03-12 2021-03-12 Conference support device, conference support system, conference support method, and program

Publications (1)

Publication Number Publication Date
JP2022139436A true JP2022139436A (en) 2022-09-26

Family

ID=83399854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021039820A Pending JP2022139436A (en) 2021-03-12 2021-03-12 Conference support device, conference support system, conference support method, and program

Country Status (1)

Country Link
JP (1) JP2022139436A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007147762A (en) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd Speaker predicting device and speaker predicting method
JP2010176544A (en) * 2009-01-30 2010-08-12 Toshiba Corp Conference support device
JP2020025221A (en) * 2018-08-08 2020-02-13 沖電気工業株式会社 Communication support device, communication support system, and communication method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007147762A (en) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd Speaker predicting device and speaker predicting method
JP2010176544A (en) * 2009-01-30 2010-08-12 Toshiba Corp Conference support device
JP2020025221A (en) * 2018-08-08 2020-02-13 沖電気工業株式会社 Communication support device, communication support system, and communication method

Similar Documents

Publication Publication Date Title
JP6042015B1 (en) Online interview evaluation apparatus, method and program
CN112075075B (en) Method and computerized intelligent assistant for facilitating teleconferencing
US10984386B2 (en) Interview system
US20240119934A1 (en) Systems and methods for recognizing a speech of a speaker
US8560315B2 (en) Conference support device, conference support method, and computer-readable medium storing conference support program
JP7323098B2 (en) Dialogue support device, dialogue support system, and dialogue support program
JP7279494B2 (en) CONFERENCE SUPPORT DEVICE AND CONFERENCE SUPPORT SYSTEM
WO2015155977A1 (en) Linking system, device, method, and recording medium
JP4469867B2 (en) Apparatus, method and program for managing communication status
JP2018171683A (en) Robot control program, robot device, and robot control method
KR102412823B1 (en) System for online meeting with translation
CN111506183A (en) Intelligent terminal and user interaction method
JP2007030050A (en) Robot control device, robot control system, robot device and robot control method
JP2022139436A (en) Conference support device, conference support system, conference support method, and program
JP2020067562A (en) Device, program and method for determining action taking timing based on video of user's face
KR102278162B1 (en) Method for operating speech assistant robot with user interaction
CN112820265B (en) Speech synthesis model training method and related device
US20200410216A1 (en) Measuring and Transmitting Emotional Feedback in Group Teleconferences
JP6856243B2 (en) Conference system and control program
WO2023032736A1 (en) Communication assistance system, communication assistance method, and communication assistance program
JP2020024293A (en) Voice interaction system
WO2022059088A1 (en) Method for generating person evaluation information
JP7474211B2 (en) Dialogue program, device and method for forgetting nouns spoken by a user
JP7163968B2 (en) SERVER DEVICE, CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD AND PROGRAM
US20220377177A1 (en) Conferencing System, Server, Information Processing Device and Non-Transitory Recording Medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210312

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230404