JP2021132317A - Remote conference support device and program - Google Patents
Remote conference support device and program Download PDFInfo
- Publication number
- JP2021132317A JP2021132317A JP2020027074A JP2020027074A JP2021132317A JP 2021132317 A JP2021132317 A JP 2021132317A JP 2020027074 A JP2020027074 A JP 2020027074A JP 2020027074 A JP2020027074 A JP 2020027074A JP 2021132317 A JP2021132317 A JP 2021132317A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- question
- unit
- remote conference
- destination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、遠隔会議支援装置およびプログラムに関する。 The present invention relates to a teleconferencing support device and a program.
近年、ブロードバンドやクラウド環境の普及、および、情報通信技術の発達に伴うコミ
ュニケーションツールの発達により、互いに遠隔する拠点間で映像および音声を共有することで実現されるテレビ会議が広がりつつある。
In recent years, with the spread of broadband and cloud environments and the development of communication tools accompanying the development of information and communication technology, video conferencing realized by sharing video and audio between bases remote from each other is spreading.
以下の特許文献1〜特許文献3には、このようなテレビ会議に関連する技術が開示されている。例えば、特許文献1には、複数拠点の間で会議を行う際に、発話者の発話と併せて行われるイベントによって、発話の対象を決定する技術が開示されている。また、特許文献2には、テレビ会議システムで会話を整理する技術であって、キーワードに基づいて各発話の関連性を評価し、同じキーワードを含み、かつ、時間的に近い発話を関連性候補とする技術が開示されている。また、特許文献3には、人とコンピュータとの対話システムであって、人物名を対話文から抽出して記憶し、その人物名が再度出現した時に過去の対話を参照して人物名が指す人物を決定する技術が開示されている。
The following Patent Documents 1 to 3 disclose techniques related to such video conferencing. For example, Patent Document 1 discloses a technique for determining the target of utterance by an event performed together with the utterance of the speaker when a meeting is held between a plurality of bases. Further,
テレビ会議システムでは、ある出席者が、遠隔する出席者に質問または確認などの問いかけを伴う発話を行うことがある。しかし、当該発話において、問いかけの宛先者となる出席者の名前が明示的に示されない場合がある。例えば、互いに初対面である出席者は互いの名前を発話で指定することが難しい。結果、問いかけの宛先者が誰であるかを各出席者が把握することが困難となり得る。上記の特許文献1〜特許文献3にも、問いかけの宛先者を特定する技術は開示されていない。 In a video conferencing system, an attendee may make an utterance with a question or confirmation to a remote attendee. However, in the utterance, the name of the attendee to whom the question is addressed may not be explicitly indicated. For example, it is difficult for attendees who meet each other for the first time to specify each other's names by utterance. As a result, it can be difficult for each attendee to know who the question is addressed to. The above-mentioned Patent Documents 1 to 3 also do not disclose a technique for identifying the destination of a question.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、遠隔会議においてある出席者により行われた問いかけの宛先者を特定することが可能な、新規かつ改良された遠隔会議支援装置およびプログラムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is a novel and novel one capable of identifying a destination of a question asked by an attendee at a remote conference. The purpose is to provide improved teleconferencing support devices and programs.
上記課題を解決するために、本発明のある観点によれば、第1の拠点に設けられた第1の通信端末から送信された遠隔会議に出席する2以上の第1の出席者の音声データ、および第2の拠点に設けられた第2の通信端末から送信された前記遠隔会議に出席する1または2以上の第2の出席者の音声データの解析結果として、各発話の発話者および発話に含まれる単語の属性を取得する発話情報取得部と、前記発話情報取得部により取得された前記発話者、および前記属性を発話ごとに関連付けて記憶する記憶部と、前記第2の出席者が他の出席者への問いかけを伴う発話を行った場合、当該問いかけを伴う発話に含まれる単語の属性と、前記記憶部に発話ごとに記憶された属性との比較に基づき、前記2以上の第1の出席者から前記問いかけの宛先者を特定する宛先者特定部と、前記宛先者特定部により特定された宛先者に対して回答を要求する通知を前記第1の通信端末に送信する送信部と、を備える、遠隔会議支援装置が提供される。 In order to solve the above problems, according to a certain viewpoint of the present invention, the voice data of two or more first attendees attending the remote conference transmitted from the first communication terminal provided at the first base. As a result of analyzing the voice data of one or more second attendees attending the remote conference transmitted from the second communication terminal provided at the second base, the speaker and the utterance of each utterance. An utterance information acquisition unit that acquires the attributes of the words included in the utterance, the speaker acquired by the utterance information acquisition unit, a storage unit that stores the attributes in association with each utterance, and the second attendee. When an utterance accompanied by a question to another attendee is made, the second or higher second or higher is based on a comparison between the attribute of the word included in the utterance accompanied by the question and the attribute memorized for each utterance in the storage unit. A destination identification unit that identifies the destination of the question from one attendee, and a transmission unit that transmits a notification requesting an answer to the destination specified by the destination identification unit to the first communication terminal. And, a remote conference support device is provided.
前記宛先者特定部は、前記記憶部に前記属性が記憶されている発話ごとに、前記問いかけを伴う発話に含まれる単語の属性と、前記記憶部に発話ごとに記憶された属性との比較に基づき評価値を算出し、当該評価値が最大であった発話に関連付けられている発話者を前記宛先者として特定してもよい。 The destination identification unit compares the attribute of the word included in the utterance accompanied by the question with the attribute stored for each utterance in the storage unit for each utterance in which the attribute is stored in the storage unit. An evaluation value may be calculated based on the evaluation value, and the speaker associated with the utterance having the maximum evaluation value may be specified as the destination.
前記評価値は、前記記憶部に記憶された発話ごとの属性のうちで、前記問いかけを伴う発話に含まれる単語の属性に一致する属性の数であってもよい。 The evaluation value may be the number of attributes of each utterance stored in the storage unit that match the attributes of the words included in the utterance accompanied by the question.
前記宛先者特定部は、前記記憶部に前記属性が記憶されている発話のうちで、所定の条件を満たす2以上の発話を前記属性の比較対象としてもよい。 The destination identification unit may compare two or more utterances satisfying a predetermined condition among the utterances in which the attribute is stored in the storage unit.
前記所定の条件は、最新の発話から所定数以内の発話であること、または、所定の時間内に行われた発話であること、を含んでもよい。 The predetermined condition may include that the utterance is within a predetermined number of utterances from the latest utterance, or that the utterance is made within a predetermined time.
前記宛先者特定部は、いずれの発話の評価値も所定の基準を上回らない場合、前記宛先者を特定しなくてもよい。 The destination identification unit does not have to specify the destination if the evaluation value of any utterance does not exceed a predetermined standard.
前記属性は、単語の品詞、または単語の意味的な分類を含んでもよい。 The attribute may include the part of speech of the word or the semantic classification of the word.
前記遠隔会議支援装置は、前記2以上の第1の出席者の音声データ、および前記1または2以上の第2の出席者の音声データを受信する受信部をさらに備え、前記発話情報取得部は、前記受信部により受信された音声データを解析することにより各発話の発話者および発話に含まれる単語の属性を取得してもよい。 The remote conference support device further includes a receiving unit that receives the voice data of the two or more first attendees and the voice data of the one or two or more second attendees, and the utterance information acquisition unit , The speaker of each utterance and the attributes of the words included in the utterance may be acquired by analyzing the voice data received by the receiving unit.
前記遠隔会議支援装置は、前記発話情報取得部により取得された前記音声データの解析結果に基づき、前記音声データが示す発話が前記問いかけを伴う発話であるか否かを判定する発話種別判定部をさらに備え、前記宛先者特定部は、発話情報取得部により前記問いかけを伴う発話であると判定された発話に関して、前記宛先者を特定してもよい。 The remote conference support device includes an utterance type determination unit that determines whether or not the utterance indicated by the voice data is an utterance accompanied by the question, based on the analysis result of the voice data acquired by the utterance information acquisition unit. Further, the destination identification unit may specify the destination with respect to the utterance determined by the utterance information acquisition unit to be an utterance accompanied by the question.
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、第1の拠点に設けられた第1の通信端末から送信された遠隔会議に出席する2以上の第1の出席者の音声データ、および第2の拠点に設けられた第2の通信端末から送信された前記遠隔会議に出席する1または2以上の第2の出席者の音声データの解析結果として、各発話の発話者および発話に含まれる単語の属性を取得する発話情報取得部と、前記発話情報取得部により取得された前記発話者、および前記属性を発話ごとに関連付けて記憶する記憶部と、前記第2の出席者が他の出席者への問いかけを伴う発話を行った場合、当該問いかけを伴う発話に含まれる単語の属性と、前記記憶部に発話ごとに記憶された属性との比較に基づき、前記2以上の第1の出席者から前記問いかけの宛先者を特定する宛先者特定部と、前記宛先者特定部により特定された宛先者に対して回答を要求する通知を前記第1の通信端末に送信する送信部と、として機能させるための、プログラムが提供される。 Further, in order to solve the above problems, according to another viewpoint of the present invention, the computer is used as two or more firsts to attend a remote conference transmitted from the first communication terminal provided at the first base. As a result of analysis of the voice data of the attendees and the voice data of one or more second attendees attending the remote conference transmitted from the second communication terminal provided at the second base, respectively. An utterance information acquisition unit that acquires the attributes of the utterance speaker and words included in the utterance, the speaker acquired by the utterance information acquisition unit, and a storage unit that stores the attributes in association with each utterance, and the above. When the second attendee makes an utterance accompanied by a question to another attendee, the attribute of the word included in the utterance accompanied by the question is compared with the attribute memorized for each utterance in the storage unit. , The first communication of the destination identification unit that identifies the destination of the question from the two or more first attendees and the notification requesting a reply from the destination specified by the destination identification unit. A program is provided to function as a transmitter to transmit to the terminal.
以上説明した本発明によれば、遠隔会議においてある出席者により行われた問いかけの宛先者を特定することが可能である。 According to the present invention described above, it is possible to identify the recipient of a question asked by a certain attendee in a remote conference.
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Embodiments of the present invention will be described in detail below with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成または論理的意義を有する複数の構成を、必要に応じて遠隔会議用端末10A及び10Bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。例えば、遠隔会議用端末10A及び10Bを特に区別する必要が無い場合には、各遠隔会議用端末を単に遠隔会議用端末10と称する。
Further, in the present specification and the drawings, a plurality of components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numerals. For example, a plurality of configurations having substantially the same functional configuration or logical significance are distinguished as necessary, such as
<1.遠隔会議システムの概要>
本発明の一実施形態は、遠隔する拠点間での遠隔会議を実現する遠隔会議システムに関する。以下、図1を参照し、本発明の一実施形態による遠隔会議システムの概要を説明する。
<1. Overview of teleconferencing system>
One embodiment of the present invention relates to a remote conference system that realizes a remote conference between remote bases. Hereinafter, an outline of the remote conference system according to the embodiment of the present invention will be described with reference to FIG.
図1は、本発明の一実施形態による遠隔会議システムの構成を示す説明図である。図1に示したように、本発明の一実施形態による遠隔会議システムは、拠点Aに設けられる遠隔会議用端末10A、拠点Bに設けられる遠隔会議用端末10B、およびクラウドサーバ20を有する。遠隔会議用端末10A、遠隔会議用端末10Bおよびクラウドサーバ20は、ネットワーク12により接続されている。ネットワーク12は、電話回線網、インターネット、衛星通信網などの公衆回線網や、LAN(Local Aera Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
FIG. 1 is an explanatory diagram showing a configuration of a remote conference system according to an embodiment of the present invention. As shown in FIG. 1, the remote conference system according to the embodiment of the present invention includes a
拠点Aおよび拠点Bは互いに遠隔する。図1では、拠点Aにおける遠隔会議への出席者として出席者A1および出席者A2が示されておりであり、拠点Bにおける遠隔会議への出席者として出席者B1および出席者B2が示されている。なお、遠隔の意味は、拠点Aおよび拠点Bが遠く離れた場所に存在することに限られず、拠点Aおよび拠点Bは同じ建物の別フロアに存在してもよいし、拠点Aおよび拠点Bは同一フロアの別部屋に存在してもよい。 Base A and Base B are remote from each other. In FIG. 1, attendees A1 and A2 are shown as attendees at the teleconference at the base A, and attendees B1 and B2 are shown as attendees at the teleconferencing at the base B. There is. The meaning of remoteness is not limited to the fact that the base A and the base B are located far apart, the base A and the base B may exist on different floors of the same building, and the base A and the base B may exist. It may exist in a separate room on the same floor.
(遠隔会議用端末)
遠隔会議用端末10は、各拠点で遠隔会議の出席者により共有される通信端末である。例えば、拠点Aは第1の拠点の一例であり、拠点Aで共有される遠隔会議用端末10Aは第1の通信端末の一例である。同様に、拠点Bは第2の拠点の一例であり、拠点Bで共有される遠隔会議用端末10Bは第2の通信端末の一例である。
(Terminal for remote conference)
The remote conference terminal 10 is a communication terminal shared by the attendees of the remote conference at each base. For example, the base A is an example of the first base, and the
遠隔会議用端末10は、遠隔会議を実現するための多様な機能を有する。例えば、遠隔会議用端末10は、遠隔会議用端末10が配置されている拠点を撮像して拠点の映像データを取得する撮像機能、遠隔会議用端末10が配置されている拠点に存在する出席者の音声を収音して音声データを取得する収音機能、他の拠点の遠隔会議用端末10と映像データおよび音声データを通信する機能、他の拠点遠隔会議用端末10から受信された映像データを表示する表示機能、他の拠点遠隔会議用端末10から受信された音声データを出力する音声出力機能を有する。 The remote conference terminal 10 has various functions for realizing a remote conference. For example, the remote conference terminal 10 has an imaging function of capturing an image of a base where the remote conference terminal 10 is located and acquiring video data of the base, and attendees existing at the base where the remote conference terminal 10 is located. Sound collection function that collects the voice of the other base and acquires voice data, a function that communicates video data and voice data with the remote conference terminal 10 of another base, video data received from the remote conference terminal 10 of another base It has a display function for displaying, and a voice output function for outputting voice data received from another base remote conference terminal 10.
具体的には、遠隔会議用端末10Aは、拠点Aの映像データおよび音声データを遠隔会議用端末10Bに送信し、遠隔会議用端末10Bが当該映像データの表示および当該音声データの出力を行う。また、遠隔会議用端末10Aは、拠点Bの映像データおよび音声データを遠隔会議用端末10Bから受信し、当該映像データの表示および当該音声データの出力を行う。これにより、拠点Aに存在する出席者A1およびA2と、拠点Bに存在する出席者B1およびB2が、互いの映像を見ながら対話することが可能となる。
Specifically, the
また、本発明の一実施形態による遠隔会議用端末10は、収音機能により取得された音声データをクラウドサーバ20に送信する。また、遠隔会議用端末10は、詳細については後述する回答要求通知をクラウドサーバ20から受信すると、当該回答要求通知を表示または音声により出力する。
Further, the remote conference terminal 10 according to the embodiment of the present invention transmits the voice data acquired by the sound collecting function to the
なお、図1においては遠隔会議用端末10としてデスクトップ型のPC(Personal Computer)を示しているが、遠隔会議用端末10は、ノートPC、タブレット端末および大型ディスプレイを備える端末などの他の情報処理装置であってもよい。 Although the remote conference terminal 10 shows a desktop PC (Personal Computer) in FIG. 1, the remote conference terminal 10 may be used for other information processing such as a notebook PC, a tablet terminal, and a terminal having a large display. It may be a device.
(クラウドサーバ)
クラウドサーバ20は、遠隔会議を支援する遠隔会議支援装置の一例である。クラウドサーバ20は、遠隔会議用端末10Aおよび遠隔会議用端末10Bから音声データを受信し、当該音声データを解析する。音声データが質問または確認など誰かへの問いかけを伴う発話である場合、クラウドサーバ20は、当該問いかけの宛先者を特定し、宛先者に対して回答を要求する回答要求通知を遠隔会議用端末10Aまたは遠隔会議用端末10Bに送信する。以下、このようなクラウドサーバ20の構成および動作を順次詳細に説明する。
(Cloud server)
The
なお、図2においてはクラウドサーバ20として1つのサーバを示しているが、以下に説明するクラウドサーバ20の機能は複数のサーバからなるサーバ群に分散して実装されてもよい。
Although one server is shown as the
<2.クラウドサーバの構成>
図2は、本発明の一実施形態によるクラウドサーバ20の構成を示す説明図である。図2に示したように、本発明の一実施形態によるクラウドサーバ20は、通信部220、音声データ解析部230、記憶部240、発話種別判定部250および宛先者特定部260を備える。
<2. Cloud server configuration>
FIG. 2 is an explanatory diagram showing a configuration of a
(通信部)
通信部220は、遠隔会議用端末10と多様なデータを通信する。例えば、通信部220は、遠隔会議用端末10Aおよび遠隔会議用端末10Bから音声データを受信する受信部としての機能、および、遠隔会議用端末10Aまたは遠隔会議用端末10Bに回答要求通知を送信する送信部としての機能を有する。
(Communication Department)
The
(音声データ解析部)
音声データ解析部230は、発話情報取得部の一例であり、通信部220により受信された音声データの解析結果として、各発話の発話者、各発話に含まれる単語、および当該単語の属性などの発話解析データを取得する。音声データ解析部230は、例えば、通信部220により受信された音声データを自然言語処理により解析することで各発話に含まれる特徴的な単語を抽出し、人工知能により当該単語の属性を決定してもよい。単語の属性としては、単語の品詞、および単語の意味的な分類である意味分類が挙げられる。例えば、「来月」という単語の品詞は「一般名詞」であり、意味分類は「時期」である。なお、音声データの解析は他のサーバで行われ、r20は当該解析の結果として発話解析データを取得してもよく、この場合、r20は音声データの解析機能を有さなくてもよい。
(Voice data analysis department)
The voice
(記憶部)
記憶部240は、クラウドサーバ20の動作に用いられる多様なデータを記憶する。例えば、記憶部240は、各出席者の氏名および音声の特徴を記憶していてもよい。また、本発明の一実施形態による記憶部240は、音声データ解析部230により取得された発話解析データを記憶する。以下、図3および図4を参照し、記憶部240に記憶される発話解析データの具体例を説明する。
(Memory)
The
図3は、各出席者により行われる発話の具体例を示す説明図である。図3に示した例では、出席者A1が「XXの発売は来月です。」という発話V1を行い、次に出席者A2が「来月XXが店頭に並ぶのは関東でのみです。」という発話V2を行い、続いて出席者B1が「XXが全国の店頭に並ぶのはいつ頃ですか?」という発話V3を行う。この場合、例えば図4に示す発話解析データが取得され、記憶部240に記憶される。
FIG. 3 is an explanatory diagram showing a specific example of utterances made by each attendee. In the example shown in Fig. 3, attendee A1 makes an utterance V1 saying "XX will be released next month." Then attendee A2 says "XX will be on the shelves next month only in Kanto." The utterance V2 is made, and then the attendee B1 makes the utterance V3 "When will XX be lined up in stores nationwide?" In this case, for example, the utterance analysis data shown in FIG. 4 is acquired and stored in the
図4は、記憶部240に記憶される発話解析データの具体例を示す説明図である。図4に示したように、発話解析データは、発話ごとに発話ID、発話者、単語、品詞および意味分類が関連付けられたデータである。例えば、図4に示した発話解析データは、発話V1の発話者が出席者A1であり、発話V1から単語XX(品詞:固有名詞、意味分類:物品)、発売(品詞:一般名詞、意味分類:イベント)、および来月(品詞:一般名詞、意味分類:時期)が抽出されたことを示す。
FIG. 4 is an explanatory diagram showing a specific example of the utterance analysis data stored in the
(発話種別判定部)
発話種別判定部250は、記憶部240に記憶された発話解析データに基づき、各発話が問いかけを伴う発話であるか否かを判定する。各発話が問いかけを伴う発話であるか否かの判定方法は特に限定されない。例えば、発話種別判定部250は、発話の内容を5W1Hの文章に置き換え可能である場合には当該発話が問いかけを伴う発話であると判定してもよい。または、発話種別判定部250は、問いかけを伴う発話である正解データと発話の内容を比較し、正解データと発話の内容が一致する場合、または、正解データと発話の内容が類似する場合、当該発話が問いかけを伴う発話であると判定してもよい。
(Utterance type judgment unit)
The utterance
(宛先者特定部)
宛先者特定部260は、発話種別判定部250により問いかけを伴う発話であると判定された発話について、当該問いかけの宛先者を特定する。例えば、宛先者特定部260は、記憶部240に発話解析データが記憶されている発話ごとに、問いかけを伴う発話に含まれる単語の意味分類と、記憶部240に発話ごとに記憶されている各単語の意味分類との比較に基づき評価値を算出し、評価値が最大であった発話に関連付けられている発話者を宛先者として特定してもよい。以下、図5〜図7を参照し、宛先者の特定の具体例を説明する。
(Destination identification department)
The
図5は、宛先者の特定の第1の具体例を示す説明図である。より詳細には、図5には、図3に示した出席者B1による発話V3が問いかけを伴う発話であると判定され、当該発話V3について図4に示した発話解析データが取得された場合の宛先者の特定例を示している。 FIG. 5 is an explanatory diagram showing a specific first specific example of the destination. More specifically, in FIG. 5, it is determined that the utterance V3 by the attendee B1 shown in FIG. 3 is an utterance accompanied by a question, and the utterance analysis data shown in FIG. 4 is acquired for the utterance V3. A specific example of the destination is shown.
この場合、図5に示したように、発話V1では、単語「XX」の意味分類「物品」が発話V3に含まれる単語「XX」の意味分類「物品」に一致し、単語「来月」の意味分類「時期」が発話V3に含まれる単語「いつ」の意味分類「時期」に一致する。従って、宛先者特定部260は、発話V1に含まれる単語の意味分類のうちで、問いかけを伴う発話V3に含まれる単語の意味分類に一致する意味分類の数である「2」を発話V1に対する評価値として算出する。
In this case, as shown in FIG. 5, in the utterance V1, the meaning classification "article" of the word "XX" matches the meaning classification "article" of the word "XX" included in the utterance V3, and the word "next month". The meaning classification "time" of is consistent with the meaning classification "time" of the word "when" included in the utterance V3. Therefore, the
また、発話V2では、単語「XX」の意味分類「物品」が発話V3に含まれる単語「XX」の意味分類「物品」に一致し、単語「来月」の意味分類「時期」が発話V3に含まれる単語「いつ」の意味分類「時期」に一致し、単語「関東」の意味分類「地区」が発話V3に含まれる単語「全国」の意味分類「地区」に一致する。従って、宛先者特定部260は、発話V2に含まれる単語の意味分類のうちで、問いかけを伴う発話V3に含まれる単語の意味分類に一致する意味分類の数である「3」を発話V2に対する評価値として算出する。
Further, in the utterance V2, the meaning classification "article" of the word "XX" matches the meaning classification "article" of the word "XX" included in the utterance V3, and the meaning classification "time" of the word "next month" is the utterance V3. The meaning classification "time" of the word "when" included in is matched, and the meaning classification "district" of the word "Kanto" is matched with the meaning classification "district" of the word "nationwide" included in the utterance V3. Therefore, the
図5に示した例では、発話V2の評価値「3」が最大であるので、宛先者特定部260は、当該発話V2に関連付けられている出席者A2を宛先者として特定する。
In the example shown in FIG. 5, since the evaluation value “3” of the utterance V2 is the maximum, the
図6は、宛先者の特定の第2の具体例を示す説明図である。より詳細には、図6には、図3に示した出席者B1による発話V3が問いかけを伴う発話であると判定され、当該発話V3について図4に示した発話解析データが取得された場合の宛先者の特定例を示している。一方、発話V1および発話V2については図6に示した発話解析データが取得されていたものとする。 FIG. 6 is an explanatory diagram showing a specific second specific example of the destination. More specifically, in FIG. 6, it is determined that the utterance V3 by the attendee B1 shown in FIG. 3 is an utterance accompanied by a question, and the utterance analysis data shown in FIG. 4 is acquired for the utterance V3. A specific example of the destination is shown. On the other hand, it is assumed that the utterance analysis data shown in FIG. 6 has been acquired for the utterance V1 and the utterance V2.
図6に示した例では、発話V1の評価値および発話V2の評価値が共に最大の「3」である。宛先者特定部260は、このように複数の発話が同一の最大評価値を有する場合には、これら複数の発話に関連付けられている全ての出席者を宛先者、または宛先者の候補として特定する。従って、図6に示した例では、出席者A1および出席者A2の双方が宛先者として特定される。
In the example shown in FIG. 6, the evaluation value of the utterance V1 and the evaluation value of the utterance V2 are both the maximum "3". When a plurality of utterances have the same maximum evaluation value in this way, the
図7は、宛先者の特定の第3の具体例を示す説明図である。より詳細には、図7には、図3に示した出席者B1による発話V3が問いかけを伴う発話であると判定され、当該発話V3について図4に示した発話解析データが取得された場合の宛先者の特定例を示している。一方、発話V1および発話V2については図7に示した発話解析データが取得されていたものとする。 FIG. 7 is an explanatory diagram showing a specific third specific example of the destination. More specifically, in FIG. 7, it is determined that the utterance V3 by the attendee B1 shown in FIG. 3 is an utterance accompanied by a question, and the utterance analysis data shown in FIG. 4 is acquired for the utterance V3. A specific example of the destination is shown. On the other hand, it is assumed that the utterance analysis data shown in FIG. 7 has been acquired for the utterance V1 and the utterance V2.
図7に示した例では、発話V1の評価値および発話V2の評価値が共に「0」である。宛先者特定部260は、いずれの発話の評価値も所定の基準を上回らない場合、例えばいずれの発話の評価値も「1」を上回らない場合、宛先者を特定しない。従って、図7に示した例では、出席者A1および出席者A2のいずれも宛先者として特定されない。
In the example shown in FIG. 7, the evaluation value of the utterance V1 and the evaluation value of the utterance V2 are both “0”. The
(回答要求通知の具体例)
宛先者特定部260により宛先者が特定されると、通信部220が宛先者への回答要求通知を宛先者が存在する側の拠点の遠隔会議用端末10に送信する。回答要求通知を受信した遠隔会議用端末10は、宛先者に表示または音声出力により問いかけに対する回答を要求する。ここで、図8を参照し、表示により回答が要求される例を説明する。
(Specific example of response request notification)
When the destination is specified by the
図8は、回答を要求する表示の具体例を示す説明図である。図8には、遠隔会議用端末10Aが表示する対話画面40を示している、当該対話画面40には、拠点Bに存在する出席者B1および出席者B2の映像が含まれる。また、対話画面40は、出席者A1に回答を要求する表示として、システムメッセージ42を含む。システムメッセージは、例えば、出席者A1に問いかけが行われたことを示す「A1さんへの問いかけです。」というメッセージ、および、出席者A1さんに回答を要求する「A1さん、ご回答下さい。」というメッセージを含む。出席者A1は、当該システムメッセージ42に基づき、発話V3が自身への問いかけであることを把握し、当該問いかけに対して回答することが可能である。
FIG. 8 is an explanatory diagram showing a specific example of a display requesting an answer. FIG. 8 shows a
<3.クラウドサーバの動作>
以上、本発明の一実施形態によるクラウドサーバ20の構成を説明した。続いて、図9および図10を参照して、本発明の一実施形態によるクラウドサーバ20の動作を整理する。
<3. Cloud server operation>
The configuration of the
図9は、本発明の一実施形態によるクラウドサーバ20の動作を示すフローチャートである。図9に示したように、まず、クラウドサーバ20は音声データの収集および解析を行う(S310)。そして、音声データが示す発話の種別を発話種別判定部250が判定し(S320)、発話の種別が問いかけを伴う発話でない場合(S330/No)、S310からの処理が繰り返される。
FIG. 9 is a flowchart showing the operation of the
一方、発話の種別が問いかけを伴う発話である場合(S330/Yes)、処理はS340に進められる。すなわち、宛先者特定部260が、記憶部240に記憶されている各発話の音声解析データに基づき、問いかけの宛先者を特定する(S340)。そして、1人の宛先者が特定された場合(S350/1人)、通信部220が1人の宛先者への回答要求通知を送信する(S360)。複数人の宛先者が特定された場合(S350/複数人)、通信部220が複数人の宛先者への回答要求通知を送信する(S370)。一方、宛先者が特定されなかった場合(S350/0人)、回答要求通知の送信は行われない。ただし、当該発話は誰かへの問いかけが行われている発話であるので、通信部220は、問いかけが行われていることを示す通知を送信してもよい。その後、機能が継続される間、S310からの処理が繰り返される(S380/Yes)。
On the other hand, when the type of utterance is an utterance accompanied by a question (S330 / Yes), the process proceeds to S340. That is, the
図10は、音声データの収集および解析の詳細を示すフローチャートである。まず、通信部220が音声データの受信を待ち(S311)、通信部220が音声データを受信すると(S312/Yes)、音声データ解析部230が例えば自然言語処理により音声データを解析する(S313)。そして、当該解析により得られた、各発話の発話者、各発話に含まれる単語、および当該単語の属性などを含む発話解析データを記憶部240が記憶する(S314)。その後、機能が継続される間、S311からの処理が繰り返される(S315/Yes)。併せて、図9を参照して説明したS320からの処理が進められる。
FIG. 10 is a flowchart showing details of voice data collection and analysis. First, when the
<4.作用効果>
以上説明したように、本発明の一実施形態によれば、遠隔会議において問いかけを伴う発話が行われた場合に、当該問いかけに回答すべき出席者を容易に把握できるようになる。このため、回答者を確認するやり取りの発生を抑制すること、発話者が宛先者の氏名などを事前に確認する手間を省くこと、などが可能となり、結果、遠隔会議の効率化が実現される。
<4. Action effect>
As described above, according to the embodiment of the present invention, when an utterance accompanied by a question is made in a remote conference, the attendees who should answer the question can be easily grasped. For this reason, it is possible to suppress the occurrence of exchanges for confirming the respondents, save the time and effort for the speaker to confirm the name of the recipient in advance, and as a result, the efficiency of the remote conference is realized. ..
また、本発明の一実施形態では、発話に含まれる単語の一致数ではなく、発話に含まれる単語の意味分類の一致数に基づいて評価値の算出が行われる。従って、問いかけを伴う発話が、過去の発話で用いられた単語と同一の単語を含んでいない場合でも適切に評価値を算出し、宛先者を特定することが可能である。 Further, in one embodiment of the present invention, the evaluation value is calculated based on the number of matches of the meaning classification of the words included in the utterance, not the number of matches of the words included in the utterance. Therefore, even if the utterance accompanied by the question does not include the same word as the word used in the past utterance, it is possible to appropriately calculate the evaluation value and identify the destination.
<5.変形例>
以上、本発明の一実施形態を説明した。以下では、上述した実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で上述した実施形態に適用されてもよいし、組み合わせで上述した実施形態に適用されてもよい。また、各変形例は、上述した実施形態で説明した構成に代えて適用されてもよいし、上述した実施形態で説明した構成に対して追加的に適用されてもよい。
<5. Modification example>
The embodiment of the present invention has been described above. Hereinafter, some modifications of the above-described embodiment will be described. In addition, each modification described below may be applied alone to the above-described embodiment, or may be applied in combination to the above-described embodiment. Further, each modification may be applied in place of the configuration described in the above-described embodiment, or may be additionally applied to the configuration described in the above-described embodiment.
(第1の変形例)
上記では、宛先者特定部260が意味分類の一致数を評価値として算出する例を説明したが、評価値の算出は他の方法で行われてもよい。例えば、宛先者特定部260は、一致した意味分類に重み付けをして、重みの合計値を評価値として算出してもよい。この場合、特徴的な単語の意味分類の重みを大きくすることで、より適切な評価値が算出されることが期待される。
(First modification)
In the above, the example in which the
(第2の変形例)
また、上記では、宛先者特定部260が各発話の評価値を同じ基準で算出する例を説明したが、各発話の評価値は異なる基準で算出されてもよい。例えば、ある出席者が過去の他の出席者の発話に関連して当該他の出席者に対して問いかけを行う発話を行うことを考えると、問いかけの元になった発話は、問いかけを行う発話と時間的に近くで行われている可能性が高い。このため、宛先者特定部260は、時間的により新しい発話には、より大きな重みを与えて評価値を算出してもよい。かかる構成により、宛先者の特定の精度を向上することが可能である。
(Second modification)
Further, in the above, the example in which the
(第3の変形例)
第2の変形例に関連し、問いかけを行う発話と時間的に離れて行われた発話が問いかけの元になっている可能性は低い。そこで、宛先者特定部260は、記憶部240に発話解析データが記憶されている発話のうちで、所定の条件を満たす2以上の発話を評価値の算出対象としてもよい。所定の条件としては、最新の発話から所定数以内の発話であること、または、所定の時間内に行われた発話であること、などが挙げられる。かかる構成によっても、宛先者の特定の精度を向上することが可能である。
(Third variant)
In relation to the second variant, it is unlikely that the utterance that asks the question and the utterance that is made at a time lag are the source of the question. Therefore, the
<6.ハードウェア構成>
以上、本発明の一実施形態および変形例を説明した。上述した音声データの解析および宛先者の特定などの情報処理は、ソフトウェアと、以下に説明するクラウドサーバ20のハードウェアとの協働により実現される。なお、以下に説明するハードウェア構成は遠隔会議用端末10にも適用可能である。
<6. Hardware configuration>
An embodiment and a modification of the present invention have been described above. The information processing such as the analysis of the voice data and the identification of the destination described above is realized by the cooperation between the software and the hardware of the
図11は、クラウドサーバ20のハードウェア構成を示したブロック図である。クラウドサーバ20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、クラウドサーバ20は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。
FIG. 11 is a block diagram showing the hardware configuration of the
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従ってクラウドサーバ20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、図2を参照して説明した音声データ解析部230、発話種別判定部250および宛先者特定部260などの機能が実現され得る。
The
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
The
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。クラウドサーバ20のユーザは、該入力装置208を操作することにより、クラウドサーバ20に対して各種のデータを入力したり処理動作を指示したりすることができる。
The
表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。
The
ストレージ装置211は、本実施形態にかかるクラウドサーバ20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。
The
ドライブ212は、記憶媒体用リーダライタであり、クラウドサーバ20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
The
ネットワークインターフェース215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
The
<7.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<7. Supplement>
Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is clear that a person having ordinary knowledge in the field of technology to which the present invention belongs can come up with various modifications or modifications within the scope of the technical ideas described in the claims. , These are also naturally understood to belong to the technical scope of the present invention.
例えば、本明細書のクラウドサーバ20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、クラウドサーバ20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
For example, each step in the processing of the
また、遠隔会議用端末10およびクラウドサーバ20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した遠隔会議用端末10およびクラウドサーバ20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
Further, a computer for causing the hardware such as the CPU, ROM, and RAM built in the remote conference terminal 10 and the
10 遠隔会議用端末
20 クラウドサーバ
220 通信部
230 音声データ解析部
240 記憶部
250 発話種別判定部
260 宛先者特定部
10
Claims (10)
前記発話情報取得部により取得された前記発話者、および前記属性を発話ごとに関連付けて記憶する記憶部と、
前記第2の出席者が他の出席者への問いかけを伴う発話を行った場合、当該問いかけを伴う発話に含まれる単語の属性と、前記記憶部に発話ごとに記憶された属性との比較に基づき、前記2以上の第1の出席者から前記問いかけの宛先者を特定する宛先者特定部と、
前記宛先者特定部により特定された宛先者に対して回答を要求する通知を前記第1の通信端末に送信する送信部と、
を備える、遠隔会議支援装置。 Voice data of two or more first attendees attending the remote conference transmitted from the first communication terminal provided at the first base, and transmitted from the second communication terminal provided at the second base. As a result of analyzing the voice data of one or more second attendees attending the remote conference, the utterance information acquisition unit for acquiring the speaker of each utterance and the attributes of the words included in the utterance, and the utterance information acquisition unit.
The speaker acquired by the utterance information acquisition unit, a storage unit that stores the attributes in association with each utterance, and a storage unit.
When the second attendee makes an utterance accompanied by a question to another attendee, the attribute of the word included in the utterance accompanied by the question is compared with the attribute memorized for each utterance in the storage unit. Based on the addressee identification unit that identifies the addressee of the question from the two or more first attendees,
A transmission unit that transmits a notification requesting a reply to the destination person specified by the destination person identification unit to the first communication terminal, and a transmission unit.
A remote conference support device equipped with.
前記発話情報取得部は、前記受信部により受信された音声データを解析することにより各発話の発話者および発話に含まれる単語の属性を取得する、請求項1〜7までのいずれか一項に記載の遠隔会議支援装置。 The teleconferencing support device further includes a receiving unit that receives the voice data of the two or more first attendees and the voice data of the one or more second attendees.
The utterance information acquisition unit acquires the attributes of the speaker of each utterance and the words included in the utterance by analyzing the voice data received by the utterance unit, according to any one of claims 1 to 7. The teleconference support device described.
前記宛先者特定部は、発話情報取得部により前記問いかけを伴う発話であると判定された発話に関して、前記宛先者を特定する、請求項8に記載の遠隔会議支援装置。 The remote conference support device has an utterance type determination unit that determines whether or not the utterance indicated by the voice data is an utterance accompanied by the question, based on the analysis result of the voice data acquired by the utterance information acquisition unit. Further prepare
The remote conference support device according to claim 8, wherein the destination identification unit identifies the destination with respect to an utterance determined by the utterance information acquisition unit to be an utterance accompanied by the question.
第1の拠点に設けられた第1の通信端末から送信された遠隔会議に出席する2以上の第1の出席者の音声データ、および第2の拠点に設けられた第2の通信端末から送信された前記遠隔会議に出席する1または2以上の第2の出席者の音声データの解析結果として、各発話の発話者および発話に含まれる単語の属性を取得する発話情報取得部と、
前記発話情報取得部により取得された前記発話者、および前記属性を発話ごとに関連付けて記憶する記憶部と、
前記第2の出席者が他の出席者への問いかけを伴う発話を行った場合、当該問いかけを伴う発話に含まれる単語の属性と、前記記憶部に発話ごとに記憶された属性との比較に基づき、前記2以上の第1の出席者から前記問いかけの宛先者を特定する宛先者特定部と、
前記宛先者特定部により特定された宛先者に対して回答を要求する通知を前記第1の通信端末に送信する送信部と、
として機能させるための、プログラム。
Computer,
Voice data of two or more first attendees attending the remote conference transmitted from the first communication terminal provided at the first base, and transmitted from the second communication terminal provided at the second base. As a result of analyzing the voice data of one or more second attendees attending the remote conference, the utterance information acquisition unit for acquiring the speaker of each utterance and the attributes of the words included in the utterance, and the utterance information acquisition unit.
The speaker acquired by the utterance information acquisition unit, a storage unit that stores the attributes in association with each utterance, and a storage unit.
When the second attendee makes an utterance accompanied by a question to another attendee, the attribute of the word included in the utterance accompanied by the question is compared with the attribute memorized for each utterance in the storage unit. Based on the addressee identification unit that identifies the addressee of the question from the two or more first attendees,
A transmission unit that transmits a notification requesting a reply to the destination person specified by the destination person identification unit to the first communication terminal, and a transmission unit.
A program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020027074A JP2021132317A (en) | 2020-02-20 | 2020-02-20 | Remote conference support device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020027074A JP2021132317A (en) | 2020-02-20 | 2020-02-20 | Remote conference support device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021132317A true JP2021132317A (en) | 2021-09-09 |
Family
ID=77552221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020027074A Pending JP2021132317A (en) | 2020-02-20 | 2020-02-20 | Remote conference support device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021132317A (en) |
-
2020
- 2020-02-20 JP JP2020027074A patent/JP2021132317A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11688399B2 (en) | Computerized intelligent assistant for conferences | |
KR100884297B1 (en) | Electronic conference assistance method, and information terminal device in electronic conference system | |
TWI536365B (en) | Voice print identification | |
US9319442B2 (en) | Real-time agent for actionable ad-hoc collaboration in an existing collaboration session | |
JP2020532757A (en) | Intercom-type communication using multiple computing devices | |
US20190379742A1 (en) | Session-based information exchange | |
US11349841B2 (en) | Managing user access to restricted content through intelligent content redaction | |
EP4052255A1 (en) | Privacy-aware meeting room transcription from audio-visual stream | |
US10678941B2 (en) | Privacy focused network sensor device object recognition | |
US8788621B2 (en) | Method, device, and computer product for managing communication situation | |
WO2014106430A1 (en) | Method, device and system for scheduling meetings | |
CN116762125A (en) | Environment collaboration intelligent system and method | |
JP2020087105A (en) | Information processing method, information processing apparatus and computer program | |
KR20170126667A (en) | Method for generating conference record automatically and apparatus thereof | |
JP7176188B2 (en) | Information generation system, information generation method, information processing device, program | |
US20230048703A1 (en) | Server device, conference assistance system, and conference assistance method | |
JP2021132317A (en) | Remote conference support device and program | |
US20230134143A1 (en) | Real-Time Video-Based Audience Reaction Sentiment Analysis | |
JP2010191808A (en) | Scheduling program, scheduling method, and scheduling device | |
JP2021018664A (en) | Information processing system, information processing method and program | |
JP7377583B1 (en) | program | |
WO2021171449A1 (en) | Server device, conference assistance system, conference assistance method, and program | |
WO2021171613A1 (en) | Server device, conference assistance system, conference assistance method, and program | |
WO2021065098A1 (en) | Information processing device, information processing system, and information processing method | |
WO2024042817A1 (en) | Information providing device and information providing method |