JP2017201737A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2017201737A JP2017201737A JP2016092386A JP2016092386A JP2017201737A JP 2017201737 A JP2017201737 A JP 2017201737A JP 2016092386 A JP2016092386 A JP 2016092386A JP 2016092386 A JP2016092386 A JP 2016092386A JP 2017201737 A JP2017201737 A JP 2017201737A
- Authority
- JP
- Japan
- Prior art keywords
- text
- information processing
- unit
- processing apparatus
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、テキスト化される発言に基づくデータを出力する技術に関する。 The present invention relates to a technique for outputting data based on an utterance that is converted into text.
従来、離れた拠点間での会議を可能とするために、各拠点における会議参加者の映像や音声などを他の拠点に向けて配信する多地点会議システムがある。また、会議参加者の発言をテキスト化してディスプレイなどに表示することで、会議の内容を視覚的に認識できるようにする会議システムも存在する。特許文献1には、会議中の発言をテキスト化し、そのテキストと各発言の発言時刻及び発言者を示す情報とを関連付けた議事録ファイルを作成することが記載されている。 2. Description of the Related Art Conventionally, in order to enable a conference between remote sites, there is a multipoint conference system that distributes video and audio of conference participants at each site to other sites. In addition, there is a conference system that makes it possible to visually recognize the content of the conference by converting the speech of the conference participant into text and displaying it on a display or the like. Patent Document 1 describes that a statement file in a meeting is made into text, and a minutes file is created in which the text is associated with information indicating a comment time and a speaker of each comment.
しかしながら、特許文献1の方法では、発言をテキスト化した結果をイベントの発生に応じて表示することができず、表示がユーザにとって理解しにくくなる場合が考えられる。例えば、多地点会議システムによる会議において、複数の拠点のそれぞれに複数人の参加者がいる場合を考える。この場合に、異なる拠点の参加者全体に向けた発言と同じ拠点内の参加者のみに向けた発言とが区別されずにまとめてテキスト化されると、ユーザはそのテキスト化された結果から会議の内容を理解しづらい虞がある。なお、多地点会議システムに限らず、2つの拠点間で会議を行う場合においても、同様の課題がある。また、1つの拠点の中で行われる会議の発言をテキスト化する場合にも同様の課題がある。 However, with the method of Patent Document 1, it is possible that the result of texting a statement cannot be displayed according to the occurrence of an event, and the display becomes difficult for the user to understand. For example, consider a case where there are a plurality of participants at each of a plurality of bases in a conference by a multipoint conference system. In this case, if the statements made for all participants at different locations and the statements made only for participants in the same location are made into a text without being distinguished, the user can make a conference based on the textual results. May be difficult to understand. In addition, not only in a multipoint conference system but also in a case where a conference is held between two bases, there is a similar problem. There is a similar problem when texts of conferences held in one site are converted into texts.
本発明は上記課題に鑑みてなされたものであり、発言をテキスト化した結果の表示において、イベントの発生に応じた理解しやすい表示を可能とするための技術を提供することを目的とする。 The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a technique for enabling easy-to-understand display according to the occurrence of an event in the display of a result obtained by converting a statement into text.
上記課題を解決するため、本発明に係る情報処理装置は、例えば以下の構成を有する。すなわち、人物の発言であって表示のためにテキスト化される発言に基づくデータを取得する取得手段と、前記テキスト化される発言を行う人物の動作に応じた所定のイベントが発生したことを判別する判別手段と、前記取得手段が取得した前記テキスト化される発言に基づくデータの出力を、前記判別手段による判別結果に基づいて切り替える切り替え手段とを有する。 In order to solve the above problems, an information processing apparatus according to the present invention has, for example, the following configuration. That is, it is determined that an acquisition unit that acquires data based on a person's utterance that is converted into text for display, and that a predetermined event corresponding to the action of the person who performs the textized utterance has occurred Discriminating means for switching, and switching means for switching the output of data based on the utterance made into text acquired by the acquiring means based on the determination result by the discriminating means.
本発明によれば、発言をテキスト化した結果の表示において、イベントの発生に応じた理解しやすい表示が可能となる。 According to the present invention, an easy-to-understand display according to the occurrence of an event can be performed in the display of the result of converting a comment into text.
以下、本発明の実施形態について図面を参照して説明する。なお、以下の実施形態で説明する全ての構成が本発明に必須であるとは限らない。 Embodiments of the present invention will be described below with reference to the drawings. Note that not all configurations described in the following embodiments are essential to the present invention.
[システム構成]
図1を用いて、本実施形態に係る多地点会議システム10の全体構成を説明する。多地点会議システム10は、配信装置100と、拠点A、拠点B及び拠点Cのそれぞれに設置された通信装置101、マイク102、カメラ103及び表示装置104とを有する。マイク102、カメラ103及び表示装置104はそれぞれが同一拠点の通信装置101と接続されている。また、各拠点に設置された通信装置101はそれぞれがネットワークを介して配信装置100と接続されている。ユーザは多地点会議システム10を使用することで、映像や音声、データなどを拠点間でリアルタイムに共有する事ができる。また、多地点会議システム10は、各拠点に存在する人物の発言を表示可能となるようにテキスト化する。
[System configuration]
The overall configuration of the
本実施形態では、配信装置100が拠点A、拠点B及び拠点Cの3拠点間での通信を制御する場合の多地点会議システム10を中心に説明する。ただしこれに限らず、配信装置100は、4以上の拠点にそれぞれ設置された通信装置101と接続されてそれらの拠点間の通信を制御してもよいし、2拠点間の通信を制御してもよい。また、各拠点に設置された通信装置101の少なくとも何れかが配信装置100の機能を有し、通信装置101同士が直接接続されて通信を行ってもよい。また、マイク102、カメラ103及び表示装置104の少なくとも何れかが通信装置101と一体となって構成されていてもよい。この場合、マイク102は通信装置101の集音部、カメラ103は撮像部、表示装置104は表示部としてそれぞれ機能する。さらに、通信装置101、マイク102、カメラ103及び表示装置104の少なくとも何れかが同一の拠点内に複数設置されていてもよいし、マイク102、カメラ103及び表示装置104の少なくとも何れかが存在しない拠点があってもよい。
In the present embodiment, the
次に、多地点会議システム10に含まれる各装置の機能について説明する。マイク102は、例えば会議参加者の発言など拠点内の音声を集音し、通信装置101に出力する。カメラ103は、例えば会議参加者が存在する会議室など拠点内の所定領域を撮像し、撮像画像を通信装置101に出力する。本実施形態ではカメラ103が出力する撮像画像は動画であるものとするが、カメラ103は静止画を出力してもよい。表示装置104は、通信装置101から入力された画像データを表示する。通信装置101から入力される画像データには、例えば他拠点において撮像された撮像画像や、会議中の発言をテキスト化した文字などが含まれる。図5は表示装置104による表示内容の一例である。また本実施形態では、表示装置104はスピーカを備えており、通信装置101から入力されたオーディオデータに基づいて音声を出力する。表示装置104の具体例は、液晶ディスプレイやプロジェクタ等である。なお、スピーカは表示装置104とは別個に設置されていてもよい。
Next, functions of each device included in the
通信装置101は、マイク102から入力された音声に基づいてオーディオデータを生成し、配信装置100に送信する。また通信装置101は、カメラ103から入力された撮像画像を配信装置100に送信する。そして通信装置101は、各拠点において集音された音声に基づくオーディオデータを配信装置100から受信し、スピーカを有する表示装置104に出力する。さらに通信装置101は、各拠点において集音された音声をテキスト化した文字データと各拠点において撮像された撮像画像を配信装置100から受信し、各拠点における発言内容と撮像画像とを含む画像データを生成し、表示装置104に出力する。
The
配信装置100は、図2に示すように、変換部300とセッション管理部301とを有する。変換部300は、セッション管理部301が各拠点の通信装置101から受信したオーディオデータに対して音声認識処理を行うことで、オーディオデータに含まれる発言をテキスト化し、文字データを生成する。具体的には、変換部300はオーディオデータから特徴量を算出し、配信装置100に記憶されている特徴量のデータベースと比較することで、オーディオデータに含まれる発言を文字に変換する。なお、音声認識の方法はこれに限らず他の方法であってもよい。セッション管理部301は、各拠点の通信装置101からオーディオデータ及び撮像画像を受信する。そしてセッション管理部301は、受信したオーディオデータ及び撮像画像を、そのオーディオデータに基づいて変換部300により生成された文字データと共に各拠点の通信装置101に送信する。ここでセッション管理部301は、データの送信に用いるセッションを各拠点におけるイベントの発生状況に応じて制御する。このセッション制御の詳細については後述する。なお本実施形態におけるセッションとは、例えばHTTP(Hypertext Transfer Protocol)においてセッションIDを用いて管理されるHTTPセッションのような、識別可能な一連の通信の単位である。配信装置100は、異なる通信装置101に対して異なるセッションを用いてデータの送受信を行う。また、配信装置100が同一の通信装置101に対して複数のセッションを用いてデータを送信した場合、通信装置101は受信したデータをセッションごとに区別して処理することができる。
As illustrated in FIG. 2, the
[ハードウェア構成]
図3は、本実施形態に係る配信装置100のハードウェア構成を示すブロック図である。なお、通信装置101も配信装置100と同様の構成である。配信装置100は、CPU201、ROM202、RAM203、補助記憶装置204、操作部205、通信部206、及びバス207を有する。
[Hardware configuration]
FIG. 3 is a block diagram illustrating a hardware configuration of the
CPU201は、ROM202やRAM203に格納されているコンピュータプログラムやデータを用いて配信装置100の全体を制御する。ROM202は、変更を必要としないプログラムやパラメータを格納する。RAM203は、補助記憶装置204から供給されるプログラムやデータ、及び通信部206を介して外部から供給されるデータなどを一時記憶する。補助記憶装置204は、例えばハードディスクドライブ等で構成され、画像データや音声データなどのコンテンツデータを記憶する。
The CPU 201 controls the
操作部205は、例えばキーボードやマウス等で構成され、ユーザによる操作を受けて各種の指示をCPU201に入力する。通信部206は、通信装置101などの外部の装置と通信を行う。例えば、配信装置100が外部の装置と有線で接続される場合には、LANケーブル等が通信部206に接続される。なお、配信装置100が外部の装置と無線通信する機能を有する場合、通信部206はアンテナを備える。バス207は、配信装置100の各部を繋いで情報を伝達する。
The operation unit 205 includes, for example, a keyboard and a mouse, and inputs various instructions to the CPU 201 in response to user operations. The
なお、本実施形態ではCPU201がプログラムを実行することで通信部206を介して配信装置100と外部の装置との通信を制御するが、配信装置100と外部の装置との通信の少なくとも一部を通信部206がハードウェア処理により制御してもよい。また、本実施形態では操作部205は配信装置100の内部に存在するが、操作部205が配信装置100の外部に別の装置として存在していてもよい。この場合、CPU201が、操作部205を制御する操作制御部として動作する。また、配信装置100が外部の表示装置と接続される場合、CPU201が表示装置を制御する表示制御部として動作する。
In this embodiment, the CPU 201 executes a program to control communication between the
[動作フロー]
次に、複数の拠点間での会議を制御する配信装置100の動作フローについて、図4を用いて説明する。図4に示す処理は、配信装置100が何れかの拠点の通信装置101から会議開始の要求を受信したタイミングで開始される。ただし、図4に示す処理の開始タイミングは上記タイミングに限定されない。図4に示す処理は、CPU201がROM202に格納されたプログラムをRAM203に展開して実行することで実現される。なお、図4に示す処理の少なくとも一部を、CPU201とは異なる専用のハードウェアにより実現してもよい。
[Operation flow]
Next, an operation flow of the
S401において、セッション管理部301は、多地点会議を開始するためのセッション設定指示を各拠点の通信装置101に対して行う。指示を受けた各通信装置101は、配信装置100との間で通信を行うためのセッションを設定して応答する。なお、本実施形態の構成は、2拠点間で会議を行う場合においても効果があるし、1拠点内で会議を行う場合においても効果がある。1拠点内で会議を行う場合の適用例については後述する。S402において、セッション管理部301は、何れかの拠点において所定のイベントが発生したか否かを判別する。所定のイベントが発生していないことを判別した場合、S404の処理に進む。一方、所定のイベントが発生したことを判別した場合、S403に進み、セッション管理部301は判別結果に基づいてセッション制御を行う。所定のイベントの内容、及びセッション制御の詳細については後述する。
In step S <b> 401, the
S404において、セッション管理部301は、複数の通信装置101(拠点A、B及びCの通信装置101)から送信されたオーディオデータを受信する。このオーディオデータは、送信元の通信装置101がマイク102により集音された音声から生成したものであり、会議におけるテキスト化される発言などを含む。S405において、変換部300は、S404でセッション管理部301が取得したオーディオデータに基づいてテキスト化を行うことで、会議における人物の発言などを文字で表す文字データを生成して取得する。
In step S404, the
S406において、セッション管理部301は、S404において受信したオーディオデータ及びS405において変換部300が取得した文字データを、各拠点の通信装置101に送信する。なお、S403におけるセッション制御が行われていた場合、そのセッション制御に応じたセッションでデータ送信が行われる。各拠点の通信装置101は、受信したデータに基づく出力を表示装置104に対して行う。具体的には、通信装置101は、オーディオデータを表示装置104に出力することで、他拠点において集音された音声を表示装置104から音声出力させる。また通信装置101は、受信した文字データに基づく画像データを表示装置104に出力することで、自拠点又は他拠点において集音された音声がテキスト化された結果、すなわち会議における発言の内容を表示装置104に表示させる。
In S406, the
S407において、セッション管理部301は、多地点会議を終了するか否かを判定する。会議を終了しないと判定された場合、配信装置100は、再度S402からの処理を実行する。一方、会議を終了すると判定された場合、セッション管理部301は通信に用いられるセッションの終了を各拠点の通信装置101に指示し、図4に示す処理を終了する。なお、会議を終了すると判定される場合とは、例えば配信装置100が通信装置101から会議終了の要求を受信した場合である。
In S407, the
以上で、配信装置100の動作フローの説明を終わる。なお、上記の説明では、配信装置100から通信装置101へのオーディオデータと文字データの送信に焦点を当てて説明した。ただしこれに加えて、本実施形態における配信装置100は、S401において会議が開始されてからS407において終了するまでの間、各拠点の通信装置101から撮像画像を受信して他拠点の通信装置101へ送信する。配信装置100から撮像画像を受信した通信装置101は、その撮像画像に基づく画像データを表示装置104に出力することで、他拠点の会議参加者などの画像を表示装置104に表示させる。なお、配信装置100は撮像画像の送信を行わなくてもよい。また、配信装置100は、デジタイザによる入力の内容やその他のデータを何れかの拠点の通信装置101から受信し、各拠点の通信装置101に転送してもよい。
This is the end of the description of the operation flow of the
[セッション制御方法]
次に、図4のS402におけるイベント発生の判別と、S403におけるセッション制御について、その詳細を説明する。S402において、まずセッション管理部301は、通信装置101から送信された撮像画像を取得する。そしてセッション管理部301は、取得した撮像画像を解析することで、テキスト化される発言を行う人物の動作に応じた所定のイベントが発生したことを判別する。本実施形態において、上記の所定のイベントは、例えばテキスト化される発言を行う人物(撮像画像内の人物)が所定の方向に向くことや、テキスト化される発言を行う人物が所定の領域に触れることなどである。ただし、セッション管理部301が判別するイベントの内容はこれらに限らず、例えばユーザが所定のスイッチを操作することなどが含まれていてもよい。そしてS403においてセッション管理部301は、S406における通信装置101へのデータの出力(送信)に用いられるセッションを、イベント発生の判別結果に基づいて切り替える。例えば、セッション管理部301は、判別結果に応じて通信装置101との間に新たなセッションを設定し、データの出力にその新たに設定されたセッションを用いる。また例えば、セッション管理部301は、通信装置101との間に設定された複数のセッションの何れかを判別結果に応じて終了し、終了していない残りのセッションを用いてデータの出力を行う。
[Session control method]
Next, details of the event occurrence determination in S402 and the session control in S403 will be described. In step S <b> 402, the
以下、イベントの発生に応じたセッションの切り替えの具体例を説明する。拠点Aのマイク102は拠点Aの会議参加者の発言を集音し、通信装置101はその集音された音声を含むオーディオデータを配信装置100に送信する。また、拠点Aのカメラ103は拠点Aの会議参加者と表示装置104の表示面とを含む領域を撮像し、通信装置101はその撮像画像を配信装置100に送信する。
Hereinafter, a specific example of session switching according to the occurrence of an event will be described. The
図5は、拠点Aの表示装置104の表示内容の例を示す図である。表示領域500には、会議における発言がテキスト化された結果を示すスレッド501、拠点B内の会話がテキスト化された結果を示すスレッド504、及び拠点C内の会話がテキスト化された結果を示すスレッド505が表示される。さらにこれに加えて、表示領域500には、拠点Bの会議参加者が写された撮像画像502と拠点Cの会議参加者が写された撮像画像503が表示される。
FIG. 5 is a diagram illustrating an example of display contents of the
拠点Aの会議参加者は、拠点B及び拠点Cの会議参加者に向けた発言を行う際、表示装置104を見ながら発言をする。一方、拠点Aの会議参加者は、他拠点との会議の内容とは無関係の会話を、拠点A内の会議参加者同士で行う場合がある。このような拠点内での会話を行う際、拠点Aの会議参加者は表示装置104とは異なる方向(例えば同じ拠点内の別の会議参加者がいる方向)を向いて発言をする。
The conference participant at the site A speaks while viewing the
そしてセッション管理部301は、拠点Aの通信装置101から受信した撮像画像を解析した結果、会議参加者が表示装置104とは異なる方向を向くというイベントが発生したことを判別した場合、データの送信に用いるセッションを切り替える。即ち、配信装置100は、拠点Aの会議参加者が表示装置104を見ている際の発言をテキスト化した文字データと、別の方向を見ている際の発言をテキスト化した文字データとを、異なるセッションを用いて各拠点の通信装置101に送信する。
When the
各拠点の通信装置101は、異なるセッションを用いて受信した文字データを区別できるため、それらの文字データを容易に異なる方法で処理することができる。例えば、所定のイベントが発生する前に行われた発言がテキスト化された文字と、所定のイベントが発生した後に行われた発言がテキスト化された文字とを、表示装置104内において識別可能に表示することができる。イベント発生前後の発言の内容が識別可能に表示されることで、ユーザは表示装置104の表示から容易に会議における発言の文脈を理解することができる。
Since the
例えば、図5において、拠点Bの会議参加者が表示装置104を見ている際の発言がテキスト化された文字はスレッド501内に表示され、拠点Bの会議参加者が別の方向を見ている際の発言がテキスト化された文字はスレッド504内に表示される。なお、イベント発生前後の発言内容を識別可能に表示する方法は、発言がテキスト化された文字をイベント発生の判別結果に応じて異なる位置に表示させる方法に限らない。例えば、通信装置101は、表示装置104に表示される文字の色やフォントなどを判別結果に応じて切り替えてもよい。
For example, in FIG. 5, the text in which the speech when the conference participant at the base B is looking at the
次に、イベントの発生に応じたセッションの切り替えに関する別の具体例を説明する。拠点Aの会議参加者は、拠点Bの会議参加者には知られたくない内容を、拠点Cの会議参加と話したい場合がある。このように特定の拠点Cとの会話を行う際、拠点Aの会議参加者は、例えば表示装置104に表示された拠点Bの会議参加者の画像(図5の撮像画像502)に触れて発言をする。
Next, another specific example relating to session switching according to the occurrence of an event will be described. The conference participant at site A may want to talk about the content that the conference participant at site B does not want to be known as the conference participant at site C. In this way, when a conversation with a specific site C is performed, a conference participant at the site A touches an image of the conference participant at the site B (captured
そしてセッション管理部301は、拠点Aの通信装置101から受信した撮像画像を解析した結果、会議参加者が拠点Bの会議参加者の画像に触れるというイベントが発生したことを判別した場合、データ送信に用いるセッションを切り替える。具体的には、セッション管理部301は、拠点Aの会議参加者が拠点Bの会議参加者の画像に触れている際の発言をテキスト化した文字データを、拠点A及び拠点Cへの送信用のセッションだけを用いて送信し、拠点Bへは送信しない。即ち、配信装置100は、複数の通信装置101(拠点A、B及びCの通信装置101)のうち、発言をテキスト化した文字データの出力先の装置を、所定のイベントが発生したことを判別した判別結果に基づいて切り替える。また、セッション管理部301は、拠点Aにおいて集音された音声に基づくオーディオデータの出力先を、文字データの出力先と同様に切り替える。これにより、拠点Aから拠点Cだけに向けた発言に関しては、その発言をテキスト化した文字もその音声も拠点Bには伝わらない。これにより、複数拠点間の会議の中で、特定の拠点だけに伝わる会話を行うことができ、さらにその内容を特定の拠点の表示装置104にのみ文字で表示することができる。
When the
以上、配信装置100におけるイベント発生の判別と判別結果に応じたセッション制御について説明した。なお上記の説明では、セッション管理部301が通信装置101から受信した撮像画像を解析することで所定のイベントが発生したことを判別するものとした。これにより、ユーザは複雑な操作を行うことなくデータの出力先を切り替えることができる。なお、配信装置100におけるイベント発生の判別方法はこれに限らない。例えば、通信装置101がカメラ103による撮像画像を解析することで所定のイベントの発生を検知し、所定のイベントの発生を示す通知を配信装置100に送信する。そしてセッション管理部301は、所定のイベントの発生を示す通知を通信装置101から受信し、その通知に基づいて所定のイベントが発生したことを判別してもよい。この方法によれば、配信装置100の処理負荷を低減することができる。また、所定のイベントが発生したことを判別する方法は撮像画像の解析に限らず、例えばマイク102により集音された音声の解析などによってイベントの発生が判別されてもよい。
Heretofore, the event occurrence determination in the
なお本実施形態では、配信装置100が通信装置101から各拠点における音声の集音により生成されるオーディオデータを受信し、そのオーディオデータに含まれる発言を音声認識によりテキスト化することで文字データを生成する場合について説明した。ただし、配信装置100が文字データを取得する方法はこれに限らない。例えば、配信装置100は通信装置101から受信したオーディオデータを外部の変換装置へ送信し、変換装置は受信したオーディオデータから文字データを生成し、生成された文字データを配信装置100が変換装置から取得してもよい。また例えば、配信装置100は通信装置101から受信したオーディオデータに基づく音声をスピーカを介して出力し、その音声を聞いた操作者がキーボード等の入力装置を用いて配信装置100に文字データを入力してもよい。
In the present embodiment, the
また本実施形態では、配信装置100が、発言に基づく文字データの出力に用いられるセッションを、イベントの発生を判別した判別結果に基づいて切り替える場合を中心に説明した。ただし配信装置100は、セッションの切り替え以外の方法により、判別結果に基づいてデータの出力を切り替えてもよい。配信装置100による出力の切り替えには、出力先の切り替えや、出力するか否かの切り替え、出力内容の切り替えなどが含まれる。
Further, in the present embodiment, the case where the
また、出力の切り替えの対象となるデータは、表示のためにテキスト化される発言に基づくデータであればよく、発言のテキスト化により生成される文字データに限らない。例えば、配信装置100は通信装置101から発言が含まれる音声の集音により生成されるオーディオデータを取得し、そのオーディオデータの通信装置101への出力をイベント発生の判別結果に基づいて切り替えてもよい。そして、配信装置100から出力されたオーディオデータを受け取った通信装置101が、そのオーディオデータに含まれる発言をテキスト化した結果を表示装置104に表示させてもよい。このような構成でも、テキスト化された会議の内容を、ユーザにとって理解しやすいように表示装置104に表示させることができる。
Further, the data to be switched is not limited to character data generated by converting the text into a text as long as the data is based on the text converted into text for display. For example, the
以上説明したように、本実施形態に係る配信装置100は、人物の発言であって表示のためにテキスト化される発言に基づくデータを取得し、テキスト化される発言を行う人物の動作に応じた所定のイベントが発生したことを判別する。そして配信装置100は、取得したテキスト化される発言に基づくデータの出力を、イベント発生の判別結果に基づいて切り替える。これにより、配信装置100からの出力を受け取る通信装置101は、発言をテキスト化した結果を表示装置104に表示してユーザに提示する際に、イベントの発生に応じた理解しやすい表示が可能となる。
As described above, the
本実施形態では、複数の通信装置101間の通信を中継する配信装置100が、テキスト化される発言に基づくデータの出力をイベント発生の判別結果に基づいて切り替える情報処理装置として動作する場合を中心に説明した。このように複数の通信装置101間の通信を配信装置100が一括して制御することで、処理が簡潔な多地点会議システム10を構成できる。ただしこれに限らず、各通信装置101が上述した配信装置100と同様の機能を有する情報処理装置として動作し、通信装置101同士が配信装置100を介さず直接通信するような場合であっても、本実施形態と同様の効果を得ることができる。以下では、テキスト化される発言に基づくデータを他拠点に送信する通信装置101がデータの出力を切り替える場合と、テキスト化される発言に基づくデータを他拠点から受信した通信装置101がデータの出力を切り替える場合の、2通りについて説明する。以下で説明する多地点会議システム10においては、各拠点の通信装置101は変換部300及びセッション管理部301を有しており、通信装置101同士は直接接続されている。
In the present embodiment, the case where the
まず、データ送信側の通信装置101が出力を切り替える場合について説明する。拠点Aにおいて会議参加者が発言を行った場合、その音声は拠点Aのマイク102により集音され、拠点Aの通信装置101は集音されたテキスト化される発言に基づくデータを取得して拠点B及び拠点Cの通信装置101へ出力(送信)する。ここで、拠点Aの通信装置101から出力される、テキスト化される発言に基づくデータは、音声の集音により生成されるオーディオデータであってもよいし、発言のテキスト化により生成される文字データであってもよい。文字データが出力される場合、それを受け取った拠点B及び拠点Cの通信装置101は、その文字データが示す文字を含む画像データを生成して表示装置104に表示させる。一方、オーディオデータが出力される場合、それを受け取った拠点B及び拠点Cの通信装置101は、そのオーディオデータに含まれる発言をテキスト化し、その結果得られる文字を含む画像データを表示装置104に表示させる。
First, the case where the
そして拠点Aの通信装置101は、所定のイベントが発生したことを判別すると、上記のテキスト化される発言に基づくデータの出力を切り替える。例えば、拠点Aの会議参加者が表示装置104に表示された拠点Bの会議参加者の画像に触れたことが判別された場合、拠点Aの通信装置101は、データの出力先の装置を拠点Cの通信装置101だけに切り替える。これにより、拠点Bの会議参加者に知られたくない会話内容に関するデータが拠点Bの通信装置101に送信されないようにすることができる。また例えば、拠点Aの通信装置101は、取得したテキスト化される発言に基づくデータを外部の装置へ出力するか否かを、イベント発生の判別結果に基づいて切り替える。具体的には、拠点Aの会議参加者が表示装置104とは別の方向を向いていることが判別されると、拠点Aの通信装置101は拠点内での会話が行われていると判断し、取得したテキスト化される発言に基づくデータを他の装置へ出力しない。これにより、他拠点にとって必要のない会話内容に関するデータの送信のために通信帯域が使用されることを低減できる。
When the
次に、データ受信側の通信装置101が出力を切り替える場合について説明する。拠点Aにおいて会議参加者が発言を行った場合、拠点Aの通信装置101はテキスト化される発言に基づくデータを拠点B及び拠点Cの通信装置101へ送信する。拠点B及び拠点Cの通信装置101は、拠点Aの通信装置から送信されたデータを取得し、発言のテキスト化により得られる文字を含む画像データを表示装置104に出力する。また、拠点Aの通信装置101は、所定のイベントが発生したことを検知した場合、所定のイベントの発生を示す通知を拠点B及び拠点Cの通信装置101に送信する。
Next, the case where the
そして拠点B及び拠点Cの通信装置101は、この通知を受信することで所定のイベントが発生したことを判別し、拠点Aの通信装置101から取得したテキスト化される発言に基づくデータの表示装置104への出力を切り替える。例えば、拠点Bの通信装置101は、取得したテキスト化される発言に基づくデータの出力内容を、イベント発生の判別結果に基づいて切り替える。具体的には、拠点Bの通信装置101は、イベントの発生以前の発言内容とイベントの発生以降の発言内容とが拠点Bの表示装置104において異なる領域(例えば別ウインドウや別スレッド)に表示されるように、出力する画像データの内容を切り替える。これによりユーザは、イベント発生前の発言とイベント発生後の発言を容易に識別でき、会議の内容が理解しやすくなる。また、通信装置101は、異なる領域に表示されていた発言内容が、一つの領域にまとめて表示されるように、出力内容をイベント発生の判別結果に応じて切り替えてもよい。
Then, the
なお、拠点Bの通信装置101は、テキスト化される発言に基づくデータを、記憶装置などに出力してもよい。そして、この記憶装置への出力内容を、イベント発生の判別結果に基づいて切り替えてもよい。これにより、例えば議事録のような、発言をテキスト化した結果を、ユーザにとって理解しやすいような形式で表示可能となるように記憶装置に記憶することができる。
Note that the
また、上記のような、テキスト化される発言に基づくデータの出力内容をイベント発生の判別結果に基づいて切り替える構成を、1つの拠点の中で行われる会議の発言をテキスト化して出力する出力装置に適用してもよい。例えば、出力装置は、拠点内で集音された音声をテキスト化して文字データを生成し、その文字データに基づく画像データを出力装置に接続された表示装置104に出力する。そして出力装置は、所定のイベントが発生したことを判別すると、出力する画像データの内容を切り替える。このような構成でも、上述した複数拠点間の会議を行う場合と同様に、発言をテキスト化した結果をユーザにとって理解しやすいように表示できる。
Also, an output device that converts the output contents of data based on the text-formed comments as described above into text based on the results of the event occurrence determination result and outputs the comments of the meeting held in one base You may apply to. For example, the output device generates text data by converting the voice collected at the site into text, and outputs image data based on the text data to the
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。 The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions. Further, the program may be provided by being recorded on a computer-readable recording medium.
10 多地点会議システム
100 配信装置
101 通信装置
104 表示装置
10
Claims (15)
前記テキスト化される発言を行う人物の動作に応じた所定のイベントが発生したことを判別する判別手段と、
前記取得手段が取得した前記テキスト化される発言に基づくデータの出力を、前記判別手段による判別結果に基づいて切り替える切り替え手段とを有することを特徴とする情報処理装置。 An acquisition means for acquiring data based on an utterance of a person that is textified for display;
A discriminating means for discriminating that a predetermined event corresponding to the action of the person who makes the texted speech occurs;
An information processing apparatus comprising: a switching unit that switches output of data based on the text-generated utterance acquired by the acquisition unit based on a determination result by the determination unit.
前記判別手段は、前記第2取得手段が取得した撮像画像を解析することで、前記所定のイベントが発生したことを判別することを特徴とする請求項1に記載の情報処理装置。 Having a second acquisition means for acquiring a captured image;
The information processing apparatus according to claim 1, wherein the determination unit determines that the predetermined event has occurred by analyzing a captured image acquired by the second acquisition unit.
前記判別手段は、前記受信手段が受信した通知に基づいて、前記所定のイベントが発生したことを判別することを特徴とする請求項1に記載の情報処理装置。 Receiving means for receiving a notification indicating the occurrence of the predetermined event;
The information processing apparatus according to claim 1, wherein the determination unit determines that the predetermined event has occurred based on a notification received by the reception unit.
前記取得手段は、前記テキスト化される発言に基づくデータとして、前記第2受信手段が受信したオーディオデータに基づくテキスト化により生成される文字データを取得し、
前記切り替え手段は、前記複数の通信装置のうち前記取得手段が取得した前記文字データの出力先の装置を、前記判別手段による判別結果に基づいて切り替えることを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 A second receiving means for receiving audio data generated by collecting voice including speech to be converted into text from a plurality of communication devices;
The acquisition means acquires character data generated by text conversion based on audio data received by the second reception means as data based on the text to be converted into text,
4. The switching device according to claim 1, wherein the switching unit switches the output device of the character data acquired by the acquisition unit among the plurality of communication devices based on a determination result by the determination unit. 5. The information processing apparatus according to claim 1.
前記テキスト化される発言を行う人物の動作に応じた所定のイベントが発生したことを判別する判別工程と、
前記取得工程において取得された前記テキスト化される発言に基づくデータの出力を、前記判別工程における判別結果に基づいて切り替える切り替え工程とを有することを特徴とする情報処理方法。 An acquisition step of acquiring data based on a utterance of a person and uttered as text for display;
A determination step of determining that a predetermined event corresponding to the action of the person who makes the texted statement occurs;
An information processing method comprising: a switching step of switching output of data based on the text-like utterance acquired in the acquisition step based on a determination result in the determination step.
前記判別工程は、前記第2取得工程において取得された撮像画像を解析することで、前記所定のイベントが発生したことを判別することを特徴とする請求項13に記載の情報処理方法。 A second acquisition step of acquiring a captured image;
14. The information processing method according to claim 13, wherein the determination step determines that the predetermined event has occurred by analyzing the captured image acquired in the second acquisition step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016092386A JP2017201737A (en) | 2016-05-02 | 2016-05-02 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016092386A JP2017201737A (en) | 2016-05-02 | 2016-05-02 | Information processing apparatus, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017201737A true JP2017201737A (en) | 2017-11-09 |
Family
ID=60264757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016092386A Pending JP2017201737A (en) | 2016-05-02 | 2016-05-02 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017201737A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862302A (en) * | 2017-11-29 | 2019-06-07 | 奥多比公司 | For the addressable Audio conversion of the client device in on-line meeting |
-
2016
- 2016-05-02 JP JP2016092386A patent/JP2017201737A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862302A (en) * | 2017-11-29 | 2019-06-07 | 奥多比公司 | For the addressable Audio conversion of the client device in on-line meeting |
CN109862302B (en) * | 2017-11-29 | 2022-05-31 | 奥多比公司 | Method and system for switching accessible audio of client equipment in online conference |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11114091B2 (en) | Method and system for processing audio communications over a network | |
US10721440B2 (en) | Video conferencing apparatus and video conferencing method | |
US9894320B2 (en) | Information processing apparatus and image processing system | |
US9185211B2 (en) | Apparatuses and methods for operating a communication system in one of a tone mode and a text mode | |
US20160294892A1 (en) | Storage Medium Storing Program, Server Apparatus, and Method of Controlling Server Apparatus | |
CN110677614A (en) | Information processing method, device and computer readable storage medium | |
JP2010074494A (en) | Conference support device | |
JP2012160793A (en) | Video conference system and apparatus for video conference, and program | |
CN103973542B (en) | A kind of voice information processing method and device | |
JP7036463B1 (en) | Teleconference system, communication terminal, teleconferencing method and program | |
US20220377177A1 (en) | Conferencing System, Server, Information Processing Device and Non-Transitory Recording Medium | |
JP2015126524A (en) | Remote conference program, terminal device, and remote conference method | |
KR20130122300A (en) | Method and apparatus for providing emotion analysis service during telephone conversation | |
US20180286408A1 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2017201737A (en) | Information processing apparatus, information processing method, and program | |
JP7304170B2 (en) | intercom system | |
JP6950708B2 (en) | Information processing equipment, information processing methods, and information processing systems | |
US20220208216A1 (en) | Two-way communication support system and storage medium | |
JP7467636B2 (en) | User terminal, broadcasting device, broadcasting system including same, and control method thereof | |
JP7452299B2 (en) | Conversation support system, conversation support method and program | |
JP6787078B2 (en) | Communication equipment, methods and programs | |
US20120300126A1 (en) | Electronic apparatus and tv phone method | |
CN109104535B (en) | Information processing method, electronic equipment and system | |
US20230100767A1 (en) | Information processing device, information processing method, and non-transitory computer readable medium | |
JP2023084986A (en) | Display control system, display control method, and program |