JP2022015775A

JP2022015775A - 会話支援システム、会話支援方法及びプログラム

Info

Publication number: JP2022015775A
Application number: JP2020118844A
Authority: JP
Inventors: 慶太斉藤; Keita Saito; 亜蘭鈴木; Aran Suzuki; 正治原島; Seiji Harashima
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-01-21
Anticipated expiration: 2040-07-10
Also published as: JP7452299B2; US20220013128A1

Abstract

【課題】参加者の手間や労力を要さずに、議論への集中と重要部分の記録とを両立させることが可能な会話支援システム、会話支援方法及びプログラムを提供する。【解決手段】複数人に発話が発信される場に設けられる会話支援システム１００に、発話者によって発話されマイク２から入力された音声のデータを取得して、取得した音声のデータを時系列にしたがって管理し、音声に関して個別のマーカーを付与するマーキング動作を時系列にしたがって管理するとともに、音声とマーキング動作とを同じ時系列上において紐付ける制御部５１を備えた。【選択図】図１

Description

本発明は、会話支援システム、会話支援方法及びプログラムに関する。

各種の打合せやアイディア出しを行う場等においては、議論への集中が求められ、従来の会議のように、重要部分等について参加者がメモを取りながら参加することが難しい場合が増えている。
議論への集中と重要部分の記録とを両立させるための手法としては、会話の場で発せられた発言を録音しておき、後にこれを聞き直して重要部分をまとめる等の手法が存在するが、このような手法では、多くの時間と手間を要してしまう。

この点、例えば特許文献１には、発言の内容が重要コメントであることを設定する操作部と、重要コメントであることを他の端末に報知する重要コメント報知部とを備える会議支援システムが提案されている。具体的には、重要な発言であるときに当該発言を選択する手段を有し、発言をテキスト化した後に、重要とされた発言部分にマーカーが付加されて端末の表示部に表示される。
重要な発言であるとの選択は、発話者がこれから重要発言をする場合に所定のボタンを押して重要発言の範囲を指定したり、表示部に表示されたテキストにマーキングしたりすることで行われる。これにより、どの発言が重要であるかを発話者は参加者に認識させることができる。

特開２０１８－１７４４４２号公報

しかしながら、特に発話者以外の参加者が重要発言にマーキングするためには、表示部に表示されたテキストを注視しつつマーキングのための操作を行う必要がある。
このため、議論への集中が阻害されてしまうという問題がある。

本発明の課題は、参加者の手間や労力を要さずに、議論への集中と重要部分の記録とを両立させることが可能な会話支援システム、会話支援方法及びプログラムを提供することである。

上記課題を解決するため、請求項１に記載の発明の会話支援システムは、
複数人に発話が発信される場に設けられる会話支援システムであって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得手段と、
前記音声取得手段により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成手段と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得手段と、
前記マーキング取得手段により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成手段と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け手段と、
を備えることを特徴とする。

また、請求項２６に記載の会話支援方法は、
複数人に発言が発信される場における会話支援方法であって、
発言者によって発言され音声入力部から入力された音声のデータを取得する音声取得工程と、
前記音声取得工程において取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成工程と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得工程と、
前記マーキング取得工程において取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成工程と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け工程と、
を含むことを特徴とする。

また、請求項２７に記載のプログラムは、
複数人に発言が発信される場に設けられる会話支援システムのコンピューターに、
発言者によって発言され音声入力部から入力された音声のデータを取得する音声取得機能と、
前記音声取得機能により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成機能と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得機能と、
前記マーキング取得機能により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成機能と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け機能と、
を実現させることを特徴とする。

本発明によれば、参加者の手間や労力を要さずに、議論への集中と重要部分の記録とを両立させることができる。

本実施形態における会話支援システムの全体構成を模式的に示す要部ブロック図である。会話支援システムを構成する端末装置の要部構成を示す要部ブロック図である。会話支援システムを構成するサーバー装置の要部構成を示す要部ブロック図である。本実施形態における会話支援方法を示すフローチャートである。本実施形態における表示部への表示例を示す図である。

以下、図１から図５を参照して、本発明にかかる会話支援システム、会話支援方法及びプログラムの一実施形態について説明する。
ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい種々の限定が付されているが、本発明の技術的範囲を以下の実施形態及び図示例に限定するものではない。

［会話支援システムの全体構成］
始めに、本実施形態に係る会話支援システム１００の概略構成について説明する。図１は会話支援システム１００の全体構成を模式的に示す要部構成図である。

会話支援システム１００は、複数人に発話が発信される場に設けられる。
本実施形態の会話支援システム１００では、例えば図１に示すように、会議室Ｒ１において２名の参加者Ａ，Ｂが参加し、会議室Ｒ２において３名の参加者Ｃ，Ｄ，Ｅが参加し、自宅や外出先等のオープンスペースにおいて１名の参加者Ｆが参加する場を想定する。
本実施形態の会話支援システム１００が設けられる場は、いわゆる会議の他、打合せやアイディア出し等、複数人が意見等を出し合い発話し合うような場を広く想定している。

参加者Ａ～Ｆは、必ずしも全員が発話するわけではないが、発話する可能性のある「発話者」である。このように本実施形態では、発話を行う発話者が複数人いる場合を例示している。
また参加者Ａ～Ｆは、自らが発話するか否かに関わらず、自己又は他の発話者が発話（発言）した音声に関して個別のマーカーを付与するマーキング動作を行う「動作者」となり得る。

図１に示す例では、会議室Ｒ１に、１つの端末装置１（１ａ）と、音声入力部としてのマイクロフォン（以下「マイク２」という。）が設けられている。
会議室Ｒ１に設けられるマイク２は、参加者Ａ，Ｂごとに設けられている。すなわち、参加者Ａに対応してマイク２ａが設けられ、参加者Ｂに対応してマイク２ｂが設けられている。
また、会議室Ｒ２には、１つの端末装置１（１ｂ）と、１つのマイク２（２ｃ）が設けられている。すなわち、会議室Ｒ２には、複数の参加者Ｃ，Ｄ，Ｅについて１つのマイク２ｃが設けられている。
会議室Ｒ１，Ｒ２に配置されている端末装置１（１ａ，１ｂ）は、例えばデスクトップ型等、据置型のパーソナルコンピュータ（以下において「ＰＣ」とする。）やノート型のＰＣ、タブレット型のＰＣ等である。

これに対して、参加者Ｆは、スマートフォン等の携帯端末装置（端末装置１ｃ）を有し、この端末装置１ｃを介して発話が発信される場に参加する者である。
端末装置１ｃは、音声入力部としてのマイク２（２ｄ）と、後述の撮影手段としてのカメラ３、出力手段としてのスピーカー４等を備えている。
なお、据置型ＰＣやノート型のＰＣ、タブレット型のＰＣ等である端末装置１ａ，１ｂにも、マイク２やカメラ３、スピーカー４等が設けられていてもよい。この場合には、端末装置１に設けられているマイク２やカメラ３、スピーカー４等を用いてもよいし、さらに外付けのマイク２やカメラ３、スピーカー４等を端末装置１に取り付けて用いてもよい。

本実施形態において端末装置１（１ａ，１ｂ，１ｃ）は、通信ネットワーク６を介してサーバー装置５と接続されている。
通信ネットワーク６は、インターネットであってもよいし、ＬＡＮ（Local Area Network）等、他のネットワークとしてもよい。なお、端末装置１（１ａ，１ｂ，１ｃ）とサーバー装置５とは有線で接続されていてもよい。

［端末装置の構成］
次に本実施形態の会話支援システム１００を構成する端末装置１の構成について、図２を参照しつつ説明する。
図２は、端末装置１（１ａ，１ｂ）の要部構成を示す要部ブロック図である。
なお、端末装置１ｃは、前述のように例えばスマートフォン等の携帯端末装置である。なお、端末装置１ｃはこれに限定されず、例えばマイク２、カメラ３、スピーカー４等が内蔵されたノート型のＰＣやタブレット型のＰＣ等であってもよい。
端末装置１ｃは、図２に示すマイク２、カメラ３、スピーカー４を内蔵している点で端末装置１ａ，１ｂと異なる。これ以外の基本的な構成は端末装置１ａ，１ｂと同様であるため、以下では端末装置１ａ，１ｂについて説明し、端末装置１ｃについてはその説明を省略する。

図２に示すように、端末装置１ａ，１ｂは、制御部１１、記憶部１２、操作部１３、表示部１４、通信部１５、各部１１～１５を接続するバス１６を備えて構成されている。また端末装置１ａ，１ｂには、音声入力部としてのマイク２、撮影手段としてのカメラ３、音声出力部としてのスピーカー４等が接続されている。

制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）等により構成される。制御部１１のＣＰＵは、操作部１３の操作に応じて、記憶部１２に記憶されている各種プログラムを読出してＲＡＭ内に展開し、展開されたプログラムに従って各種処理を実行し、端末装置１各部の動作を集中制御する。

記憶部１２は、不揮発性の半導体メモリーやハードディスク等により構成され、制御部１１が実行する各種プログラムやプログラムにより処理の実行に必要なパラメーター等を記憶する図示しないプログラム記憶領域や、各種のデータ等を記憶する図示しないデータ記憶領域を有する。
記憶部１２のデータ記憶領域には、音声入力部であるマイク２から入力された音声のデータや音声のデータがテキストデータに変換された場合のテキストデータ、撮影手段としてのカメラ３から入力された動作者のジェスチャーを捉える画像のデータ等を記憶する。本実施形態では、音声のデータや画像のデータ等は、記憶部１２において、音声を発話した発話者、動作を行った動作者を識別する識別情報と紐付けられて記憶されるようになっている。

操作部１３は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成された操作手段であり、キーボードに対するキー操作やマウス操作により入力された指示信号を制御部１１に出力する。なお、操作部１３は、押釦等の操作ボタンを備えていてもよい。さらに会話支援システム１００内に端末装置１とは別体で構成され操作ボタン等を備えた図示しない操作装置が設けられていてもよく、この場合にはこのような操作装置も操作部１３として機能する。
また、操作部１３は、表示部１４の表示画面にタッチパネルを備えてもよく、この場合、タッチパネルを介して入力された指示信号を制御部１１に出力する。
また、本実施形態では、音声のデータがテキスト化されて表示部１４に表示されるようになっており、表示部１４の表示画面にタッチパネルが設けられている場合には、表示画面に表示された一覧の中から個別の音声に対応する文字列を選択することでマーキング動作が行われてもよい。また、文字列の選択は、キー操作や操作ボタンによる操作等で行われてもよい。この場合には、操作部１３は、動作者がマーキング動作を入力しその情報を取得するマーキング取得手段として機能する。

表示部１４は、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）等のモニターにより構成され、制御部１１から入力される表示信号の指示に従って、操作部１３からの入力指示やデータ等を表示する。
また本実施形態では、参加者の発話の音声のデータとマーキング動作とを同じ時系列上に対応付けたデータ等を表示可能となっている。
すなわち、本実施形態では、後述するように音声のデータがテキストデータに変換されて表示手段に文字列が一覧表示されるように構成されており、音声がテキスト化されたデータとマーカーとが対応付けられた形で一覧表示される（図５参照）。
さらに、表示部１４の表示画面には、前述のように操作部１３として機能するタッチパネルが構成されていてもよい。

通信部１５は、ＬＡＮアダプターやモデムやＴＡ（Terminal Adapter）等を備え、通信ネットワーク６に接続された各装置間におけるデータ送受信を制御する。

本実施形態の端末装置１に接続されるマイク２は、発話者が発話したときにその音声を録音する。
また本実施形態において、マーキング動作を行う動作者が音声によってマーキング動作を行ったときに、マイク２はこの音声も録音し、マーキング取得手段として機能する。
マイク２は、例えば図示しない増幅器やＡ／Ｄ変換器等とともに音声入力部を構成し、アナログ信号として入力された音声のデータを適宜デジタルデータに変換する。マイク２によって録音されデジタルデータに変換された音声のデータは、制御部１１に送信される。
また、本実施形態では、当該音声のデータは端末装置１からサーバー装置５に送られ、後述の制御部５１において取得される。
マイク２は、例えば、会議室Ｒ１，Ｒ２に固定的に設けられているものでもよいし、移動可能に構成されたものでもよい。また、端末装置１に取り付けられて用いられるものでもよい。発話する発話者（参加者）が複数人いる場合には、マイク２は、システム内に複数設けられていることが好ましく、発話者（参加者）ごとに設けられていることがさらに好ましい。

カメラ３は、人のジェスチャー（動作）を捉える撮影手段である。
参加者がジェスチャー（動作）によって後述のマーキング動作を行った場合には、カメラ３は、そのジェスチャーを捉えるマーキング取得手段として機能する。
カメラ３は、例えば、会議室Ｒ１，Ｒ２に固定的に設けられているものでもよいし、移動可能に構成されたものでもよい。また、端末装置１に取り付けられて用いられるものでもよい。
マーキング動作を行う動作者が複数人いる場合には、マーキング取得手段として機能するカメラ３は、システム内に複数設けられていることが好ましく、動作者ごとに設けられていることがさらに好ましい。
カメラ３が動作者ごとに設けられている場合には、カメラ３によって撮影した画像のデータに当該カメラ３が対応する動作者の情報（氏名や識別番号等の識別情報）を予め紐付けておく。具体的には、予め設定された識別情報を撮影画像のデータに付帯させる。これにより、マーキング動作を、それを行った動作者と対応付けて取得することができる。すなわち各マーキング動作を行った動作者が誰であるかを撮影画像のデータから識別することが可能となる。
カメラ３によって取得されたデータ（撮影画像のデータ）は、制御部１１に送られる。また、本実施形態では、当該画像のデータは端末装置１からサーバー装置５に送られ、後述の制御部５１において取得される。

また、スピーカー４は、発話者によって発話された音声のデータ等を再生して発音させるためのものである。
スピーカー４は、図示しないＤ／Ａ変換器や増幅器等とともに音声出力部を構成する。
端末装置１にスピーカー４が接続されることにより、離れた場所にある複数の会議室等から参加者が発話の場に参加する場合にも、他の場所の参加者の発話内容を聞き取り、互いに会話をやり取りすることができる。

［サーバー装置の構成］
次に本実施形態の会話支援システム１００を構成するサーバー装置５の構成について、図３を参照しつつ説明する。
サーバー装置５は、各端末装置１（１ａ，１ｂ，１ｃ）から送られた各種データを処理して、処理結果を各端末装置１（１ａ，１ｂ，１ｃ）に送信する。これにより各端末装置１（１ａ，１ｂ，１ｃ）を介して参加している参加者Ａ～Ｆが同じ情報を共有することができる。
図３は、サーバー装置５の要部構成を示す要部ブロック図である。
図３に示すように、サーバー装置５は、制御部５１、記憶部５２、操作部５３、表示部５４、通信部５５、各部５１～５５を接続するバス５６を備えて構成されている。

制御部５１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）等により構成される。制御部５１のＣＰＵは、操作部５３の操作に応じて、記憶部５２に記憶されている各種プログラムを読出してＲＡＭ内に展開し、展開されたプログラムに従って各種処理を実行し、サーバー装置５各部の動作を集中制御する。

本実施形態において制御部５１は、音声取得手段、発話者識別手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、テキスト変換手段、データ紐付け手段等として機能する。

音声取得手段としての制御部５１は、発話者（参加者Ａ～Ｆ）によって発話され音声入力部であるマイク２から入力された音声のデータを取得する。本実施形態では、各端末装置１においてマイク２から入力された音声のデータが各端末装置１の制御部１１において取得される。制御部１１において取得された音声のデータは、各端末装置１から通信部１５，５５を介してサーバー装置５に送られ、サーバー装置５の制御部５１によって取得される。
また音声取得手段として機能する制御部５１は、さらに、取得した音声について、それを発話した発話者（参加者Ａ～Ｆ）を識別する発話者識別手段としても機能する。すなわち、図１に示す場合のように発話者が複数いる場合に、制御部５１は、誰がどの発言をしたのかを特定する。音声とそれを発話した発話者との対応付けは記憶部５２等に記憶される。

発話者識別手段としての制御部５１が発話をした発話者を識別する具体的な手法は特に限定されない。
例えば、音声入力部としてのマイク２が図１の会議室Ｒ１のように発話者（参加者Ａ，Ｂ）ごとに設けられている場合には、制御部５１は、音声が入力されたマイク２と発話者（参加者Ａ，Ｂ）との対応付けを取得することで発話をした発話者を識別する。例えば、予めマイク２に個別の識別番号等を付与しておき、００１番のマイク２ａを参加者Ａが用い、００２番のマイク２ｂを参加者Ｂが用いるというように予め登録しておけば、音声の入力されたマイク２が００１番のマイク２ａであるか００２番のマイク２ｂであるかの情報を音声のデータに付帯させることができる。このように音声のデータの付帯情報に基づいて発話者を識別できるように構成することで、誰が音声を発話したかを容易に識別することが可能となる。

また例えば、制御部５１は、マイク２から入力された音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした発話者を識別してもよい。例えば予め各発話者（参加者Ｃ，Ｄ，Ｅ）の音声波形をそれぞれの発話者の識別情報と対応付けて登録しておくことで、入力された音声の音声波形と各発話者（参加者Ｃ，Ｄ，Ｅ）の音声波形とを照合することが可能となる。このような構成とすれば、図１に示す会議室Ｒ２のように、複数の発話者（参加者Ｃ，Ｄ，Ｅ）について１つのマイク２が設けられている場合でも、発話をした発話者を識別することができる。

また音声タイムライン作成手段としての制御部５１は、音声取得手段として取得した音声のデータを時系列にしたがって管理する。すなわち、音声のデータには当該音声が取得された時刻に関する時刻データが付帯されており、制御部５１は、この時刻データに基づいて、音声のデータを時系列順に整理する。

またマーキング解析手段としての制御部５１は、音声に関して個別のマーカーを付与するマーキング動作が取得された際に、当該マーキング動作を解析する。
ここでマーカーとは、発話された音声を聞いていた者又は発話した本人が、例えば当該発言（発話）を重要な発言であると評価した場合、特にその発言に注目した場合、関心を持った場合等に、そのことを示す目印、標識である。
制御部５１は、参加者が、発話された音声に関して所定のマーキング動作を行ったときに、それをマーキング動作として、動作が行われた時刻のデータとともに記憶部５２に記憶させる。
なお、マーカーは、「重要」「高評価」「注意」「疑問」等、複数の意味（動作者の意図）のマーカーをすべて同じマーキング動作で付与してもよいし、どのような意味でマーカーを付与したのかが区別できるように、意味ごとに異なるマーキング動作を対応付けておいてもよい。この場合にはマーキング解析手段としての制御部５１は各マーキング動作の意味を解析し、マーキング動作に動作者の意図に関する情報を付帯させて記憶部５２等に記憶させてもよい。

本実施形態では、マーキング動作として、音声入力、ジェスチャー入力、操作手段からの入力等が想定されている。
マーキング動作が音声入力である場合にはマイク２がマーキング取得手段となり、マーキング動作がジェスチャー入力である場合にはカメラ３がマーキング取得手段となり、マーキング動作が操作手段からの入力である場合には、操作部１３等がマーキング取得手段となる。
マイク２やカメラ３や操作部１３から入力される情報は、マーキング動作だけではないため、制御部５１はマーキング解析手段として各動作を解析してそれがマーキング動作であるか否かを判断する。

例えば、音声入力の場合であれば「いいね」や「マーク」等、マーキング動作としての発話を予め登録しておき、入力された音声がこれらに該当する場合には、それが単なる発話ではなく、マーキング動作であると判断する。
また、例えばジェスチャー入力の場合であれば、右手の親指を立てるジェスチャーや左手を振るジェスチャー（動作）等をマーキング動作としてのジェスチャーとして予め登録しておき、入力されたジェスチャーがこれらに該当する場合には、それが単なる動きではなく、マーキング動作であると判断する。

さらに本実施形態においてマーキング動作は、マーカーを付与する前記音声が発話された時系列上の位置に応じて複数種類用意されている。
すなわち、本実施形態では、マーキング動作は少なくとも、音声が発話されたタイミングでマーカーを付与する第１のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第２のマーキング動作とを含んでいる。
例えばマーキング動作が音声入力で行われる場合に「マーク」という入力があった場合には、制御部５１は音声が発話されたタイミングでマーカーを付与する第１のマーキング動作と判断し、「３マーク」という入力があった場合には、制御部５１はマーキング動作をしたタイミングよりも３秒前のタイミングで発話された音声にマーカーを付与する第２のマーキング動作と判断する。
また例えば、マーキング動作がジェスチャー入力で行われる場合に、左手を１回振ったら、制御部５１は音声が発話されたタイミングでマーカーを付与する第１のマーキング動作と判断し、右手を１回振ったら、制御部５１はマーキング動作をしたタイミングよりも１つ前の発言にマーカーを付与する第２のマーキング動作と判断する。
また、マーキング動作が操作ボタンを操作することによって入力される場合には、例えば操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、マーカーを付与する音声の時系列上の位置が選択されるようになっていてもよい。
このように、第２のマーキング動作は、マーカーを付与したい発言を、何秒前の発言というように、時間で指定して過去の発言にマーカーを付与するものでもよいし、いくつ前の発言というように、発言単位で遡って過去の発言にマーカーを付与するものでもであってもよい。

このように、マーキング解析手段としての制御部５１は、マーキング動作として入力された内容によってマーキング動作の意味を解析する。
なお、どのような動作がどのようなマーキング動作としての意味を有するかの対応付けは、予め設定して記憶部５２等に記憶・登録しておき、制御部５１は記憶された情報に基づいてマーキング動作の解析を行う。マーキング動作の解析に関するルールは、動作者それぞれがカスタマイズして登録することが可能となっていてもよい。

マーキングタイムライン作成手段としての制御部５１は、マーキング取得手段により取得されたマーキング動作を時系列にしたがって管理する。
なお、前述のように、マーキング動作が、音声が発話されたタイミングでマーカーを付与する第１のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第２のマーキング動作とを含んでいる場合には、制御部５１は、マーキング解析手段としての解析結果に基づいて、所定のルールに従った時系列上の位置にマーカーを付与する。

データ紐付け手段としての制御部５１は、音声とマーキング動作とを同じ時系列上において紐付ける。
なお、前述のように、マーキングタイムライン作成手段としての制御部５１が、所定のルールに従った時系列上の位置にマーカーを付与した場合には、制御部５１は、音声とマーキング動作とを紐付ける際も、マーキングタイムラインの作成結果を反映して紐付けを行う。

また本実施形態では、表示手段である表示部１４に音声のデータ（音声がテキスト化された文字列）及び音声に関するマーカーが表示されるようになっており、データ紐付け手段としての制御部１１は、表示部１４上に書き込まれたメモ・コメント等がある場合には、これを音声やマーキング動作と同じ時系列上において紐付ける。
また、発話の場において撮影された撮影画像のデータ等がある場合には、データ紐付け手段としての制御部１１は、これらについても音声やマーキング動作と同じ時系列上において紐付けるようになっている。

テキスト変換手段としての制御部５１は、音声取得手段として取得した音声のデータをテキストデータに変換する。
具体的には、記憶部５２等に音声をテキスト（文字データ）に変換するための図示しない辞書データベース等を備えておき、制御部５１は、これらの情報を参照して音声のデータをテキストデータに変換する。なお、「まー」「あー」「えー」「あのー」「えーと」等の間投詞についてはテキスト化の対象から除外するように構成してもよい。
本実施形態において制御部５１は、音声のデータを一発言毎に区分してテキストデータに変換するようになっている。具体的には制御部５１は、一発言と判断される範囲を一まとまりの一文のテキストデータとし、別発言に分割されると判断すると、段落を分けるようになっている。別発言として段落が分けられた場合には、最終的に表示部１４に表示される際に改行されて表示される。
制御部５１が音声のデータを一発言毎に区分する手法は特に限定されないが、例えば制御部５１は、無音状態の検知又は文脈検知に基づいて音声のデータを一発言毎に区分する。
すなわち、制御部５１は、所定時間無音状態が続いた場合や、辞書データベース等に照らして文脈が変化したと判断される場合に別発言と判断して段落を分ける。
なお、無音状態を検知することで一発言か否かを判断する場合には、別発言と判断される無音状態の連続時間（例えば無音時間が２秒以上連続した場合に別発言と判断する等の閾値）を予め設定しておく。

サーバー装置５の記憶部５２は、不揮発性の半導体メモリーやハードディスク等により構成され、制御部１１が実行する各種プログラムやプログラムにより処理の実行に必要なパラメーター等を記憶する図示しないプログラム記憶領域や、各種のデータ等を記憶する図示しないデータ記憶領域を有する。本実施形態のプログラム記憶領域には会話支援のためのプログラム等が記憶されている。
記憶部５２のデータ記憶領域には、音声入力部であるマイク２から入力された音声のデータや音声のデータがテキストデータに変換された場合のテキストデータ、撮影手段としてのカメラ３から入力されたジェスチャーを捉える画像のデータ等が記憶される。本実施形態において音声のデータや画像のデータ等は、音声を発話した発話者、動作を行った動作者を識別する識別情報と紐付けられて記憶されている。

操作部５３は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された指示信号を制御部５１に出力する。なお、操作部５３の構成はこれに限定されない。各種の操作ボタンが設けられている場合や表示部５４にタッチパネルが構成されている場合には、これらも操作部５３として機能する。

表示部５４は、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）等のモニターにより構成され、制御部５１から入力される表示信号の指示に従って、操作部５３からの入力指示やデータ等を表示する。

通信部５５は、ＬＡＮアダプターやモデムやＴＡ（Terminal Adapter）等を備え、通信ネットワーク６に接続された各装置との間のデータ送受信を制御する。

［会話支援システムの動作］
次に、本実施形態における会話支援システムによって実現される会話支援方法について図４及び図５を参照しつつ説明する。

図４は、本実施形態における会話支援方法の手順を示すフローチャートである。
図４に示すように、会話支援システム１００において会話支援を行う場合、制御部５１は、会話支援システム１００内に配置されたマイク２の電源がＯＮになったか否かを判断し（ステップＳ１）、ＯＮとなっていない場合（ステップＳ１；ＮＯ）には、ステップ１の判断を繰り返して待機する。
他方、マイク２の電源がＯＮになった場合（ステップＳ１；ＹＥＳ）には、さらに会議支援システムへの参加があるか否かを判断する（ステップＳ２）。具体的には、所定の会議や打ち合わせ等が設定されている場合に、当該設定された場に参加者のログイン等、参加を表明する操作入力があったか否かを判断する。会議支援システム１００への参加がない場合（ステップＳ２；ＮＯ）には、参加があるまで判断を繰り返す。

会議支援システム１００への参加があった場合（ステップＳ２；ＹＥＳ）には、制御部５１は、システム内に設けられているマイク２（例えばマイク２ａ，２ｂ，２ｃ，２ｄが参加予定となっている場合には、これらのマイク２）から入力された音声のデータの取得を開始する（ステップＳ３）。
そして制御部５１は、音声のデータを取得すると、当該音声を発話した発話者を識別する（ステップＳ４）。
また制御部５１は、音声が一発言であるか否かを判断する（ステップＳ５）。音声が一発言であると判断される場合（ステップＳ５；ＹＥＳ）には、当該音声を一まとまりの発言としてテキストデータに変換する（ステップＳ６）。他方、音声が一発言ではないと判断される場合（ステップＳ５；ＮＯ）には、当該音声を一発言ごとに区切ってテキストデータに変換する（ステップＳ７）。
そして制御部５１は、音声のデータに付帯されている時刻データ等に基づいて音声のデータを発話時にしたがって時系列上で管理する（ステップＳ８）。

また、会議支援システム１００への参加があった場合、制御部５１は、音声のデータの取得と平行して、音声に関してマーキング動作が取得されたか否かを随時判断する（ステップＳ９）。
そして、マーキング動作が取得されるまで（ステップＳ９；ＮＯ）は、制御部５１は判断処理を繰り返し、マーキング動作が取得された場合（ステップＳ９；ＹＥＳ）には、マーキング動作を行った動作者を識別する（ステップＳ１０）。また、マーキング動作として意味の異なる複数種類のものがある場合（記憶部５２等に登録されている場合）には、制御部５１はマーキング動作の意味を解析する。

マーキング動作を行った動作者の識別や意味の解析等が完了すると、制御部５１は、マーキング動作を動作時にしたがって時系列上で管理する（ステップＳ１１）。なお、前述のように、マーキング動作が所定のルール上、動作時よりも所定時間前に発話された音声に対するものであると解析されている場合には、当該ルールにしたがって時系列上に位置付ける。

音声及びマーキング動作がともに時系列に沿って整理されると、制御部５１は、音声とマーキング動作とを同じ時系列上で紐付ける（ステップＳ１２）。
そして、音声のテキストデータとマーキング動作に基づくマーカーのデータとを会話支援システム１００に参加している各端末装置１の表示部１４に、時系列にしたがって表示させる（ステップＳ１３）。具体的には、制御部５１が、時系列にしたがって一覧表示を行うための表示用データを生成して各端末装置１に送信し、各端末装置１の制御部１１が、当該表示用データに基づいて表示部１４の表示を制御し、表示部１４の表示画面に例えば図５に示すような一覧表示を行う。

図５は、本実施形態の会話支援システム１００の使用中や使用後に出力されるアウトプットの例である。図５に示すようなアウトプットは、端末装置１の表示部１４等に表示されるものでもよいし、プリントアウト等ができるものでもよい。
図５において、「ｉｎｄｅｘ」は発言の通し番号であり、「ｄａｔｅｔｉｍｅ」は発言（音声）が発話された時間であり、「ｕｓｅｒｎａｍｅ」は参加者のログイン名（実名でもよいしシステム内で用いる仮の名称でもよい。）であり、「ｍａｒｋｅｒ」は参加者が重要だと思った発言等に対してマーキング動作を行うことによって付与されたマーカー（マーキング履歴）であり、「ｌｉｎｋ」は発言とリンクしたメモ等であり、「ｔａｌｋ」は、テキスト化された発言（音声）である。

なお、図５では、参加者「Ａさん」の「ｕｓｅｒｎａｍｅ」と「ｍａｒｋｅｒ」については強調無し（マーカーについては白抜きの星型）、参加者「Ｂさん」の「ｕｓｅｒｎａｍｅ」と「ｍａｒｋｅｒ」「ｌｉｎｋ」については太字（マーカーについては黒塗りの星型）で示して区別している。このように区別することで、誰がどの発言にマーキングしたりメモを残したりしたのかが、視覚的に分かりやすくなる。なお、図５では図示の都合上太字かそれ以外か等で区別したが、実際に表示部１４に表示されたりプリントアウトされる際には、参加者ごとに色分け等がなされていることが好ましい。
また、図５では、「ｕｓｅｒｎａｍｅ」「ｍａｒｋｅｒ」「ｌｉｎｋ」について共通の色分け等で区別する例を示したが、「ｔａｌｋ」等他の項目についても同様の区別を行ってもよい。なお、「ｔａｌｋ」は「ｕｓｅｒｎａｍｅ」と同じ時刻上（同じ行）に表示されるため、色分け等の区別は必須ではない。またマーカーが多く付与された発言がどの発言であるかが分かることが重要な場合等であれば、必ずしも色分け等により動作者を識別できるようにする必要はない。
またマーキング動作を行った動作者ごとにマーカーを区別できるようにする手法はマーカーを動作者ごとに設定された色で表示させるものに限定されない。例えばマーカーの後に動作者の名称（ログイン名等）を表示させたり、動作者ごとに設定されたキャラクタのマーク等を表示させる（例えばＡさんがマーキング動作したマーカーは猫のイラストで表示させ、Ｂさんがマーキング動作したマーカーは花のイラストで表示させる等）等の手法によってもよい。

また図５では、「ｍａｒｋｅｒ」として星形のマーカーのみを示したが、前述のように、マーカーとして、動作者が重要ポイントと考えた「高評価」や何か質問したいと感じた「疑問」等、意味の異なる複数種類を用意する場合には、例えば「高評価」であれば星形、「疑問」であれば三角等、マーカーの種類ごとに形状の異なるマークの表示を行ってもよい。
また「ｌｉｎｋ」の項目は、例えば端末装置１において参加者が入力したメモ（テキスト）であり、図５では「Ｂさん」が「ｉｎｄｅｘ；２４９」の「Ａさん」の発言についてメモしたものである。参加者が入力したメモ等は、入力後にリンクさせたい発言を選択することによって当該発言にリンクさせることが可能となっている。
なお「ｌｉｎｋ」の項目には、メモだけでなく撮影画像のデータ等がリンクされていてもよい。この場合には、例えば画像データがリンクされていることを示すアイコンとリンク先のアドレス等が「ｌｉｎｋ」の項目に表示されてもよい。

また図５に示すようなアウトプット用のデータ（表示用データや印刷用データ）は、サーバー装置５で生成されシステムに参加する各端末装置１に送信されたのち、各端末装置１の記憶部１２等で保存されてもよいが、端末装置１の使用の自由度やデータ管理コストの面等を考慮して、サーバー装置５の記憶部５２等に保存させ、必要に応じて各端末装置１において参照可能に構成されていることが好ましい。

これにより、本実施形態の会話支援システム１００では、システムの参加者に手間や労力をかけさせることなく、各参加者が議論に集中して発話等を行いながら、重要部分等には適宜マーカー等を付与して記録に残すことができる。

［効果］
以上説明したように、本実施形態における会話支援システム１００は、複数人に発話が発信される場に設けられる会話支援システムであって、発話者によって発話され音声入力部であるマイク２から入力された音声のデータを制御部５１が取得して、この音声のデータを時系列にしたがって管理し、音声に関して個別のマーカーを付与するマーキング動作が取得されると、このマーキング動作を時系列にしたがって管理するとともに、音声とマーキング動作とを同じ時系列上において紐付けるようになっている。
これにより、参加者は会話等のやり取りに集中しつつ、発話された音声（発言）が重要と思ったとき等には適宜マーカーを付与することができ、どの音声（発言）にマーカーを付与したかについてはシステム側（本実施形態ではサーバー装置５の制御部５１）で自動的に対応付けを行う。
このため、一旦会話を録音してからテキストデータに起こしたり、一覧表示された発言の中から重要発言を探したりするような手間や労力を要さずに、各参加者の議論への集中と重要部分の記録とを両立させることができる

また本実施形態では、発話を行う発話者が複数人想定されており、音声入力部としてのマイク２が、システム内に複数設けられている。
これにより、複数人が同時に会話支援システムに参加しても円滑に発話を行うことができる。
そして、音声取得手段としての制御部５１は、発話をした発話者を識別する発話者識別手段としても機能する。
これにより、複数人が同時に会話支援システムに参加しても、各発言が誰によって発話されたものかを特定することができる。
特に、音声入力部としてのマイク２を発話者ごとに設けた場合には、制御部５１は、音声が入力されたマイク２と発話者との対応付けを取得することで発言（発話）をした発話者を識別することができる。
このため、発話者が発話に際して自分で入力や申告を行うことなく、自動的に発話者を特定することができ、円滑に会議等における会話を進行させることができる。
また、マイク２から入力された音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした発話者を識別するように構成した場合には、マイク２が発話者ごとに設けられていない場合でも、適切に各発言の発話者を特定することができる。

またマイク２を移動可能に構成した場合には、参加者が場所の制約を受けずに会話支援システム１００に参加することができ、システムを利用する場合の自由度が向上する。

また本実施形態では、制御部５１が音声のデータをテキストデータに変換するテキスト変換手段としても機能する。
このため、録音された発話者の発言を文字データに書き起こす手間を省いて、容易に議事録等を作成することが可能となる。
さらに、本実施形態では、音声のデータを一発言毎に区分してテキストデータに変換するようになっている。
このため、あとから会議や会話の内容を確認する場合にも、読みやすいテキストデータを生成することができる。
そして、一発言か否かは音声の無音状態を検知したり文脈を検知することによって行われる。
このため、適切な位置で一発言毎に区分することができる。

また本実施形態では、マーキング動作を行う動作者が複数人想定されており、カメラ３等のマーキング取得手段がシステム内に複数設けられる。
このため、複数人が発話の内容を評価する場合でも適切にマーキング動作を捉えることができる。
特にカメラ３等のマーキング取得手段を、マーキング動作を行う動作者ごとに設けて、マーキング動作が動作者と対応付けられて取得されるようにした場合には、誰がどの発言に注目したのか等を容易に識別することができる。

またマーキング動作は、音声入力により行われてもよく、この場合にはマイク２等の音声入力部がマーキング取得手段となる。
この場合、発話に用いるマイク２の前を離れることなく、円滑にマーキング動作を行うことができる。

またマーキング動作は、ジェスチャーにより行われてもよく、この場合にはカメラ３等の撮影手段がマーキング取得手段となる。
この場合、会話の流れ等を妨げることなく、例えば発話しながらでもジェスチャーを行うことで、簡易にマーキング動作を行うことができる。

またマーキング動作は、音声のデータがテキストデータに変換されて表示部１４等に一覧表示されてから個別の音声に対応する前記文字列を選択することで行われてもよい。この場合には、マーキングし忘れた発言等がある場合にも表示画面を確認しながら簡易にマーカーを付与することができる。

またマーキング動作は、システム内の端末装置１に設けられた操作ボタンや、端末装置１等とは別体で設けられた操作装置の操作ボタンにおける入力操作であってもよい。
この場合にはボタン操作によって簡易にマーキング動作を行うことができる。
なお、マーキング動作を入力する手段は、上記に挙げたもののうちの複数を含んでいてもよく、この場合には場面に応じてマーキングの仕方を選択することができ、より自由にマーキング動作を行うことができる。

また本実施形態では、表示部１４の表示画面上等においてメモやコメント等を書き込んだ場合には、当該書き込まれたメモ等を、音声やマーキング動作と同じ時系列上において紐付けることができる。
これにより、会話等の途中で思い付いたことや気付いたことを簡易に発話者の発言と対応付けて残すことができる。

さらに、発話の場において画像が撮影された場合には当該撮影画像のデータも、音声やマーキング動作と同じ時系列上において紐付けることができる。
これにより、例えばボードにメモ書きされた文字等を撮影した場合にも、当該画像のデータを簡易に発話者の発言と対応付けて残すことができる。

また本実施形態では、マーキング動作が、マーカーを付与する音声が発話された時系列上の位置に応じて複数種類用意されていてもよい。
例えば、マーキング動作は、音声が発話されたタイミングでマーカーを付与する第１のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第２のマーキング動作とを含んでいてもよい。
この場合には、発話のタイミングですぐにマーキングできなかった場合でも、マーカーを付与したい発言に適切にマーカーを付与することが可能なる。
例えば、マーキング動作が操作ボタンを操作することによって入力される場合には、操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、マーカーを付与する音声の時系列上の位置を選択してもよい。
これにより、比較的簡易かつ正確にマーカーを付与する発言を選択することができる。

また本実施形態では、マーキング動作を行った動作者を識別する識別情報をマーキング動作に紐付けるようになっている。
このため、誰がどの発言に注目したのか等を容易に識別することができる。
特に、音声やマーキング動作に基づく表示を行う場合において、マーカーを付与した動作者を識別する識別情報に基づく表示が行われるようにした場合には、誰がどの発言に注目したのか等が分かりやすくなる。
さらに動作者の名称又は動作者ごとに設定された色を用いてマーカーを付与した動作者を識別して表示させた場合には、誰がどの発言に注目したのか等が視覚的、直感的に認識でき、分かりやすく表示させることができる。

また本実施形態では、音声のデータ、マーキング動作に関する情報、音声のタイムラインに関する情報及びマーキング動作のタイムラインに関する情報を保存するサーバー装置５を備えている。
これにより、各端末装置１の性能や構成に関わらず、十分なメモリー容量を確保することができ、より安定した会話支援システム１００を構築することができる。

［変形例］
なお、以上本発明の実施形態について説明したが、本発明は、かかる実施形態に限定されず、その要旨を逸脱しない範囲で、種々変形が可能であることは言うまでもない。

例えば、本実施形態では、図１に示すように、会話支援システム１００において複数の会議室Ｒ１，Ｒ２等が想定され、会議室Ｒ１，Ｒ２等にそれぞれ参加者Ａ～Ｆがおり、それぞれが意見等を出し合い発話し合う場合を例示したが、会話支援システム１００の構成は、図示例に限定されない。
例えば、発話する者が１人である演説等の場合にも会話支援システム１００を適用することができる。
この場合、発話者は演説を行う者のみであるが、例えば演説を聞いている聴衆は、演説の内容に適宜マーカーを付与するマーキング動作を行う「動作者」として参加することができる。またこの場合、演説を行う本人も自らの発話に適宜マーカーを付与するマーキング動作を行ってもよい。
これにより、演説のような１人で発話を行う場合にも、演説の進行を阻害されることなく、どの発言が聴衆から評価され、どの発言にどのような反応があったのかを随時記録していくことができる。

また、会話支援システム１００がサーバー装置５を備えていることは必須ではない。
会話支援システム１００がサーバー装置５を備えていない場合には、端末装置１の制御部１１が音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能する。

例えば、システム内に１つの端末装置１が設けられており、この端末装置１が設置されている会議室内や、この端末装置１と接続されたマイク２、カメラ３、スピーカー４等が設置された場所から参加者が発話の場に参加するような場合には、システム内に設けられたすべてのマイク２、カメラ３等により取得された各種データが端末装置１の制御部１１に送られ、制御部１１において各種の処理が行われる。

また、端末装置１がシステム内に複数設けられている場合には、何れかの端末装置１がホストとなり、当該ホストの端末装置１に、他の端末装置１に入力された各種データが集約され、ホストの端末装置１の制御部１１が音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能する。
この場合には、ホストの端末装置１の制御部１１による処理結果は、システム内のすべての端末装置１に送信され、共有されるように構成される。なおこの場合、複数の端末装置１同士は、インターネットやＬＡＮ等の通信ネットワーク６を介して接続されていてもよいし、有線で接続されていてもよい。

また、会話支援システムの構成は、音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能をいずれかの制御部がすべて実現する場合に限定されない。
例えば端末装置１の制御部１１とサーバー装置５の制御部５１とが役割を分担して各種処理を行ってもよい。
サーバー装置５の制御部５１にすべての処理を負担させないことで処理速度の向上が期待できるとともに、端末装置１とサーバー装置５とで役割分担することで、端末装置１の制御手段１１や記憶手段１２等の負荷を軽減することができ、円滑なシステム運用を行うことができる。

その他、会話支援システム１００を構成する各部の細部構成及び細部動作に関しても、本発明の趣旨を逸脱することのない範囲で適宜変更可能である。

１端末装置
２マイク
３カメラ
１１制御部
１２記憶部
１３操作部
１４表示部
５サーバー装置
５１制御部
５２記憶部
５３操作部
５４表示部
６通信ネットワーク
１００会話支援システム

Claims

複数人に発話が発信される場に設けられる会話支援システムであって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得手段と、
前記音声取得手段により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成手段と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得手段と、
前記マーキング取得手段により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成手段と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け手段と、
を備えることを特徴とする会話支援システム。
前記発話を行う発話者は複数人であり、
前記音声入力部は、システム内に複数設けられていることを特徴とする請求項１に記載の会話支援システム。
前記音声取得手段は、発話をした前記発話者を識別する発話者識別手段を備えていることを特徴とする請求項１又は請求項２に記載の会話支援システム。
前記音声入力部は、前記発話者ごとに設けられ、
前記発話者識別手段は、前記音声が入力された前記音声入力部と前記発話者との対応付けを取得することで発話をした前記発話者を識別することを特徴とする請求項３に記載の会話支援システム。
前記発話者識別手段は、前記音声入力部から入力された前記音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした前記発話者を識別することを特徴とする請求項３に記載の会話支援システム。
前記音声入力部は、移動可能に構成されていることを特徴とする請求項１から請求項５のいずれか一項に記載の会話支援システム。
前記音声取得手段により取得された前記音声のデータをテキストデータに変換するテキスト変換手段を備えていることを特徴とする請求項１から請求項６のいずれか一項に記載の会話支援システム。
前記テキスト変換手段は、前記音声のデータを一発言毎に区分して前記テキストデータに変換することを特徴とする請求項７に記載の会話支援システム。
前記テキスト変換手段は、無音状態の検知又は文脈検知に基づいて前記音声のデータを一発言毎に区分することを特徴とする請求項８に記載の会話支援システム。
前記マーキング動作を行う動作者は複数人であり、
前記マーキング取得手段は、システム内に複数設けられていることを特徴とする請求項１から請求項９のいずれか一項に記載の会話支援システム。
前記マーキング取得手段は、前記マーキング動作を行う動作者ごとに設けられ、
前記マーキング動作は、前記動作者と対応付けられて取得されることを特徴とする請求項１から請求項１０のいずれか一項に記載の会話支援システム。
前記マーキング動作は、音声入力により行われ、
前記マーキング取得手段は、音声が入力される音声入力部であることを特徴とする請求項１から請求項１１のいずれか一項に記載の会話支援システム。
前記マーキング動作は、ジェスチャーにより行われ、
前記マーキング取得手段は、前記ジェスチャーを捉える撮影手段であることを特徴とする請求項１から請求項１２のいずれか一項に記載の会話支援システム。
前記音声のデータはテキストデータに変換されて表示手段に文字列が一覧表示されるように構成され、
前記マーキング動作は、前記表示手段に表示された一覧の中から個別の音声に対応する前記文字列を選択することで行われ、
前記マーキング取得手段は、前記表示手段上で行われた前記マーキング動作を取得することを特徴とする請求項１から請求項１３のいずれか一項に記載の会話支援システム。
前記マーキング動作は、システム内の端末装置に設けられた操作ボタンにおける入力操作であることを特徴とする請求項１から請求項１４のいずれか一項に記載の会話支援システム。
前記マーキング動作を入力する操作ボタンを有する操作装置をさらに有することを特徴とする請求項１から請求項１５のいずれか一項に記載の会話支援システム。
前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
前記データ紐付け手段は、前記表示手段上に書き込まれたメモを、前記音声、前記マーキング動作と同じ時系列上において紐付けることを特徴とする請求項１から請求項１６のいずれか一項に記載の会話支援システム。
前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
前記データ紐付け手段は、発話の場において撮影された撮影画像のデータを、前記音声、前記マーキング動作と同じ時系列上において紐付けることを特徴とする請求項１から請求項１７のいずれか一項に記載の会話支援システム。
前記マーキング動作は、前記マーカーを付与する前記音声が発話された時系列上の位置に応じて複数種類用意されていることを特徴とする請求項１から請求項１８のいずれか一項に記載の会話支援システム。
前記マーキング動作は、少なくとも、前記音声が発話されたタイミングで前記マーカーを付与する第１のマーキング動作と、前記マーキング動作をしたタイミングよりも前の所定のタイミングで発話された前記音声に前記マーカーを付与する第２のマーキング動作とを含むことを特徴とする請求項１９に記載の会話支援システム。
前記マーキング動作は、操作ボタンを操作することによって入力され、
前記操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、前記マーカーを付与する前記音声の時系列上の位置を選択することを特徴とする請求項１９又は請求項２０に記載の会話支援システム。
前記マーキング取得手段は、前記マーキング動作を行った動作者を識別する識別情報を前記マーキング動作に紐付けることを特徴とする請求項１から請求項２１のいずれか一項に記載の会話支援システム。
前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
前記表示手段は、前記マーカーを付与した動作者を識別する前記識別情報に基づく表示が行われることを特徴とする請求項２２に記載の会話支援システム。
前記識別情報は、前記動作者の名称又は前記動作者ごとに設定された色のいずれかを含むことを特徴とする請求項２２又は請求項２３に記載の会話支援システム。
前記音声のデータ、前記マーキング動作に関する情報、前記音声のタイムラインに関する情報及び前記マーキング動作のタイムラインに関する情報を保存するサーバー装置を備えていることを特徴とする請求項１から請求項２４のいずれか一項に記載の会話支援システム。
複数人に発話が発信される場における会話支援方法であって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得工程と、
前記音声取得工程において取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成工程と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得工程と、
前記マーキング取得工程において取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成工程と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け工程と、
を含むことを特徴とする会話支援方法。
複数人に発話が発信される場に設けられる会話支援システムのコンピューターに、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得機能と、
前記音声取得機能により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成機能と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得機能と、
前記マーキング取得機能により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成機能と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け機能と、
を実現させることを特徴とするプログラム。