JP2022015775A - 会話支援システム、会話支援方法及びプログラム - Google Patents

会話支援システム、会話支援方法及びプログラム Download PDF

Info

Publication number
JP2022015775A
JP2022015775A JP2020118844A JP2020118844A JP2022015775A JP 2022015775 A JP2022015775 A JP 2022015775A JP 2020118844 A JP2020118844 A JP 2020118844A JP 2020118844 A JP2020118844 A JP 2020118844A JP 2022015775 A JP2022015775 A JP 2022015775A
Authority
JP
Japan
Prior art keywords
voice
marking
support system
conversation support
marking operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020118844A
Other languages
English (en)
Other versions
JP7452299B2 (ja
Inventor
慶太 斉藤
Keita Saito
亜蘭 鈴木
Aran Suzuki
正治 原島
Seiji Harashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2020118844A priority Critical patent/JP7452299B2/ja
Priority to US17/358,336 priority patent/US20220013128A1/en
Publication of JP2022015775A publication Critical patent/JP2022015775A/ja
Application granted granted Critical
Publication of JP7452299B2 publication Critical patent/JP7452299B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

【課題】参加者の手間や労力を要さずに、議論への集中と重要部分の記録とを両立させることが可能な会話支援システム、会話支援方法及びプログラムを提供する。【解決手段】複数人に発話が発信される場に設けられる会話支援システム100に、発話者によって発話されマイク2から入力された音声のデータを取得して、取得した音声のデータを時系列にしたがって管理し、音声に関して個別のマーカーを付与するマーキング動作を時系列にしたがって管理するとともに、音声とマーキング動作とを同じ時系列上において紐付ける制御部51を備えた。【選択図】図1

Description

本発明は、会話支援システム、会話支援方法及びプログラムに関する。
各種の打合せやアイディア出しを行う場等においては、議論への集中が求められ、従来の会議のように、重要部分等について参加者がメモを取りながら参加することが難しい場合が増えている。
議論への集中と重要部分の記録とを両立させるための手法としては、会話の場で発せられた発言を録音しておき、後にこれを聞き直して重要部分をまとめる等の手法が存在するが、このような手法では、多くの時間と手間を要してしまう。
この点、例えば特許文献1には、発言の内容が重要コメントであることを設定する操作部と、重要コメントであることを他の端末に報知する重要コメント報知部とを備える会議支援システムが提案されている。具体的には、重要な発言であるときに当該発言を選択する手段を有し、発言をテキスト化した後に、重要とされた発言部分にマーカーが付加されて端末の表示部に表示される。
重要な発言であるとの選択は、発話者がこれから重要発言をする場合に所定のボタンを押して重要発言の範囲を指定したり、表示部に表示されたテキストにマーキングしたりすることで行われる。これにより、どの発言が重要であるかを発話者は参加者に認識させることができる。
特開2018-174442号公報
しかしながら、特に発話者以外の参加者が重要発言にマーキングするためには、表示部に表示されたテキストを注視しつつマーキングのための操作を行う必要がある。
このため、議論への集中が阻害されてしまうという問題がある。
本発明の課題は、参加者の手間や労力を要さずに、議論への集中と重要部分の記録とを両立させることが可能な会話支援システム、会話支援方法及びプログラムを提供することである。
上記課題を解決するため、請求項1に記載の発明の会話支援システムは、
複数人に発話が発信される場に設けられる会話支援システムであって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得手段と、
前記音声取得手段により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成手段と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得手段と、
前記マーキング取得手段により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成手段と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け手段と、
を備えることを特徴とする。
また、請求項26に記載の会話支援方法は、
複数人に発言が発信される場における会話支援方法であって、
発言者によって発言され音声入力部から入力された音声のデータを取得する音声取得工程と、
前記音声取得工程において取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成工程と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得工程と、
前記マーキング取得工程において取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成工程と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け工程と、
を含むことを特徴とする。
また、請求項27に記載のプログラムは、
複数人に発言が発信される場に設けられる会話支援システムのコンピューターに、
発言者によって発言され音声入力部から入力された音声のデータを取得する音声取得機能と、
前記音声取得機能により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成機能と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得機能と、
前記マーキング取得機能により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成機能と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け機能と、
を実現させることを特徴とする。
本発明によれば、参加者の手間や労力を要さずに、議論への集中と重要部分の記録とを両立させることができる。
本実施形態における会話支援システムの全体構成を模式的に示す要部ブロック図である。 会話支援システムを構成する端末装置の要部構成を示す要部ブロック図である。 会話支援システムを構成するサーバー装置の要部構成を示す要部ブロック図である。 本実施形態における会話支援方法を示すフローチャートである。 本実施形態における表示部への表示例を示す図である。
以下、図1から図5を参照して、本発明にかかる会話支援システム、会話支援方法及びプログラムの一実施形態について説明する。
ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい種々の限定が付されているが、本発明の技術的範囲を以下の実施形態及び図示例に限定するものではない。
[会話支援システムの全体構成]
始めに、本実施形態に係る会話支援システム100の概略構成について説明する。図1は会話支援システム100の全体構成を模式的に示す要部構成図である。
会話支援システム100は、複数人に発話が発信される場に設けられる。
本実施形態の会話支援システム100では、例えば図1に示すように、会議室R1において2名の参加者A,Bが参加し、会議室R2において3名の参加者C,D,Eが参加し、自宅や外出先等のオープンスペースにおいて1名の参加者Fが参加する場を想定する。
本実施形態の会話支援システム100が設けられる場は、いわゆる会議の他、打合せやアイディア出し等、複数人が意見等を出し合い発話し合うような場を広く想定している。
参加者A~Fは、必ずしも全員が発話するわけではないが、発話する可能性のある「発話者」である。このように本実施形態では、発話を行う発話者が複数人いる場合を例示している。
また参加者A~Fは、自らが発話するか否かに関わらず、自己又は他の発話者が発話(発言)した音声に関して個別のマーカーを付与するマーキング動作を行う「動作者」となり得る。
図1に示す例では、会議室R1に、1つの端末装置1(1a)と、音声入力部としてのマイクロフォン(以下「マイク2」という。)が設けられている。
会議室R1に設けられるマイク2は、参加者A,Bごとに設けられている。すなわち、参加者Aに対応してマイク2aが設けられ、参加者Bに対応してマイク2bが設けられている。
また、会議室R2には、1つの端末装置1(1b)と、1つのマイク2(2c)が設けられている。すなわち、会議室R2には、複数の参加者C,D,Eについて1つのマイク2cが設けられている。
会議室R1,R2に配置されている端末装置1(1a,1b)は、例えばデスクトップ型等、据置型のパーソナルコンピュータ(以下において「PC」とする。)やノート型のPC、タブレット型のPC等である。
これに対して、参加者Fは、スマートフォン等の携帯端末装置(端末装置1c)を有し、この端末装置1cを介して発話が発信される場に参加する者である。
端末装置1cは、音声入力部としてのマイク2(2d)と、後述の撮影手段としてのカメラ3、出力手段としてのスピーカー4等を備えている。
なお、据置型PCやノート型のPC、タブレット型のPC等である端末装置1a,1bにも、マイク2やカメラ3、スピーカー4等が設けられていてもよい。この場合には、端末装置1に設けられているマイク2やカメラ3、スピーカー4等を用いてもよいし、さらに外付けのマイク2やカメラ3、スピーカー4等を端末装置1に取り付けて用いてもよい。
本実施形態において端末装置1(1a,1b,1c)は、通信ネットワーク6を介してサーバー装置5と接続されている。
通信ネットワーク6は、インターネットであってもよいし、LAN(Local Area Network)等、他のネットワークとしてもよい。なお、端末装置1(1a,1b,1c)とサーバー装置5とは有線で接続されていてもよい。
[端末装置の構成]
次に本実施形態の会話支援システム100を構成する端末装置1の構成について、図2を参照しつつ説明する。
図2は、端末装置1(1a,1b)の要部構成を示す要部ブロック図である。
なお、端末装置1cは、前述のように例えばスマートフォン等の携帯端末装置である。なお、端末装置1cはこれに限定されず、例えばマイク2、カメラ3、スピーカー4等が内蔵されたノート型のPCやタブレット型のPC等であってもよい。
端末装置1cは、図2に示すマイク2、カメラ3、スピーカー4を内蔵している点で端末装置1a,1bと異なる。これ以外の基本的な構成は端末装置1a,1bと同様であるため、以下では端末装置1a,1bについて説明し、端末装置1cについてはその説明を省略する。
図2に示すように、端末装置1a,1bは、制御部11、記憶部12、操作部13、表示部14、通信部15、各部11~15を接続するバス16を備えて構成されている。また端末装置1a,1bには、音声入力部としてのマイク2、撮影手段としてのカメラ3、音声出力部としてのスピーカー4等が接続されている。
制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)等により構成される。制御部11のCPUは、操作部13の操作に応じて、記憶部12に記憶されている各種プログラムを読出してRAM内に展開し、展開されたプログラムに従って各種処理を実行し、端末装置1各部の動作を集中制御する。
記憶部12は、不揮発性の半導体メモリーやハードディスク等により構成され、制御部11が実行する各種プログラムやプログラムにより処理の実行に必要なパラメーター等を記憶する図示しないプログラム記憶領域や、各種のデータ等を記憶する図示しないデータ記憶領域を有する。
記憶部12のデータ記憶領域には、音声入力部であるマイク2から入力された音声のデータや音声のデータがテキストデータに変換された場合のテキストデータ、撮影手段としてのカメラ3から入力された動作者のジェスチャーを捉える画像のデータ等を記憶する。本実施形態では、音声のデータや画像のデータ等は、記憶部12において、音声を発話した発話者、動作を行った動作者を識別する識別情報と紐付けられて記憶されるようになっている。
操作部13は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成された操作手段であり、キーボードに対するキー操作やマウス操作により入力された指示信号を制御部11に出力する。なお、操作部13は、押釦等の操作ボタンを備えていてもよい。さらに会話支援システム100内に端末装置1とは別体で構成され操作ボタン等を備えた図示しない操作装置が設けられていてもよく、この場合にはこのような操作装置も操作部13として機能する。
また、操作部13は、表示部14の表示画面にタッチパネルを備えてもよく、この場合、タッチパネルを介して入力された指示信号を制御部11に出力する。
また、本実施形態では、音声のデータがテキスト化されて表示部14に表示されるようになっており、表示部14の表示画面にタッチパネルが設けられている場合には、表示画面に表示された一覧の中から個別の音声に対応する文字列を選択することでマーキング動作が行われてもよい。また、文字列の選択は、キー操作や操作ボタンによる操作等で行われてもよい。この場合には、操作部13は、動作者がマーキング動作を入力しその情報を取得するマーキング取得手段として機能する。
表示部14は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)等のモニターにより構成され、制御部11から入力される表示信号の指示に従って、操作部13からの入力指示やデータ等を表示する。
また本実施形態では、参加者の発話の音声のデータとマーキング動作とを同じ時系列上に対応付けたデータ等を表示可能となっている。
すなわち、本実施形態では、後述するように音声のデータがテキストデータに変換されて表示手段に文字列が一覧表示されるように構成されており、音声がテキスト化されたデータとマーカーとが対応付けられた形で一覧表示される(図5参照)。
さらに、表示部14の表示画面には、前述のように操作部13として機能するタッチパネルが構成されていてもよい。
通信部15は、LANアダプターやモデムやTA(Terminal Adapter)等を備え、通信ネットワーク6に接続された各装置間におけるデータ送受信を制御する。
本実施形態の端末装置1に接続されるマイク2は、発話者が発話したときにその音声を録音する。
また本実施形態において、マーキング動作を行う動作者が音声によってマーキング動作を行ったときに、マイク2はこの音声も録音し、マーキング取得手段として機能する。
マイク2は、例えば図示しない増幅器やA/D変換器等とともに音声入力部を構成し、アナログ信号として入力された音声のデータを適宜デジタルデータに変換する。マイク2によって録音されデジタルデータに変換された音声のデータは、制御部11に送信される。
また、本実施形態では、当該音声のデータは端末装置1からサーバー装置5に送られ、後述の制御部51において取得される。
マイク2は、例えば、会議室R1,R2に固定的に設けられているものでもよいし、移動可能に構成されたものでもよい。また、端末装置1に取り付けられて用いられるものでもよい。発話する発話者(参加者)が複数人いる場合には、マイク2は、システム内に複数設けられていることが好ましく、発話者(参加者)ごとに設けられていることがさらに好ましい。
カメラ3は、人のジェスチャー(動作)を捉える撮影手段である。
参加者がジェスチャー(動作)によって後述のマーキング動作を行った場合には、カメラ3は、そのジェスチャーを捉えるマーキング取得手段として機能する。
カメラ3は、例えば、会議室R1,R2に固定的に設けられているものでもよいし、移動可能に構成されたものでもよい。また、端末装置1に取り付けられて用いられるものでもよい。
マーキング動作を行う動作者が複数人いる場合には、マーキング取得手段として機能するカメラ3は、システム内に複数設けられていることが好ましく、動作者ごとに設けられていることがさらに好ましい。
カメラ3が動作者ごとに設けられている場合には、カメラ3によって撮影した画像のデータに当該カメラ3が対応する動作者の情報(氏名や識別番号等の識別情報)を予め紐付けておく。具体的には、予め設定された識別情報を撮影画像のデータに付帯させる。これにより、マーキング動作を、それを行った動作者と対応付けて取得することができる。すなわち各マーキング動作を行った動作者が誰であるかを撮影画像のデータから識別することが可能となる。
カメラ3によって取得されたデータ(撮影画像のデータ)は、制御部11に送られる。また、本実施形態では、当該画像のデータは端末装置1からサーバー装置5に送られ、後述の制御部51において取得される。
また、スピーカー4は、発話者によって発話された音声のデータ等を再生して発音させるためのものである。
スピーカー4は、図示しないD/A変換器や増幅器等とともに音声出力部を構成する。
端末装置1にスピーカー4が接続されることにより、離れた場所にある複数の会議室等から参加者が発話の場に参加する場合にも、他の場所の参加者の発話内容を聞き取り、互いに会話をやり取りすることができる。
[サーバー装置の構成]
次に本実施形態の会話支援システム100を構成するサーバー装置5の構成について、図3を参照しつつ説明する。
サーバー装置5は、各端末装置1(1a,1b,1c)から送られた各種データを処理して、処理結果を各端末装置1(1a,1b,1c)に送信する。これにより各端末装置1(1a,1b,1c)を介して参加している参加者A~Fが同じ情報を共有することができる。
図3は、サーバー装置5の要部構成を示す要部ブロック図である。
図3に示すように、サーバー装置5は、制御部51、記憶部52、操作部53、表示部54、通信部55、各部51~55を接続するバス56を備えて構成されている。
制御部51は、CPU(Central Processing Unit)、RAM(Random Access Memory)等により構成される。制御部51のCPUは、操作部53の操作に応じて、記憶部52に記憶されている各種プログラムを読出してRAM内に展開し、展開されたプログラムに従って各種処理を実行し、サーバー装置5各部の動作を集中制御する。
本実施形態において制御部51は、音声取得手段、発話者識別手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、テキスト変換手段、データ紐付け手段等として機能する。
音声取得手段としての制御部51は、発話者(参加者A~F)によって発話され音声入力部であるマイク2から入力された音声のデータを取得する。本実施形態では、各端末装置1においてマイク2から入力された音声のデータが各端末装置1の制御部11において取得される。制御部11において取得された音声のデータは、各端末装置1から通信部15,55を介してサーバー装置5に送られ、サーバー装置5の制御部51によって取得される。
また音声取得手段として機能する制御部51は、さらに、取得した音声について、それを発話した発話者(参加者A~F)を識別する発話者識別手段としても機能する。すなわち、図1に示す場合のように発話者が複数いる場合に、制御部51は、誰がどの発言をしたのかを特定する。音声とそれを発話した発話者との対応付けは記憶部52等に記憶される。
発話者識別手段としての制御部51が発話をした発話者を識別する具体的な手法は特に限定されない。
例えば、音声入力部としてのマイク2が図1の会議室R1のように発話者(参加者A,B)ごとに設けられている場合には、制御部51は、音声が入力されたマイク2と発話者(参加者A,B)との対応付けを取得することで発話をした発話者を識別する。例えば、予めマイク2に個別の識別番号等を付与しておき、001番のマイク2aを参加者Aが用い、002番のマイク2bを参加者Bが用いるというように予め登録しておけば、音声の入力されたマイク2が001番のマイク2aであるか002番のマイク2bであるかの情報を音声のデータに付帯させることができる。このように音声のデータの付帯情報に基づいて発話者を識別できるように構成することで、誰が音声を発話したかを容易に識別することが可能となる。
また例えば、制御部51は、マイク2から入力された音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした発話者を識別してもよい。例えば予め各発話者(参加者C,D,E)の音声波形をそれぞれの発話者の識別情報と対応付けて登録しておくことで、入力された音声の音声波形と各発話者(参加者C,D,E)の音声波形とを照合することが可能となる。このような構成とすれば、図1に示す会議室R2のように、複数の発話者(参加者C,D,E)について1つのマイク2が設けられている場合でも、発話をした発話者を識別することができる。
また音声タイムライン作成手段としての制御部51は、音声取得手段として取得した音声のデータを時系列にしたがって管理する。すなわち、音声のデータには当該音声が取得された時刻に関する時刻データが付帯されており、制御部51は、この時刻データに基づいて、音声のデータを時系列順に整理する。
またマーキング解析手段としての制御部51は、音声に関して個別のマーカーを付与するマーキング動作が取得された際に、当該マーキング動作を解析する。
ここでマーカーとは、発話された音声を聞いていた者又は発話した本人が、例えば当該発言(発話)を重要な発言であると評価した場合、特にその発言に注目した場合、関心を持った場合等に、そのことを示す目印、標識である。
制御部51は、参加者が、発話された音声に関して所定のマーキング動作を行ったときに、それをマーキング動作として、動作が行われた時刻のデータとともに記憶部52に記憶させる。
なお、マーカーは、「重要」「高評価」「注意」「疑問」等、複数の意味(動作者の意図)のマーカーをすべて同じマーキング動作で付与してもよいし、どのような意味でマーカーを付与したのかが区別できるように、意味ごとに異なるマーキング動作を対応付けておいてもよい。この場合にはマーキング解析手段としての制御部51は各マーキング動作の意味を解析し、マーキング動作に動作者の意図に関する情報を付帯させて記憶部52等に記憶させてもよい。
本実施形態では、マーキング動作として、音声入力、ジェスチャー入力、操作手段からの入力等が想定されている。
マーキング動作が音声入力である場合にはマイク2がマーキング取得手段となり、マーキング動作がジェスチャー入力である場合にはカメラ3がマーキング取得手段となり、マーキング動作が操作手段からの入力である場合には、操作部13等がマーキング取得手段となる。
マイク2やカメラ3や操作部13から入力される情報は、マーキング動作だけではないため、制御部51はマーキング解析手段として各動作を解析してそれがマーキング動作であるか否かを判断する。
例えば、音声入力の場合であれば「いいね」や「マーク」等、マーキング動作としての発話を予め登録しておき、入力された音声がこれらに該当する場合には、それが単なる発話ではなく、マーキング動作であると判断する。
また、例えばジェスチャー入力の場合であれば、右手の親指を立てるジェスチャーや左手を振るジェスチャー(動作)等をマーキング動作としてのジェスチャーとして予め登録しておき、入力されたジェスチャーがこれらに該当する場合には、それが単なる動きではなく、マーキング動作であると判断する。
さらに本実施形態においてマーキング動作は、マーカーを付与する前記音声が発話された時系列上の位置に応じて複数種類用意されている。
すなわち、本実施形態では、マーキング動作は少なくとも、音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第2のマーキング動作とを含んでいる。
例えばマーキング動作が音声入力で行われる場合に「マーク」という入力があった場合には、制御部51は音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と判断し、「3マーク」という入力があった場合には、制御部51はマーキング動作をしたタイミングよりも3秒前のタイミングで発話された音声にマーカーを付与する第2のマーキング動作と判断する。
また例えば、マーキング動作がジェスチャー入力で行われる場合に、左手を1回振ったら、制御部51は音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と判断し、右手を1回振ったら、制御部51はマーキング動作をしたタイミングよりも1つ前の発言にマーカーを付与する第2のマーキング動作と判断する。
また、マーキング動作が操作ボタンを操作することによって入力される場合には、例えば操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、マーカーを付与する音声の時系列上の位置が選択されるようになっていてもよい。
このように、第2のマーキング動作は、マーカーを付与したい発言を、何秒前の発言というように、時間で指定して過去の発言にマーカーを付与するものでもよいし、いくつ前の発言というように、発言単位で遡って過去の発言にマーカーを付与するものでもであってもよい。
このように、マーキング解析手段としての制御部51は、マーキング動作として入力された内容によってマーキング動作の意味を解析する。
なお、どのような動作がどのようなマーキング動作としての意味を有するかの対応付けは、予め設定して記憶部52等に記憶・登録しておき、制御部51は記憶された情報に基づいてマーキング動作の解析を行う。マーキング動作の解析に関するルールは、動作者それぞれがカスタマイズして登録することが可能となっていてもよい。
マーキングタイムライン作成手段としての制御部51は、マーキング取得手段により取得されたマーキング動作を時系列にしたがって管理する。
なお、前述のように、マーキング動作が、音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第2のマーキング動作とを含んでいる場合には、制御部51は、マーキング解析手段としての解析結果に基づいて、所定のルールに従った時系列上の位置にマーカーを付与する。
データ紐付け手段としての制御部51は、音声とマーキング動作とを同じ時系列上において紐付ける。
なお、前述のように、マーキングタイムライン作成手段としての制御部51が、所定のルールに従った時系列上の位置にマーカーを付与した場合には、制御部51は、音声とマーキング動作とを紐付ける際も、マーキングタイムラインの作成結果を反映して紐付けを行う。
また本実施形態では、表示手段である表示部14に音声のデータ(音声がテキスト化された文字列)及び音声に関するマーカーが表示されるようになっており、データ紐付け手段としての制御部11は、表示部14上に書き込まれたメモ・コメント等がある場合には、これを音声やマーキング動作と同じ時系列上において紐付ける。
また、発話の場において撮影された撮影画像のデータ等がある場合には、データ紐付け手段としての制御部11は、これらについても音声やマーキング動作と同じ時系列上において紐付けるようになっている。
テキスト変換手段としての制御部51は、音声取得手段として取得した音声のデータをテキストデータに変換する。
具体的には、記憶部52等に音声をテキスト(文字データ)に変換するための図示しない辞書データベース等を備えておき、制御部51は、これらの情報を参照して音声のデータをテキストデータに変換する。なお、「まー」「あー」「えー」「あのー」「えーと」等の間投詞についてはテキスト化の対象から除外するように構成してもよい。
本実施形態において制御部51は、音声のデータを一発言毎に区分してテキストデータに変換するようになっている。具体的には制御部51は、一発言と判断される範囲を一まとまりの一文のテキストデータとし、別発言に分割されると判断すると、段落を分けるようになっている。別発言として段落が分けられた場合には、最終的に表示部14に表示される際に改行されて表示される。
制御部51が音声のデータを一発言毎に区分する手法は特に限定されないが、例えば制御部51は、無音状態の検知又は文脈検知に基づいて音声のデータを一発言毎に区分する。
すなわち、制御部51は、所定時間無音状態が続いた場合や、辞書データベース等に照らして文脈が変化したと判断される場合に別発言と判断して段落を分ける。
なお、無音状態を検知することで一発言か否かを判断する場合には、別発言と判断される無音状態の連続時間(例えば無音時間が2秒以上連続した場合に別発言と判断する等の閾値)を予め設定しておく。
サーバー装置5の記憶部52は、不揮発性の半導体メモリーやハードディスク等により構成され、制御部11が実行する各種プログラムやプログラムにより処理の実行に必要なパラメーター等を記憶する図示しないプログラム記憶領域や、各種のデータ等を記憶する図示しないデータ記憶領域を有する。本実施形態のプログラム記憶領域には会話支援のためのプログラム等が記憶されている。
記憶部52のデータ記憶領域には、音声入力部であるマイク2から入力された音声のデータや音声のデータがテキストデータに変換された場合のテキストデータ、撮影手段としてのカメラ3から入力されたジェスチャーを捉える画像のデータ等が記憶される。本実施形態において音声のデータや画像のデータ等は、音声を発話した発話者、動作を行った動作者を識別する識別情報と紐付けられて記憶されている。
操作部53は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された指示信号を制御部51に出力する。なお、操作部53の構成はこれに限定されない。各種の操作ボタンが設けられている場合や表示部54にタッチパネルが構成されている場合には、これらも操作部53として機能する。
表示部54は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)等のモニターにより構成され、制御部51から入力される表示信号の指示に従って、操作部53からの入力指示やデータ等を表示する。
通信部55は、LANアダプターやモデムやTA(Terminal Adapter)等を備え、通信ネットワーク6に接続された各装置との間のデータ送受信を制御する。
[会話支援システムの動作]
次に、本実施形態における会話支援システムによって実現される会話支援方法について図4及び図5を参照しつつ説明する。
図4は、本実施形態における会話支援方法の手順を示すフローチャートである。
図4に示すように、会話支援システム100において会話支援を行う場合、制御部51は、会話支援システム100内に配置されたマイク2の電源がONになったか否かを判断し(ステップS1)、ONとなっていない場合(ステップS1;NO)には、ステップ1の判断を繰り返して待機する。
他方、マイク2の電源がONになった場合(ステップS1;YES)には、さらに会議支援システムへの参加があるか否かを判断する(ステップS2)。具体的には、所定の会議や打ち合わせ等が設定されている場合に、当該設定された場に参加者のログイン等、参加を表明する操作入力があったか否かを判断する。会議支援システム100への参加がない場合(ステップS2;NO)には、参加があるまで判断を繰り返す。
会議支援システム100への参加があった場合(ステップS2;YES)には、制御部51は、システム内に設けられているマイク2(例えばマイク2a,2b,2c,2dが参加予定となっている場合には、これらのマイク2)から入力された音声のデータの取得を開始する(ステップS3)。
そして制御部51は、音声のデータを取得すると、当該音声を発話した発話者を識別する(ステップS4)。
また制御部51は、音声が一発言であるか否かを判断する(ステップS5)。音声が一発言であると判断される場合(ステップS5;YES)には、当該音声を一まとまりの発言としてテキストデータに変換する(ステップS6)。他方、音声が一発言ではないと判断される場合(ステップS5;NO)には、当該音声を一発言ごとに区切ってテキストデータに変換する(ステップS7)。
そして制御部51は、音声のデータに付帯されている時刻データ等に基づいて音声のデータを発話時にしたがって時系列上で管理する(ステップS8)。
また、会議支援システム100への参加があった場合、制御部51は、音声のデータの取得と平行して、音声に関してマーキング動作が取得されたか否かを随時判断する(ステップS9)。
そして、マーキング動作が取得されるまで(ステップS9;NO)は、制御部51は判断処理を繰り返し、マーキング動作が取得された場合(ステップS9;YES)には、マーキング動作を行った動作者を識別する(ステップS10)。また、マーキング動作として意味の異なる複数種類のものがある場合(記憶部52等に登録されている場合)には、制御部51はマーキング動作の意味を解析する。
マーキング動作を行った動作者の識別や意味の解析等が完了すると、制御部51は、マーキング動作を動作時にしたがって時系列上で管理する(ステップS11)。なお、前述のように、マーキング動作が所定のルール上、動作時よりも所定時間前に発話された音声に対するものであると解析されている場合には、当該ルールにしたがって時系列上に位置付ける。
音声及びマーキング動作がともに時系列に沿って整理されると、制御部51は、音声とマーキング動作とを同じ時系列上で紐付ける(ステップS12)。
そして、音声のテキストデータとマーキング動作に基づくマーカーのデータとを会話支援システム100に参加している各端末装置1の表示部14に、時系列にしたがって表示させる(ステップS13)。具体的には、制御部51が、時系列にしたがって一覧表示を行うための表示用データを生成して各端末装置1に送信し、各端末装置1の制御部11が、当該表示用データに基づいて表示部14の表示を制御し、表示部14の表示画面に例えば図5に示すような一覧表示を行う。
図5は、本実施形態の会話支援システム100の使用中や使用後に出力されるアウトプットの例である。図5に示すようなアウトプットは、端末装置1の表示部14等に表示されるものでもよいし、プリントアウト等ができるものでもよい。
図5において、「index」は発言の通し番号であり、「datetime」は発言(音声)が発話された時間であり、「username」は参加者のログイン名(実名でもよいしシステム内で用いる仮の名称でもよい。)であり、「marker」は参加者が重要だと思った発言等に対してマーキング動作を行うことによって付与されたマーカー(マーキング履歴)であり、「link」は発言とリンクしたメモ等であり、「talk」は、テキスト化された発言(音声)である。
なお、図5では、参加者「Aさん」の「username」と「marker」については強調無し(マーカーについては白抜きの星型)、参加者「Bさん」の「username」と「marker」「link」については太字(マーカーについては黒塗りの星型)で示して区別している。このように区別することで、誰がどの発言にマーキングしたりメモを残したりしたのかが、視覚的に分かりやすくなる。なお、図5では図示の都合上太字かそれ以外か等で区別したが、実際に表示部14に表示されたりプリントアウトされる際には、参加者ごとに色分け等がなされていることが好ましい。
また、図5では、「username」「marker」「link」について共通の色分け等で区別する例を示したが、「talk」等他の項目についても同様の区別を行ってもよい。なお、「talk」は「username」と同じ時刻上(同じ行)に表示されるため、色分け等の区別は必須ではない。またマーカーが多く付与された発言がどの発言であるかが分かることが重要な場合等であれば、必ずしも色分け等により動作者を識別できるようにする必要はない。
またマーキング動作を行った動作者ごとにマーカーを区別できるようにする手法はマーカーを動作者ごとに設定された色で表示させるものに限定されない。例えばマーカーの後に動作者の名称(ログイン名等)を表示させたり、動作者ごとに設定されたキャラクタのマーク等を表示させる(例えばAさんがマーキング動作したマーカーは猫のイラストで表示させ、Bさんがマーキング動作したマーカーは花のイラストで表示させる等)等の手法によってもよい。
また図5では、「marker」として星形のマーカーのみを示したが、前述のように、マーカーとして、動作者が重要ポイントと考えた「高評価」や何か質問したいと感じた「疑問」等、意味の異なる複数種類を用意する場合には、例えば「高評価」であれば星形、「疑問」であれば三角等、マーカーの種類ごとに形状の異なるマークの表示を行ってもよい。
また「link」の項目は、例えば端末装置1において参加者が入力したメモ(テキスト)であり、図5では「Bさん」が「index;249」の「Aさん」の発言についてメモしたものである。参加者が入力したメモ等は、入力後にリンクさせたい発言を選択することによって当該発言にリンクさせることが可能となっている。
なお「link」の項目には、メモだけでなく撮影画像のデータ等がリンクされていてもよい。この場合には、例えば画像データがリンクされていることを示すアイコンとリンク先のアドレス等が「link」の項目に表示されてもよい。
また図5に示すようなアウトプット用のデータ(表示用データや印刷用データ)は、サーバー装置5で生成されシステムに参加する各端末装置1に送信されたのち、各端末装置1の記憶部12等で保存されてもよいが、端末装置1の使用の自由度やデータ管理コストの面等を考慮して、サーバー装置5の記憶部52等に保存させ、必要に応じて各端末装置1において参照可能に構成されていることが好ましい。
これにより、本実施形態の会話支援システム100では、システムの参加者に手間や労力をかけさせることなく、各参加者が議論に集中して発話等を行いながら、重要部分等には適宜マーカー等を付与して記録に残すことができる。
[効果]
以上説明したように、本実施形態における会話支援システム100は、複数人に発話が発信される場に設けられる会話支援システムであって、発話者によって発話され音声入力部であるマイク2から入力された音声のデータを制御部51が取得して、この音声のデータを時系列にしたがって管理し、音声に関して個別のマーカーを付与するマーキング動作が取得されると、このマーキング動作を時系列にしたがって管理するとともに、音声とマーキング動作とを同じ時系列上において紐付けるようになっている。
これにより、参加者は会話等のやり取りに集中しつつ、発話された音声(発言)が重要と思ったとき等には適宜マーカーを付与することができ、どの音声(発言)にマーカーを付与したかについてはシステム側(本実施形態ではサーバー装置5の制御部51)で自動的に対応付けを行う。
このため、一旦会話を録音してからテキストデータに起こしたり、一覧表示された発言の中から重要発言を探したりするような手間や労力を要さずに、各参加者の議論への集中と重要部分の記録とを両立させることができる
また本実施形態では、発話を行う発話者が複数人想定されており、音声入力部としてのマイク2が、システム内に複数設けられている。
これにより、複数人が同時に会話支援システムに参加しても円滑に発話を行うことができる。
そして、音声取得手段としての制御部51は、発話をした発話者を識別する発話者識別手段としても機能する。
これにより、複数人が同時に会話支援システムに参加しても、各発言が誰によって発話されたものかを特定することができる。
特に、音声入力部としてのマイク2を発話者ごとに設けた場合には、制御部51は、音声が入力されたマイク2と発話者との対応付けを取得することで発言(発話)をした発話者を識別することができる。
このため、発話者が発話に際して自分で入力や申告を行うことなく、自動的に発話者を特定することができ、円滑に会議等における会話を進行させることができる。
また、マイク2から入力された音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした発話者を識別するように構成した場合には、マイク2が発話者ごとに設けられていない場合でも、適切に各発言の発話者を特定することができる。
またマイク2を移動可能に構成した場合には、参加者が場所の制約を受けずに会話支援システム100に参加することができ、システムを利用する場合の自由度が向上する。
また本実施形態では、制御部51が音声のデータをテキストデータに変換するテキスト変換手段としても機能する。
このため、録音された発話者の発言を文字データに書き起こす手間を省いて、容易に議事録等を作成することが可能となる。
さらに、本実施形態では、音声のデータを一発言毎に区分してテキストデータに変換するようになっている。
このため、あとから会議や会話の内容を確認する場合にも、読みやすいテキストデータを生成することができる。
そして、一発言か否かは音声の無音状態を検知したり文脈を検知することによって行われる。
このため、適切な位置で一発言毎に区分することができる。
また本実施形態では、マーキング動作を行う動作者が複数人想定されており、カメラ3等のマーキング取得手段がシステム内に複数設けられる。
このため、複数人が発話の内容を評価する場合でも適切にマーキング動作を捉えることができる。
特にカメラ3等のマーキング取得手段を、マーキング動作を行う動作者ごとに設けて、マーキング動作が動作者と対応付けられて取得されるようにした場合には、誰がどの発言に注目したのか等を容易に識別することができる。
またマーキング動作は、音声入力により行われてもよく、この場合にはマイク2等の音声入力部がマーキング取得手段となる。
この場合、発話に用いるマイク2の前を離れることなく、円滑にマーキング動作を行うことができる。
またマーキング動作は、ジェスチャーにより行われてもよく、この場合にはカメラ3等の撮影手段がマーキング取得手段となる。
この場合、会話の流れ等を妨げることなく、例えば発話しながらでもジェスチャーを行うことで、簡易にマーキング動作を行うことができる。
またマーキング動作は、音声のデータがテキストデータに変換されて表示部14等に一覧表示されてから個別の音声に対応する前記文字列を選択することで行われてもよい。この場合には、マーキングし忘れた発言等がある場合にも表示画面を確認しながら簡易にマーカーを付与することができる。
またマーキング動作は、システム内の端末装置1に設けられた操作ボタンや、端末装置1等とは別体で設けられた操作装置の操作ボタンにおける入力操作であってもよい。
この場合にはボタン操作によって簡易にマーキング動作を行うことができる。
なお、マーキング動作を入力する手段は、上記に挙げたもののうちの複数を含んでいてもよく、この場合には場面に応じてマーキングの仕方を選択することができ、より自由にマーキング動作を行うことができる。
また本実施形態では、表示部14の表示画面上等においてメモやコメント等を書き込んだ場合には、当該書き込まれたメモ等を、音声やマーキング動作と同じ時系列上において紐付けることができる。
これにより、会話等の途中で思い付いたことや気付いたことを簡易に発話者の発言と対応付けて残すことができる。
さらに、発話の場において画像が撮影された場合には当該撮影画像のデータも、音声やマーキング動作と同じ時系列上において紐付けることができる。
これにより、例えばボードにメモ書きされた文字等を撮影した場合にも、当該画像のデータを簡易に発話者の発言と対応付けて残すことができる。
また本実施形態では、マーキング動作が、マーカーを付与する音声が発話された時系列上の位置に応じて複数種類用意されていてもよい。
例えば、マーキング動作は、音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第2のマーキング動作とを含んでいてもよい。
この場合には、発話のタイミングですぐにマーキングできなかった場合でも、マーカーを付与したい発言に適切にマーカーを付与することが可能なる。
例えば、マーキング動作が操作ボタンを操作することによって入力される場合には、操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、マーカーを付与する音声の時系列上の位置を選択してもよい。
これにより、比較的簡易かつ正確にマーカーを付与する発言を選択することができる。
また本実施形態では、マーキング動作を行った動作者を識別する識別情報をマーキング動作に紐付けるようになっている。
このため、誰がどの発言に注目したのか等を容易に識別することができる。
特に、音声やマーキング動作に基づく表示を行う場合において、マーカーを付与した動作者を識別する識別情報に基づく表示が行われるようにした場合には、誰がどの発言に注目したのか等が分かりやすくなる。
さらに動作者の名称又は動作者ごとに設定された色を用いてマーカーを付与した動作者を識別して表示させた場合には、誰がどの発言に注目したのか等が視覚的、直感的に認識でき、分かりやすく表示させることができる。
また本実施形態では、音声のデータ、マーキング動作に関する情報、音声のタイムラインに関する情報及びマーキング動作のタイムラインに関する情報を保存するサーバー装置5を備えている。
これにより、各端末装置1の性能や構成に関わらず、十分なメモリー容量を確保することができ、より安定した会話支援システム100を構築することができる。
[変形例]
なお、以上本発明の実施形態について説明したが、本発明は、かかる実施形態に限定されず、その要旨を逸脱しない範囲で、種々変形が可能であることは言うまでもない。
例えば、本実施形態では、図1に示すように、会話支援システム100において複数の会議室R1,R2等が想定され、会議室R1,R2等にそれぞれ参加者A~Fがおり、それぞれが意見等を出し合い発話し合う場合を例示したが、会話支援システム100の構成は、図示例に限定されない。
例えば、発話する者が1人である演説等の場合にも会話支援システム100を適用することができる。
この場合、発話者は演説を行う者のみであるが、例えば演説を聞いている聴衆は、演説の内容に適宜マーカーを付与するマーキング動作を行う「動作者」として参加することができる。またこの場合、演説を行う本人も自らの発話に適宜マーカーを付与するマーキング動作を行ってもよい。
これにより、演説のような1人で発話を行う場合にも、演説の進行を阻害されることなく、どの発言が聴衆から評価され、どの発言にどのような反応があったのかを随時記録していくことができる。
また、会話支援システム100がサーバー装置5を備えていることは必須ではない。
会話支援システム100がサーバー装置5を備えていない場合には、端末装置1の制御部11が音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能する。
例えば、システム内に1つの端末装置1が設けられており、この端末装置1が設置されている会議室内や、この端末装置1と接続されたマイク2、カメラ3、スピーカー4等が設置された場所から参加者が発話の場に参加するような場合には、システム内に設けられたすべてのマイク2、カメラ3等により取得された各種データが端末装置1の制御部11に送られ、制御部11において各種の処理が行われる。
また、端末装置1がシステム内に複数設けられている場合には、何れかの端末装置1がホストとなり、当該ホストの端末装置1に、他の端末装置1に入力された各種データが集約され、ホストの端末装置1の制御部11が音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能する。
この場合には、ホストの端末装置1の制御部11による処理結果は、システム内のすべての端末装置1に送信され、共有されるように構成される。なおこの場合、複数の端末装置1同士は、インターネットやLAN等の通信ネットワーク6を介して接続されていてもよいし、有線で接続されていてもよい。
また、会話支援システムの構成は、音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能をいずれかの制御部がすべて実現する場合に限定されない。
例えば端末装置1の制御部11とサーバー装置5の制御部51とが役割を分担して各種処理を行ってもよい。
サーバー装置5の制御部51にすべての処理を負担させないことで処理速度の向上が期待できるとともに、端末装置1とサーバー装置5とで役割分担することで、端末装置1の制御手段11や記憶手段12等の負荷を軽減することができ、円滑なシステム運用を行うことができる。
その他、会話支援システム100を構成する各部の細部構成及び細部動作に関しても、本発明の趣旨を逸脱することのない範囲で適宜変更可能である。
1 端末装置
2 マイク
3 カメラ
11 制御部
12 記憶部
13 操作部
14 表示部
5 サーバー装置
51 制御部
52 記憶部
53 操作部
54 表示部
6 通信ネットワーク
100 会話支援システム

Claims (27)

  1. 複数人に発話が発信される場に設けられる会話支援システムであって、
    発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得手段と、
    前記音声取得手段により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成手段と、
    前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得手段と、
    前記マーキング取得手段により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成手段と、
    前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け手段と、
    を備えることを特徴とする会話支援システム。
  2. 前記発話を行う発話者は複数人であり、
    前記音声入力部は、システム内に複数設けられていることを特徴とする請求項1に記載の会話支援システム。
  3. 前記音声取得手段は、発話をした前記発話者を識別する発話者識別手段を備えていることを特徴とする請求項1又は請求項2に記載の会話支援システム。
  4. 前記音声入力部は、前記発話者ごとに設けられ、
    前記発話者識別手段は、前記音声が入力された前記音声入力部と前記発話者との対応付けを取得することで発話をした前記発話者を識別することを特徴とする請求項3に記載の会話支援システム。
  5. 前記発話者識別手段は、前記音声入力部から入力された前記音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした前記発話者を識別することを特徴とする請求項3に記載の会話支援システム。
  6. 前記音声入力部は、移動可能に構成されていることを特徴とする請求項1から請求項5のいずれか一項に記載の会話支援システム。
  7. 前記音声取得手段により取得された前記音声のデータをテキストデータに変換するテキスト変換手段を備えていることを特徴とする請求項1から請求項6のいずれか一項に記載の会話支援システム。
  8. 前記テキスト変換手段は、前記音声のデータを一発言毎に区分して前記テキストデータに変換することを特徴とする請求項7に記載の会話支援システム。
  9. 前記テキスト変換手段は、無音状態の検知又は文脈検知に基づいて前記音声のデータを一発言毎に区分することを特徴とする請求項8に記載の会話支援システム。
  10. 前記マーキング動作を行う動作者は複数人であり、
    前記マーキング取得手段は、システム内に複数設けられていることを特徴とする請求項1から請求項9のいずれか一項に記載の会話支援システム。
  11. 前記マーキング取得手段は、前記マーキング動作を行う動作者ごとに設けられ、
    前記マーキング動作は、前記動作者と対応付けられて取得されることを特徴とする請求項1から請求項10のいずれか一項に記載の会話支援システム。
  12. 前記マーキング動作は、音声入力により行われ、
    前記マーキング取得手段は、音声が入力される音声入力部であることを特徴とする請求項1から請求項11のいずれか一項に記載の会話支援システム。
  13. 前記マーキング動作は、ジェスチャーにより行われ、
    前記マーキング取得手段は、前記ジェスチャーを捉える撮影手段であることを特徴とする請求項1から請求項12のいずれか一項に記載の会話支援システム。
  14. 前記音声のデータはテキストデータに変換されて表示手段に文字列が一覧表示されるように構成され、
    前記マーキング動作は、前記表示手段に表示された一覧の中から個別の音声に対応する前記文字列を選択することで行われ、
    前記マーキング取得手段は、前記表示手段上で行われた前記マーキング動作を取得することを特徴とする請求項1から請求項13のいずれか一項に記載の会話支援システム。
  15. 前記マーキング動作は、システム内の端末装置に設けられた操作ボタンにおける入力操作であることを特徴とする請求項1から請求項14のいずれか一項に記載の会話支援システム。
  16. 前記マーキング動作を入力する操作ボタンを有する操作装置をさらに有することを特徴とする請求項1から請求項15のいずれか一項に記載の会話支援システム。
  17. 前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
    前記データ紐付け手段は、前記表示手段上に書き込まれたメモを、前記音声、前記マーキング動作と同じ時系列上において紐付けることを特徴とする請求項1から請求項16のいずれか一項に記載の会話支援システム。
  18. 前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
    前記データ紐付け手段は、発話の場において撮影された撮影画像のデータを、前記音声、前記マーキング動作と同じ時系列上において紐付けることを特徴とする請求項1から請求項17のいずれか一項に記載の会話支援システム。
  19. 前記マーキング動作は、前記マーカーを付与する前記音声が発話された時系列上の位置に応じて複数種類用意されていることを特徴とする請求項1から請求項18のいずれか一項に記載の会話支援システム。
  20. 前記マーキング動作は、少なくとも、前記音声が発話されたタイミングで前記マーカーを付与する第1のマーキング動作と、前記マーキング動作をしたタイミングよりも前の所定のタイミングで発話された前記音声に前記マーカーを付与する第2のマーキング動作とを含むことを特徴とする請求項19に記載の会話支援システム。
  21. 前記マーキング動作は、操作ボタンを操作することによって入力され、
    前記操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、前記マーカーを付与する前記音声の時系列上の位置を選択することを特徴とする請求項19又は請求項20に記載の会話支援システム。
  22. 前記マーキング取得手段は、前記マーキング動作を行った動作者を識別する識別情報を前記マーキング動作に紐付けることを特徴とする請求項1から請求項21のいずれか一項に記載の会話支援システム。
  23. 前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
    前記表示手段は、前記マーカーを付与した動作者を識別する前記識別情報に基づく表示が行われることを特徴とする請求項22に記載の会話支援システム。
  24. 前記識別情報は、前記動作者の名称又は前記動作者ごとに設定された色のいずれかを含むことを特徴とする請求項22又は請求項23に記載の会話支援システム。
  25. 前記音声のデータ、前記マーキング動作に関する情報、前記音声のタイムラインに関する情報及び前記マーキング動作のタイムラインに関する情報を保存するサーバー装置を備えていることを特徴とする請求項1から請求項24のいずれか一項に記載の会話支援システム。
  26. 複数人に発話が発信される場における会話支援方法であって、
    発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得工程と、
    前記音声取得工程において取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成工程と、
    前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得工程と、
    前記マーキング取得工程において取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成工程と、
    前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け工程と、
    を含むことを特徴とする会話支援方法。
  27. 複数人に発話が発信される場に設けられる会話支援システムのコンピューターに、
    発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得機能と、
    前記音声取得機能により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成機能と、
    前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得機能と、
    前記マーキング取得機能により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成機能と、
    前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け機能と、
    を実現させることを特徴とするプログラム。
JP2020118844A 2020-07-10 2020-07-10 会話支援システム、会話支援方法及びプログラム Active JP7452299B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020118844A JP7452299B2 (ja) 2020-07-10 2020-07-10 会話支援システム、会話支援方法及びプログラム
US17/358,336 US20220013128A1 (en) 2020-07-10 2021-06-25 Conversation support system, conversation support method and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020118844A JP7452299B2 (ja) 2020-07-10 2020-07-10 会話支援システム、会話支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2022015775A true JP2022015775A (ja) 2022-01-21
JP7452299B2 JP7452299B2 (ja) 2024-03-19

Family

ID=79173784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020118844A Active JP7452299B2 (ja) 2020-07-10 2020-07-10 会話支援システム、会話支援方法及びプログラム

Country Status (2)

Country Link
US (1) US20220013128A1 (ja)
JP (1) JP7452299B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503005B (zh) 2015-09-07 2021-05-11 腾讯科技(深圳)有限公司 一种信息处理方法及终端
JP2018101368A (ja) 2016-12-21 2018-06-28 株式会社リコー 情報処理装置、情報処理方法、情報処理システムおよび情報処理プログラム
JP6548045B2 (ja) 2017-03-31 2019-07-24 本田技研工業株式会社 会議システム、会議システム制御方法、およびプログラム

Also Published As

Publication number Publication date
JP7452299B2 (ja) 2024-03-19
US20220013128A1 (en) 2022-01-13

Similar Documents

Publication Publication Date Title
US10984386B2 (en) Interview system
TWI536365B (zh) 聲紋辨識
JP2013222347A (ja) 議事録生成装置及び議事録生成方法
JP5949843B2 (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
US9112980B2 (en) Systems and methods for selectively reviewing a recorded conference
JP2005277462A (ja) 会議支援システム、議事録生成方法、およびコンピュータプログラム
WO2007091453A1 (ja) モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
JP2018092365A (ja) 情報処理システム、情報処理装置、情報処理方法及びプログラム
JP2017173768A (ja) 議事録作成システム
JP2014206896A (ja) 情報処理装置、及び、プログラム
JP2020064493A (ja) オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム
JP2002099530A (ja) 議事録作成装置及び方法並びにこれを用いた記憶媒体
CN104424955A (zh) 生成音频的图形表示的方法和设备、音频搜索方法和设备
JP2011248444A (ja) 表示制御装置およびそれを用いたプレゼンテーション方法
US20170359396A1 (en) System and Method for a Broadcast Terminal and Networked Devices
JP6733452B2 (ja) 音声分析プログラム、音声分析装置、及び音声分析方法
JP7452299B2 (ja) 会話支援システム、会話支援方法及びプログラム
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP7258686B2 (ja) 情報処理システム、情報処理方法、及びプログラム
JP7123448B1 (ja) 情報処理方法、コンピュータプログラム及び情報処理装置
JP2009098740A (ja) 討議評価支援方法及びそのプログラム並びにシステム
WO2021245759A1 (ja) 音声会議装置、音声会議システム及び音声会議方法
JP7340552B2 (ja) 情報処理システム、情報処理装置、及びプログラム
JP2023000937A (ja) 疑似面接システム、疑似面接方法、疑似面接装置、及びプログラム
JP2012003698A (ja) 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240219

R150 Certificate of patent or registration of utility model

Ref document number: 7452299

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150