JP2022015775A - 会話支援システム、会話支援方法及びプログラム - Google Patents
会話支援システム、会話支援方法及びプログラム Download PDFInfo
- Publication number
- JP2022015775A JP2022015775A JP2020118844A JP2020118844A JP2022015775A JP 2022015775 A JP2022015775 A JP 2022015775A JP 2020118844 A JP2020118844 A JP 2020118844A JP 2020118844 A JP2020118844 A JP 2020118844A JP 2022015775 A JP2022015775 A JP 2022015775A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- marking
- support system
- conversation support
- marking operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000003550 marker Substances 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 23
- 238000003860 storage Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000032989 Ipomoea lacunosa Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/155—Conference systems involving storage of or access to video conference sessions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
Description
議論への集中と重要部分の記録とを両立させるための手法としては、会話の場で発せられた発言を録音しておき、後にこれを聞き直して重要部分をまとめる等の手法が存在するが、このような手法では、多くの時間と手間を要してしまう。
重要な発言であるとの選択は、発話者がこれから重要発言をする場合に所定のボタンを押して重要発言の範囲を指定したり、表示部に表示されたテキストにマーキングしたりすることで行われる。これにより、どの発言が重要であるかを発話者は参加者に認識させることができる。
このため、議論への集中が阻害されてしまうという問題がある。
複数人に発話が発信される場に設けられる会話支援システムであって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得手段と、
前記音声取得手段により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成手段と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得手段と、
前記マーキング取得手段により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成手段と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け手段と、
を備えることを特徴とする。
複数人に発言が発信される場における会話支援方法であって、
発言者によって発言され音声入力部から入力された音声のデータを取得する音声取得工程と、
前記音声取得工程において取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成工程と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得工程と、
前記マーキング取得工程において取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成工程と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け工程と、
を含むことを特徴とする。
複数人に発言が発信される場に設けられる会話支援システムのコンピューターに、
発言者によって発言され音声入力部から入力された音声のデータを取得する音声取得機能と、
前記音声取得機能により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成機能と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得機能と、
前記マーキング取得機能により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成機能と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け機能と、
を実現させることを特徴とする。
ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい種々の限定が付されているが、本発明の技術的範囲を以下の実施形態及び図示例に限定するものではない。
始めに、本実施形態に係る会話支援システム100の概略構成について説明する。図1は会話支援システム100の全体構成を模式的に示す要部構成図である。
本実施形態の会話支援システム100では、例えば図1に示すように、会議室R1において2名の参加者A,Bが参加し、会議室R2において3名の参加者C,D,Eが参加し、自宅や外出先等のオープンスペースにおいて1名の参加者Fが参加する場を想定する。
本実施形態の会話支援システム100が設けられる場は、いわゆる会議の他、打合せやアイディア出し等、複数人が意見等を出し合い発話し合うような場を広く想定している。
また参加者A~Fは、自らが発話するか否かに関わらず、自己又は他の発話者が発話(発言)した音声に関して個別のマーカーを付与するマーキング動作を行う「動作者」となり得る。
会議室R1に設けられるマイク2は、参加者A,Bごとに設けられている。すなわち、参加者Aに対応してマイク2aが設けられ、参加者Bに対応してマイク2bが設けられている。
また、会議室R2には、1つの端末装置1(1b)と、1つのマイク2(2c)が設けられている。すなわち、会議室R2には、複数の参加者C,D,Eについて1つのマイク2cが設けられている。
会議室R1,R2に配置されている端末装置1(1a,1b)は、例えばデスクトップ型等、据置型のパーソナルコンピュータ(以下において「PC」とする。)やノート型のPC、タブレット型のPC等である。
端末装置1cは、音声入力部としてのマイク2(2d)と、後述の撮影手段としてのカメラ3、出力手段としてのスピーカー4等を備えている。
なお、据置型PCやノート型のPC、タブレット型のPC等である端末装置1a,1bにも、マイク2やカメラ3、スピーカー4等が設けられていてもよい。この場合には、端末装置1に設けられているマイク2やカメラ3、スピーカー4等を用いてもよいし、さらに外付けのマイク2やカメラ3、スピーカー4等を端末装置1に取り付けて用いてもよい。
通信ネットワーク6は、インターネットであってもよいし、LAN(Local Area Network)等、他のネットワークとしてもよい。なお、端末装置1(1a,1b,1c)とサーバー装置5とは有線で接続されていてもよい。
次に本実施形態の会話支援システム100を構成する端末装置1の構成について、図2を参照しつつ説明する。
図2は、端末装置1(1a,1b)の要部構成を示す要部ブロック図である。
なお、端末装置1cは、前述のように例えばスマートフォン等の携帯端末装置である。なお、端末装置1cはこれに限定されず、例えばマイク2、カメラ3、スピーカー4等が内蔵されたノート型のPCやタブレット型のPC等であってもよい。
端末装置1cは、図2に示すマイク2、カメラ3、スピーカー4を内蔵している点で端末装置1a,1bと異なる。これ以外の基本的な構成は端末装置1a,1bと同様であるため、以下では端末装置1a,1bについて説明し、端末装置1cについてはその説明を省略する。
記憶部12のデータ記憶領域には、音声入力部であるマイク2から入力された音声のデータや音声のデータがテキストデータに変換された場合のテキストデータ、撮影手段としてのカメラ3から入力された動作者のジェスチャーを捉える画像のデータ等を記憶する。本実施形態では、音声のデータや画像のデータ等は、記憶部12において、音声を発話した発話者、動作を行った動作者を識別する識別情報と紐付けられて記憶されるようになっている。
また、操作部13は、表示部14の表示画面にタッチパネルを備えてもよく、この場合、タッチパネルを介して入力された指示信号を制御部11に出力する。
また、本実施形態では、音声のデータがテキスト化されて表示部14に表示されるようになっており、表示部14の表示画面にタッチパネルが設けられている場合には、表示画面に表示された一覧の中から個別の音声に対応する文字列を選択することでマーキング動作が行われてもよい。また、文字列の選択は、キー操作や操作ボタンによる操作等で行われてもよい。この場合には、操作部13は、動作者がマーキング動作を入力しその情報を取得するマーキング取得手段として機能する。
また本実施形態では、参加者の発話の音声のデータとマーキング動作とを同じ時系列上に対応付けたデータ等を表示可能となっている。
すなわち、本実施形態では、後述するように音声のデータがテキストデータに変換されて表示手段に文字列が一覧表示されるように構成されており、音声がテキスト化されたデータとマーカーとが対応付けられた形で一覧表示される(図5参照)。
さらに、表示部14の表示画面には、前述のように操作部13として機能するタッチパネルが構成されていてもよい。
また本実施形態において、マーキング動作を行う動作者が音声によってマーキング動作を行ったときに、マイク2はこの音声も録音し、マーキング取得手段として機能する。
マイク2は、例えば図示しない増幅器やA/D変換器等とともに音声入力部を構成し、アナログ信号として入力された音声のデータを適宜デジタルデータに変換する。マイク2によって録音されデジタルデータに変換された音声のデータは、制御部11に送信される。
また、本実施形態では、当該音声のデータは端末装置1からサーバー装置5に送られ、後述の制御部51において取得される。
マイク2は、例えば、会議室R1,R2に固定的に設けられているものでもよいし、移動可能に構成されたものでもよい。また、端末装置1に取り付けられて用いられるものでもよい。発話する発話者(参加者)が複数人いる場合には、マイク2は、システム内に複数設けられていることが好ましく、発話者(参加者)ごとに設けられていることがさらに好ましい。
参加者がジェスチャー(動作)によって後述のマーキング動作を行った場合には、カメラ3は、そのジェスチャーを捉えるマーキング取得手段として機能する。
カメラ3は、例えば、会議室R1,R2に固定的に設けられているものでもよいし、移動可能に構成されたものでもよい。また、端末装置1に取り付けられて用いられるものでもよい。
マーキング動作を行う動作者が複数人いる場合には、マーキング取得手段として機能するカメラ3は、システム内に複数設けられていることが好ましく、動作者ごとに設けられていることがさらに好ましい。
カメラ3が動作者ごとに設けられている場合には、カメラ3によって撮影した画像のデータに当該カメラ3が対応する動作者の情報(氏名や識別番号等の識別情報)を予め紐付けておく。具体的には、予め設定された識別情報を撮影画像のデータに付帯させる。これにより、マーキング動作を、それを行った動作者と対応付けて取得することができる。すなわち各マーキング動作を行った動作者が誰であるかを撮影画像のデータから識別することが可能となる。
カメラ3によって取得されたデータ(撮影画像のデータ)は、制御部11に送られる。また、本実施形態では、当該画像のデータは端末装置1からサーバー装置5に送られ、後述の制御部51において取得される。
スピーカー4は、図示しないD/A変換器や増幅器等とともに音声出力部を構成する。
端末装置1にスピーカー4が接続されることにより、離れた場所にある複数の会議室等から参加者が発話の場に参加する場合にも、他の場所の参加者の発話内容を聞き取り、互いに会話をやり取りすることができる。
次に本実施形態の会話支援システム100を構成するサーバー装置5の構成について、図3を参照しつつ説明する。
サーバー装置5は、各端末装置1(1a,1b,1c)から送られた各種データを処理して、処理結果を各端末装置1(1a,1b,1c)に送信する。これにより各端末装置1(1a,1b,1c)を介して参加している参加者A~Fが同じ情報を共有することができる。
図3は、サーバー装置5の要部構成を示す要部ブロック図である。
図3に示すように、サーバー装置5は、制御部51、記憶部52、操作部53、表示部54、通信部55、各部51~55を接続するバス56を備えて構成されている。
また音声取得手段として機能する制御部51は、さらに、取得した音声について、それを発話した発話者(参加者A~F)を識別する発話者識別手段としても機能する。すなわち、図1に示す場合のように発話者が複数いる場合に、制御部51は、誰がどの発言をしたのかを特定する。音声とそれを発話した発話者との対応付けは記憶部52等に記憶される。
例えば、音声入力部としてのマイク2が図1の会議室R1のように発話者(参加者A,B)ごとに設けられている場合には、制御部51は、音声が入力されたマイク2と発話者(参加者A,B)との対応付けを取得することで発話をした発話者を識別する。例えば、予めマイク2に個別の識別番号等を付与しておき、001番のマイク2aを参加者Aが用い、002番のマイク2bを参加者Bが用いるというように予め登録しておけば、音声の入力されたマイク2が001番のマイク2aであるか002番のマイク2bであるかの情報を音声のデータに付帯させることができる。このように音声のデータの付帯情報に基づいて発話者を識別できるように構成することで、誰が音声を発話したかを容易に識別することが可能となる。
ここでマーカーとは、発話された音声を聞いていた者又は発話した本人が、例えば当該発言(発話)を重要な発言であると評価した場合、特にその発言に注目した場合、関心を持った場合等に、そのことを示す目印、標識である。
制御部51は、参加者が、発話された音声に関して所定のマーキング動作を行ったときに、それをマーキング動作として、動作が行われた時刻のデータとともに記憶部52に記憶させる。
なお、マーカーは、「重要」「高評価」「注意」「疑問」等、複数の意味(動作者の意図)のマーカーをすべて同じマーキング動作で付与してもよいし、どのような意味でマーカーを付与したのかが区別できるように、意味ごとに異なるマーキング動作を対応付けておいてもよい。この場合にはマーキング解析手段としての制御部51は各マーキング動作の意味を解析し、マーキング動作に動作者の意図に関する情報を付帯させて記憶部52等に記憶させてもよい。
マーキング動作が音声入力である場合にはマイク2がマーキング取得手段となり、マーキング動作がジェスチャー入力である場合にはカメラ3がマーキング取得手段となり、マーキング動作が操作手段からの入力である場合には、操作部13等がマーキング取得手段となる。
マイク2やカメラ3や操作部13から入力される情報は、マーキング動作だけではないため、制御部51はマーキング解析手段として各動作を解析してそれがマーキング動作であるか否かを判断する。
また、例えばジェスチャー入力の場合であれば、右手の親指を立てるジェスチャーや左手を振るジェスチャー(動作)等をマーキング動作としてのジェスチャーとして予め登録しておき、入力されたジェスチャーがこれらに該当する場合には、それが単なる動きではなく、マーキング動作であると判断する。
すなわち、本実施形態では、マーキング動作は少なくとも、音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第2のマーキング動作とを含んでいる。
例えばマーキング動作が音声入力で行われる場合に「マーク」という入力があった場合には、制御部51は音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と判断し、「3マーク」という入力があった場合には、制御部51はマーキング動作をしたタイミングよりも3秒前のタイミングで発話された音声にマーカーを付与する第2のマーキング動作と判断する。
また例えば、マーキング動作がジェスチャー入力で行われる場合に、左手を1回振ったら、制御部51は音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と判断し、右手を1回振ったら、制御部51はマーキング動作をしたタイミングよりも1つ前の発言にマーカーを付与する第2のマーキング動作と判断する。
また、マーキング動作が操作ボタンを操作することによって入力される場合には、例えば操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、マーカーを付与する音声の時系列上の位置が選択されるようになっていてもよい。
このように、第2のマーキング動作は、マーカーを付与したい発言を、何秒前の発言というように、時間で指定して過去の発言にマーカーを付与するものでもよいし、いくつ前の発言というように、発言単位で遡って過去の発言にマーカーを付与するものでもであってもよい。
なお、どのような動作がどのようなマーキング動作としての意味を有するかの対応付けは、予め設定して記憶部52等に記憶・登録しておき、制御部51は記憶された情報に基づいてマーキング動作の解析を行う。マーキング動作の解析に関するルールは、動作者それぞれがカスタマイズして登録することが可能となっていてもよい。
なお、前述のように、マーキング動作が、音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第2のマーキング動作とを含んでいる場合には、制御部51は、マーキング解析手段としての解析結果に基づいて、所定のルールに従った時系列上の位置にマーカーを付与する。
なお、前述のように、マーキングタイムライン作成手段としての制御部51が、所定のルールに従った時系列上の位置にマーカーを付与した場合には、制御部51は、音声とマーキング動作とを紐付ける際も、マーキングタイムラインの作成結果を反映して紐付けを行う。
また、発話の場において撮影された撮影画像のデータ等がある場合には、データ紐付け手段としての制御部11は、これらについても音声やマーキング動作と同じ時系列上において紐付けるようになっている。
具体的には、記憶部52等に音声をテキスト(文字データ)に変換するための図示しない辞書データベース等を備えておき、制御部51は、これらの情報を参照して音声のデータをテキストデータに変換する。なお、「まー」「あー」「えー」「あのー」「えーと」等の間投詞についてはテキスト化の対象から除外するように構成してもよい。
本実施形態において制御部51は、音声のデータを一発言毎に区分してテキストデータに変換するようになっている。具体的には制御部51は、一発言と判断される範囲を一まとまりの一文のテキストデータとし、別発言に分割されると判断すると、段落を分けるようになっている。別発言として段落が分けられた場合には、最終的に表示部14に表示される際に改行されて表示される。
制御部51が音声のデータを一発言毎に区分する手法は特に限定されないが、例えば制御部51は、無音状態の検知又は文脈検知に基づいて音声のデータを一発言毎に区分する。
すなわち、制御部51は、所定時間無音状態が続いた場合や、辞書データベース等に照らして文脈が変化したと判断される場合に別発言と判断して段落を分ける。
なお、無音状態を検知することで一発言か否かを判断する場合には、別発言と判断される無音状態の連続時間(例えば無音時間が2秒以上連続した場合に別発言と判断する等の閾値)を予め設定しておく。
記憶部52のデータ記憶領域には、音声入力部であるマイク2から入力された音声のデータや音声のデータがテキストデータに変換された場合のテキストデータ、撮影手段としてのカメラ3から入力されたジェスチャーを捉える画像のデータ等が記憶される。本実施形態において音声のデータや画像のデータ等は、音声を発話した発話者、動作を行った動作者を識別する識別情報と紐付けられて記憶されている。
次に、本実施形態における会話支援システムによって実現される会話支援方法について図4及び図5を参照しつつ説明する。
図4に示すように、会話支援システム100において会話支援を行う場合、制御部51は、会話支援システム100内に配置されたマイク2の電源がONになったか否かを判断し(ステップS1)、ONとなっていない場合(ステップS1;NO)には、ステップ1の判断を繰り返して待機する。
他方、マイク2の電源がONになった場合(ステップS1;YES)には、さらに会議支援システムへの参加があるか否かを判断する(ステップS2)。具体的には、所定の会議や打ち合わせ等が設定されている場合に、当該設定された場に参加者のログイン等、参加を表明する操作入力があったか否かを判断する。会議支援システム100への参加がない場合(ステップS2;NO)には、参加があるまで判断を繰り返す。
そして制御部51は、音声のデータを取得すると、当該音声を発話した発話者を識別する(ステップS4)。
また制御部51は、音声が一発言であるか否かを判断する(ステップS5)。音声が一発言であると判断される場合(ステップS5;YES)には、当該音声を一まとまりの発言としてテキストデータに変換する(ステップS6)。他方、音声が一発言ではないと判断される場合(ステップS5;NO)には、当該音声を一発言ごとに区切ってテキストデータに変換する(ステップS7)。
そして制御部51は、音声のデータに付帯されている時刻データ等に基づいて音声のデータを発話時にしたがって時系列上で管理する(ステップS8)。
そして、マーキング動作が取得されるまで(ステップS9;NO)は、制御部51は判断処理を繰り返し、マーキング動作が取得された場合(ステップS9;YES)には、マーキング動作を行った動作者を識別する(ステップS10)。また、マーキング動作として意味の異なる複数種類のものがある場合(記憶部52等に登録されている場合)には、制御部51はマーキング動作の意味を解析する。
そして、音声のテキストデータとマーキング動作に基づくマーカーのデータとを会話支援システム100に参加している各端末装置1の表示部14に、時系列にしたがって表示させる(ステップS13)。具体的には、制御部51が、時系列にしたがって一覧表示を行うための表示用データを生成して各端末装置1に送信し、各端末装置1の制御部11が、当該表示用データに基づいて表示部14の表示を制御し、表示部14の表示画面に例えば図5に示すような一覧表示を行う。
図5において、「index」は発言の通し番号であり、「datetime」は発言(音声)が発話された時間であり、「username」は参加者のログイン名(実名でもよいしシステム内で用いる仮の名称でもよい。)であり、「marker」は参加者が重要だと思った発言等に対してマーキング動作を行うことによって付与されたマーカー(マーキング履歴)であり、「link」は発言とリンクしたメモ等であり、「talk」は、テキスト化された発言(音声)である。
また、図5では、「username」「marker」「link」について共通の色分け等で区別する例を示したが、「talk」等他の項目についても同様の区別を行ってもよい。なお、「talk」は「username」と同じ時刻上(同じ行)に表示されるため、色分け等の区別は必須ではない。またマーカーが多く付与された発言がどの発言であるかが分かることが重要な場合等であれば、必ずしも色分け等により動作者を識別できるようにする必要はない。
またマーキング動作を行った動作者ごとにマーカーを区別できるようにする手法はマーカーを動作者ごとに設定された色で表示させるものに限定されない。例えばマーカーの後に動作者の名称(ログイン名等)を表示させたり、動作者ごとに設定されたキャラクタのマーク等を表示させる(例えばAさんがマーキング動作したマーカーは猫のイラストで表示させ、Bさんがマーキング動作したマーカーは花のイラストで表示させる等)等の手法によってもよい。
また「link」の項目は、例えば端末装置1において参加者が入力したメモ(テキスト)であり、図5では「Bさん」が「index;249」の「Aさん」の発言についてメモしたものである。参加者が入力したメモ等は、入力後にリンクさせたい発言を選択することによって当該発言にリンクさせることが可能となっている。
なお「link」の項目には、メモだけでなく撮影画像のデータ等がリンクされていてもよい。この場合には、例えば画像データがリンクされていることを示すアイコンとリンク先のアドレス等が「link」の項目に表示されてもよい。
以上説明したように、本実施形態における会話支援システム100は、複数人に発話が発信される場に設けられる会話支援システムであって、発話者によって発話され音声入力部であるマイク2から入力された音声のデータを制御部51が取得して、この音声のデータを時系列にしたがって管理し、音声に関して個別のマーカーを付与するマーキング動作が取得されると、このマーキング動作を時系列にしたがって管理するとともに、音声とマーキング動作とを同じ時系列上において紐付けるようになっている。
これにより、参加者は会話等のやり取りに集中しつつ、発話された音声(発言)が重要と思ったとき等には適宜マーカーを付与することができ、どの音声(発言)にマーカーを付与したかについてはシステム側(本実施形態ではサーバー装置5の制御部51)で自動的に対応付けを行う。
このため、一旦会話を録音してからテキストデータに起こしたり、一覧表示された発言の中から重要発言を探したりするような手間や労力を要さずに、各参加者の議論への集中と重要部分の記録とを両立させることができる
これにより、複数人が同時に会話支援システムに参加しても円滑に発話を行うことができる。
そして、音声取得手段としての制御部51は、発話をした発話者を識別する発話者識別手段としても機能する。
これにより、複数人が同時に会話支援システムに参加しても、各発言が誰によって発話されたものかを特定することができる。
特に、音声入力部としてのマイク2を発話者ごとに設けた場合には、制御部51は、音声が入力されたマイク2と発話者との対応付けを取得することで発言(発話)をした発話者を識別することができる。
このため、発話者が発話に際して自分で入力や申告を行うことなく、自動的に発話者を特定することができ、円滑に会議等における会話を進行させることができる。
また、マイク2から入力された音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした発話者を識別するように構成した場合には、マイク2が発話者ごとに設けられていない場合でも、適切に各発言の発話者を特定することができる。
このため、録音された発話者の発言を文字データに書き起こす手間を省いて、容易に議事録等を作成することが可能となる。
さらに、本実施形態では、音声のデータを一発言毎に区分してテキストデータに変換するようになっている。
このため、あとから会議や会話の内容を確認する場合にも、読みやすいテキストデータを生成することができる。
そして、一発言か否かは音声の無音状態を検知したり文脈を検知することによって行われる。
このため、適切な位置で一発言毎に区分することができる。
このため、複数人が発話の内容を評価する場合でも適切にマーキング動作を捉えることができる。
特にカメラ3等のマーキング取得手段を、マーキング動作を行う動作者ごとに設けて、マーキング動作が動作者と対応付けられて取得されるようにした場合には、誰がどの発言に注目したのか等を容易に識別することができる。
この場合、発話に用いるマイク2の前を離れることなく、円滑にマーキング動作を行うことができる。
この場合、会話の流れ等を妨げることなく、例えば発話しながらでもジェスチャーを行うことで、簡易にマーキング動作を行うことができる。
この場合にはボタン操作によって簡易にマーキング動作を行うことができる。
なお、マーキング動作を入力する手段は、上記に挙げたもののうちの複数を含んでいてもよく、この場合には場面に応じてマーキングの仕方を選択することができ、より自由にマーキング動作を行うことができる。
これにより、会話等の途中で思い付いたことや気付いたことを簡易に発話者の発言と対応付けて残すことができる。
これにより、例えばボードにメモ書きされた文字等を撮影した場合にも、当該画像のデータを簡易に発話者の発言と対応付けて残すことができる。
例えば、マーキング動作は、音声が発話されたタイミングでマーカーを付与する第1のマーキング動作と、マーキング動作をしたタイミングよりも前の所定のタイミングで発話された音声にマーカーを付与する第2のマーキング動作とを含んでいてもよい。
この場合には、発話のタイミングですぐにマーキングできなかった場合でも、マーカーを付与したい発言に適切にマーカーを付与することが可能なる。
例えば、マーキング動作が操作ボタンを操作することによって入力される場合には、操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、マーカーを付与する音声の時系列上の位置を選択してもよい。
これにより、比較的簡易かつ正確にマーカーを付与する発言を選択することができる。
このため、誰がどの発言に注目したのか等を容易に識別することができる。
特に、音声やマーキング動作に基づく表示を行う場合において、マーカーを付与した動作者を識別する識別情報に基づく表示が行われるようにした場合には、誰がどの発言に注目したのか等が分かりやすくなる。
さらに動作者の名称又は動作者ごとに設定された色を用いてマーカーを付与した動作者を識別して表示させた場合には、誰がどの発言に注目したのか等が視覚的、直感的に認識でき、分かりやすく表示させることができる。
これにより、各端末装置1の性能や構成に関わらず、十分なメモリー容量を確保することができ、より安定した会話支援システム100を構築することができる。
なお、以上本発明の実施形態について説明したが、本発明は、かかる実施形態に限定されず、その要旨を逸脱しない範囲で、種々変形が可能であることは言うまでもない。
例えば、発話する者が1人である演説等の場合にも会話支援システム100を適用することができる。
この場合、発話者は演説を行う者のみであるが、例えば演説を聞いている聴衆は、演説の内容に適宜マーカーを付与するマーキング動作を行う「動作者」として参加することができる。またこの場合、演説を行う本人も自らの発話に適宜マーカーを付与するマーキング動作を行ってもよい。
これにより、演説のような1人で発話を行う場合にも、演説の進行を阻害されることなく、どの発言が聴衆から評価され、どの発言にどのような反応があったのかを随時記録していくことができる。
会話支援システム100がサーバー装置5を備えていない場合には、端末装置1の制御部11が音声取得手段、音声タイムライン作成手段、マーキング解析手段、マーキングタイムライン作成手段、データ紐付け手段、発話者識別手段、テキスト変換手段等として機能する。
この場合には、ホストの端末装置1の制御部11による処理結果は、システム内のすべての端末装置1に送信され、共有されるように構成される。なおこの場合、複数の端末装置1同士は、インターネットやLAN等の通信ネットワーク6を介して接続されていてもよいし、有線で接続されていてもよい。
例えば端末装置1の制御部11とサーバー装置5の制御部51とが役割を分担して各種処理を行ってもよい。
サーバー装置5の制御部51にすべての処理を負担させないことで処理速度の向上が期待できるとともに、端末装置1とサーバー装置5とで役割分担することで、端末装置1の制御手段11や記憶手段12等の負荷を軽減することができ、円滑なシステム運用を行うことができる。
2 マイク
3 カメラ
11 制御部
12 記憶部
13 操作部
14 表示部
5 サーバー装置
51 制御部
52 記憶部
53 操作部
54 表示部
6 通信ネットワーク
100 会話支援システム
Claims (27)
- 複数人に発話が発信される場に設けられる会話支援システムであって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得手段と、
前記音声取得手段により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成手段と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得手段と、
前記マーキング取得手段により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成手段と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け手段と、
を備えることを特徴とする会話支援システム。 - 前記発話を行う発話者は複数人であり、
前記音声入力部は、システム内に複数設けられていることを特徴とする請求項1に記載の会話支援システム。 - 前記音声取得手段は、発話をした前記発話者を識別する発話者識別手段を備えていることを特徴とする請求項1又は請求項2に記載の会話支援システム。
- 前記音声入力部は、前記発話者ごとに設けられ、
前記発話者識別手段は、前記音声が入力された前記音声入力部と前記発話者との対応付けを取得することで発話をした前記発話者を識別することを特徴とする請求項3に記載の会話支援システム。 - 前記発話者識別手段は、前記音声入力部から入力された前記音声の音声波形と発話者固有の音声波形との対応付けを取得することで発話をした前記発話者を識別することを特徴とする請求項3に記載の会話支援システム。
- 前記音声入力部は、移動可能に構成されていることを特徴とする請求項1から請求項5のいずれか一項に記載の会話支援システム。
- 前記音声取得手段により取得された前記音声のデータをテキストデータに変換するテキスト変換手段を備えていることを特徴とする請求項1から請求項6のいずれか一項に記載の会話支援システム。
- 前記テキスト変換手段は、前記音声のデータを一発言毎に区分して前記テキストデータに変換することを特徴とする請求項7に記載の会話支援システム。
- 前記テキスト変換手段は、無音状態の検知又は文脈検知に基づいて前記音声のデータを一発言毎に区分することを特徴とする請求項8に記載の会話支援システム。
- 前記マーキング動作を行う動作者は複数人であり、
前記マーキング取得手段は、システム内に複数設けられていることを特徴とする請求項1から請求項9のいずれか一項に記載の会話支援システム。 - 前記マーキング取得手段は、前記マーキング動作を行う動作者ごとに設けられ、
前記マーキング動作は、前記動作者と対応付けられて取得されることを特徴とする請求項1から請求項10のいずれか一項に記載の会話支援システム。 - 前記マーキング動作は、音声入力により行われ、
前記マーキング取得手段は、音声が入力される音声入力部であることを特徴とする請求項1から請求項11のいずれか一項に記載の会話支援システム。 - 前記マーキング動作は、ジェスチャーにより行われ、
前記マーキング取得手段は、前記ジェスチャーを捉える撮影手段であることを特徴とする請求項1から請求項12のいずれか一項に記載の会話支援システム。 - 前記音声のデータはテキストデータに変換されて表示手段に文字列が一覧表示されるように構成され、
前記マーキング動作は、前記表示手段に表示された一覧の中から個別の音声に対応する前記文字列を選択することで行われ、
前記マーキング取得手段は、前記表示手段上で行われた前記マーキング動作を取得することを特徴とする請求項1から請求項13のいずれか一項に記載の会話支援システム。 - 前記マーキング動作は、システム内の端末装置に設けられた操作ボタンにおける入力操作であることを特徴とする請求項1から請求項14のいずれか一項に記載の会話支援システム。
- 前記マーキング動作を入力する操作ボタンを有する操作装置をさらに有することを特徴とする請求項1から請求項15のいずれか一項に記載の会話支援システム。
- 前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
前記データ紐付け手段は、前記表示手段上に書き込まれたメモを、前記音声、前記マーキング動作と同じ時系列上において紐付けることを特徴とする請求項1から請求項16のいずれか一項に記載の会話支援システム。 - 前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
前記データ紐付け手段は、発話の場において撮影された撮影画像のデータを、前記音声、前記マーキング動作と同じ時系列上において紐付けることを特徴とする請求項1から請求項17のいずれか一項に記載の会話支援システム。 - 前記マーキング動作は、前記マーカーを付与する前記音声が発話された時系列上の位置に応じて複数種類用意されていることを特徴とする請求項1から請求項18のいずれか一項に記載の会話支援システム。
- 前記マーキング動作は、少なくとも、前記音声が発話されたタイミングで前記マーカーを付与する第1のマーキング動作と、前記マーキング動作をしたタイミングよりも前の所定のタイミングで発話された前記音声に前記マーカーを付与する第2のマーキング動作とを含むことを特徴とする請求項19に記載の会話支援システム。
- 前記マーキング動作は、操作ボタンを操作することによって入力され、
前記操作ボタンを操作する回数、時間、強さの少なくともいずれかによって、前記マーカーを付与する前記音声の時系列上の位置を選択することを特徴とする請求項19又は請求項20に記載の会話支援システム。 - 前記マーキング取得手段は、前記マーキング動作を行った動作者を識別する識別情報を前記マーキング動作に紐付けることを特徴とする請求項1から請求項21のいずれか一項に記載の会話支援システム。
- 前記音声のデータ、前記音声に関するマーカーが表示される表示手段を備え、
前記表示手段は、前記マーカーを付与した動作者を識別する前記識別情報に基づく表示が行われることを特徴とする請求項22に記載の会話支援システム。 - 前記識別情報は、前記動作者の名称又は前記動作者ごとに設定された色のいずれかを含むことを特徴とする請求項22又は請求項23に記載の会話支援システム。
- 前記音声のデータ、前記マーキング動作に関する情報、前記音声のタイムラインに関する情報及び前記マーキング動作のタイムラインに関する情報を保存するサーバー装置を備えていることを特徴とする請求項1から請求項24のいずれか一項に記載の会話支援システム。
- 複数人に発話が発信される場における会話支援方法であって、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得工程と、
前記音声取得工程において取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成工程と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得工程と、
前記マーキング取得工程において取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成工程と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け工程と、
を含むことを特徴とする会話支援方法。 - 複数人に発話が発信される場に設けられる会話支援システムのコンピューターに、
発話者によって発話され音声入力部から入力された音声のデータを取得する音声取得機能と、
前記音声取得機能により取得された前記音声のデータを時系列にしたがって管理する音声タイムライン作成機能と、
前記音声に関して個別のマーカーを付与するマーキング動作を取得するマーキング取得機能と、
前記マーキング取得機能により取得された前記マーキング動作を時系列にしたがって管理するマーキングタイムライン作成機能と、
前記音声と、前記マーキング動作とを同じ時系列上において紐付けるデータ紐付け機能と、
を実現させることを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020118844A JP7452299B2 (ja) | 2020-07-10 | 2020-07-10 | 会話支援システム、会話支援方法及びプログラム |
US17/358,336 US20220013128A1 (en) | 2020-07-10 | 2021-06-25 | Conversation support system, conversation support method and computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020118844A JP7452299B2 (ja) | 2020-07-10 | 2020-07-10 | 会話支援システム、会話支援方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022015775A true JP2022015775A (ja) | 2022-01-21 |
JP7452299B2 JP7452299B2 (ja) | 2024-03-19 |
Family
ID=79173784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020118844A Active JP7452299B2 (ja) | 2020-07-10 | 2020-07-10 | 会話支援システム、会話支援方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220013128A1 (ja) |
JP (1) | JP7452299B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503005B (zh) | 2015-09-07 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端 |
JP2018101368A (ja) | 2016-12-21 | 2018-06-28 | 株式会社リコー | 情報処理装置、情報処理方法、情報処理システムおよび情報処理プログラム |
JP6548045B2 (ja) | 2017-03-31 | 2019-07-24 | 本田技研工業株式会社 | 会議システム、会議システム制御方法、およびプログラム |
-
2020
- 2020-07-10 JP JP2020118844A patent/JP7452299B2/ja active Active
-
2021
- 2021-06-25 US US17/358,336 patent/US20220013128A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7452299B2 (ja) | 2024-03-19 |
US20220013128A1 (en) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984386B2 (en) | Interview system | |
TWI536365B (zh) | 聲紋辨識 | |
JP2013222347A (ja) | 議事録生成装置及び議事録生成方法 | |
JP5949843B2 (ja) | 情報処理装置、情報処理装置の制御方法、およびプログラム | |
US9112980B2 (en) | Systems and methods for selectively reviewing a recorded conference | |
JP2005277462A (ja) | 会議支援システム、議事録生成方法、およびコンピュータプログラム | |
WO2007091453A1 (ja) | モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム | |
JP2018092365A (ja) | 情報処理システム、情報処理装置、情報処理方法及びプログラム | |
JP2017173768A (ja) | 議事録作成システム | |
JP2014206896A (ja) | 情報処理装置、及び、プログラム | |
JP2020064493A (ja) | オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム | |
JP2002099530A (ja) | 議事録作成装置及び方法並びにこれを用いた記憶媒体 | |
CN104424955A (zh) | 生成音频的图形表示的方法和设备、音频搜索方法和设备 | |
JP2011248444A (ja) | 表示制御装置およびそれを用いたプレゼンテーション方法 | |
US20170359396A1 (en) | System and Method for a Broadcast Terminal and Networked Devices | |
JP6733452B2 (ja) | 音声分析プログラム、音声分析装置、及び音声分析方法 | |
JP7452299B2 (ja) | 会話支援システム、会話支援方法及びプログラム | |
JP6950708B2 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
JP7258686B2 (ja) | 情報処理システム、情報処理方法、及びプログラム | |
JP7123448B1 (ja) | 情報処理方法、コンピュータプログラム及び情報処理装置 | |
JP2009098740A (ja) | 討議評価支援方法及びそのプログラム並びにシステム | |
WO2021245759A1 (ja) | 音声会議装置、音声会議システム及び音声会議方法 | |
JP7340552B2 (ja) | 情報処理システム、情報処理装置、及びプログラム | |
JP2023000937A (ja) | 疑似面接システム、疑似面接方法、疑似面接装置、及びプログラム | |
JP2012003698A (ja) | 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7452299 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |