JP2021140570A - 発話支援装置、発話支援方法、および発話支援プログラム - Google Patents

発話支援装置、発話支援方法、および発話支援プログラム Download PDF

Info

Publication number
JP2021140570A
JP2021140570A JP2020038979A JP2020038979A JP2021140570A JP 2021140570 A JP2021140570 A JP 2021140570A JP 2020038979 A JP2020038979 A JP 2020038979A JP 2020038979 A JP2020038979 A JP 2020038979A JP 2021140570 A JP2021140570 A JP 2021140570A
Authority
JP
Japan
Prior art keywords
utterance
support device
speaker
display
cumulative value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020038979A
Other languages
English (en)
Other versions
JP6946499B2 (ja
Inventor
聡美 堀
Satomi Hori
聡美 堀
雄大 鎌田
Yudai Kamada
雄大 鎌田
映理子 上垣
Eriko Kamigaki
映理子 上垣
亮太 新関
Ryota Niizeki
亮太 新関
秀行 牧
Hideyuki Maki
秀行 牧
大輔 野上
Daisuke Nogami
大輔 野上
成人 大條
Shigeto Oeda
成人 大條
靖弘 脇田
Yasuhiro Wakita
靖弘 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020038979A priority Critical patent/JP6946499B2/ja
Priority to CN202011046224.8A priority patent/CN113360223A/zh
Priority to US17/071,027 priority patent/US11398234B2/en
Priority to EP20202680.3A priority patent/EP3876230A1/en
Publication of JP2021140570A publication Critical patent/JP2021140570A/ja
Application granted granted Critical
Publication of JP6946499B2 publication Critical patent/JP6946499B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】話者による会議の生産性の高くない状態から生産性の高い状態に促すこと。【解決手段】発話支援装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する発話支援装置であって、前記プロセッサは、複数の話者の各々の発話時間の累積値を算出し、前記累積値が所定値に到達した話者の前記累積値をクリアする算出処理と、前記話者ごとに割り当てられた表示領域群のうち、前記累積値が前記所定値に到達した話者に割り当てられた表示領域に、第1図形を表示する表示処理と、を実行することを特徴とする。【選択図】図2

Description

本発明は、発話を支援する発話支援装置、発話支援方法、および発話支援プログラムに関する。
特許文献1は、会議中の複数の参加者の音声を取得して,刻々と変わる参加者の会話状況をリアルタイムに表示することで、より積極的な議論を誘発するような会議可視化システムを開示する。この会議可視化システムは、複数の会議参加者に対応した複数の音声収集部から収集した音声データを音声処理サーバで処理し、発話情報を抽出し、この発話情報を集計処理サーバに順次入力する。処理サーバのストリームデータ処理部は、この発話情報に対して、クエリ処理を施すことにより会議参加者の会議における発言回数累積値などのアクティビティデータを生成する。表示処理部は、このアクティビティデータに基づき、会議参加者の対話状況を円の大きさや線の太さなどを用いて可視化して表示する。
特開2008−262046号公報
会議で議論が活発に行われるには、会議の生産性の向上に寄与する発話行動が必要である。ここで、話者全員がたくさん喋っている状態を生産性の高い状態と定義すると、一部の話者のみがたくさん喋っている状態、全員が少しずつ喋っている状態、および、誰もあまり喋っていない状態では、生産性の高くない状態といえる。
本発明は、上述した話者による会議の生産性の高くない状態から生産性の高い状態に促すことを目的とする。
本願において開示される発明の一側面となる発話支援装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する発話支援装置であって、前記プロセッサは、複数の話者の各々の発話時間の累積値を算出し、前記累積値が所定値に到達した話者の前記累積値をクリアする算出処理と、前記話者ごとに割り当てられた表示領域群のうち、前記累積値が前記所定値に到達した話者に割り当てられた表示領域に、第1図形を表示する表示処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、話者による会議の生産性の高くない状態から生産性の高い状態に促すことができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、会議の状態を判別する状態判別グラフである。 図2は、発話支援装置を用いた会議の一例を示す説明図である。 図3は、発話支援装置のハードウェア構成例を示すブロック図である。 図4は、発話支援情報の表示例を示す説明図である。 図5は、発話の時系列データの一例を示す説明図である。 図6は、図5の発話有無の時系列データに対応する発話時間テーブルの一例を示す説明図である。 図7は、第1表示領域におけるブロック生成例を示す説明図である。 図8は、発話支援装置によるブロック表示処理手順例を示すフローチャートである。 図9は、ブロック列消去例を示す説明図である。 図10は、ブロック列消去処理手順例を示すフローチャートである。 図11は、発話抑制のための発話支援情報の表示例を示す説明図である。
<会議の生産性>
会議の生産性は、会議でのディスカッション量と正の相関があると考えられる。すなわち、話者全体で発話量が多いほど会議の生産性が高くなる。会議の生産性の阻害要因としては、一方的に喋り過ぎる人と、発言が少ないまたはしない人が挙げられる。一方的に喋り過ぎる人は、自分自身の喋りすぎに気が付いていなかったり、沈黙が怖くてしゃべり続けたりする。発言が少ないまたはしない人は、そもそも自分には関係のない議論をしていると思っていたり、自分には関係あるが、意図的に存在を消したりする。意図的に存在を消す理由としては、たとえば、自分にタスクが発生するのを嫌っていたり、自分はそもそも話さない役割だと勝手に決めていたりするからである。
図1は、会議の状態を判別する状態判別グラフである。状態判別グラフ100の横軸は全体話者バランスであり、縦軸は全体発話レベルである。横軸は、右に行くほど全体話者バランスがよく、左に行くほど全体話者バランスが悪いことを示す。全体話者バランスとは、各話者の発話量の均衡度であり、各話者の発話量が均衡するほど全体話者バランスがよく、各話者の発話量が不均衡になるほど全体話者バランスが悪い。縦軸は、上に行くほど全体発話レベルが低くなることを示す。全体発話レベルとは、複数の話者のうち少なくとも1人が発話した発話時間長、または、会議の経過時間に対する当該発話時間長の割合である。
第1象限101は、全体話者バランスが良く、かつ、全体発話レベルが多い、すなわち、全員がたくさん喋っている状態である。このような状態が生産性の高い状態となる。第2象限102は、全体話者バランスは悪いが全体発話レベルが高い、すなわち、偏った人がたくさん喋っている状態である。第3象限103は、全体話者バランスが悪く、かつ、全体発話レベルも低い、すなわち、誰もあまり喋っていない状態を示す。第4象限104は、全体話者バランスは良いが、全体発話レベルが低い状態、すなわち、全員が少しずつ喋っている状態である。
第2象限102、第3象限103、および第4象限104の状態が生産性の高くない状態であり、発話支援装置は、生産性の高くない状態を第1象限101の生産性の状態にするための発話支援を実行する。これにより、発話量が少ない話者ほど発話量が多くなり、発話量が多い話者ほど、発話を抑制することが期待される。
<会議>
図2は、発話支援装置を用いた会議の一例を示す説明図である。図2は、5人の話者A〜Eが会議に参加してディスカッションする例を示す。また、会議では、発話支援装置200と、集音装置201と、表示装置202と、が用いられる。発話支援装置200は、発話支援プログラムがインストールされたコンピュータである。集音装置201は、話者A〜Eからの発話音声を集音して、電気信号に変換し、発話支援装置200に送信する。集音装置201は、発話支援装置200に内蔵されてもよい。表示装置202は、表示画面203を有し、発話支援装置200からの発話支援情報210を表示画面203に表示する。また、表示装置202に替えてプロジェクタを用い、プロジェクタが発話支援結果を壁に投影してもよい。なお、各話者A〜Eの話者IDを、それぞれ1〜5とする。以降、本実施例では、5人の話者A〜Eで会議する場合について説明する。
<発話支援装置200のハードウェア構成例>
図3は、発話支援装置200のハードウェア構成例を示すブロック図である。発話支援装置200は、プロセッサ301と、記憶デバイス302と、入力デバイス303と、出力デバイス304と、通信インターフェース(通信IF)305と、を有する。プロセッサ301、記憶デバイス302、入力デバイス303、出力デバイス304、および通信IF305は、バス306により接続される。プロセッサ301は、発話支援装置200を制御する。記憶デバイス302は、プロセッサ301の作業エリアとなる。また、記憶デバイス302は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス302としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス303は、データを入力する。入力デバイス303としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス304は、データを出力する。出力デバイス304としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF305は、ネットワークと接続し、データを送受信する。
<発話支援情報210の表示例>
図4は、発話支援情報210の表示例を示す説明図である。表示画面203には、発話支援情報210が表示されている。発話支援情報210は、第1表示領域401と、第2表示領域402と、第3表示領域403と、を有する。第1表示領域401は、各話者A〜Eの発話量を示すブロック412を表示する領域である。なお、話者A〜Eの各第1表示領域を、第1表示領域401a〜401eとする。第1表示領域401a〜401eは、表示画面203の横方向に配列する。話者A〜Eを区別しない場合は、第1表示領域401xと表記する。
ブロック412は、話者A〜Eが所定の累積時間分発話した発話量を示す図形である。本例では、ブロック412の形状を矩形としたが、円や楕円、台形、3角形、5頂点以上の多角形など他の形状でもよい。ブロック412は、第1表示領域401a〜401eにおいて、話者A〜Eが所定の累積時間分発話する都度、積み上げられる。図4では、話者Aは4個、話者Bは6個、話者Cは3個、話者Dは0個、話者Eは1個のブロック412である。
このように、ブロック412が高く積みあがっている話者ほど発話量が多いことがわかる。また、話者A〜Eごとのブロック412の数が均衡しているほど、全体話者バランスがよいことがわかる。
また、第1表示領域401a〜401eには、各話者A〜Eの話者ID411a〜411eが表示される。これにより、どの話者A〜Eがどの第1表示領域401a〜401eに割り当てられているかを視認することができる。
第2表示領域402は、第1表示領域401の上に存在する。第2表示領域402は、画像として、第1表示領域401a〜401eごとに、吐出口421a〜421eと、容器422a〜422eと、を有する。吐出口421a〜421eを区別しない場合は、単に吐出口421と表記する。容器422a〜422eを区別しない場合は、単に容器422と表記する。
吐出口421は、液滴を容器422に吐出する。容器422は、液滴を貯留する。貯留した液体は、発話量を示す。発話量が所定量貯留すると、容器422に貯留した液体が、ブロック412として、第1表示領域401の上から下に落下し、容器422は空になる。
第3表示領域403は、たとえば、発話支援情報210の右端に配置される。第3表示領域403は、スコア430を表示する。スコア430は、第1表示領域401a〜401eの最下位置のブロック列を消去した回数に基づく値である。スコア430が高いほど、話者バランスがよく、かつ、発話量が多い、すなわち、会議の生産性が第1象限101の状態である、または、第2象限102〜第4象限104から第1象限101の状態に遷移していることを意味する。
<音声取得例>
図5は、発話有無の時系列データの一例を示す説明図である。発話有無の時系列データ500は、話者ID411a〜411eごとに、単位時間(たとえば、1秒)ごとの発話の有無をプロットしたデータ列である。
図6は、図5の発話有無の時系列データに対応する発話時間テーブルの一例を示す説明図である。発話時間テーブル600において、時間t1、t2、t3、…は、単位時間の時系列である。話者ID411a〜411eごとの「0」は、発話していないことを示し、「1」は発話したことを示す。たとえば、時間t3の単位時間では、話者ID:3の話者Cのみが発話し、他の話者A,B,D,Eは、発話していないことを示す。
なお、発話支援装置200は、どの話者がいつ発話したかを認識することができる。具体的には、たとえば、発話支援装置200は、各話者A〜Eの音声データを事前に取得し、メル周波数ケプストラム係数や音声の到達角度、音量といったパラメータに基づいて、各話者A〜Eの特徴情報を生成する。発話支援装置200は、会議で音声データを取得すると、特徴情報を生成し、事前に生成した特徴情報に類似する場合、当該類似する特徴情報に対応する話者を特定する。
また、発話支援装置200は、上述したパラメータと正解データ(話者)との組み合わせである訓練データセットを用いて、機械学習により学習モデルを生成する。発話支援装置200は、会議で音声データを取得すると、学習モデルに入力して、誰の発話であるかを特定する。
また、集音装置201がマイクアレイであれば、発話支援装置200は、集音装置201への音声の入力方向を検出することにより、話者を特定してもよい。この場合、発話支援装置200は、あらかじめ話者の位置と話者ID411a〜411eとを対応付けておき、各話者は自分の話者ID411a〜411eを認識しているものとする。
また、会話の内容が収録されると話者は発話するのに抵抗感を抱くため、発話支援装置200は、発話内容の認識をしない。したがって、収録した音声データは、リアルタイムで消去される(ただし、発話時間テーブル600は残る)。したがって、音声データの流出が抑制される。これにより、情報の漏洩を防止することができる。また、発話支援装置200は、発話内容の認識をしないため、会話の内容からブロック214を生成しない。したがって、日本語のほか、英語、フランス語、ドイツ語、中国語などの外国語のように、どのような言語であっても、発話支援装置200は、適用可能であり、汎用性が高い。
<ブロック生成例>
図7は、第1表示領域におけるブロック生成例を示す説明図である。図7では、(A)〜(D)の順に時系列で説明する。(A)は、吐出口から液滴701が容器422に吐出された状態を示す。(A)のアニメーションが描画されている場合、発話支援装置200が、その話者の発話を検出したことを示す。その話者が発話を継続する限り、液滴701は吐出口421から垂れ続ける。
(B)は、発話が止まって液体が一定量貯留した状態を示す。(B)では、単位時間分の発話が1回なされたことを示す。すなわち、発話支援装置200は、図6のテーブルの値が「1」になると、1回の単位時間分の液量を吐出口421から吐出する。(A)および(B)が繰り返されることで、(C)において、容器422には、液体が累積する。
この液体の累積量は、その話者の累積発話時間に対応する。たとえば、図6の発話時間テーブル600では、話者ID:2である話者Bは、時間t5〜t9にかけて発話しているため、時間t1〜t9における話者Bの累積発話量は、「5」となる。したがって、(C)では、5回分の単位時間の液量が容器422に貯留する。
また、液体が所定量貯留すると、容器422は満杯となる。満杯を示す発話量の所定値を例として「5」とする。(C)では、5回分の単位時間の液量が貯留するため、容器422は満杯になったことを示す。
(D)満杯になると、容器422に貯留された液体は、ブロック412として第1表示領域に落下する。第1表示領域401にブロック412が存在しない場合には、ブロック412は最下位置に配置される。第1表示領域401にブロック412が存在する場合には、落下したブロック412は、最上位のブロック412の上に積み上げられる。ブロック412は、本例では、単位時間5回分(5秒)の発話量を示す。
<ブロック表示処理手順例>
図8は、発話支援装置200によるブロック表示処理手順例を示すフローチャートである。発話支援装置200は、会議開始から所定時間経過などにより会議終了であるか否かを判断する(ステップS800)。会議終了でない場合(ステップS800:No)、発話支援装置200は、集音装置201から音声データを取得し(ステップS801)、話者を特定する(ステップS802)。これにより、発話支援装置200は、話者特定後の図5に示した発話の時系列データ500により、図6に示した発話時間テーブル600を更新する。ステップS803以降は、特定した話者ごとに実行される。
つぎに、発話支援装置200は、発話時間テーブル600を参照して、ステップS802で特定した話者の発話時間の累積値を算出する(ステップS803)。発話時間の累積値は、発話時間テーブル600において、これまでの経過時間の値の和である。現在が時間t9とすると、話者ID:1である話者Aの発話時間の累積値は「3」、話者ID:2である話者Bの発話時間の累積値は「5」、話者ID:3である話者Cの発話時間の累積値は「2」、話者ID:4である話者Dの発話時間の累積値は「0」、話者ID:5である話者Eの発話時間の累積値は「1」である。
発話支援装置200は、ステップS803で算出した累積値を、吐出口421から液滴701を吐出するアニメーションにより、容器422に貯留した液体の量で表示する(ステップS804)。つぎに、発話支援装置200は、発話時間の累積値が所定値(本例では、5)に到達したか否かを判断する(ステップS805)。到達していない場合(ステップS805:No)、ステップS800に戻る。
一方、所定値に到達した場合(ステップS805:Yes)、満杯の液体をブロック412に変換して、第1表示領域401に表示し、容器422の液体を消去する(ステップS806)。そして、発話支援装置200は、発話時間テーブル600の累積値をクリアして(ステップS807)、ステップS800に戻る。具体的には、たとえば、現在が時間t9とすると、話者ID:2である話者Bの発話時間の累積値が「5」、すなわち、所定値に到達したため(ステップS805:Yes)、発話支援装置200は、話者ID:2の列の時間t9までの値をすべて「0」にする。
ステップS800において、会議終了である場合(ステップS800:Yes)、ブロック表示処理手順が終了する。
<ブロック列消去>
図9は、ブロック列消去例を示す説明図である。(A)は、ブロック列消去前の表示画面203の表示状態を示し、スコアは「0」とする。(B)は、ブロック列消去後の表示画面203の表示状態を示し、スコアは「1」とする。
(A)たとえば、図4の状態から話者ID:4の話者Dが5秒喋ると、第1表示領域401dにおいて、ブロック412dが生成、表示される。なお、ブロック群412arは、第1表示領域401aの最下位置のブロック412a上に積み上げられたブロック群であり、ブロック群412brは、第1表示領域401bの最下位置のブロック412b上に積み上げられたブロック群であり、ブロック群412crは、第1表示領域401cの最下位置のブロック412c上に積み上げられたブロック群である。
(A)では、各第1表示領域401a〜401eの最下位置にブロック412a〜412eからなるブロック列900が存在する。(B)このように、第1表示領域401にブロック列900が表示されると、発話支援装置200は、ブロック列900を消去する。また、発話支援装置200は、ブロック群412ar、412br、412crを、ブロック412a〜412cが表示されていた最下位置にシフトする。そして、発話支援装置200は、スコアを更新して「1」にする。スコアは、ブロック列900の消去回数に比例して更新される。図9では、ブロック列900が1回消去されたため、スコアが(A)に示した「0」から1加算されて、「1」に更新される。
図10は、ブロック列消去処理手順例を示すフローチャートである。発話支援装置200は、第1表示領域401の最下位置にブロック列が存在するか否かを判断する(ステップS1001)。存在しない場(ステップS1001:No)、ステップS1001を繰り返す。存在する場合(ステップS1001:Yes)、発話支援装置200は、ブロック列900を消去し(ステップS1002)、残余ブロックを第1表示領域401の下方にシフトする(ステップS1003)。そして、発話支援装置200は、スコア430を更新する(ステップS1004)。これにより、ブロック列消去処理が終了する。
<発話抑制表示例>
図11は、発話抑制のための発話支援情報の表示例を示す説明図である。ある特定の話者(たとえば、ここでは話者B)に発話が偏っている場合、ブロック412が積みあがって第1表示領域401bに表示しきれなくなる。したがって、発話支援装置200は、ブロック412が積みあがるにつれ、先に表示されたブロック412よりも後に表示されるブロックの厚さを薄くする。ブロック412の厚さとは、ブロック412の積み上げ方向の幅である。正規のブロック412を、厚さが薄いブロック412y、412zと区別するため、ブロック412xと表記する。
具体的には、たとえば、発話支援装置200は、ブロック412xが所定数n(たとえば、n=6)積みあがった場合、それ以降については、ブロック412xよりも厚さが薄いブロック412yを表示する。また、発話支援装置200は、ブロック412yが所定数m(たとえば、m=3)積みあがった場合、それ以降については、ブロック412yよりも厚さが薄いブロック412zを表示する。
各話者A〜Eについてブロック412が増加するほど、ブロック412のサイズを小さくすることで、第1表示領域401の有効活用を図ることができる。また、発話支援装置200は、発話量の増加を、ブロック412という報酬を与えるというゲーミフィケーションにより実現するが、ブロック412が多くなるほど、ブロック412のサイズが小さくなるため、当該話者は、発話量に応じた報酬を得ていないと感じる、したがって、発話支援装置200は、当該話者に発話の抑制を促すことができる。
このように、本実施例によれば、発話支援情報210として、各話者A〜Eの発話量がブロック数として可視化されるため、各話者A〜Eがそれぞれどのくらい発話しているかを視認することができる。したがって、発話に消極的な話者に対しては積極的に発話するよう促すことができ、発話に積極的な話者に対しては発話を抑制するように促すことができる。また、ブロック列900の消去回数に比例したスコア430を表示することにより、会議の生産性がどの程度であるかを把握することができる。このようにして、話者A〜Eによる会議の生産性の高くない状態から生産性の高い状態になるよう支援することができる。
また、図7に示したように、発話すれば発話量に応じた液体が貯留してブロック412が生成されるアニメーションを表示することにより、話者A〜Eに対して、発話量の増加を、ブロック412という報酬を与えるというゲーミフィケーションにより実現することができる。すなわち、発話した話者へのブロック412の付与により、会議に貢献しているという達成感を与えることができる。また、発話すればするほどブロック412がもらえるため、ブロック412という報酬がもらえる楽しさや喜びにより発話を促すことができる。
また、ブロック412が最下位置で揃うとブロック列900が消去されるため、全話者A〜Eの話者バランスのよさをブロック列900の消去というゲーミフィケーションにより実現することができる。すなわち、ブロック列900の消去により、話者バランスが上がったという達成感を全話者A〜Eに伝えることができる。また、全話者A〜Eの発話量が増加するほど、ブロック412が最下位置で揃う回数も増加するため、ブロック列900の消去回数が増加し、その分スコア430が上昇する。このように、全話者A〜Eの話者バランスがよく、かつ、発話量が多いという会議の生産性の向上を、ブロック列900の消去に伴ってスコア430が上昇するというゲーミフィケーションにより実現することができる。
また、発話支援装置200は、いずれかの話者についてブロック412が所定数表示された場合、所定数到達前の表示色とは異なる色に変更してもよい。具体的には、たとえば、発話支援装置200は、第1表示領域401の背景色を所定数到達前後で変更してもよく、当該いずれかの話者のブロック412の表示色を所定数到達前後で変更してもよい。これにより、話者に偏りがある、すなわち、話者バランスの低下を、全話者A〜Eに通知することができる。
また、上述した実施例では、発話支援情報210を表示装置202に表示した例について説明したが、発話支援装置200は、発話支援装置200と通信可能な各話者の端末(たとえば、パーソナルコンピュータやスマートフォン)に発話支援情報210を送信してもよい。これにより、各話者A〜Eは自身の端末で、自分のブロック数や他の話者のブロック数、スコア430を確認することができる。
特に、内気な性格の話者の発話量は少なくなりがちであり、表示装置202で当該話者のブロック412の少なさが他の話者にわかると、余計に当該話者は、発話を躊躇することもある。このため、発話支援情報210を各話者A〜Eの端末に表示することにより、発話を躊躇するのを抑制することができる。
このように、本実施例によれば、話者A〜Eによる会議の生産性の高くない状態から生産性の高い状態になるよう支援することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
200 発話支援装置
201 集音装置
202 表示装置
203 表示画面
210 発話支援情報
301 プロセッサ
302 記憶デバイス
401 第1表示領域
402 第2表示領域
403 第3表示領域
410 発話支援情報
412 ブロック
421 吐出口
422 容器
430 スコア
500 時系列データ
600 発話時間テーブル
900 ブロック列

Claims (13)

  1. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する発話支援装置であって、
    前記プロセッサは、
    複数の話者の各々の発話時間の累積値を算出し、前記累積値が所定値に到達した話者の前記累積値をクリアする算出処理と、
    前記話者ごとに割り当てられた表示領域群のうち、前記累積値が前記所定値に到達した話者に割り当てられた表示領域に、第1図形を表示する表示処理と、
    を実行することを特徴とする発話支援装置。
  2. 請求項1に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記累積値が前記所定値に到達する都度前記表示領域に表示される複数の第1図形のうち、後続の第1図形の大きさを、前記後続の第1図形に先行する第1図形よりも小さく表示する、
    ことを特徴とする発話支援装置。
  3. 請求項2に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記先行する第1図形が所定数表示された場合、前記後続の第1図形を表示する、
    ことを特徴とする発話支援装置。
  4. 請求項1に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、いずれかの話者について前記第1図形が所定数表示された場合、前記所定数到達前の表示色とは異なる色に変更する、
    ことを特徴とする発話支援装置。
  5. 請求項1に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記所定値に到達するまでの前記発話時間の累積値に応じた第2図形を前記表示領域に表示する、
    ことを特徴とする発話支援装置。
  6. 請求項5に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記発話時間が前記所定値に到達すると前記累積値に応じた第2図形を消去する、
    ことを特徴とする発話支援装置。
  7. 請求項6に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記第2図形が消去されると、前記第1図形を表示する、
    ことを特徴とする発話支援装置。
  8. 請求項1に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記表示領域群の配列方向に、前記各話者の第1図形群が配列する場合、前記第1図形群を消去する、
    ことを特徴とする発話支援装置。
  9. 請求項8に記載の発話支援装置であって、
    前記算出処理では、前記プロセッサは、前記第1図形群の消去回数に基づくスコアを算出し、
    前記表示処理では、前記プロセッサは、前記算出処理によって算出されたスコアを表示する、
    ことを特徴とする発話支援装置。
  10. 請求項8に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記表示領域の各々において、前記累積値が前記所定値に到達する都度表示される複数の第1図形を、前記配列方向とは異なる方向に配列するように表示する、
    ことを特徴とする発話支援装置。
  11. 請求項10に記載の発話支援装置であって、
    前記表示処理では、前記プロセッサは、前記表示領域の各々において、残余の第1図形を、消去された第1図形が表示されていた位置の方向に移動させる、
    ことを特徴とする発話支援装置。
  12. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する発話支援装置が実行する発話支援方法であって、
    前記発話支援方法は、
    前記プロセッサが、
    複数の話者の各々の発話時間の累積値を算出し、前記累積値が所定値に到達した話者の前記累積値をクリアする算出処理と、
    前記話者ごとに割り当てられた表示領域群のうち、前記累積値が前記所定値に到達した話者に割り当てられた表示領域に、第1図形を表示する表示処理と、
    を実行することを特徴とする発話支援方法。
  13. プロセッサに、
    複数の話者の各々の発話時間の累積値を算出し、前記累積値が所定値に到達した話者の前記累積値をクリアする算出処理と、
    前記話者ごとに割り当てられた表示領域群のうち、前記累積値が前記所定値に到達した話者に割り当てられた表示領域に、第1図形を表示する表示処理と、
    を実行させるための発話支援プログラム。
JP2020038979A 2020-03-06 2020-03-06 発話支援装置、発話支援方法、および発話支援プログラム Active JP6946499B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020038979A JP6946499B2 (ja) 2020-03-06 2020-03-06 発話支援装置、発話支援方法、および発話支援プログラム
CN202011046224.8A CN113360223A (zh) 2020-03-06 2020-09-29 讲话辅助装置、讲话辅助方法及记录介质
US17/071,027 US11398234B2 (en) 2020-03-06 2020-10-15 Utterance support apparatus, utterance support method, and recording medium
EP20202680.3A EP3876230A1 (en) 2020-03-06 2020-10-20 Utterance support apparatus, utterance support method, and utterance support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020038979A JP6946499B2 (ja) 2020-03-06 2020-03-06 発話支援装置、発話支援方法、および発話支援プログラム

Publications (2)

Publication Number Publication Date
JP2021140570A true JP2021140570A (ja) 2021-09-16
JP6946499B2 JP6946499B2 (ja) 2021-10-06

Family

ID=72964490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020038979A Active JP6946499B2 (ja) 2020-03-06 2020-03-06 発話支援装置、発話支援方法、および発話支援プログラム

Country Status (4)

Country Link
US (1) US11398234B2 (ja)
EP (1) EP3876230A1 (ja)
JP (1) JP6946499B2 (ja)
CN (1) CN113360223A (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04323689A (ja) * 1991-04-24 1992-11-12 Toshiba Corp 会議進行支援装置
JP2004350134A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 多地点電子会議システムにおける会議概要把握支援方法、多地点電子会議システム用サーバ、会議概要把握支援プログラム、および該プログラムを記録した記録媒体
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP2010074494A (ja) * 2008-09-18 2010-04-02 Yamaha Corp 会議支援装置
JP2012198726A (ja) * 2011-03-20 2012-10-18 Univ Of Tokyo 会話支援装置および会話支援方法
JP2015019162A (ja) * 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
JP2016162339A (ja) * 2015-03-04 2016-09-05 Kddi株式会社 グループ毎の討論の活性化を推定するプログラム、端末及びシステム
JP2017229060A (ja) * 2016-06-22 2017-12-28 富士ゼロックス株式会社 会議コンテンツを表現する方法、プログラム、及び装置
JP2018045692A (ja) * 2016-09-12 2018-03-22 国立大学法人千葉大学 共想法支援プログラム、会話支援装置及び会話支援方法
JP2020005030A (ja) * 2018-06-25 2020-01-09 シャープ株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766035B1 (en) * 2000-05-03 2004-07-20 Koninklijke Philips Electronics N.V. Method and apparatus for adaptive position determination video conferencing and other applications
JP2001352530A (ja) * 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置
JP3927559B2 (ja) * 2004-06-01 2007-06-13 東芝テック株式会社 話者認識装置、プログラム及び話者認識方法
JP2006268089A (ja) * 2005-03-22 2006-10-05 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
US20070106724A1 (en) * 2005-11-04 2007-05-10 Gorti Sreenivasa R Enhanced IP conferencing service
JP2007180828A (ja) * 2005-12-27 2007-07-12 Canon Marketing Japan Inc ネットワーク会議システム、ネットワーク会議方法、及び該方法を実行させるためのプログラム
JP2008262046A (ja) * 2007-04-12 2008-10-30 Hitachi Ltd 会議可視化システム、会議可視化方法、及び集計処理サーバ
JP5094804B2 (ja) * 2009-08-31 2012-12-12 シャープ株式会社 会議中継装置及びコンピュータプログラム
CN101841690B (zh) * 2010-05-07 2013-08-07 中兴通讯股份有限公司 一种无线电视会议中视频数据控制的方法和系统
US8856006B1 (en) * 2012-01-06 2014-10-07 Google Inc. Assisted speech input
JP2013192139A (ja) * 2012-03-15 2013-09-26 Hitachi Ltd 多地点ビデオ会議システム及び画面配置割当て方法
WO2016126770A2 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Selective conference digest
JP6678292B2 (ja) 2015-02-19 2020-04-08 パナソニックIpマネジメント株式会社 コモンモードノイズフィルタ
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム
US10089061B2 (en) * 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
JP2017059902A (ja) * 2015-09-14 2017-03-23 株式会社リコー 情報処理装置、プログラム、画像処理システム
CN110457096B (zh) * 2018-05-07 2021-01-01 苹果公司 多参与者实时通信用户界面
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04323689A (ja) * 1991-04-24 1992-11-12 Toshiba Corp 会議進行支援装置
JP2004350134A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 多地点電子会議システムにおける会議概要把握支援方法、多地点電子会議システム用サーバ、会議概要把握支援プログラム、および該プログラムを記録した記録媒体
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP2010074494A (ja) * 2008-09-18 2010-04-02 Yamaha Corp 会議支援装置
JP2012198726A (ja) * 2011-03-20 2012-10-18 Univ Of Tokyo 会話支援装置および会話支援方法
JP2015019162A (ja) * 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
JP2016162339A (ja) * 2015-03-04 2016-09-05 Kddi株式会社 グループ毎の討論の活性化を推定するプログラム、端末及びシステム
JP2017229060A (ja) * 2016-06-22 2017-12-28 富士ゼロックス株式会社 会議コンテンツを表現する方法、プログラム、及び装置
JP2018045692A (ja) * 2016-09-12 2018-03-22 国立大学法人千葉大学 共想法支援プログラム、会話支援装置及び会話支援方法
JP2020005030A (ja) * 2018-06-25 2020-01-09 シャープ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP6946499B2 (ja) 2021-10-06
EP3876230A1 (en) 2021-09-08
US11398234B2 (en) 2022-07-26
CN113360223A (zh) 2021-09-07
US20210280183A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
US11817085B2 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US9196253B2 (en) Information processing apparatus for associating speaker identification information to speech data
US10607504B1 (en) Computer-implemented systems and methods for a crowd source-bootstrapped spoken dialog system
US10692516B2 (en) Dialogue analysis
US20210306457A1 (en) Method and apparatus for behavioral analysis of a conversation
EP2879062A2 (en) A system and a method for providing a dialog with a user
JP6946499B2 (ja) 発話支援装置、発話支援方法、および発話支援プログラム
JP2008233305A (ja) 音声対話装置、音声対話方法及びプログラム
CN111506183A (zh) 一种智能终端及用户交互方法
CN112700767B (zh) 人机对话打断方法及装置
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
JP7154245B2 (ja) 発話支援装置、発話支援方法、および発話支援プログラム
JP6736225B2 (ja) 対話装置、対話装置の制御方法およびプログラム
JP4623278B2 (ja) 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
US20230208966A1 (en) Determination method, information processing apparatus, and computer-readable recording medium storing determination program
JP6920730B2 (ja) 対話装置および対話プログラム
JP2018190070A (ja) 対話支援方法、装置、およびプログラム
JP5187102B2 (ja) 表示制御装置、表示制御方法、及び表示制御プログラム
WO2024129888A1 (en) Employee experience score
CN114040055A (zh) 一种辅助保险业务员进行沟通的方法、系统和电子设备
JP2023142373A (ja) 情報処理方法、情報処理プログラム及び情報処理装置
JP2010231688A (ja) 受付装置
JP2020035292A (ja) 情報処理装置、情報処理方法、プログラムおよび情報処理システム
WO2016021058A1 (ja) 対話システム、および情報処理方法
JP2006018691A (ja) 発言構造化方法、装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210915

R150 Certificate of patent or registration of utility model

Ref document number: 6946499

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150