JP7398416B2 - 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム - Google Patents

発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム Download PDF

Info

Publication number
JP7398416B2
JP7398416B2 JP2021177749A JP2021177749A JP7398416B2 JP 7398416 B2 JP7398416 B2 JP 7398416B2 JP 2021177749 A JP2021177749 A JP 2021177749A JP 2021177749 A JP2021177749 A JP 2021177749A JP 7398416 B2 JP7398416 B2 JP 7398416B2
Authority
JP
Japan
Prior art keywords
user
voice
change
utterance
icon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021177749A
Other languages
English (en)
Other versions
JP2023066895A (ja
Inventor
広和 高玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biglobe Inc
Original Assignee
Biglobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biglobe Inc filed Critical Biglobe Inc
Priority to JP2021177749A priority Critical patent/JP7398416B2/ja
Publication of JP2023066895A publication Critical patent/JP2023066895A/ja
Application granted granted Critical
Publication of JP7398416B2 publication Critical patent/JP7398416B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、複数の端末にて通信回線を介して通話を行う際の複数の端末のユーザーの発声状態を認識する発声状態認識システムに関する。
昨今、情報通信技術の急速な進展により、インターネット等の通信回線を介して複数の端末間にて画像及び音声のやりとりをする、いわゆるオンラインミーティングが一般的に行われるようになってきている。特に、近年の感染症の拡大防止の観点から、各企業等においては、人と人との接触を回避するための1つの対策としてオンラインミーティングが行われている。上述したオンラインミーティングにおいては、複数のユーザーが1つの場所に集まることなく会議を行うことができるものの、特定のユーザーだけがしゃべりすぎて、他のユーザーの発言が少なくなってしまう場合がある。
ここで、オペレータと顧客との通話の録音ファイルに基づいて、オペレータと顧客との発話の割合を含むレポートを作成する仕組みが、特許文献1に開示されている。この仕組みを用いれば、オペレータと顧客との通話における発話の割合を認識することができる。
特開2017-135642
特許文献1に開示されたものにおいては、オペレータと顧客との通話の録音ファイルに基づいて、オペレータと顧客との発話の割合を含むレポートを作成している。しかしながら、上述したようなオンラインミーティングのような一般的なオンラインコミュニケーションサービスにおいては、オンラインミーティングの最中に通話の録音ファイルを取得し、リアルタイムに分析できない場合が多い。そのため、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができず、上述したように発言の量が偏ってしまう恐れがある。
本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができる発声状態認識システム、発声状態認識方法及びプログラムを提供することを目的とする。
上記目的を達成するために本発明の発声状態認識システムは、
複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識システムであって、
前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御手段と、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
前記変化検出手段にて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段とを有する。
また、本発明の発声状態認識装置は、
複数の端末にて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる発声状態認識装置であって、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
前記変化検出手段にて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段とを有する。
また、本発明の発声状態認識方法は、
複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識方法であって、
前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御ステップと、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出ステップと、
前記変化検出ステップにて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出ステップとを有する。
また、本発明のプログラムは、
複数のコンピュータにて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させるコンピュータに、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手順と、
前記変化検出手順にて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出手順と、を実行させるプログラム。
本発明によれば、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができる。
本発明の発声状態認識システムの実施の一形態を示す図である。 図1に示したユーザー端末の一構成例を示す図であり、(a)はハードウェアの構成を示す図、(b)はアプリケーションプログラムの構成を示す図である。 図1に示したコミュニケーションサービスサーバーの構成を示す図であり、(a)はハードウェアの構成を示す図、(b)はソフトウェアプログラムの構成を示す図である。 図1~図3に示した発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。 図1~図3に示した音声状態認識システムにおいて発声状態算出手段が実行されていない状態のオンラインミーティングに参加するユーザー端末に表示される画面の一部を示す図である。 図1~図3に示した音声状態認識システムにおいて発声状態算出手段が実行された状態のオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。 図1に示したユーザー端末の他の構成例におけるアプリケーションプログラムの構成を示す図である。 図7に示したアプリケーションプログラムを用いた発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。 図7に示したアプリケーションプログラムを用いた発声状態認識システムにおいてオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。 図1に示したユーザー端末の他の構成例におけるアプリケーションプログラムの構成を示す図である。
以下に、本発明の実施の形態について図面を参照して説明する。
(第1の実施の形態)
図1は、本発明の発声状態認識システムの実施の一形態を示す図である。
本形態における発声状態認識システムは図1に示すように、複数のユーザー端末10-1~10-nとコミュニケーションサービスサーバー30とを有し、複数のユーザー端末10-1~10-n間にてコミュニケーションサービスサーバー30及びネットワーク40を介して、オンラインミーティング等の通話を行うものである。ネットワーク40は、本願発明にて通信回線となるものであって、インターネット等である。
ユーザー端末10-1~10-nは、本願発明の端末となるものである。ユーザー端末10-1~10-nは、通信機能を有するスマートフォンやタブレット型コンピューター、PC(Personal Computer)等であって、コミュニケーションサービスサーバー30及びネットワーク40を介して互いに通話を行う。
図2は、図1に示したユーザー端末10-1~10-nの一構成例を示す図であり、(a)はハードウェアの構成を示す図、(b)はアプリケーションプログラムの構成を示す図である。
ユーザー端末10-1~10-nは図2(a)に示すように、ハードウェア構成として、通信部11と、撮影部12と、操作部13と、表示部14と、音声入出力部15と、記憶部16と、制御部17とを有している。
通信部11は、ユーザー端末10-1~10-nが互いに通話を行うためにネットワーク40を介してコミュニケーションサービスサーバー30との間にて通信を行うためのものである。例えば、ネットワークインターフェースコントローラー等である。
撮影部12は、カメラを有し、カメラに対向する画像を撮影し、画像のデジタルデータにするものである。
操作部13は、ユーザー端末10-1~10-nに情報を入力するためのものである。操作部13は、ユーザー端末10-1~10-nが、例えば、スマートフォンである場合は、表示部14上に積層されたタッチパネル等から構成されており、ユーザー端末10-1~10-nが、例えば、PCである場合は、キーボードやマウス等から構成されている。
表示部14は、コミュニケーションサービスサーバー30からネットワーク40を介して送信されてくる画像を表示する。表示部14は、ユーザー端末10-1~10-n間で通話を行っている場合は、通話を行っているユーザー端末10-1~10-nの撮影部12にて撮影された画像等を表示する。例えば、液晶ディスプレイや有機ELディスプレイ等である。
音声入出力部15は、例えば、マイクやスピーカーを有する。マイクは、ユーザー端末10-1~10-nの外部から音声を入力し、音声のデジタルデータにするためのものであり、スピーカーは、ユーザー端末10-1~10-nの外部に音声のデジタルデータを音声にして出力するためのものである。音声入出力部15は、ユーザー端末10-1~10-n間で通話を行っている場合は、自身のユーザー端末にその端末のユーザーの音声を入力し、通話を行っている他のユーザー端末の音声入出力部15に入力された音声を出力する。なお、ユーザー端末10-1~10-nの音声出力端子にイヤホンが装着されている場合は、スピーカーの代わりにイヤホンが機能する。
記憶部16は、ユーザー端末10-1~10-nを動作させるための基本的なプログラムや、通信部11を介して受信した情報や、操作部13や音声入出力部15を介して入力された情報を記憶する。例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)等である。
制御部17は、例えば、CPU(Central Processing Unit)やSoC(System-on-a-chip)を有し、これにOS(Operating System)や後述するアプリケーションプログラムが実行されることで、通信部11、撮影部12、操作部13、表示部14、音声入出力部15及び記憶部16の動作の制御や各部間の情報のやりとりを処理する。
また、ユーザー端末10-1~10-nは図2(b)に示すように、アプリケーションプログラムとして、コミュニケーション実行手段21と、発声状態算出手段22とを有している。コミュニケーション実行手段21は、コミュニケーションサービスサーバー30と協働して、オンラインミーティング等の通話をするためのアプリケーションプログラムであり、表示制御手段23と、音声制御手段24とを有している。発声状態算出手段22は、発声状態を認識するためのアプリケーションプログラムであり、変化検出手段26と、発声量算出手段27と、発声割合算出手段28と、発声割合表示手段29とを有している。なお、ユーザー端末10-1~10-nにおけるコミュニケーション実行手段21の以下に示す機能は、一例であり、コミュニケーションサービスにより、一部の機能や手順が異なっていてもよいし、コミュニケーションサービスサーバー30のコミュニケーション制御手段35との機能分担が異なっていてもよい。
表示制御手段23によって、制御部17は、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末の撮影部12にて撮影されたユーザーの顔画像等のユーザー画像や、操作部13によって入力されたユーザー名といったユーザーに関する情報を表示部14に表示させるとともに、通話に参加するユーザー端末の音声入出力部15にて入力された音声に応じて、そのユーザーが発声した場合に表示が変化する発声アイコンを表示部14に表示させる。なお、表示制御手段23によって、制御部17は、自身のユーザー端末の撮影部12にて撮影されたユーザー画像や操作部13によって入力されたユーザーに関する情報をコミュニケーションサービスサーバー30に通信部11を用いて送信し、コミュニケーションサービスサーバー30から受信した通話に参加する各ユーザー端末のユーザー画像、ユーザーに関する情報、発声アイコンが含まれる表示画面を生成して表示部14に表示する。
音声制御手段24によって、制御部17は、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末間の通話のための音声のやりとりを通信部11及び音声入出力部15を用いて行う。具体的には、通話に参加するユーザー端末の音声入出力部15に入力された音声を、コミュニケーションサービスサーバー30を経由して、通話に参加する他のユーザー端末の音声入出力部15から出力させる。
変化検出手段26によって、制御部17は、表示制御手段23によって表示部14に表示する発声アイコンの変化を、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末のユーザー毎に検出する。検出の具体的な方法については後述する。
発声量算出手段27によって、制御部17は、変化検出手段26にて検出された発声アイコンの変化に基づいて、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末のユーザー毎の発声量を算出する。ここで、発声量とは、ユーザーが発声した時間的な長さの量である。必ずしも、秒等の既存の時間単位のものでなくても構わない。
発声割合算出手段28によって、制御部17は、発声量算出手段27にて算出されたユーザー毎の発声量に基づいて、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末のユーザー間の通話におけるユーザー毎の発声の割合を算出する。
発声割合表示手段29によって、制御部17は、発声割合算出手段28を用いて算出されたユーザー毎の発声割合を表示する。
コミュニケーションサービスサーバー30は、ネットワーク40を介したユーザー端末10-1~10-n間のオンラインミーティング等の通話を実現するものである。
図3は、図1に示したコミュニケーションサービスサーバー30の構成を示す図であり、(a)はハードウェアの構成を示す図、(b)はソフトウェアプログラムの構成を示す図である。
コミュニケーションサービスサーバー30は図3(a)に示すように、ハードウェア構成として、通信部31と、記憶部32と、制御部33とを有している。
通信部31は、ユーザー端末10-1~10-nが互いに通話を行うために、ユーザー端末10-1~10-nのうち通話を行うユーザー端末とネットワーク40を介して通信を行う。例えば、ネットワークインターフェースコントローラーなどである。
記憶部32は、ユーザー端末10-1~10-n間にて通話が完了した場合に、その開始日時や終了日時、ユーザー名を記憶するとともに、ユーザー端末10-1~10-nの発声割合算出手段28にて算出されたユーザー毎の発声の割合を記憶する。例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)などである。
制御部33は、例えば、CPU(Central Processing Unit)やSoC(System-on-a-chip)を有し、これにOS(Operating System)や後述するソフトウェアプログラムが実行されることで、通信部31及び記憶部32の動作の制御や各部間の情報のやり取りを処理する。
また、コミュニケーションサービスサーバー30は図3(b)に示すように、ソフトウェアプログラムとして、Webサーバー手段34と、コミュニケーション制御手段35とを有している。
Webサーバー手段34は、ネットワーク40に接続可能に構成されたユーザー端末10-1~10-nが、ユーザー端末にインストールされたブラウザーまたはアプリケーションプログラムによってコミュニケーションサービスサーバー30にネットワーク40を介してアクセス可能とし、アクセスされたユーザー端末に対して情報を送信するものである。
コミュニケーション制御手段35は、Webサーバー手段34と協働し、ネットワーク40を介したユーザー端末10-1~10-n間のオンラインミーティング等の通話を制御するものである。
以下に、上記のように構成された発声状態認識システムにおいてオンラインミーティングを行う際の発声状態認識方法について、ユーザー端末10-1のユーザーとユーザー端末10-2のユーザーとの間にてオンラインミーティングを行う場合を例に挙げて説明する。
図4は、図1~図3に示した発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。
図1~図3に示した発声状態認識システムにおいて、コミュニケーションサービスサーバー30のWebサーバー手段34と、コミュニケーション制御手段35は、予め実行されている。オンラインミーティングに参加するユーザー端末10-1,10-2のユーザーは、自身のユーザー端末10-1,10-2の操作部13にオンラインミーティングに参加する旨の入力を行う(ステップS1)。例えば、ユーザー端末10-1,10-2に予めインストールされたアプリケーションプログラムが実行されたり、ユーザー端末10-1,10-2にて実行され、表示部14に表示されたWebブラウザーにコミュニケーションサービスサーバー30のURLが入力されたりすることで、オンラインミーティングに参加する旨の入力が行われる。
すると、コミュニケーションサービスサーバー30のWebサーバー手段34が応じて、ユーザー端末10-1,10-2のコミュニケーション実行手段21により制御部17が、通信部11を用いてネットワーク40を介してコミュニケーションサーバー30に接続し、コミュニケーションサーバー30を介してオンラインミーティングの参加を可能な状態とする。例えば、ユーザー端末10-1,10-2に予めインストールされたコミュニケーション実行手段21であるアプリケーションプログラムが実行された場合は、表示制御手段23により制御部17は、コミュニケーションサーバー30に接続を要求し、その要求にコミュニケーションサービスサーバー30のWebサーバー手段34が応じて、コミュニケーション実行手段21とコミュニケーション制御手段35とが接続され、オンラインミーティングの参加を可能な状態とする。また、ユーザー端末10-1,10-2の表示部14に表示されたWebブラウザーにコミュニケーションサービスサーバー30のURLが入力された場合は、制御部17は、コミュニケーションサービスサーバー30から送信されるコミュニケーション実行手段21であるWebアプリをWebブラウザー上に実行することで、表示制御手段23により制御部17が、コミュニケーションサーバー30に接続を要求し、その要求にコミュニケーションサービスサーバー30のWebサーバー手段34が応じて、コミュニケーション実行手段21とコミュニケーション制御手段35とが接続され、オンラインミーティングの参加を可能な状態とする。
次に、制御部17は、コミュニケーションサービス実行手段21によって、オンラインミーティングに参加するユーザー端末10-1,10-2間にてコミュニケーションサービスサーバー30のコミュニケーション制御手段35を介してオンラインミーティングを開始する(ステップS2)。例えば、オンラインミーティングの主催者であれば、操作部13が操作され、表示制御手段23により、新しいコミュニケーションID(ミーティングする仮想的な部屋を識別する識別子)をコミュニケーション制御手段35から取得し、当該コミュニケーションIDがその主催者のユーザー端末10-1の通信部11からコミュニケーションサービスサーバー30に送信される。この際に、操作部13から入力されたユーザー名がユーザー端末10-1の通信部11からコミュニケーションサービスサーバー30に送信される。また、オンラインミーティングの招待者であれば、主催者から別途通知されたコミュニケーションIDがその招待者のユーザー端末10-2の操作部13に入力され、表示制御手段23により、通信部11からコミュニケーションサービスサーバー30に送信される。この際に、操作部13から入力されたユーザー名がユーザー端末10-2の通信部11からコミュニケーションサービスサーバー30に送信される。コミュニケーションサービスサーバー30のWebサーバー手段34にて、通信部31にユーザー端末10-1,10-2から各々コミュニケーションIDを受信した場合に、コミュニケーション制御手段35がその同じコミュニケーションIDが入力されたユーザー端末10-1,10-2同士の間でオンラインミーティングを開始する。
コミュニケーション制御手段35とコミュニケーション実行手段21によってオンラインミーティングが開始されると、制御部17は、表示制御手段24によって、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末10-1,10-2の撮影部12にて撮影されたユーザー画像と、操作部13から入力されたユーザー名といったユーザーに関する情報と、通話に参加するユーザー端末10-1,10-2のユーザーが発声し音声入出力部15にてそのユーザーの音声が入力された場合に表示が変化する発声アイコンとが含まれるオンラインミーティング画面を生成し、表示部14に表示する(ステップS3)。
また、コミュニケーション制御手段35とコミュニケーション実行手段21によってオンラインミーティングが開始されると、音声制御手段24により制御部17は、通話に参加するユーザー端末10-1,10-2の音声入出力部15に入力された音声を、通信部11を用いて、他のユーザー端末10-1,10-2に送信し、通話に参加する他のユーザー端末10-1,10-2の音声入出力部15から出力させる。
図5は、図1~図3に示した音声状態認識システムにおいて発声状態算出手段22が実行されていない状態のオンラインミーティングに参加するユーザー端末に表示される画面の一部を示す図である。
図5に示すように、図1~図3に示した音声状態認識システムにおいてオンラインミーティングに参加するユーザー端末10-1,10-2表示されるオンラインミーティング画面50には、表示制御手段23により制御部17によって、オンラインミーティングに参加するユーザー毎に、そのユーザー画像やユーザー名等が表示される参加ユーザー表示エリア51a,51bが設けられているとともに、この参加ユーザー表示エリア51a,51bのそれぞれには、ユーザーが発声した場合に表示が変化する発声アイコン52a,52bが表示される。なお、本例においては、説明をわかりやすくするために、二人のユーザーがオンラインミーティングに参加し、オンラインミーティング画面50にはその二人のユーザーについて参加ユーザー表示エリア51a,51bが設けられているが、オンラインミーティングに参加するユーザーの数は二人に限らず、オンラインミーティング画面50に表示される参加ユーザー表示エリアも、オンラインミーティングに参加するユーザーの数だけ設けられることになる。
このようにしてオンラインミーティングが開始されると、さらに、制御部17は、発声状態算出手段22を実行する。なお、発声状態算出手段22の実行は、ユーザー端末10-1~10-nに予めインストールされたアプリケーションプログラムとして実行されてもよいし、Webブラウザーの拡張機能としてインストールされたアプリケーションプログラムとして、Webブラウザーとともに実行されてもよいし、ブックマークレットと呼ばれるブックマークとして予め記憶されたプログラムを用いて、Webブラウザー上で実行して、ユーザー端末10-1~10-nの表示部14に表示されたWebページ上に表示してその機能を追加してもよい。また、発声状態算出手段22の実行のタイミングは、ユーザーによる操作部13の指示により実行しても、Webブラウザーの実行とともに実行しても、コミュニケーション実行手段21によるオンラインミーティングの開始を検出して実行してもよい。なお、発声状態算出手段22は、ユーザー端末10-1~10-nの全てに設けられて実行してもよいし、ユーザー端末10-1~10-nのうち一部のユーザー端末に設けられて実行してもよい。例えば、オンラインミーティングに参加するユーザーの中で、司会役のユーザーやつい話が長くなってしまうユーザー、話を聞く側のユーザー、役職が上位にあたるユーザー等のユーザー端末にて実行することが好適である。なお、本例においては、説明をわかりやすくするために、ユーザー端末10-1に発声状態算出手段22が設けられて実行するものとして説明する。当然、ユーザー端末10-2にも設けられていて、ユーザー端末10-2も発声状態算出手段22を実行し、ユーザー端末10-1と同様の動作をしてもよい。
発声状態算出手段22が実行されると、発声状態算出手段22により制御部17は、表示制御手段23による制御によって、ユーザー端末10-1の表示部14に表示されたオンラインミーティングに参加する全てのユーザーのユーザー名を取得するとともに、そのユーザーの発声アイコン52a,52bを認識する(ステップS4)。例えば、Webアプリケーションプログラムの場合、図5に示したオンラインミーティング画面50を表示するためのHTMLやXML、CSS、JavaScript等のソースコードは、WebブラウザーによりDocument Object Model(DOM)としてRAM等の記憶部16にメモリー内の表現として変換され、JavaScript等のプログラムで操作可能になっている。コミュニケーション実行手段21またはコミュニケーション制御手段35により、ユーザー端末10-1,10-2に撮影されたユーザー画像や入力された音声に応じて、当該DOMが更新されるため、そのDOMをもとにWebブラウザー上のオンラインミーティング画面50の表示も更新される。そのDOMの中で、ユーザー名や発声アイコン52a,52bを表示するための値があるノードを特定することで、そのノードにあるユーザー名や発声アイコン52a,52bの値を取得または認識できる。ノードを特定するには、ノード自体に割り当てられたID、または、別のノードのIDを起点としたDOM上のそのノードの位置関係を指定すればよい。ノードのIDは、予めソースコードに記載されていても、Webブラウザーが所定の方法で付与してもよい。そのため、プログラム内において予めID、または、IDとDOM上の位置関係を指定しておくことで、そのIDに直接または間接的に該当するノードに出現する値を取得または認識すれば、ユーザー名や発声アイコンを取得または認識することができる。また、ユーザー端末10-1の表示制御手段23により表示出力されたユーザー名や発声アイコン52a,52bを文字認識や画像認識によって取得または認識してもよい。さらには、オンラインミーティングに参加するユーザーが、ユーザー端末10-1の操作部13を介して、表示部14に表示された画面からユーザー名や発声アイコンを指定し、発声状態算出手段22により制御部17が指定された先のユーザー名のテキストを取得し、発声アイコンを認識するようにしてもよい。
次に制御部17は、発声状態算出手段22によって、ユーザー名を取得したオンラインミーティングに参加するユーザー端末10-1,10-2の各ユーザーの発声値(を記録するデータ)を生成し、記憶部16に記憶し、初期値(0)に設定する。その際に、オンラインミーティングの開始日時と各ユーザー名も記憶しておく。なお、常にまたは既に発声状態算出手段22が実行されている場合、発声値の初期化ボタンを表示部14に表示させ、操作部13によるその発声値の初期化ボタンへの指示を検出して初期値(0)に設定しても、ミュニケーション実行手段21によるオンラインミーティングの開始を検出して初期値(0)に設定してもよい。また、表示制御手段23によって、表示部14に表示されるオンラインミーティング画面に、発声割合表示手段29により、制御部17は、ユーザー名を取得したオンラインミーティングに参加するユーザー端末10-1,10-2のユーザーの発声割合を示す発声割合表示領域を設け、ユーザー端末10-1の表示部14に表示させる(ステップS5)。
図6は、図1~図3に示した音声状態認識システムにおいて発声状態算出手段22が実行された状態のオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。
図6に示すように、図1~図3に示した音声状態認識システムにおいてオンラインミーティングに参加し、発声状態算出手段22が実行されたユーザー端末10-1には、発声割合表示手段29の制御によって、図5に示したオンラインミーティング画面50に、さらにオンラインミーティングに参加するユーザー端末10-1,10-2のユーザーの発声割合を示す発声割合表示領域53が設けられ、このオンラインミーティング画面50が、表示部14に表示される。発声割合表示手段29により制御部17は、発声割合表示領域53に、取得した各ユーザーのユーザー名と記憶部16に記憶した発声値から算出するそのユーザーに対応する発声割合とを表示する。なお、オンラインミーティングの開始時は、発声割合表示領域53に表示される各ユーザーの発声割合は“0”と設定する。また、発声割合表示領域53は、上述したようにオンラインミーティング画面50内に表示してもよいし、それとは別の画面に表示してもよい。また、各ユーザーの発声割合を記憶部16に記憶しておく。
また、発声割合表示領域53に表示されたユーザーのユーザー端末の中に、表示専用のユーザー端末があった場合、そのユーザー端末を発声割合から除外するようにユーザーが操作部13を介して選択できるようにしてもよい。この場合、後述する発声割合算出実行手段28による処理においては、選択されて除外したユーザーに対応する発声値を記憶部16から削除し、除外したユーザー名とその発声割合の表示を発声割合表示領域53から削除し、除外したユーザーのユーザー端末については、後述する発声の検出の対象外とする。
このようにして、オンラインミーティングに参加するユーザー端末10-1の表示部14に図6に示したオンラインミーティング画面50が表示され、オンラインミーティングが進められていくことになる。
オンラインミーティングが進められ(ステップS6のNo)、参加するユーザー端末10-1,10-2のユーザーが発声すると、表示制御手段23により制御部14は、発声アイコン52a,52bの表示を変化させる。例えば、無声の場合はアイコン内の表示された点や短い棒状だった図形が、発声量に合わせて長い棒状の図形になったり、無声の場合はアイコン内の表示された1本の横棒だった図形が、発声量に合わせて棒の本数が積み上がっていったりする。制御部14は、変化検出手段26によって、オンラインミーティングに参加している各ユーザーについて、発声アイコン52a,52bの変化を検出する。これは、上述したように、例えばWebアプリケーションプログラムの場合、図6に示したオンラインミーティング画面50を表示するためのソースコードは、WebブラウザーによりDOMに変換されており、各ユーザーに対応する発声アイコン52a,52bを表示するための値が記載されるDOM上のノード自体に割り当てられたID、または、別のノードのIDを起点としたDOM上のそのノードの位置関係を指定し、そのノードの値の変化を検出することで、発声アイコン52a,52bの変化を検出することができる。なお、変化検出手段26が、表示制御手段23から、発声アイコン52a,52bの変化があった時に通知を受けてもよい。具体的には、例えば、Webブラウザーが提供するAPIを用いて、発声アイコン52a,52bが変化したことを変化検出手段26は検知する。また、Webブラウザーに表示された発声アイコン52a,52bを画像認識によって認識することで、発声アイコン52a,52bの変化を検出してもよい。
変化検出手段26によって発声アイコン52a,52bの変化が検出されると(ステップS7のYes)、制御部17は、発声量算出手段27によって、ユーザーの発声量として記憶部16に記憶したそのユーザーに対応する発声値に1を加算する(ステップS8)。例えば、上述したように発声アイコンのノードの値の変化を検出し、値が変化したら、そのユーザーの発声値に1を加算する。これは、無発声の場合は、発声アイコンは同じ画像であってその値に変化がなく、発声中の場合は、発声量等に応じて画像が変化してその値が変化し続けるためである。その際に、無声の場合の発声アイコンのノードの値を記憶しておき、無声以外の値から無声の値に変化する場合は、加算しないようにしてもよい。
または、Webブラウザーに表示された無声の状態のアイコン画像を予め記憶しておき、1秒毎等の所定の間隔で、各ユーザーに対応する発声アイコンを認識し、発声アイコンが、予め記憶されたアイコン画像とは異なる場合に、発声中としてそのユーザーの発声値に1を加算してもよい。逆に、発声中の状態のアイコン画像を予め記憶しておき、発声アイコンが、予め記憶されたアイコン画像である場合に、発声中としてそのユーザーの発声値には1を加算することも考えられる。
また、発声アイコンが、ユーザー端末10-1,10-2の音声入出力部15を介して入力される音声の大きさによってノードの値または発声アイコン画像が変化する場合は、音量の大きさが小さな場合は、ノイズとして発声値に1を加算しないようにしてもよい。さらには、音声入出力部15のマイクがOFFの場合のアイコン画像を認識することで、無発声と判断してもよい。なお、これら以外の加算方法で、発声値を算出しても構わない。
上述したように発声中のユーザーの発声値に1を加算した場合(または所定の間隔で)、制御部17は、発声割合算出手段28によって、記憶部16に記憶されているオンラインミーティングに参加している全てのユーザーの発声値の合計を算出し、この合計と各ユーザーの発声値とに基づいて、
(そのユーザーの発声値/全てのユーザーの発声値の合計)×100%
から、オンラインミーティングに参加している各ユーザー毎の発声の割合を算出する。そして、発声割合表示手段29により、制御部17は、表示部14にて、図6に示したオンラインミーティング画面50の発声割合表示領域53に表示された各ユーザーの発声割合を、発声割合算出手段28が算出した値に更新して表示する(ステップS9)。また、記憶部16に記憶した各ユーザーの発声割合も算出した値に更新する。
なお、全てのユーザーの発声値の合計を100%とするのではなく、所定の間隔で各ユーザーの発声の有無を検出している場合、その間隔での発声アイコンの変化を検出する処理を行う度に、検出処理を行った旨を示す検出値(初期値0)として1を加算し、その検出値を100%とすることで、どのユーザーも発声していない状態も考慮した発生割合を算出してもよい。その際に、どのユーザーも発声していない割合も発声割合表示領域に表示してもよい。この場合、オンラインミーティング期間中における各ユーザーの発声割合は、
(そのユーザーの発声値/検出処理を行った旨を示す検出値)×100%
にて算出され、どのユーザーも発声していない割合は、
100-(全ユーザーの発声値の合計/検出処理を行った旨を示す検出値)×100%
にて算出される。
その後、オンラインミーティングが終了するまでステップS7~ステップS9の処理を繰り返し、制御部17がコミュニケーション実行手段21の終了を検知すると(ステップS6のYes)、発声状態算出手段22により、制御部17は、オンラインミーティングの終了日時を記憶部16に記憶し、記憶部16に記憶してあるオンラインミーティングの開始日時、終了日時、参加したユーザー名、そのユーザーの発声値、並びに、そのユーザーの発声割合を含むコミュニケーション情報を通信部11から送信し、ミーティングデーターベース(不図示)に登録する(ステップS10)。なお、オンラインミーティングの終了の検知は、例えば、ユーザー端末10-1に表示されたWebブラウザーのコミュニケーションサービスが実行されているタブが閉じられた場合や、オンラインミーティングに参加していたユーザーのうち少なくとも一人のユーザーの発声アイコン自体が検出されなくなった場合や、コミュニケーション実行手段21によるコミュニケーションサービスのWebアプリ等が終了した場合が考えられる。また、コミュニケーション実行手段21の表示制御手段23によりユーザー端末10-1の表示部14に表示されている退室アイコンに対する操作部13を介したユーザーの操作や、発声状態算出手段22によりユーザー端末10-1の表示部14に発声割合表示領域53とともに、発声状態算出手段22の実行を終了するためのアイコンを表示しておき、その終了アイコンに対する操作部13を介したユーザーの操作や、クラウドサービスやアプリケーションプログラムによるカレンダー機能における当該オンラインミーティングの終了時間等を検知することによることが考えられる。また、オンラインミーティングに参加していた全てのユーザーの発声アイコンのノードの値の変化が既定時間以上検出されなったことによることも考えられる。この場合、発声アイコンが最後に変化した日時を終了時間とみなすことになる。なお、コミュニケーション情報には、そのユーザーの発声値とそのユーザーの発声割合の少なくともどちらか1つが含まれればよい。また、記憶部16に記憶したオンラインミーティングの開始日時、終了日時、参加したユーザー名、そのユーザーの発声値と発声割合は、ミーティングデーターベースにコミュニケーション情報を送信後に削除しても構わない。
上述したように本形態においては、オンラインミーティングに参加するユーザー端末10-1~10-nのそれぞれには、オンラインミーティングに参加するユーザー画像やユーザー名といったユーザーに関する情報の他に、ユーザーが発声した場合に表示が変化する発声アイコンを表示させているので、この発声アイコンの変化をオンラインミーティングに参加するユーザー毎に検出し、この発声アイコンの変化に基づいて、ユーザーの発声量に基づくユーザー毎の発声の割合を算出するので、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができる。特に、1on1ミーティングと呼ばれる上司と部下が1対1で行う対話にて上司の話し過ぎを防止したり、ミーティングの司会役が参加者に均等に発言してもらうための指標としたりすることができるという効果がある。さらに、オンラインミーティングでの発声状態をデーターベースに記憶しておくことで、各ユーザーの過去の複数のミーティングでの発声状態を分析することができる。
(第2の実施の形態)
上述した第1の実施の形態においては、オンラインミーティングに参加しているユーザー毎の発声の割合を百分率で算出して表示するものを示したが、オンラインミーティングに参加しているユーザー毎の発声時間を算出して表示してもよい。なお、発声時間は、発声量の具体例の1種である。また、第1の実施の形態に本実施の形態の変更部分を組み合わせた構成にしてもよい。本実施の形態では、第1の実施の形態と同じ説明は省略し、異なる点を中心に説明する。
図7は、図1に示したユーザー端末10-1~10-nの他の構成例におけるアプリケーションプログラムの構成を示す図である。
本形態は図7に示すように、図2(b)に示したものに対して、発声状態算出手段122が、発声量算出手段27と発声割合算出手段28の代わりに発声時間算出手段128を有するとともに、発声割合表示手段29の代わりに発声時間表示手段129を有する点が異なるものである。
発声時間算出手段128によって、制御部17は、変化検出手段26にて検出されたユーザー毎の発声アイコンの変化に基づいて、ユーザー端末10-1~10-nのうち通話に参加するユーザー端末のユーザー毎の発声時間を算出する。
発声時間表示手段129によって、制御部17は、発声時間算出手段128によって算出されたユーザー端末10-1~10-nのユーザー毎の発声時間を表示する。
図8は、図7に示したアプリケーションプログラムを用いた発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。
図7に示したアプリケーションプログラムを用いた発声状態認識システムにおいてオンラインミーティングが開始されると、まず、ステップS1~S4と同等の処理が行われる(ステップS11~S14)。
次に制御部17は、発声状態算出手段122によって、オンラインミーティングに参加するユーザー端末10-1~10-nの各ユーザーの発声時間(を記録するためのデータ)を生成して記憶部16に記憶し、初期値(0秒)に設定する。また、制御部17は、発声時間表示手段129によって、表示部14に表示されるオンラインミーティング画面に、ユーザー名を取得したオンラインミーティングに参加するユーザー端末10-1~10-nのユーザーの発声時間を示す発声時間表示領域を設け、ユーザー端末10-1の表示部14に表示させる(ステップS15)。
図9は、図7に示したアプリケーションプログラムを用いた発声状態認識システムにおいて発声状態算出手段122が実行された状態のオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。
図9に示すように、図7に示したアプリケーションプログラムを用いた音声状態認識システムにおいてオンラインミーティングに参加し、発声状態算出手段122が実行されたユーザー端末には、発声時間表示手段129の制御によって、表示部14に表示されるオンラインミーティング画面150に、オンラインミーティングに参加するユーザー端末10-1~10-nのユーザーの発声時間を示す発声時間表示領域153が設けられ、このオンラインミーティング画面150が、ユーザー端末10-1の表示部14に表示される。発声時間表示手段129により制御部17は、発声時間表示領域153に、取得した各ユーザーのユーザー名と記憶部16に記憶した発声時間を表示する。なお、オンラインミーティングの開始時は、発声時間表示領域153に表示されるユーザーの発声時間は設定された初期値“0秒”が表示される。
このようにして、オンラインミーティングに参加し、発声状態算出手段122が実行されたユーザー端末10-1の表示部14に図9に示したオンラインミーティング画面150が表示され、オンラインミーティングが進められていくことになる。
オンラインミーティングが進められ(ステップS16のNo)、参加するユーザー端末10-1,10-2のユーザーが発声すると、表示制御手段23により制御部14は、発声アイコン52a,52bの表示を変化させる。制御部14は、変化検出手段26によって、オンラインミーティングに参加している各ユーザーの発声アイコン52a,52bの変化を検出する。なお、変化の検出等は、上述した第1の実施の形態と同様に行う。
変化検出手段26によって発声アイコン52a,52bの変化が検出されると(ステップS17のYes)、制御部17は、発声時間算出手段128を用いてユーザーの発声量としてその変化を検出している時間によって発声時間を計測し、発声時間算出手段128を用いて計測した発声時間を加算していく(ステップS18)。例えば、オンラインミーティングの開始時間からの時間を計測し、上述したように発声アイコンのノードの値の変化を検出した時間から、値が変化しなくなった時間までの間の時間である変化検出時間を、その変化した発声アイコンのユーザーに対応する記憶部16に記憶した発声時間に、加算する。
または、Webブラウザーに表示された無声の状態のアイコン画像を予め記憶しておき、所定の間隔(例えば1秒毎)で、各ユーザーに対応する発声アイコンを認識し、発声アイコンが、予め記憶されたアイコン画像とは異なる場合に、発声中としてそのユーザーに対応する記憶部16に記憶した発声時間に1秒を加算してもよい。逆に、発声中の状態のアイコン画像を予め記憶しておき、発声アイコンが、予め記憶されたアイコン画像である場合に、発声中としてそのユーザーに対応する記憶部16に記憶した発声時間値に1秒を加算しすることも考えられる。なお、所定の間隔は1秒以外でも構わない。
また、発声アイコンが、ユーザー端末10-1,10-2の音声入出力部15を介して入力される音声の大きさによってノードの値または発声アイコン画像が変化する場合は、音量の大きさが小さな場合は、ノイズとして発声時間に加算しないようにしてもよい。さらには、音声入出力部15のマイクがOFFの場合のアイコン画像を認識することで、無発声と判断してもよい。なお、これら以外の加算方法で、発声時間を算出しても構わない。
上述したように発声中のユーザーの発声時間に変化検出時間を加算した場合、発声時間表示手段129により、制御部17は、表示部14にて、図9に示したオンラインミーティング画面150の発声時間表示領域153に表示されたそのユーザーの発声時間を、加算して算出した後の発声時間に更新して表示する(ステップS19)。
その後、オンラインミーティングが終了するまでステップS16~ステップS19の処理を繰り返し、制御部17がコミュニケーション実行手段21の終了を検知すると(ステップS16のYes)、発声状態算出手段122により、制御部17は、オンラインミーティングの終了日時を記憶部16に記憶し、記憶部16に記憶してあるオンラインミーティングの開始日時、終了日時、参加したユーザー名、並びに、発声時間を含むコミュニケーション情報を通信部11から送信し、ミーティングデーターベース(不図示)に登録する(ステップS20)。なお、終了の検知等は、上述した第1の実施の形態と同様に行う。
上述したように本形態においては、オンラインミーティングに参加するユーザー端末10-1~10-nのそれぞれに、オンラインミーティングに参加するユーザー画像やユーザー名といったユーザーに関する情報の他に、ユーザーが発声した場合に表示が変化する発声アイコンを表示させているので、この発声アイコンの変化をオンラインミーティングに参加するユーザー毎に検出し、この発声アイコンの変化に基づいて、ユーザー毎の発声時間を算出するので、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話における発声時間を認識することができる。
(第3の実施の形態)
第2の実施の形態にて示したようにユーザーの発声時間を発声時間表示領域153に表示するのではなく、発声時間に応じたポイントを算出し、そのポイントを表示してもよい。なお、ポイントは、発声量の具体例の1種である。また、本実施の形態では、第1の実施の形態や第2の実施の形態と同じ説明は省略し、異なる点を中心に説明する。
図10は、図1に示したユーザー端末10-1~10-nの他の構成例におけるアプリケーションプログラムの構成を示す図である。
本形態は図10に示すように、図7に示したものに対して、発声状態算出手段222が、ポイント付与手段229を有するとともに、発声時間表示手段129の代わりにポイント表示手段230を有する点が異なるものである。なお、図2に示したものに対して、発声状態算出手段222が、発声量算出手段27の代わりに発声時間算出手段128、発声割合算出手段28の代わりにポイント付与手段229、発声割合表示手段29の代わりにポイント表示手段230を有するとも考えられる。
ポイント付与手段229により制御部17は、発声時間算出手段128にて算出された発声時間に応じて、ユーザー毎にポイントを付与する。発声時間算出手段128にて算出された発声時間について、例えば、5秒間発声した場合に1ポイントに変換して、変換後のポイントを算出する。記憶部16には、発声時間とポイントの少なくとも1つをユーザー毎に記憶する。
ポイント表示手段230により制御部17は、算出したポイントを表示する。
また、ポイント付与手段229により制御部17が、加算された発声時間またはポイントが既定の時間またはポイント数に到達したと判定すると、ポイント表示手段230により、制御部17が、発声時間表示領域153のその到達したユーザー名の近辺に発声の自粛を促す旨を表示させたり、発声時間表示領域153のその到達したユーザーに対応する発声時間またはポイントの表示色や大きさを強調する表示にさせたり、発声状態算出手段22により制御部17が、その到達したユーザーが自身である場合は、強制的に音声入出力部15のマイクをOFFにしたりする処理等を実行してもよい。また、既定の値に到達したポイントを減らすために、例えば、加算されたポイントが既定のポイント数に到達した場合、5秒間等の所定時間しゃべらなければ、現在のポイント数から1ポイント減算するといったポイント付与手段229による減算処理等の機能を追加してもよい。さらには、既定の値に到達したポイントを減らすために、加算されたポイントを購入するための決済処理等の機能を追加してもよい。本実施の形態の場合、コミュニケーション情報には、記憶部16に記憶してあるオンラインミーティングの開始日時、終了日時、参加したユーザー名が含まれ、さらに、発声時間とポイントの少なくとも1つが含まれる。
なお、上述した実施の形態においては、ユーザー端末10-1が、発声状態算出手段22,122,222をアプリケーションプログラムとして有するものを例に挙げて説明したが、発声状態算出手段22,122,222は、コミュニケーションサービスサーバー30がプログラムとして有する構成でもよく、コミュニケーション実行手段21と発声状態算出手段22,122,222が1つのアプリケーションプログラムとする構成としてもよい。
また、本発明の音声状態認識システムにて行われる方法は、コンピュータに実行させるためのプログラムに適用してもよい。また、そのプログラムを記憶媒体に格納することも可能であり、ネットワークを介して外部に提供することも可能である。
10-1~10-n ユーザー端末
11,31 通信部
12 撮影部
13 操作部
14 表示部
15 音声入出力部
16,32 記憶部
17,33 制御部
21 コミュニケーション実行手段
22,122,222 発声状態算出手段
23 表示制御手段
24 音声制御手段
26 変化検出手段
27 発声量算出手段
28 発声割合算出手段
29 発声割合表示手段
30 コミュニケーションサービスサーバー
34 Webサーバー手段
35 コミュニケーション制御手段
40 ネットワーク
50,150 オンラインミーティング画面
51a,51b 参加ユーザー表示エリア
52a,52b 発声アイコン
53 発声割合表示領域
128 発声時間算出手段
129 発声時間表示手段
153 発声時間表示領域
229 ポイント付与手段
230 ポイント表示手段

Claims (8)

  1. 複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識システムであって、
    前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御手段と、
    前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
    前記通話が開始されてから前記変化検出手段にて検出処理を行った数値を記憶し、前記通話が開始されてから前記変化検出手段にて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて記憶する記憶手段と、
    前記記憶手段に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段と
    前記検出処理を行った数値を基に算出した検出値と、前記発声量算出手段にて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出手段と、
    前記発声割合算出手段にて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示手段とを有する発声状態認識システム。
  2. 請求項1に記載の発声認識システムにおいて、
    前記発声量算出手段は、前記ユーザー毎の発声量として、ユーザー毎の発声時間を算出し、
    前記発声量算出手段にて算出された発声時間に応じて、前記ユーザー毎にポイントを付与するポイント付与手段と、
    前記ポイント付与手段にて付与された前記ユーザー毎のポイントを表示するポイント表示手段とを有する、発声認識システム。
  3. 請求項1または請求項2に記載の発声認識システムにおいて、
    前記変化検出手段は、前記通話を表示する画面を表示するためのDOMの所定のノードにおける前記発声アイコンを表示するための値の変化を検出することで前記発声アイコンの変化を検出する、発声認識システム。
  4. 請求項1または請求項2に記載の発声認識システムにおいて、
    前記表示制御手段は、前記通話を表示する画面を表示するためのDOMの所定のノードにおける前記発声アイコンを表示するための値の変化を検出すると、前記変化検出手段に変化を検出したことを通知し、
    前記変化検出手段は、前記表示制御手段から変化を検出したことを通知されることで前記発声アイコンの変化を検出する、発声認識システム。
  5. 請求項1または請求項2に記載の発声認識システムにおいて、
    前記変化検出手段は、前記発声アイコンの画像を認識することで前記発声アイコンの変化を検出する、発声認識システム。
  6. 複数の端末にて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる発声状態認識装置であって、
    前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
    前記通話が開始されてから前記変化検出手段にて検出処理を行った数値を記憶し、前記通話が開始されてから前記変化検出手段にて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて記憶する記憶手段と、
    前記記憶手段に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段と
    前記検出処理を行った数値を基に算出した検出値と、前記発声量算出手段にて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出手段と、
    前記発声割合算出手段にて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示手段とを有する発声状態認識装置。
  7. 複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識方法であって、
    前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御ステップと、
    前記ユーザー毎の前記発声アイコンの変化を検出する変化検出ステップと、
    前記通話が開始されてから前記変化検出ステップにて検出処理を行った数値を記憶部に記憶するステップと、
    前記通話が開始されてから前記変化検出ステップにて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて前記記憶部に記憶するステップと、
    前記記憶部に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出ステップと
    前記検出処理を行った数値を基に算出した検出値と、前記発声量算出ステップにて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出ステップと、
    前記発声割合算出ステップにて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示ステップとを有する発声状態認識方法。
  8. 複数のコンピュータにて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させるコンピュータに、
    前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手順と、
    前記通話が開始されてから前記変化検出手順にて検出処理を行った数値を記憶部に記憶する手順と、
    前記通話が開始されてから前記変化検出手順にて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて前記記憶部に記憶する記憶手順と、
    前記記憶部に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出手順と、
    前記検出処理を行った数値を基に算出した検出値と、前記発声量算出手順にて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出手順と、
    前記発声割合算出手順にて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示手順と、を実行させるプログラム。
JP2021177749A 2021-10-29 2021-10-29 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム Active JP7398416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021177749A JP7398416B2 (ja) 2021-10-29 2021-10-29 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021177749A JP7398416B2 (ja) 2021-10-29 2021-10-29 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2023066895A JP2023066895A (ja) 2023-05-16
JP7398416B2 true JP7398416B2 (ja) 2023-12-14

Family

ID=86326246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021177749A Active JP7398416B2 (ja) 2021-10-29 2021-10-29 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7398416B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015019162A (ja) 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
JP2018137723A (ja) 2017-02-23 2018-08-30 富士ゼロックス株式会社 遠隔会議の参加者の資質のフィードバックを提供するための方法およびシステム、コンピューティングデバイス、プログラム
US20190238682A1 (en) 2015-12-23 2019-08-01 Shoutpoint, Inc. Conference call platform capable of generating engagement scores
JP6817253B2 (ja) 2018-06-29 2021-01-20 日本電信電話株式会社 表示制御装置、表示制御方法、および表示制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015019162A (ja) 2013-07-09 2015-01-29 大日本印刷株式会社 会議支援システム
US20190238682A1 (en) 2015-12-23 2019-08-01 Shoutpoint, Inc. Conference call platform capable of generating engagement scores
JP2018137723A (ja) 2017-02-23 2018-08-30 富士ゼロックス株式会社 遠隔会議の参加者の資質のフィードバックを提供するための方法およびシステム、コンピューティングデバイス、プログラム
JP6817253B2 (ja) 2018-06-29 2021-01-20 日本電信電話株式会社 表示制御装置、表示制御方法、および表示制御プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jose Adorno,‘Read’ is a free Zoom tool that hopes to warn you when your meeting is boring,9to5mac.com,2021年09月29日,https://9to5mac.com/2021/09/29/read-free-zoom-tool/
参加者 / 参加者の管理,zoom academy japan,2020年05月31日,https://zoomy.info/zoom_perfect_manual/pc_buttons/participants/,(https://web.archive.org/web/20200531030828/https://zoomy.info/zoom_perfect_manual/pc_buttons/participants/によれば2020/05/31に掲載されていたものと認められる)

Also Published As

Publication number Publication date
JP2023066895A (ja) 2023-05-16

Similar Documents

Publication Publication Date Title
US11636430B2 (en) Device, system and method for summarizing agreements
US9860379B2 (en) Recording user communications
CN103714813B (zh) 短语辨认系统和方法
US8612230B2 (en) Automatic speech recognition with a selection list
TWI536365B (zh) 聲紋辨識
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
EP3998763B1 (en) Systems and methods for managing, analyzing, and providing visualizations of multi-party dialogs
CN107430858A (zh) 传送标识当前说话者的元数据
TW200540649A (en) Method and apparatus for automatic telephone menu navigation
US20240105212A1 (en) Information processing device
KR102535790B1 (ko) 보류 상태를 관리하기 위한 방법 및 장치
KR102217301B1 (ko) 개인 일정 및 라이프 스타일을 반영한 인공지능의 컨텍 제어
JP4250938B2 (ja) コミュニケーション支援方法およびコミュニケーションサーバ
JP5532781B2 (ja) 接客業務用サーバ、並びに、当該サーバを用いる接客システム及び接客業務の予測終了時間算出方法
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP7398416B2 (ja) 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム
JP2010002973A (ja) 音声データ主題推定装置およびこれを用いたコールセンタ
US20220172704A1 (en) System with post-conversation representation, electronic device, and related methods
TWI723988B (zh) 資訊處理系統、受理伺服器、資訊處理方法及程式
JP7370521B2 (ja) 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム
JP2015141423A (ja) 自動取引装置と取引支援システム
JP2023031136A (ja) リモート会議システム、リモート会議方法およびリモート会議プログラム
CN113850899A (zh) 数字人渲染方法、系统、存储介质和电子设备
JP2023149734A (ja) 検出プログラム、検出方法および検出装置
Axelsson et al. Talbankinn

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230425

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231003

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20231004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231005

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231204

R150 Certificate of patent or registration of utility model

Ref document number: 7398416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150