JP7398416B2

JP7398416B2 - 発声状態認識システム、発声状態認識装置、発声状態認識方法及びプログラム

Info

Publication number: JP7398416B2
Application number: JP2021177749A
Authority: JP
Inventors: 広和高玉
Original assignee: Biglobe Inc
Current assignee: Biglobe Inc
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-12-14
Anticipated expiration: 2041-10-29
Also published as: JP2023066895A

Description

本発明は、複数の端末にて通信回線を介して通話を行う際の複数の端末のユーザーの発声状態を認識する発声状態認識システムに関する。

昨今、情報通信技術の急速な進展により、インターネット等の通信回線を介して複数の端末間にて画像及び音声のやりとりをする、いわゆるオンラインミーティングが一般的に行われるようになってきている。特に、近年の感染症の拡大防止の観点から、各企業等においては、人と人との接触を回避するための１つの対策としてオンラインミーティングが行われている。上述したオンラインミーティングにおいては、複数のユーザーが１つの場所に集まることなく会議を行うことができるものの、特定のユーザーだけがしゃべりすぎて、他のユーザーの発言が少なくなってしまう場合がある。

ここで、オペレータと顧客との通話の録音ファイルに基づいて、オペレータと顧客との発話の割合を含むレポートを作成する仕組みが、特許文献１に開示されている。この仕組みを用いれば、オペレータと顧客との通話における発話の割合を認識することができる。

特開２０１７－１３５６４２

特許文献１に開示されたものにおいては、オペレータと顧客との通話の録音ファイルに基づいて、オペレータと顧客との発話の割合を含むレポートを作成している。しかしながら、上述したようなオンラインミーティングのような一般的なオンラインコミュニケーションサービスにおいては、オンラインミーティングの最中に通話の録音ファイルを取得し、リアルタイムに分析できない場合が多い。そのため、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができず、上述したように発言の量が偏ってしまう恐れがある。

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができる発声状態認識システム、発声状態認識方法及びプログラムを提供することを目的とする。

上記目的を達成するために本発明の発声状態認識システムは、
複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識システムであって、
前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御手段と、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
前記変化検出手段にて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段とを有する。

また、本発明の発声状態認識装置は、
複数の端末にて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる発声状態認識装置であって、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
前記変化検出手段にて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段とを有する。

また、本発明の発声状態認識方法は、
複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識方法であって、
前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御ステップと、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出ステップと、
前記変化検出ステップにて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出ステップとを有する。

また、本発明のプログラムは、
複数のコンピュータにて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させるコンピュータに、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手順と、
前記変化検出手順にて検出された前記発声アイコンの変化に基づいて、前記ユーザー毎の発声量を算出する発声量算出手順と、を実行させるプログラム。

本発明によれば、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができる。

本発明の発声状態認識システムの実施の一形態を示す図である。図１に示したユーザー端末の一構成例を示す図であり、（ａ）はハードウェアの構成を示す図、（ｂ）はアプリケーションプログラムの構成を示す図である。図１に示したコミュニケーションサービスサーバーの構成を示す図であり、（ａ）はハードウェアの構成を示す図、（ｂ）はソフトウェアプログラムの構成を示す図である。図１～図３に示した発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。図１～図３に示した音声状態認識システムにおいて発声状態算出手段が実行されていない状態のオンラインミーティングに参加するユーザー端末に表示される画面の一部を示す図である。図１～図３に示した音声状態認識システムにおいて発声状態算出手段が実行された状態のオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。図１に示したユーザー端末の他の構成例におけるアプリケーションプログラムの構成を示す図である。図７に示したアプリケーションプログラムを用いた発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。図７に示したアプリケーションプログラムを用いた発声状態認識システムにおいてオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。図１に示したユーザー端末の他の構成例におけるアプリケーションプログラムの構成を示す図である。

以下に、本発明の実施の形態について図面を参照して説明する。

（第１の実施の形態）
図１は、本発明の発声状態認識システムの実施の一形態を示す図である。

本形態における発声状態認識システムは図１に示すように、複数のユーザー端末１０－１～１０－ｎとコミュニケーションサービスサーバー３０とを有し、複数のユーザー端末１０－１～１０－ｎ間にてコミュニケーションサービスサーバー３０及びネットワーク４０を介して、オンラインミーティング等の通話を行うものである。ネットワーク４０は、本願発明にて通信回線となるものであって、インターネット等である。

ユーザー端末１０－１～１０－ｎは、本願発明の端末となるものである。ユーザー端末１０－１～１０－ｎは、通信機能を有するスマートフォンやタブレット型コンピューター、ＰＣ（Personal Computer）等であって、コミュニケーションサービスサーバー３０及びネットワーク４０を介して互いに通話を行う。

図２は、図１に示したユーザー端末１０－１～１０－ｎの一構成例を示す図であり、（ａ）はハードウェアの構成を示す図、（ｂ）はアプリケーションプログラムの構成を示す図である。

ユーザー端末１０－１～１０－ｎは図２（ａ）に示すように、ハードウェア構成として、通信部１１と、撮影部１２と、操作部１３と、表示部１４と、音声入出力部１５と、記憶部１６と、制御部１７とを有している。

通信部１１は、ユーザー端末１０－１～１０－ｎが互いに通話を行うためにネットワーク４０を介してコミュニケーションサービスサーバー３０との間にて通信を行うためのものである。例えば、ネットワークインターフェースコントローラー等である。

撮影部１２は、カメラを有し、カメラに対向する画像を撮影し、画像のデジタルデータにするものである。

操作部１３は、ユーザー端末１０－１～１０－ｎに情報を入力するためのものである。操作部１３は、ユーザー端末１０－１～１０－ｎが、例えば、スマートフォンである場合は、表示部１４上に積層されたタッチパネル等から構成されており、ユーザー端末１０－１～１０－ｎが、例えば、ＰＣである場合は、キーボードやマウス等から構成されている。

表示部１４は、コミュニケーションサービスサーバー３０からネットワーク４０を介して送信されてくる画像を表示する。表示部１４は、ユーザー端末１０－１～１０－ｎ間で通話を行っている場合は、通話を行っているユーザー端末１０－１～１０－ｎの撮影部１２にて撮影された画像等を表示する。例えば、液晶ディスプレイや有機ＥＬディスプレイ等である。

音声入出力部１５は、例えば、マイクやスピーカーを有する。マイクは、ユーザー端末１０－１～１０－ｎの外部から音声を入力し、音声のデジタルデータにするためのものであり、スピーカーは、ユーザー端末１０－１～１０－ｎの外部に音声のデジタルデータを音声にして出力するためのものである。音声入出力部１５は、ユーザー端末１０－１～１０－ｎ間で通話を行っている場合は、自身のユーザー端末にその端末のユーザーの音声を入力し、通話を行っている他のユーザー端末の音声入出力部１５に入力された音声を出力する。なお、ユーザー端末１０－１～１０－ｎの音声出力端子にイヤホンが装着されている場合は、スピーカーの代わりにイヤホンが機能する。

記憶部１６は、ユーザー端末１０－１～１０－ｎを動作させるための基本的なプログラムや、通信部１１を介して受信した情報や、操作部１３や音声入出力部１５を介して入力された情報を記憶する。例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等である。

制御部１７は、例えば、ＣＰＵ（Central Processing Unit）やＳｏＣ（System-on-a-chip）を有し、これにＯＳ（Operating System）や後述するアプリケーションプログラムが実行されることで、通信部１１、撮影部１２、操作部１３、表示部１４、音声入出力部１５及び記憶部１６の動作の制御や各部間の情報のやりとりを処理する。

また、ユーザー端末１０－１～１０－ｎは図２（ｂ）に示すように、アプリケーションプログラムとして、コミュニケーション実行手段２１と、発声状態算出手段２２とを有している。コミュニケーション実行手段２１は、コミュニケーションサービスサーバー３０と協働して、オンラインミーティング等の通話をするためのアプリケーションプログラムであり、表示制御手段２３と、音声制御手段２４とを有している。発声状態算出手段２２は、発声状態を認識するためのアプリケーションプログラムであり、変化検出手段２６と、発声量算出手段２７と、発声割合算出手段２８と、発声割合表示手段２９とを有している。なお、ユーザー端末１０－１～１０－ｎにおけるコミュニケーション実行手段２１の以下に示す機能は、一例であり、コミュニケーションサービスにより、一部の機能や手順が異なっていてもよいし、コミュニケーションサービスサーバー３０のコミュニケーション制御手段３５との機能分担が異なっていてもよい。

表示制御手段２３によって、制御部１７は、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末の撮影部１２にて撮影されたユーザーの顔画像等のユーザー画像や、操作部１３によって入力されたユーザー名といったユーザーに関する情報を表示部１４に表示させるとともに、通話に参加するユーザー端末の音声入出力部１５にて入力された音声に応じて、そのユーザーが発声した場合に表示が変化する発声アイコンを表示部１４に表示させる。なお、表示制御手段２３によって、制御部１７は、自身のユーザー端末の撮影部１２にて撮影されたユーザー画像や操作部１３によって入力されたユーザーに関する情報をコミュニケーションサービスサーバー３０に通信部１１を用いて送信し、コミュニケーションサービスサーバー３０から受信した通話に参加する各ユーザー端末のユーザー画像、ユーザーに関する情報、発声アイコンが含まれる表示画面を生成して表示部１４に表示する。

音声制御手段２４によって、制御部１７は、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末間の通話のための音声のやりとりを通信部１１及び音声入出力部１５を用いて行う。具体的には、通話に参加するユーザー端末の音声入出力部１５に入力された音声を、コミュニケーションサービスサーバー３０を経由して、通話に参加する他のユーザー端末の音声入出力部１５から出力させる。

変化検出手段２６によって、制御部１７は、表示制御手段２３によって表示部１４に表示する発声アイコンの変化を、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末のユーザー毎に検出する。検出の具体的な方法については後述する。

発声量算出手段２７によって、制御部１７は、変化検出手段２６にて検出された発声アイコンの変化に基づいて、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末のユーザー毎の発声量を算出する。ここで、発声量とは、ユーザーが発声した時間的な長さの量である。必ずしも、秒等の既存の時間単位のものでなくても構わない。

発声割合算出手段２８によって、制御部１７は、発声量算出手段２７にて算出されたユーザー毎の発声量に基づいて、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末のユーザー間の通話におけるユーザー毎の発声の割合を算出する。

発声割合表示手段２９によって、制御部１７は、発声割合算出手段２８を用いて算出されたユーザー毎の発声割合を表示する。

コミュニケーションサービスサーバー３０は、ネットワーク４０を介したユーザー端末１０－１～１０－ｎ間のオンラインミーティング等の通話を実現するものである。

図３は、図１に示したコミュニケーションサービスサーバー３０の構成を示す図であり、（ａ）はハードウェアの構成を示す図、（ｂ）はソフトウェアプログラムの構成を示す図である。

コミュニケーションサービスサーバー３０は図３（ａ）に示すように、ハードウェア構成として、通信部３１と、記憶部３２と、制御部３３とを有している。

通信部３１は、ユーザー端末１０－１～１０－ｎが互いに通話を行うために、ユーザー端末１０－１～１０－ｎのうち通話を行うユーザー端末とネットワーク４０を介して通信を行う。例えば、ネットワークインターフェースコントローラーなどである。

記憶部３２は、ユーザー端末１０－１～１０－ｎ間にて通話が完了した場合に、その開始日時や終了日時、ユーザー名を記憶するとともに、ユーザー端末１０－１～１０－ｎの発声割合算出手段２８にて算出されたユーザー毎の発声の割合を記憶する。例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などである。

制御部３３は、例えば、ＣＰＵ（Central Processing Unit）やＳｏＣ（System-on-a-chip）を有し、これにＯＳ（Operating System）や後述するソフトウェアプログラムが実行されることで、通信部３１及び記憶部３２の動作の制御や各部間の情報のやり取りを処理する。

また、コミュニケーションサービスサーバー３０は図３（ｂ）に示すように、ソフトウェアプログラムとして、Ｗｅｂサーバー手段３４と、コミュニケーション制御手段３５とを有している。

Ｗｅｂサーバー手段３４は、ネットワーク４０に接続可能に構成されたユーザー端末１０－１～１０－ｎが、ユーザー端末にインストールされたブラウザーまたはアプリケーションプログラムによってコミュニケーションサービスサーバー３０にネットワーク４０を介してアクセス可能とし、アクセスされたユーザー端末に対して情報を送信するものである。

コミュニケーション制御手段３５は、Ｗｅｂサーバー手段３４と協働し、ネットワーク４０を介したユーザー端末１０－１～１０－ｎ間のオンラインミーティング等の通話を制御するものである。

以下に、上記のように構成された発声状態認識システムにおいてオンラインミーティングを行う際の発声状態認識方法について、ユーザー端末１０－１のユーザーとユーザー端末１０－２のユーザーとの間にてオンラインミーティングを行う場合を例に挙げて説明する。

図４は、図１～図３に示した発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。

図１～図３に示した発声状態認識システムにおいて、コミュニケーションサービスサーバー３０のＷｅｂサーバー手段３４と、コミュニケーション制御手段３５は、予め実行されている。オンラインミーティングに参加するユーザー端末１０－１，１０－２のユーザーは、自身のユーザー端末１０－１，１０－２の操作部１３にオンラインミーティングに参加する旨の入力を行う（ステップＳ１）。例えば、ユーザー端末１０－１，１０－２に予めインストールされたアプリケーションプログラムが実行されたり、ユーザー端末１０－１，１０－２にて実行され、表示部１４に表示されたＷｅｂブラウザーにコミュニケーションサービスサーバー３０のＵＲＬが入力されたりすることで、オンラインミーティングに参加する旨の入力が行われる。

すると、コミュニケーションサービスサーバー３０のＷｅｂサーバー手段３４が応じて、ユーザー端末１０－１，１０－２のコミュニケーション実行手段２１により制御部１７が、通信部１１を用いてネットワーク４０を介してコミュニケーションサーバー３０に接続し、コミュニケーションサーバー３０を介してオンラインミーティングの参加を可能な状態とする。例えば、ユーザー端末１０－１，１０－２に予めインストールされたコミュニケーション実行手段２１であるアプリケーションプログラムが実行された場合は、表示制御手段２３により制御部１７は、コミュニケーションサーバー３０に接続を要求し、その要求にコミュニケーションサービスサーバー３０のＷｅｂサーバー手段３４が応じて、コミュニケーション実行手段２１とコミュニケーション制御手段３５とが接続され、オンラインミーティングの参加を可能な状態とする。また、ユーザー端末１０－１，１０－２の表示部１４に表示されたＷｅｂブラウザーにコミュニケーションサービスサーバー３０のＵＲＬが入力された場合は、制御部１７は、コミュニケーションサービスサーバー３０から送信されるコミュニケーション実行手段２１であるＷｅｂアプリをＷｅｂブラウザー上に実行することで、表示制御手段２３により制御部１７が、コミュニケーションサーバー３０に接続を要求し、その要求にコミュニケーションサービスサーバー３０のＷｅｂサーバー手段３４が応じて、コミュニケーション実行手段２１とコミュニケーション制御手段３５とが接続され、オンラインミーティングの参加を可能な状態とする。

次に、制御部１７は、コミュニケーションサービス実行手段２１によって、オンラインミーティングに参加するユーザー端末１０－１，１０－２間にてコミュニケーションサービスサーバー３０のコミュニケーション制御手段３５を介してオンラインミーティングを開始する（ステップＳ２）。例えば、オンラインミーティングの主催者であれば、操作部１３が操作され、表示制御手段２３により、新しいコミュニケーションＩＤ（ミーティングする仮想的な部屋を識別する識別子）をコミュニケーション制御手段３５から取得し、当該コミュニケーションＩＤがその主催者のユーザー端末１０－１の通信部１１からコミュニケーションサービスサーバー３０に送信される。この際に、操作部１３から入力されたユーザー名がユーザー端末１０－１の通信部１１からコミュニケーションサービスサーバー３０に送信される。また、オンラインミーティングの招待者であれば、主催者から別途通知されたコミュニケーションＩＤがその招待者のユーザー端末１０－２の操作部１３に入力され、表示制御手段２３により、通信部１１からコミュニケーションサービスサーバー３０に送信される。この際に、操作部１３から入力されたユーザー名がユーザー端末１０－２の通信部１１からコミュニケーションサービスサーバー３０に送信される。コミュニケーションサービスサーバー３０のＷｅｂサーバー手段３４にて、通信部３１にユーザー端末１０－１，１０－２から各々コミュニケーションＩＤを受信した場合に、コミュニケーション制御手段３５がその同じコミュニケーションＩＤが入力されたユーザー端末１０－１，１０－２同士の間でオンラインミーティングを開始する。

コミュニケーション制御手段３５とコミュニケーション実行手段２１によってオンラインミーティングが開始されると、制御部１７は、表示制御手段２４によって、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末１０－１，１０－２の撮影部１２にて撮影されたユーザー画像と、操作部１３から入力されたユーザー名といったユーザーに関する情報と、通話に参加するユーザー端末１０－１，１０－２のユーザーが発声し音声入出力部１５にてそのユーザーの音声が入力された場合に表示が変化する発声アイコンとが含まれるオンラインミーティング画面を生成し、表示部１４に表示する（ステップＳ３）。

また、コミュニケーション制御手段３５とコミュニケーション実行手段２１によってオンラインミーティングが開始されると、音声制御手段２４により制御部１７は、通話に参加するユーザー端末１０－１，１０－２の音声入出力部１５に入力された音声を、通信部１１を用いて、他のユーザー端末１０－１，１０－２に送信し、通話に参加する他のユーザー端末１０－１，１０－２の音声入出力部１５から出力させる。

図５は、図１～図３に示した音声状態認識システムにおいて発声状態算出手段２２が実行されていない状態のオンラインミーティングに参加するユーザー端末に表示される画面の一部を示す図である。

図５に示すように、図１～図３に示した音声状態認識システムにおいてオンラインミーティングに参加するユーザー端末１０－１，１０－２表示されるオンラインミーティング画面５０には、表示制御手段２３により制御部１７によって、オンラインミーティングに参加するユーザー毎に、そのユーザー画像やユーザー名等が表示される参加ユーザー表示エリア５１ａ，５１ｂが設けられているとともに、この参加ユーザー表示エリア５１ａ，５１ｂのそれぞれには、ユーザーが発声した場合に表示が変化する発声アイコン５２ａ，５２ｂが表示される。なお、本例においては、説明をわかりやすくするために、二人のユーザーがオンラインミーティングに参加し、オンラインミーティング画面５０にはその二人のユーザーについて参加ユーザー表示エリア５１ａ，５１ｂが設けられているが、オンラインミーティングに参加するユーザーの数は二人に限らず、オンラインミーティング画面５０に表示される参加ユーザー表示エリアも、オンラインミーティングに参加するユーザーの数だけ設けられることになる。

このようにしてオンラインミーティングが開始されると、さらに、制御部１７は、発声状態算出手段２２を実行する。なお、発声状態算出手段２２の実行は、ユーザー端末１０－１～１０－ｎに予めインストールされたアプリケーションプログラムとして実行されてもよいし、Ｗｅｂブラウザーの拡張機能としてインストールされたアプリケーションプログラムとして、Ｗｅｂブラウザーとともに実行されてもよいし、ブックマークレットと呼ばれるブックマークとして予め記憶されたプログラムを用いて、Ｗｅｂブラウザー上で実行して、ユーザー端末１０－１～１０－ｎの表示部１４に表示されたＷｅｂページ上に表示してその機能を追加してもよい。また、発声状態算出手段２２の実行のタイミングは、ユーザーによる操作部１３の指示により実行しても、Ｗｅｂブラウザーの実行とともに実行しても、コミュニケーション実行手段２１によるオンラインミーティングの開始を検出して実行してもよい。なお、発声状態算出手段２２は、ユーザー端末１０－１～１０－ｎの全てに設けられて実行してもよいし、ユーザー端末１０－１～１０－ｎのうち一部のユーザー端末に設けられて実行してもよい。例えば、オンラインミーティングに参加するユーザーの中で、司会役のユーザーやつい話が長くなってしまうユーザー、話を聞く側のユーザー、役職が上位にあたるユーザー等のユーザー端末にて実行することが好適である。なお、本例においては、説明をわかりやすくするために、ユーザー端末１０－１に発声状態算出手段２２が設けられて実行するものとして説明する。当然、ユーザー端末１０－２にも設けられていて、ユーザー端末１０－２も発声状態算出手段２２を実行し、ユーザー端末１０－１と同様の動作をしてもよい。

発声状態算出手段２２が実行されると、発声状態算出手段２２により制御部１７は、表示制御手段２３による制御によって、ユーザー端末１０－１の表示部１４に表示されたオンラインミーティングに参加する全てのユーザーのユーザー名を取得するとともに、そのユーザーの発声アイコン５２ａ，５２ｂを認識する（ステップＳ４）。例えば、Ｗｅｂアプリケーションプログラムの場合、図５に示したオンラインミーティング画面５０を表示するためのＨＴＭＬやＸＭＬ、ＣＳＳ、JavaScript等のソースコードは、ＷｅｂブラウザーによりDocument Object Model（ＤＯＭ）としてＲＡＭ等の記憶部１６にメモリー内の表現として変換され、JavaScript等のプログラムで操作可能になっている。コミュニケーション実行手段２１またはコミュニケーション制御手段３５により、ユーザー端末１０－１，１０－２に撮影されたユーザー画像や入力された音声に応じて、当該ＤＯＭが更新されるため、そのＤＯＭをもとにＷｅｂブラウザー上のオンラインミーティング画面５０の表示も更新される。そのＤＯＭの中で、ユーザー名や発声アイコン５２ａ，５２ｂを表示するための値があるノードを特定することで、そのノードにあるユーザー名や発声アイコン５２ａ，５２ｂの値を取得または認識できる。ノードを特定するには、ノード自体に割り当てられたＩＤ、または、別のノードのＩＤを起点としたＤＯＭ上のそのノードの位置関係を指定すればよい。ノードのＩＤは、予めソースコードに記載されていても、Ｗｅｂブラウザーが所定の方法で付与してもよい。そのため、プログラム内において予めＩＤ、または、ＩＤとＤＯＭ上の位置関係を指定しておくことで、そのＩＤに直接または間接的に該当するノードに出現する値を取得または認識すれば、ユーザー名や発声アイコンを取得または認識することができる。また、ユーザー端末１０－１の表示制御手段２３により表示出力されたユーザー名や発声アイコン５２ａ，５２ｂを文字認識や画像認識によって取得または認識してもよい。さらには、オンラインミーティングに参加するユーザーが、ユーザー端末１０－１の操作部１３を介して、表示部１４に表示された画面からユーザー名や発声アイコンを指定し、発声状態算出手段２２により制御部１７が指定された先のユーザー名のテキストを取得し、発声アイコンを認識するようにしてもよい。

次に制御部１７は、発声状態算出手段２２によって、ユーザー名を取得したオンラインミーティングに参加するユーザー端末１０－１，１０－２の各ユーザーの発声値（を記録するデータ）を生成し、記憶部１６に記憶し、初期値（０）に設定する。その際に、オンラインミーティングの開始日時と各ユーザー名も記憶しておく。なお、常にまたは既に発声状態算出手段２２が実行されている場合、発声値の初期化ボタンを表示部１４に表示させ、操作部１３によるその発声値の初期化ボタンへの指示を検出して初期値（０）に設定しても、ミュニケーション実行手段２１によるオンラインミーティングの開始を検出して初期値（０）に設定してもよい。また、表示制御手段２３によって、表示部１４に表示されるオンラインミーティング画面に、発声割合表示手段２９により、制御部１７は、ユーザー名を取得したオンラインミーティングに参加するユーザー端末１０－１，１０－２のユーザーの発声割合を示す発声割合表示領域を設け、ユーザー端末１０－１の表示部１４に表示させる（ステップＳ５）。

図６は、図１～図３に示した音声状態認識システムにおいて発声状態算出手段２２が実行された状態のオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。

図６に示すように、図１～図３に示した音声状態認識システムにおいてオンラインミーティングに参加し、発声状態算出手段２２が実行されたユーザー端末１０－１には、発声割合表示手段２９の制御によって、図５に示したオンラインミーティング画面５０に、さらにオンラインミーティングに参加するユーザー端末１０－１，１０－２のユーザーの発声割合を示す発声割合表示領域５３が設けられ、このオンラインミーティング画面５０が、表示部１４に表示される。発声割合表示手段２９により制御部１７は、発声割合表示領域５３に、取得した各ユーザーのユーザー名と記憶部１６に記憶した発声値から算出するそのユーザーに対応する発声割合とを表示する。なお、オンラインミーティングの開始時は、発声割合表示領域５３に表示される各ユーザーの発声割合は“０”と設定する。また、発声割合表示領域５３は、上述したようにオンラインミーティング画面５０内に表示してもよいし、それとは別の画面に表示してもよい。また、各ユーザーの発声割合を記憶部１６に記憶しておく。

また、発声割合表示領域５３に表示されたユーザーのユーザー端末の中に、表示専用のユーザー端末があった場合、そのユーザー端末を発声割合から除外するようにユーザーが操作部１３を介して選択できるようにしてもよい。この場合、後述する発声割合算出実行手段２８による処理においては、選択されて除外したユーザーに対応する発声値を記憶部１６から削除し、除外したユーザー名とその発声割合の表示を発声割合表示領域５３から削除し、除外したユーザーのユーザー端末については、後述する発声の検出の対象外とする。

このようにして、オンラインミーティングに参加するユーザー端末１０－１の表示部１４に図６に示したオンラインミーティング画面５０が表示され、オンラインミーティングが進められていくことになる。

オンラインミーティングが進められ（ステップＳ６のＮｏ）、参加するユーザー端末１０－１，１０－２のユーザーが発声すると、表示制御手段２３により制御部１４は、発声アイコン５２ａ，５２ｂの表示を変化させる。例えば、無声の場合はアイコン内の表示された点や短い棒状だった図形が、発声量に合わせて長い棒状の図形になったり、無声の場合はアイコン内の表示された1本の横棒だった図形が、発声量に合わせて棒の本数が積み上がっていったりする。制御部１４は、変化検出手段２６によって、オンラインミーティングに参加している各ユーザーについて、発声アイコン５２ａ，５２ｂの変化を検出する。これは、上述したように、例えばＷｅｂアプリケーションプログラムの場合、図６に示したオンラインミーティング画面５０を表示するためのソースコードは、ＷｅｂブラウザーによりＤＯＭに変換されており、各ユーザーに対応する発声アイコン５２ａ，５２ｂを表示するための値が記載されるＤＯＭ上のノード自体に割り当てられたＩＤ、または、別のノードのＩＤを起点としたＤＯＭ上のそのノードの位置関係を指定し、そのノードの値の変化を検出することで、発声アイコン５２ａ，５２ｂの変化を検出することができる。なお、変化検出手段２６が、表示制御手段２３から、発声アイコン５２ａ，５２ｂの変化があった時に通知を受けてもよい。具体的には、例えば、Ｗｅｂブラウザーが提供するＡＰＩを用いて、発声アイコン５２ａ，５２ｂが変化したことを変化検出手段２６は検知する。また、Ｗｅｂブラウザーに表示された発声アイコン５２ａ，５２ｂを画像認識によって認識することで、発声アイコン５２ａ，５２ｂの変化を検出してもよい。

変化検出手段２６によって発声アイコン５２ａ，５２ｂの変化が検出されると（ステップＳ７のＹｅｓ）、制御部１７は、発声量算出手段２７によって、ユーザーの発声量として記憶部１６に記憶したそのユーザーに対応する発声値に１を加算する（ステップＳ８）。例えば、上述したように発声アイコンのノードの値の変化を検出し、値が変化したら、そのユーザーの発声値に１を加算する。これは、無発声の場合は、発声アイコンは同じ画像であってその値に変化がなく、発声中の場合は、発声量等に応じて画像が変化してその値が変化し続けるためである。その際に、無声の場合の発声アイコンのノードの値を記憶しておき、無声以外の値から無声の値に変化する場合は、加算しないようにしてもよい。

または、Ｗｅｂブラウザーに表示された無声の状態のアイコン画像を予め記憶しておき、１秒毎等の所定の間隔で、各ユーザーに対応する発声アイコンを認識し、発声アイコンが、予め記憶されたアイコン画像とは異なる場合に、発声中としてそのユーザーの発声値に１を加算してもよい。逆に、発声中の状態のアイコン画像を予め記憶しておき、発声アイコンが、予め記憶されたアイコン画像である場合に、発声中としてそのユーザーの発声値には１を加算することも考えられる。

また、発声アイコンが、ユーザー端末１０－１，１０－２の音声入出力部１５を介して入力される音声の大きさによってノードの値または発声アイコン画像が変化する場合は、音量の大きさが小さな場合は、ノイズとして発声値に１を加算しないようにしてもよい。さらには、音声入出力部１５のマイクがＯＦＦの場合のアイコン画像を認識することで、無発声と判断してもよい。なお、これら以外の加算方法で、発声値を算出しても構わない。

上述したように発声中のユーザーの発声値に１を加算した場合（または所定の間隔で）、制御部１７は、発声割合算出手段２８によって、記憶部１６に記憶されているオンラインミーティングに参加している全てのユーザーの発声値の合計を算出し、この合計と各ユーザーの発声値とに基づいて、
（そのユーザーの発声値／全てのユーザーの発声値の合計）×１００％
から、オンラインミーティングに参加している各ユーザー毎の発声の割合を算出する。そして、発声割合表示手段２９により、制御部１７は、表示部１４にて、図６に示したオンラインミーティング画面５０の発声割合表示領域５３に表示された各ユーザーの発声割合を、発声割合算出手段２８が算出した値に更新して表示する（ステップＳ９）。また、記憶部１６に記憶した各ユーザーの発声割合も算出した値に更新する。

なお、全てのユーザーの発声値の合計を１００％とするのではなく、所定の間隔で各ユーザーの発声の有無を検出している場合、その間隔での発声アイコンの変化を検出する処理を行う度に、検出処理を行った旨を示す検出値（初期値０）として１を加算し、その検出値を１００％とすることで、どのユーザーも発声していない状態も考慮した発生割合を算出してもよい。その際に、どのユーザーも発声していない割合も発声割合表示領域に表示してもよい。この場合、オンラインミーティング期間中における各ユーザーの発声割合は、
（そのユーザーの発声値／検出処理を行った旨を示す検出値）×１００％
にて算出され、どのユーザーも発声していない割合は、
１００－（全ユーザーの発声値の合計／検出処理を行った旨を示す検出値）×１００％
にて算出される。

その後、オンラインミーティングが終了するまでステップＳ７～ステップＳ９の処理を繰り返し、制御部１７がコミュニケーション実行手段２１の終了を検知すると（ステップＳ６のＹｅｓ）、発声状態算出手段２２により、制御部１７は、オンラインミーティングの終了日時を記憶部１６に記憶し、記憶部１６に記憶してあるオンラインミーティングの開始日時、終了日時、参加したユーザー名、そのユーザーの発声値、並びに、そのユーザーの発声割合を含むコミュニケーション情報を通信部１１から送信し、ミーティングデーターベース（不図示）に登録する（ステップＳ１０）。なお、オンラインミーティングの終了の検知は、例えば、ユーザー端末１０－１に表示されたＷｅｂブラウザーのコミュニケーションサービスが実行されているタブが閉じられた場合や、オンラインミーティングに参加していたユーザーのうち少なくとも一人のユーザーの発声アイコン自体が検出されなくなった場合や、コミュニケーション実行手段２１によるコミュニケーションサービスのＷｅｂアプリ等が終了した場合が考えられる。また、コミュニケーション実行手段２１の表示制御手段２３によりユーザー端末１０－１の表示部１４に表示されている退室アイコンに対する操作部１３を介したユーザーの操作や、発声状態算出手段２２によりユーザー端末１０－１の表示部１４に発声割合表示領域５３とともに、発声状態算出手段２２の実行を終了するためのアイコンを表示しておき、その終了アイコンに対する操作部１３を介したユーザーの操作や、クラウドサービスやアプリケーションプログラムによるカレンダー機能における当該オンラインミーティングの終了時間等を検知することによることが考えられる。また、オンラインミーティングに参加していた全てのユーザーの発声アイコンのノードの値の変化が既定時間以上検出されなったことによることも考えられる。この場合、発声アイコンが最後に変化した日時を終了時間とみなすことになる。なお、コミュニケーション情報には、そのユーザーの発声値とそのユーザーの発声割合の少なくともどちらか１つが含まれればよい。また、記憶部１６に記憶したオンラインミーティングの開始日時、終了日時、参加したユーザー名、そのユーザーの発声値と発声割合は、ミーティングデーターベースにコミュニケーション情報を送信後に削除しても構わない。

上述したように本形態においては、オンラインミーティングに参加するユーザー端末１０－１～１０－ｎのそれぞれには、オンラインミーティングに参加するユーザー画像やユーザー名といったユーザーに関する情報の他に、ユーザーが発声した場合に表示が変化する発声アイコンを表示させているので、この発声アイコンの変化をオンラインミーティングに参加するユーザー毎に検出し、この発声アイコンの変化に基づいて、ユーザーの発声量に基づくユーザー毎の発声の割合を算出するので、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話の割合等の発声状態を認識することができる。特に、１ｏｎ１ミーティングと呼ばれる上司と部下が１対１で行う対話にて上司の話し過ぎを防止したり、ミーティングの司会役が参加者に均等に発言してもらうための指標としたりすることができるという効果がある。さらに、オンラインミーティングでの発声状態をデーターベースに記憶しておくことで、各ユーザーの過去の複数のミーティングでの発声状態を分析することができる。

（第２の実施の形態）
上述した第１の実施の形態においては、オンラインミーティングに参加しているユーザー毎の発声の割合を百分率で算出して表示するものを示したが、オンラインミーティングに参加しているユーザー毎の発声時間を算出して表示してもよい。なお、発声時間は、発声量の具体例の１種である。また、第１の実施の形態に本実施の形態の変更部分を組み合わせた構成にしてもよい。本実施の形態では、第１の実施の形態と同じ説明は省略し、異なる点を中心に説明する。

図７は、図１に示したユーザー端末１０－１～１０－ｎの他の構成例におけるアプリケーションプログラムの構成を示す図である。

本形態は図７に示すように、図２（ｂ）に示したものに対して、発声状態算出手段１２２が、発声量算出手段２７と発声割合算出手段２８の代わりに発声時間算出手段１２８を有するとともに、発声割合表示手段２９の代わりに発声時間表示手段１２９を有する点が異なるものである。

発声時間算出手段１２８によって、制御部１７は、変化検出手段２６にて検出されたユーザー毎の発声アイコンの変化に基づいて、ユーザー端末１０－１～１０－ｎのうち通話に参加するユーザー端末のユーザー毎の発声時間を算出する。

発声時間表示手段１２９によって、制御部１７は、発声時間算出手段１２８によって算出されたユーザー端末１０－１～１０－ｎのユーザー毎の発声時間を表示する。

図８は、図７に示したアプリケーションプログラムを用いた発声状態認識システムにおける発声状態認識方法を説明するためのフローチャートである。

図７に示したアプリケーションプログラムを用いた発声状態認識システムにおいてオンラインミーティングが開始されると、まず、ステップＳ１～Ｓ４と同等の処理が行われる（ステップＳ１１～Ｓ１４）。

次に制御部１７は、発声状態算出手段１２２によって、オンラインミーティングに参加するユーザー端末１０－１～１０－ｎの各ユーザーの発声時間（を記録するためのデータ）を生成して記憶部１６に記憶し、初期値（０秒）に設定する。また、制御部１７は、発声時間表示手段１２９によって、表示部１４に表示されるオンラインミーティング画面に、ユーザー名を取得したオンラインミーティングに参加するユーザー端末１０－１～１０－ｎのユーザーの発声時間を示す発声時間表示領域を設け、ユーザー端末１０－１の表示部１４に表示させる（ステップＳ１５）。

図９は、図７に示したアプリケーションプログラムを用いた発声状態認識システムにおいて発声状態算出手段１２２が実行された状態のオンラインミーティングに参加するユーザー端末に表示される画面を示す図である。

図９に示すように、図７に示したアプリケーションプログラムを用いた音声状態認識システムにおいてオンラインミーティングに参加し、発声状態算出手段１２２が実行されたユーザー端末には、発声時間表示手段１２９の制御によって、表示部１４に表示されるオンラインミーティング画面１５０に、オンラインミーティングに参加するユーザー端末１０－１～１０－ｎのユーザーの発声時間を示す発声時間表示領域１５３が設けられ、このオンラインミーティング画面１５０が、ユーザー端末１０－１の表示部１４に表示される。発声時間表示手段１２９により制御部１７は、発声時間表示領域１５３に、取得した各ユーザーのユーザー名と記憶部１６に記憶した発声時間を表示する。なお、オンラインミーティングの開始時は、発声時間表示領域１５３に表示されるユーザーの発声時間は設定された初期値“０秒”が表示される。

このようにして、オンラインミーティングに参加し、発声状態算出手段１２２が実行されたユーザー端末１０－１の表示部１４に図９に示したオンラインミーティング画面１５０が表示され、オンラインミーティングが進められていくことになる。

オンラインミーティングが進められ（ステップＳ１６のＮｏ）、参加するユーザー端末１０－１，１０－２のユーザーが発声すると、表示制御手段２３により制御部１４は、発声アイコン５２ａ，５２ｂの表示を変化させる。制御部１４は、変化検出手段２６によって、オンラインミーティングに参加している各ユーザーの発声アイコン５２ａ，５２ｂの変化を検出する。なお、変化の検出等は、上述した第１の実施の形態と同様に行う。

変化検出手段２６によって発声アイコン５２ａ，５２ｂの変化が検出されると（ステップＳ１７のＹｅｓ）、制御部１７は、発声時間算出手段１２８を用いてユーザーの発声量としてその変化を検出している時間によって発声時間を計測し、発声時間算出手段１２８を用いて計測した発声時間を加算していく（ステップＳ１８）。例えば、オンラインミーティングの開始時間からの時間を計測し、上述したように発声アイコンのノードの値の変化を検出した時間から、値が変化しなくなった時間までの間の時間である変化検出時間を、その変化した発声アイコンのユーザーに対応する記憶部１６に記憶した発声時間に、加算する。

または、Ｗｅｂブラウザーに表示された無声の状態のアイコン画像を予め記憶しておき、所定の間隔（例えば１秒毎）で、各ユーザーに対応する発声アイコンを認識し、発声アイコンが、予め記憶されたアイコン画像とは異なる場合に、発声中としてそのユーザーに対応する記憶部１６に記憶した発声時間に１秒を加算してもよい。逆に、発声中の状態のアイコン画像を予め記憶しておき、発声アイコンが、予め記憶されたアイコン画像である場合に、発声中としてそのユーザーに対応する記憶部１６に記憶した発声時間値に１秒を加算しすることも考えられる。なお、所定の間隔は１秒以外でも構わない。

また、発声アイコンが、ユーザー端末１０－１，１０－２の音声入出力部１５を介して入力される音声の大きさによってノードの値または発声アイコン画像が変化する場合は、音量の大きさが小さな場合は、ノイズとして発声時間に加算しないようにしてもよい。さらには、音声入出力部１５のマイクがＯＦＦの場合のアイコン画像を認識することで、無発声と判断してもよい。なお、これら以外の加算方法で、発声時間を算出しても構わない。

上述したように発声中のユーザーの発声時間に変化検出時間を加算した場合、発声時間表示手段１２９により、制御部１７は、表示部１４にて、図９に示したオンラインミーティング画面１５０の発声時間表示領域１５３に表示されたそのユーザーの発声時間を、加算して算出した後の発声時間に更新して表示する（ステップＳ１９）。

その後、オンラインミーティングが終了するまでステップＳ１６～ステップＳ１９の処理を繰り返し、制御部１７がコミュニケーション実行手段２１の終了を検知すると（ステップＳ１６のＹｅｓ）、発声状態算出手段１２２により、制御部１７は、オンラインミーティングの終了日時を記憶部１６に記憶し、記憶部１６に記憶してあるオンラインミーティングの開始日時、終了日時、参加したユーザー名、並びに、発声時間を含むコミュニケーション情報を通信部１１から送信し、ミーティングデーターベース（不図示）に登録する（ステップＳ２０）。なお、終了の検知等は、上述した第１の実施の形態と同様に行う。

上述したように本形態においては、オンラインミーティングに参加するユーザー端末１０－１～１０－ｎのそれぞれに、オンラインミーティングに参加するユーザー画像やユーザー名といったユーザーに関する情報の他に、ユーザーが発声した場合に表示が変化する発声アイコンを表示させているので、この発声アイコンの変化をオンラインミーティングに参加するユーザー毎に検出し、この発声アイコンの変化に基づいて、ユーザー毎の発声時間を算出するので、一般的なオンラインコミュニケーションサービスにおいても、通話を行う複数の端末のユーザーの発話における発声時間を認識することができる。

（第３の実施の形態）
第２の実施の形態にて示したようにユーザーの発声時間を発声時間表示領域１５３に表示するのではなく、発声時間に応じたポイントを算出し、そのポイントを表示してもよい。なお、ポイントは、発声量の具体例の１種である。また、本実施の形態では、第１の実施の形態や第２の実施の形態と同じ説明は省略し、異なる点を中心に説明する。

図１０は、図１に示したユーザー端末１０－１～１０－ｎの他の構成例におけるアプリケーションプログラムの構成を示す図である。

本形態は図１０に示すように、図７に示したものに対して、発声状態算出手段２２２が、ポイント付与手段２２９を有するとともに、発声時間表示手段１２９の代わりにポイント表示手段２３０を有する点が異なるものである。なお、図２に示したものに対して、発声状態算出手段２２２が、発声量算出手段２７の代わりに発声時間算出手段１２８、発声割合算出手段２８の代わりにポイント付与手段２２９、発声割合表示手段２９の代わりにポイント表示手段２３０を有するとも考えられる。

ポイント付与手段２２９により制御部１７は、発声時間算出手段１２８にて算出された発声時間に応じて、ユーザー毎にポイントを付与する。発声時間算出手段１２８にて算出された発声時間について、例えば、５秒間発声した場合に１ポイントに変換して、変換後のポイントを算出する。記憶部１６には、発声時間とポイントの少なくとも１つをユーザー毎に記憶する。

ポイント表示手段２３０により制御部１７は、算出したポイントを表示する。

また、ポイント付与手段２２９により制御部１７が、加算された発声時間またはポイントが既定の時間またはポイント数に到達したと判定すると、ポイント表示手段２３０により、制御部１７が、発声時間表示領域１５３のその到達したユーザー名の近辺に発声の自粛を促す旨を表示させたり、発声時間表示領域１５３のその到達したユーザーに対応する発声時間またはポイントの表示色や大きさを強調する表示にさせたり、発声状態算出手段２２により制御部１７が、その到達したユーザーが自身である場合は、強制的に音声入出力部１５のマイクをＯＦＦにしたりする処理等を実行してもよい。また、既定の値に到達したポイントを減らすために、例えば、加算されたポイントが既定のポイント数に到達した場合、５秒間等の所定時間しゃべらなければ、現在のポイント数から１ポイント減算するといったポイント付与手段２２９による減算処理等の機能を追加してもよい。さらには、既定の値に到達したポイントを減らすために、加算されたポイントを購入するための決済処理等の機能を追加してもよい。本実施の形態の場合、コミュニケーション情報には、記憶部１６に記憶してあるオンラインミーティングの開始日時、終了日時、参加したユーザー名が含まれ、さらに、発声時間とポイントの少なくとも１つが含まれる。

なお、上述した実施の形態においては、ユーザー端末１０－１が、発声状態算出手段２２，１２２，２２２をアプリケーションプログラムとして有するものを例に挙げて説明したが、発声状態算出手段２２，１２２，２２２は、コミュニケーションサービスサーバー３０がプログラムとして有する構成でもよく、コミュニケーション実行手段２１と発声状態算出手段２２，１２２，２２２が１つのアプリケーションプログラムとする構成としてもよい。

また、本発明の音声状態認識システムにて行われる方法は、コンピュータに実行させるためのプログラムに適用してもよい。また、そのプログラムを記憶媒体に格納することも可能であり、ネットワークを介して外部に提供することも可能である。

１０－１～１０－ｎユーザー端末
１１，３１通信部
１２撮影部
１３操作部
１４表示部
１５音声入出力部
１６，３２記憶部
１７，３３制御部
２１コミュニケーション実行手段
２２，１２２，２２２発声状態算出手段
２３表示制御手段
２４音声制御手段
２６変化検出手段
２７発声量算出手段
２８発声割合算出手段
２９発声割合表示手段
３０コミュニケーションサービスサーバー
３４Ｗｅｂサーバー手段
３５コミュニケーション制御手段
４０ネットワーク
５０，１５０オンラインミーティング画面
５１ａ，５１ｂ参加ユーザー表示エリア
５２ａ，５２ｂ発声アイコン
５３発声割合表示領域
１２８発声時間算出手段
１２９発声時間表示手段
１５３発声時間表示領域
２２９ポイント付与手段
２３０ポイント表示手段

Claims

複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識システムであって、
前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御手段と、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
前記通話が開始されてから前記変化検出手段にて検出処理を行った数値を記憶し、前記通話が開始されてから前記変化検出手段にて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて記憶する記憶手段と、
前記記憶手段に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段と、
前記検出処理を行った数値を基に算出した検出値と、前記発声量算出手段にて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出手段と、
前記発声割合算出手段にて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示手段とを有する発声状態認識システム。
請求項１に記載の発声認識システムにおいて、
前記発声量算出手段は、前記ユーザー毎の発声量として、ユーザー毎の発声時間を算出し、
前記発声量算出手段にて算出された発声時間に応じて、前記ユーザー毎にポイントを付与するポイント付与手段と、
前記ポイント付与手段にて付与された前記ユーザー毎のポイントを表示するポイント表示手段とを有する、発声認識システム。
請求項１または請求項２に記載の発声認識システムにおいて、
前記変化検出手段は、前記通話を表示する画面を表示するためのＤＯＭの所定のノードにおける前記発声アイコンを表示するための値の変化を検出することで前記発声アイコンの変化を検出する、発声認識システム。
請求項１または請求項２に記載の発声認識システムにおいて、
前記表示制御手段は、前記通話を表示する画面を表示するためのＤＯＭの所定のノードにおける前記発声アイコンを表示するための値の変化を検出すると、前記変化検出手段に変化を検出したことを通知し、
前記変化検出手段は、前記表示制御手段から変化を検出したことを通知されることで前記発声アイコンの変化を検出する、発声認識システム。
請求項１または請求項２に記載の発声認識システムにおいて、
前記変化検出手段は、前記発声アイコンの画像を認識することで前記発声アイコンの変化を検出する、発声認識システム。
複数の端末にて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる発声状態認識装置であって、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手段と、
前記通話が開始されてから前記変化検出手段にて検出処理を行った数値を記憶し、前記通話が開始されてから前記変化検出手段にて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて記憶する記憶手段と、
前記記憶手段に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出手段と、
前記検出処理を行った数値を基に算出した検出値と、前記発声量算出手段にて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出手段と、
前記発声割合算出手段にて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示手段とを有する発声状態認識装置。
複数の端末にて通信回線を介して通話を行う際の前記複数の端末のユーザーの発声状態を認識する発声状態認識方法であって、
前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させる表示制御ステップと、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出ステップと、
前記通話が開始されてから前記変化検出ステップにて検出処理を行った数値を記憶部に記憶するステップと、
前記通話が開始されてから前記変化検出ステップにて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて前記記憶部に記憶するステップと、
前記記憶部に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出ステップと、
前記検出処理を行った数値を基に算出した検出値と、前記発声量算出ステップにて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出ステップと、
前記発声割合算出ステップにて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示ステップとを有する発声状態認識方法。
複数のコンピュータにて通信回線を介して通話を行う際に、前記通話に参加するユーザーが発声した場合に表示が変化する発声アイコンを表示させるコンピュータに、
前記ユーザー毎の前記発声アイコンの変化を検出する変化検出手順と、
前記通話が開始されてから前記変化検出手順にて検出処理を行った数値を記憶部に記憶する手順と、
前記通話が開始されてから前記変化検出手順にて検出された前記発声アイコンの変化を数値にして前記ユーザー毎に対応させて前記記憶部に記憶する記憶手順と、
前記記憶部に記憶された前記発声アイコンの変化の数値に基づいて、前記ユーザー毎の発声量を算出する発声量算出手順と、
前記検出処理を行った数値を基に算出した検出値と、前記発声量算出手順にて算出されたユーザー毎の発声量とに基づいて、前記ユーザー間の通話におけるどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合と、を算出する発声割合算出手順と、
前記発声割合算出手順にて算出されたどのユーザーも発声していない割合と、前記ユーザー毎の発声の割合とを表示する発声割合表示手順と、を実行させるプログラム。