JP2023013073A

JP2023013073A - 通信端末、判定方法及びプログラム

Info

Publication number: JP2023013073A
Application number: JP2021116986A
Authority: JP
Inventors: 卓也益子; Takuya Masuko; 淳悦伊藤; Atsuyoshi Ito; 彰太貫; Shota Kan; 太郎三浦; Taro Miura
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-26

Abstract

【課題】ユーザの意図に沿った態様でミュート解除に関する動作を行うことが可能な通信端末を提供する。【解決手段】他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、通信端末に入力された入力音声から第１の音声データを生成する音声データ生成部と、音声送受信システムにおいて通信端末が第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、ミュート状態である場合に、入力音声の強度を示す第１の音声レベル及び他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいてミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有することを特徴とする。【選択図】図１

Description

本発明は、通信端末、判定方法及びプログラムに関する。

通信端末を用いて会議を行う会議システムが知られている。例えば、特許文献１には、複数のマイクロホンと音声レベル検出手段及び音声データ保存手段を備えるマイクロコンピュータとスピーカとから構成される会議用音声システムが開示されている。

国際公開第２００７／０１３１８０号

特許文献１に記載の会議用音声システムには、マイクロホンに音声が捉えられるとミュートが解除されるオートミュート解除装置が備えられている。しかしながら、特許文献１に記載の会議用音声システムでは、単に音声が捉えられたことをしてミュートが解除されるため、ユーザによる発話の意図を含まない音声、例えば咳または物音がマイクに捉えられることで、ユーザが発話を意図しない状態でのミュートの解除が発生し得る。

本発明は、上記した点に鑑みてなされたものであり、ユーザの意図に沿った態様でミュート解除に関する動作を行うことが可能な通信端末を提供することを目的とする。

本発明による通信端末は、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、前記通信端末に入力された入力音声から第１の音声データを生成する音声データ生成部と、前記音声送受信システムにおいて前記通信端末が前記第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、前記ミュート状態である場合に、前記入力音声の強度を示す第１の音声レベル及び前記他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有することを特徴とする。

また、本発明による判定方法は、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末による判定方法であって、音声データ生成部が、前記通信端末に入力された入力音声から第１の音声データを生成する音声データ生成ステップと、ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第１の音声レベル及び前記他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を有することを特徴とする。

また、本発明によるプログラムは、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末に、音声データ生成部が、前記通信端末に入力された入力音声から第１の音声データを生成する音声データ生成ステップと、ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第１の音声レベル及び前記他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を実行させるプログラムである。

実施例１に係る会議システムの構成を示す図である。実施例１に係る通信端末の構成を示すブロック図である。実施例１に係る会議サーバの構成を示すブロック図である。実施例１に係る通信端末の制御ルーチンを示すフローチャートである。実施例２に係る会議システムの構成を示す図である実施例２に係る通信端末の構成を示すブロック図である。実施例２に係る通信端末に記憶されているキーワードの一例を示すテーブルである。実施例２に係る音声認識サーバの構成を示すブロック図である。実施例２に係る通信端末の制御ルーチンを示すフローチャートである。実施例２に係る音声認識サーバの制御ルーチンを示すフローチャートである。

以下、本発明の実施例について図面を参照しつつ具体的に説明する。なお、図面において、同一の構成要素については同一の符号を付け、重複する構成要素の説明は省略する。

図１は、実施例１に係る音声送受信システムとしての会議システム１００を示す図である。以下の説明においては、会議システム１００が、３台の通信端末１０、１１及び１２と会議サーバ１４とがネットワークＮＷを介して通信可能に接続されて構築されているシステムである場合を説明する。もちろん、会議システム１００を構成する通信端末の台数は、図１に示す３台に限られるものではなく、システムの能力が許す限り何台であっても良い。

ネットワークＮＷは、例えば、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆通信回線（公衆回線）等の双方向にデータ通信が可能な有線又は無線の通信ネットワークである。

通信端末１０、１１及び１２の各々は、ネットワークＮＷを介して会議サーバ１４に接続可能な通信端末である。通信端末１０、１１及び１２の各々は、会議サーバ１４によって互いに通信可能に接続されることで、当該会議サーバ１４を介して互いに音声データの送受信を行うことができる。本実施例において、通信端末１０、１１及び１２の各々は、音声データの送受信が可能なＰＣ（Personal Computer）である。

会議サーバ１４は、通信端末１０、１１及び１２の各々とネットワークＮＷを介して個々に接続を確立し、通信端末１０、１１及び１２の各々を互いに音声データの送受信が可能な状態とする通信装置である。

本実施例において、通信端末１０、１１及び１２の各々には、会議システム１００を構築するための会議アプリケーションがインストールされている。会議サーバ１４は、当該アプリケーションを介した通信端末１０、１１及び１２の各々からの接続要求に応答することにより、通信端末１０、１１及び１２の各々を互いに音声データの送受信が可能な状態にすることができる。

なお、当該会議アプリケーションは、例えば、ネットワークＮＷを介した通信によって通信端末１０、１１及び１２の各々に取得されても良く、ＤＶＤ等の光ディスクまたはＵＳＢ等の記憶媒体を介して取得されてもよい。

図２は、通信端末１０の構成を示すブロック図である。以下、通信端末１１及び１２についても通信端末１０と同様の構成を有する。

制御部１５は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を含む処理装置である。ＣＰＵは、ＲＯＭに記憶された各種プログラムを読み出し実行することにより各種機能を実現する。制御部１５は、通信端末１０の利用者（以下、ユーザとも称する）による操作に応じて各部への指示及び制御を行う部分である。本実施例では、上記した会議アプリケーションの処理を制御部１５が実行する。

入力装置１６は、通信端末１０のユーザからの入力操作を受け付ける入力装置である。入力装置１６は、例えば、キーボードやマウスなどの、文字や数字等の情報を入力する入力機器である。

マイク１７は、通信端末１０のユーザの音、例えば当該ユーザが発した音声を収音して電気信号に変換する音声入力装置である。言い換えれば、マイク１７は、通信端末１０に入力された入力音声から第１の音声データとしての音声データを生成する音声データ生成部である。

スピーカ１８は、制御部１５の制御に基づいて通信端末１１及び１２から送信される第２の音声データとしての音声データによって示される音声を出力する音声出力装置である。本実施例において、通信端末１０のユーザは、マイク１７及びスピーカ１８を通して通信端末１１及び１２の各々のユーザと音声通話可能である。

カメラ１９は、制御部１５の制御に基づいて撮影を行う撮像装置である。カメラ１９は、例えば、通信端末１０のユーザを撮影するカメラである。

ディスプレイ２１は、制御部１５の制御に基づいて画面表示を行う表示装置である。ディスプレイ２１には、例えば、通信端末１１及び１２と通信可能に接続されている際に、カメラ１９の映像、通信端末１０における音声のミュートのＯＮ／ＯＦＦの状況や会議に参加している通信端末１１及び１２のユーザ名が表示されるウインドウ等の会議ユーザインタフェースが表示される。

なお、ディスプレイ２１は、入力装置１６としての通信端末１０のユーザからの入力操作を受け付けるタッチパネルと制御部１５の制御に基づいて画面表示を行うディスプレイとが組み合わされたタッチパネルディスプレイであってもよい。ディスプレイ２１がタッチパネルである場合、ディスプレイ２１は、上記入力装置１６に加えて、または上記入力装置１６に替えて入力機器として機能する。

以下に、制御部１５の機能ブロックについて説明する。

通信部２３は、制御部１５の指示に従って通信端末１１及び１２とデータの送受信を行う機能部である。通信部２３は、例えば、ＮＩＣ（Network Interface Card）等の通信インターフェース機器とともにネットワークＮＷを介してデータをやり取りするための通信インターフェースを形成し、ネットワークＮＷを介したデータの送受信を行う部分である。

通信部２３は、マイク１７によって音声入力された後に制御部１５において変換された音声データを会議サーバ１４に送信する送信部であり得る。また、通信部２３は、会議サーバ１４を介して他の通信端末から送信された音声データを受信する受信部であり得る。

ミュート状態判定部２４は、会議システム１００において通信端末１０が音声データを送信しない状態であるミュート状態であるか否かを判定する判定部である。ミュート状態判定部２４は、例えば、ユーザによる入力装置１６の操作によって音声のミュートが選択されている場合に、通信端末１０がミュート状態であると判定する。

ミュート解除判定部２５は、自端末、すなわち通信端末１０のマイク１７に入力された音声に基づいてミュート状態を解除するか否かを判定する判定部である。具体的には、ミュート解除判定部２５は、通信端末１０のユーザが発話を意図した発声をしたか否かを判定することでミュート状態を解除すべきかを判定する。

例えば、ミュート解除判定部２５は、自端末のマイク１７に入力された音声の強度を示す音声レベル（以下、第１の音声レベルとも称する）が所定の閾値（以下、第１の閾値とも称する）以上になったか否かで通信端末１０のユーザが発話を意図する発声をしているかを判定する。

第１の閾値は、例えば、自端末のユーザが発話した際の音声レベルの履歴から設定され得る。また、第１の閾値は、ユーザの咳払いの音又はマウスのクリック音などの小さな雑音や環境音の音声レベルよりも大きくなるように設定されている。

ミュート解除判定部２５は、他端末、すなわち通信端末１１及び１２から送信された音声データによって示される音声に基づいて通信端末１１及び１２のユーザが発話を意図した発声をしているか否かを判定する判定部でもある。

例えば、ミュート解除判定部２５は、他端末、すなわち通信端末１１及び１２から送信された音声データによって示される音声の強度を示す音声レベル（以下、第２の音声レベルとも称する）が所定の閾値（以下、第２の閾値とも称する）以下になったか否かで通信端末１１及び１２のユーザが発話を意図する発声をしているかを判定する。

第２の閾値は、通信端末１１及び１２のユーザが発話した際の音声レベルの履歴に基づき、当該音声レベルよりも小さくなるように設定されている。

本実施例において、ミュート解除判定部２５は、通信端末１０がミュート状態である場合に、第１の音声レベルに基づいて通信端末１０のユーザが発話を意図する発声をしたと判定し、且つ第２の音声レベルに基づいて通信端末１１及び１２のユーザが発話を意図する発声をしていないと判定すると、ミュート状態を解除すべきと判定する。

制御部１５は、ミュート解除判定部２５がミュート状態を解除すべきと判定すると、スピーカ１８から通信端末１０がミュート状態であることを通信端末１０のユーザに通知するための通知音を出力させる制御を実行する。

当該通知音は、例えば、「ピッピッ」という単純なアラーム音でもよく、「ミュート中です」といった音声でもよい。また、制御部１５は、スピーカ１８から上記した通知音を出力させると共に、ディスプレイ２１上に「ミュート中です」という表示をしてもよい。

通信端末１０のユーザは、例えば、発話をした際にスピーカ１８から出力された通知音によって通信端末１０がミュート状態であることに気が付くことで、入力装置１６を操作し、当該通信端末１０のミュート状態を解除して再び発話を行い得る。

なお、制御部１５は、スピーカ１８から通知音を出力させると共に通信端末１０のミュート状態を解除してもよい。これにより、当該通知音によって通信端末１０がミュート状態であることに気が付いたユーザが、通信端末１０のミュート状態を解除する操作を行う手間を省くことができる。

言い換えれば、通信端末１０のユーザは、当該通信端末１０がミュート状態であったこと及び当該ミュート状態が解除されたことを認識しつつ、そのまま発話を行うことができる。なお、制御部１５は、必ずしも通知音を出力させると共に通信端末１０のミュート状態を解除しなくてもよく、通知音無しで単に通信端末１０のミュート状態を解除してもよい。

また、制御部１５は、通信端末１０のユーザによる手動で又は自動でミュート状態が解除された際に、ディスプレイ２１上に「ミュート状態を解除しました」等の表示をすることで、通信端末１０のユーザにミュート状態が解除されたことを知らせてもよい。

図３は、会議サーバ１４の構成を示すブロック図である。制御部２７は、ＣＰＵやＲＯＭ、ＲＡＭを含み、会議サーバ１４の各部への指示及び制御を行う処理装置である。

制御部２７は、上記したように、会議アプリケーションを介した通信端末１０、１１及び１２の各々から送信される接続要求に応答することにより、通信端末１０、１１及び１２の各々を互いに音声データの送受信が可能な状態にする。

制御部２７のうちのミキシング部２８は、通信端末１０、１１及び１２の各々が互いに音声データの送受信が可能な状態になると、通信端末１０、１１及び１２の各々から送信される音声データに対して合成処理を行い、１つの音声データを生成するミキサー機能を有する部分である。ミキシング部２８によって生成された音声データは通信端末１０、１１及び１２の各々に送信される。

通信部２９は、制御部２７の指示に従って外部機器とのデータの送受信を行う通信インターフェースである。通信部２９は、例えば、ネットワークＮＷに接続するためのＮＩＣである。通信部２９は、通信端末１０、１１及び１２の各々から送信される音声データを受信する受信部であり得る。また、通信部２９は、ミキシング部２８にて合成処理を行った音声データを通信端末１０、１１及び１２の各々に送信する送信部であり得る。

以下に、本実施例における通信端末１０の具体的な動作の一例をフローチャートを用いて説明する。

図４は、通信端末１０の制御部１５において実行される通知音出力ルーチンＲＴ１を示すフローチャートである。制御部１５は、例えば、会議サーバ１４を介して自端末、すなわち通信端末１０と通信端末１１及び１２との間で接続が確立されたことを開始トリガーとして、通知音出力ルーチンＲＴ１を開始する。

制御部１５は、まず、ミュート状態判定部２４を介して通信端末１０がミュート状態であるか否かを判定する（ステップＳ１０１）。制御部１５は、ミュート状態判定部２４が通信端末１０がミュート状態ではないと判定すると（ステップＳ１０１：ＮＯ）、通知音出力ルーチンＲＴ１を終了する。

制御部１５は、ミュート状態判定部２４が通信端末１０がミュート状態であると判定すると（ステップＳ１０１：ＹＥＳ）、ミュート解除判定部２５を介してマイク１７に入力された音声の強度を示す第１の音声レベルが第１の閾値以上になったか否かを判定する（ステップＳ１０２）。

制御部１５は、ミュート解除判定部２５が第１の音声レベルが第１の閾値以上になっていないと判定すると（ステップＳ１０２：ＮＯ）、すなわち通信端末１０のユーザが発話を意図した発声をしていないと判定すると、通知音出力ルーチンＲＴ１を終了する。

制御部１５は、ミュート解除判定部２５が第１の音声レベルが第１の閾値以上になったと判定すると（ステップＳ１０２：ＹＥＳ）、すなわち通信端末１０のユーザが発話を意図した発声をしていると判定すると、ミュート解除判定部２５を介して第２の音声レベルが第２の閾値以下になったか否かを判定する（ステップＳ１０３）。

制御部１５は、ミュート解除判定部２５が第２の音声レベルが第２の閾値以下になっていないと判定すると（ステップＳ１０３：ＮＯ）、すなわち通信端末１１及び１２のユーザが発話を意図した発声をしていると判定すると、通知音出力ルーチンＲＴ１を終了する。

制御部１５は、ミュート解除判定部２５が第２の音声レベルが第２の閾値以下になったと判定すると（ステップＳ１０３：ＹＥＳ）、すなわち通信端末１１及び１２のユーザが発話を意図した発声をしていないと判定すると、スピーカ１８から通信端末１０がミュート状態であることを通知する通知音を出力させる（ステップＳ１０４）。

制御部１５は、ステップＳ１０４により、上記したように、通信端末１０がミュート状態であることを通信端末１０のユーザに通知するためのアラームや音声等の通知音をスピーカ１８から出力させる。制御部１５は、ステップＳ１０４の後に通知音出力ルーチンＲＴ１を終了する。

上記したように、本実施例によれば、通信端末１０がミュート状態である場合に、ミュート解除判定部２５が第１の音声レベルに基づいて通信端末１０のユーザが発話を意図する発声をしたと判定し、且つ第２の音声レベルに基づいて通信端末１１及び１２のユーザが発話を意図する発声をしていないと判定すると、制御部１５は、スピーカ１８から通信端末１０がミュート状態である旨を通知する通知音を出力させる。

これにより、通信端末１０のユーザは、自身が発話を意図する発声をした際に、通信端末１１及び１２のユーザが発話を意図する発声をしていないような状況において通信端末１０がミュート状態であることを知ることができる。

また、制御部１５の制御によってスピーカ１８から通知音を出力させると共にミュート状態を解除する態様とした場合には、通信端末１０のユーザは、ミュート状態の解除に係る操作等をすることなくスムーズに発話をすることができる。

従って、本実施例によれば、単に自身の音声が捉えられたことをしてミュート状態が解除されることや、会議中に他の会議参加者が発言をしている際にミュート状態が解除されることが発生しないため、ユーザの意図に沿った態様でミュート解除に関する動作を行うことができる。

なお、本実施例において、通信端末１０、１１及び１２の各々は、ＰＣである場合について説明したが、会議サーバ１４を介して互いに音声データの送受信が可能な端末であればよく、これに限られない。例えば、通信端末１０、１１及び１２の各々は、タブレット端末やスマートフォンであってもよい。また、通信端末１０、１１及び１２の各々は、例えば、ミュート状態のＯＮ／ＯＦＦの切り替えが可能なＩＰ（Internet Protocol）電話や、固定電話（アナログ電話）であってもよい。

なお、通信端末１０、１１及び１２の各々は、会議サーバ１４を介して互いに音声データの送受信が可能であればよく、互いに異なる端末であってもよい。例えば、会議システム１００において、通信端末１０をＰＣとし、通信端末１１をスマートフォンとし、通信端末１２をＩＰ電話としてもよい。

本実施例において、通信端末１０、１１及び１２の各々には、上記した会議アプリケーションがインストールされ、当該各々の制御部においてミュート状態の判定やユーザの発話の判定が行われるとしたがこれに限られない。例えば、上記した通信端末１０、１１及び１２の各々のミュート状態の判定やユーザの発話の判定は、Ｗｅｂブラウザ上のＷｅｂアプリケーション上において会議サーバ１４によって行われてもよい。

以下に、実施例２に係る音声送受信システムとしての会議システム２００について図５～１０を用いて説明する。会議システム２００は、音声認識サーバ３３を有する点で実施例１と異なっており、また、通信端末３０、３１及び３２の構成が実施例１と異なっている。会議システムは、これらの点以外において実施例１と同様の構成を有する。

図５は、会議システム２００の構成を示す図である。以下の説明においては、会議システム２００が、３台の通信端末３０、３１及び３２と会議サーバ１４と音声認識サーバ３３とがネットワークＮＷを介して通信可能に接続されて構築されているシステムである場合を説明する。もちろん、会議システム２００を構成する通信端末の台数は、図５に示す３台に限られるものではなく、システムの能力が許す限り何台であっても良い。

音声認識サーバ３３は、通信端末３０から送信される音声データをテキストデータに変換し、当該テキストデータを通信端末３０に送信する音声認識サーバである。本実施例において、音声認識サーバ３３は、会議サーバ１４とは別個に設けられている。

図６は、通信端末３０の構成を示すブロック図である。制御部３４は、ミュート解除判定部３５の構成が実施例１と異なっており、それ以外の点で実施例１と同様の構成を有する。以下、通信端末３１及び３２についても通信端末３０と同様の構成を有する。

本実施例において、ミュート解除判定部３５は、音声レベル判定部３５Ａ及びキーワード判定部３５Ｂとから構成される。

音声レベル判定部３５Ａは、通信端末３０がミュート状態である場合に、上記した第１の音声レベルが第１の閾値以上になったかを判定し、また、上記した第２の音声レベルが第２の閾値以下になったかを判定する。

ミュート解除判定部３５は、音声レベル判定部３５Ａが第１の音声レベルが第１の閾値以上になったと判定した場合に、通信端末３０のユーザが発話を意図する発声をしたと判定する。また、ミュート解除判定部３５は、音声レベル判定部３５Ａが第２の音声レベルが第２の閾値以下になったと判定した場合に、通信端末３１及び３２のユーザが発話を意図する発声をしていないと判定する。

キーワード判定部３５Ｂは、音声認識サーバ３３から送信されるテキストデータが示す文字列とキーワードＤＢ３６に保存されているキーワードとを比較し、当該文字列に所定のキーワードが含まれているか否かを判定する判定部である。具体的には、キーワード判定部３５Ｂは、上記したテキストデータが示す文字列に発話の意図を有するワードが含まれているか否かを判定する。

ミュート解除判定部３５は、キーワード判定部３５Ｂが上記したテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定した場合に通信端末３０のユーザが発話を意図する発声をしていると判定する。

キーワードＤＢ３６は、上記した発話の意図を有するワードを複数保持しているデータベースである。なお、キーワードＤＢ３６は、外部ハードディスク等の外部記憶装置に記憶されていてもよく、制御部３４は、当該外部記憶装置を介して上記したキーワードを取得してもよい。

ここで、図７を用いて上記したキーワードＤＢ３６が保持しているキーワードについて説明する。

図７は、キーワードＤＢ３６が保持しているキーワードの一例を示すキーワードＴＢ１を示す図である。キーワードＴＢ１において、「キーワードの種類」は、キーワードＴＢ１に保存されているワードがどのようなシチュエーションで用いられる言葉であるかを示すものである。また、キーワードＴＢ１において、「キーワードの例」は、上記したキーワードの種類の各々に対応する言葉の一例を示したものである。

キーワードＴＢ１において、「挨拶を示す言葉」とは、例えば、「おはようございます」や「よろしくおねがいします」などの、主に会議の開始時において多く用いられる言葉である。

また、キーワードＴＢ１において、「自身から話しかける際に用いる言葉」とは、例えば、「ちょっとすみません」や「よろしいでしょうか」などの、主に自身が話に割って入る際や自身から話を切り出す際に多く用いられる言葉である。

また、キーワードＴＢ１において、「他者から話を振られた際に用いる言葉」とは、例えば、「それは」や「わかりました」などの、他者から説明を求められた際や他者の意見に同意する際に多く用いられる言葉である。

再び図６を参照する。制御部３４は、ミュート解除判定部３５が第２の音声レベルに基づいて通信端末３１及び３２のユーザが発話を意図する発声をしていないと判定すると、音声レベルが第１の閾値以上になっている音声を一定時間（例えば最初の２～３秒程度）抽出し、当該音声を音声データに変換して音声認識サーバ３３に送信する。

本実施例において、ミュート解除判定部３５は、上記したように、キーワード判定部３５Ｂが上記したテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定した場合に、通信端末３０のユーザが発話を意図する発声をしていると判定する。

制御部３４は、ミュート解除判定部３５が通信端末３０のユーザが発話を意図する発声をしていると判定した場合に、実施例１と同様に、スピーカ１８から通信端末３０がミュート状態であることを通知する通知音を出力させる。なお、制御部３４は、実施例１と同様に、スピーカ１８から通知音を出力させると共に通信端末３０のミュート状態を解除してもよい。

図８は、音声認識サーバ３３の構成を示すブロック図である。制御部３７は、ＣＰＵやＲＯＭ、ＲＡＭを含む処理装置である。制御部３７は、音声認識サーバ３３の各部への指示及び制御を行う部分である。

制御部３７のうちの音声認識部３８は、通信端末３０から送信される音声データを音声認識する部分である。具体的には、音声認識部３８は、上記したように、通信端末３０から送信される音声データを音声変換によって文字列からなるテキストデータに変換する。

音声認識部３８は、例えば、通信端末３０から送信される音声データから音の周波数や強弱等の特徴量を抽出し（音響分析）、音響分析によって抽出した特徴量を予め学習している音や単語の情報に照らし合わせて声の最小単位である音素を抽出し（音響モデル）、情報データベースの中から音の組み合わせを抽出して単語として認識し（発音辞書）、音響モデルで抽出した音素及び発音辞書で認識した単語を組み合わせ、意味のある文章として認識する（言語モデル）ことによって、音声を文字として認識することができる。

通信部３９は、制御部３７の指示に従って通信端末３１及び３２とデータの送受信を行う通信インターフェースである。通信部３９は、例えば、ネットワークＮＷに接続するためのＮＩＣである。通信部３９は、通信端末３０から送信される音声データを受信する受信部であり得る。また、通信部３９は、音声認識によって生成されたテキストデータを通信端末３０に送信する送信部であり得る。

大容量記憶装置４１は、例えば、ハードディスク装置、ＳＳＤ（solid state drive）、フラッシュメモリ等により構成されており、オペレーティングシステムや、ソフトウェア等の各種プログラムを記憶している。本実施例において、大容量記憶装置４１は、上記した音声認識のための音響モデルや発音辞書における音や単語の情報などを保持している。

以下に、本実施例における通信端末３０及び音声認識サーバ３３の各々の具体的な動作の一例をフローチャートを用いて説明する。

図９は、通信端末３０の制御部３４において実行される通知音出力ルーチンＲＴ２を示すフローチャートである。図９において、実施例１に係る通信端末１０の制御部１５において実行される通知音出力ルーチンＲＴ１と異なる点のみ説明する。

制御部３４は、ステップＳ１０３において、ミュート解除判定部２５が第２の音声レベルが第２の閾値以下になったと判定すると（ステップＳ１０３：ＹＥＳ）、第１の音声レベルが第１の閾値以上となった音声の最初の２～３秒程度を抽出し、音声データに変換して音声認識サーバ３３に送信する（ステップＳ２０１）。

制御部３４は、ステップＳ２０１の後に、音声認識サーバ３３からテキストデータを受信したか否かを判定する（ステップＳ２０２）。制御部３４は、音声認識サーバ３３からテキストデータを受信していないと判定すると（ステップＳ２０２：ＮＯ）、ステップＳ２０２を繰り返し実行する。

制御部３４は、音声認識サーバ３３からテキストデータを受信したと判定すると（ステップＳ２０２：ＹＥＳ）、キーワード判定部３５Ｂを介して当該テキストデータにキーワードＤＢ３６に保存されているキーワードが含まれているか否かを判定する（ステップＳ２０３）。すなわち、キーワード判定部３５Ｂは、自端末のマイク１７に入力された音声が発話の意図を有するワードであるか否かを判定する。

制御部３４は、キーワード判定部３５Ｂがテキストデータに発話の意図を有するワードが含まれていると判定すると（ステップＳ２０３：ＹＥＳ）、すなわちミュート解除判定部３５が通信端末３０のユーザが発話を意図する発声をしていると判定した場合に、スピーカ１８から通信端末１０がミュート状態であることを通知する通知音を出力させる（ステップＳ２０４）。

制御部３４は、キーワード判定部３５Ｂがテキストデータにキーワードが含まれていないと判定すると（ステップＳ２０３：ＮＯ）、通知音出力ルーチンＲＴ２を終了する。制御部３４は、ステップＳ２０４の後に通知音出力ルーチンＲＴ２を終了する。

図１０は、音声認識サーバ３３の制御部３７において実行される音声認識ルーチンＲＴ３を示すフローチャートである。制御部３７は、例えば、ネットワークＮＷを介して音声認識サーバ３３と通信端末３０との間で接続が確立されたことを開始トリガーとして、音声認識ルーチンＲＴ３を開始する。

制御部３７は、通信端末３０から音声データを受信したか否かを判定する（ステップＳ３０１）。制御部３７は、通信端末３０から音声データを受信したと判定すると（ステップＳ３０１：ＹＥＳ）、当該音声データが示す音声を音声認識部３８を介してテキストデータに変換する（ステップＳ３０２）。

制御部３７は、通信端末３０から音声データを受信していないと判定すると（ステップＳ３０１：ＮＯ）、音声認識ルーチンＲＴ３を終了する。

制御部３７は、ステップＳ３０２の後に、音声認識部３８を介して変換されたテキストデータを通信端末３０に送信する（ステップＳ３０３）。ステップＳ３０３の後に、音声認識ルーチンＲＴ３を終了する。

上記したように、本実施例によれば、通信端末３０がミュート状態である場合に、ミュート解除判定部３５が第１の音声レベルが第１の閾値以上であると判定し、且つ第２の音声レベルが第２の閾値以下であると判定すると、制御部３４は、第１の閾値以上の音声が示す音声データを音声認識サーバ３３に送信する。

そして、制御部３４は、音声認識サーバ３３から送信されるテキストデータを参照し、キーワード判定部３５Ｂがテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定すると、スピーカ１８から通信端末３０がミュート状態である旨を通知する通知音を出力させる。

これにより、通信端末３０のユーザは、自身が一定の音声レベルを有する音声を発した際に、通信端末１１及び１２のユーザが発言をしていないような状況において、通信端末３０に入力された音声が発話の意図を有するワードである場合に通信端末３０がミュート状態であることを知ることができる。

また、制御部３４によってスピーカ１８から通知音を出力させると共に通信端末３０のミュート状態を解除する態様とした場合には、通信端末３０のユーザは、通信端末３０のミュート状態を解除する操作をすることなく発話をすることができる。

従って、本実施例によれば、実施例１と同様に、単に自身の音声が捉えられたことをしてミュート状態が解除されることや、会議中に他の会議参加者が発言している際にミュート状態が解除されることが発生しないため、ユーザの意図に沿った態様でミュート解除に関する動作を行うことができる。

本実施例において、通信端末３０のミュート状態を解除するための機能（ミュート解除機能）の一翼を担う音声認識サーバ３３は、会議サーバ１４と別個に存在している。言い換えれば、会議サーバ１４が変わった場合であっても、その度に音声認識サーバ３３を変更する必要がない。

そのため、例えば、会議毎に異なるプロトコルで構築される会議システムを用いる場合であっても、上記したミュート解除機能を発揮させるために異なる処理、例えば会議毎に異なるプロトコルに準じた音声データを生成する等の処理を行う必要が無い。従って、音声認識サーバ３３を会議サーバ１４と別個に設けることで、上記ミュート解除機能、及び当該機能を搭載したアプリケーションの汎用性を高めることが可能となる。

例えば、上記したミュート解除機能は、ＺＯＯＭ（登録商標）、Ｓｋｙｐｅ（登録商標）、Ｔｅａｍｓ（登録商標）、ＢｌｕｅＪｅａｎｓ（登録商標）、Ｗｅｂｅｘ（登録商標）等の様々な会議アプリケーションにアドオンとして追加され、各会議アプリケーションで行われる会議の音声データを音声認識サーバ３３に送信することで、上記ミュート解除機能を実現可能である。

なお、制御部３４は、通知音出力ルーチンＲＴ２において、音声レベル判定部３５Ａが第２の音声レベルが第２の閾値以下となっていると判定した場合に（ステップＳ１０３：ＹＥＳ）、第１の閾値以上の音声レベルを有する音声を音声データとして音声認識サーバ３３に送信する（ステップＳ２０１）としたが、当該ステップＳ１０３は実行されなくてもよい。

すなわち、制御部３４は、第１の音声レベルが第１の閾値以上となり、且つ第１の閾値以上の音声レベルを有する音声に発話の意図を有するワードが含まれている場合に、スピーカ１８から通知音を出力させてもよい。これにより、制御部３４は、自端末に入力された音声の態様のみに基づいて、通信端末３０のミュート状態の通知や解除を行うことができる。

本実施例において、音声認識サーバ３３は、通信端末３０に代わってキーワード判定部３５Ｂを有していてもよく、大容量記憶装置４１がキーワードＤＢ３６を有していてもよい。例えば、音声認識サーバ３３の制御部３７は、通信端末３０から送信された音声データを音声認識部３８にてテキストデータに変換し、キーワード判定部３５Ｂによって当該テキストデータが示す文字列に発話の意図を有するキーワードが含まれているか否かを判定してもよく、当該判定の結果を通信端末３０に送信してもよい。

これにより、通信端末３０の制御部３４は、音声認識サーバ３３から送信されるキーワード判定の結果に基づいて、上記した文字列に発話の意図を有するワードが含まれているという判定結果である場合に、スピーカ１８からミュート状態の通知音を出力してもよい。

本実施例において、音声認識サーバ３３は、通信端末３０、３１及び３２の各々にそれぞれ組み込まれていてもよい。例えば、通信端末３０がＩＰ電話である場合には、音声認識サーバ３３は、複数の電話機を接続する構内交換機（ＰＢＸ）に組み込まれていてもよい。また、音声認識サーバ３３は、会議サーバ１４に組み込まれていてもよい。

実施例１及び実施例２おいて説明した通信端末、会議サーバ１４及び音声認識サーバ３３の各々の制御部における一連の処理は、コンピュータにより実行させるプログラムとしてもよい。また、当該プログラムは、コンピュータに読み取り可能な記録媒体に記録されていてもよい。

上記した記録媒体のタイプは、特に限定されず、例えば、光ディスク、ハードディスク、またはフラッシュメモリもしくはＳＳＤ等の半導体メモリであってもよい。また、上記プログラムは、通信を介して通信端末にダウンロードされインストールされてもよい。

上記した実施例１及び実施例２において示した制御ルーチンは例示に過ぎず、用途または使用条件等に応じて適宜選択及び変更可能である。

１０、１１、１２、３０、３１、３２通信端末
１４会議サーバ
１５、２７、３４、３７制御部
１６入力装置
１７マイク
１８スピーカ
１９カメラ
２１ディスプレイ
２３、２９、３９通信部
２４ミュート状態判定部
２５、３５ミュート解除判定部
２６ミキシング部
３３音声認識サーバ
３５Ａ音声レベル判定部
３５Ｂキーワード判定部
３６キーワードＤＢ
３８音声変換部
４１大容量記憶装置

Claims

他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、
前記通信端末に入力された入力音声から第１の音声データを生成する音声データ生成部と、
前記音声送受信システムにおいて前記通信端末が前記第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、
前記ミュート状態である場合に、前記入力音声の強度を示す第１の音声レベル及び前記他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有することを特徴とする通信端末。
前記ミュート解除判定部は、前記第１の音声レベルが第１の閾値以上であり、且つ前記第２の音声レベルが第２の閾値以下である場合に前記ミュート状態を解除すべきであると判定することを特徴とする、請求項１に記載の通信端末。
前記ミュート解除判定部は、前記第１の音声データによって示される音声に所定のキーワードが含まれている場合に前記ミュート状態を解除すべきであると判定することを特徴とする、請求項１又は２に記載の通信端末。
前記所定のキーワードは、発話の意図を有するワードであることを特徴とする、請求項３に記載の通信端末。
前記ミュート解除判定部によって前記ミュート状態を解除すべきであるとの判定がなされると、通知音が出力されることを特徴とする、請求項１乃至４のいずれか１つに記載の通信端末。
前記ミュート解除判定部によって前記ミュート状態を解除すべきであるとの判定がなされると、前記音声送受信システムにおける前記ミュート状態を解除することを特徴とする、請求項１乃至５のいずれか１つに記載の通信端末。
他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末による判定方法であって、
音声データ生成部が、前記通信端末に入力された入力音声から第１の音声データを生成する音声データ生成ステップと、
ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、
前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第１の音声レベル及び前記他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を有することを特徴とする判定方法。
他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末に、
音声データ生成部が、前記通信端末に入力された入力音声から第１の音声データを生成する音声データ生成ステップと、
ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末から前記第１の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、
前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第１の音声レベル及び前記他の通信端末から送信された第２の音声データによって示される音声の強度を示す第２の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を実行させるプログラム。