JP2023013073A - 通信端末、判定方法及びプログラム - Google Patents

通信端末、判定方法及びプログラム Download PDF

Info

Publication number
JP2023013073A
JP2023013073A JP2021116986A JP2021116986A JP2023013073A JP 2023013073 A JP2023013073 A JP 2023013073A JP 2021116986 A JP2021116986 A JP 2021116986A JP 2021116986 A JP2021116986 A JP 2021116986A JP 2023013073 A JP2023013073 A JP 2023013073A
Authority
JP
Japan
Prior art keywords
communication terminal
mute
voice
mute state
determination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021116986A
Other languages
English (en)
Inventor
卓也 益子
Takuya Masuko
淳悦 伊藤
Atsuyoshi Ito
彰太 貫
Shota Kan
太郎 三浦
Taro Miura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2021116986A priority Critical patent/JP2023013073A/ja
Publication of JP2023013073A publication Critical patent/JP2023013073A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザの意図に沿った態様でミュート解除に関する動作を行うことが可能な通信端末を提供する。【解決手段】他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、通信端末に入力された入力音声から第1の音声データを生成する音声データ生成部と、音声送受信システムにおいて通信端末が第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、ミュート状態である場合に、入力音声の強度を示す第1の音声レベル及び他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいてミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有することを特徴とする。【選択図】図1

Description

本発明は、通信端末、判定方法及びプログラムに関する。
通信端末を用いて会議を行う会議システムが知られている。例えば、特許文献1には、複数のマイクロホンと音声レベル検出手段及び音声データ保存手段を備えるマイクロコンピュータとスピーカとから構成される会議用音声システムが開示されている。
国際公開第2007/013180号
特許文献1に記載の会議用音声システムには、マイクロホンに音声が捉えられるとミュートが解除されるオートミュート解除装置が備えられている。しかしながら、特許文献1に記載の会議用音声システムでは、単に音声が捉えられたことをしてミュートが解除されるため、ユーザによる発話の意図を含まない音声、例えば咳または物音がマイクに捉えられることで、ユーザが発話を意図しない状態でのミュートの解除が発生し得る。
本発明は、上記した点に鑑みてなされたものであり、ユーザの意図に沿った態様でミュート解除に関する動作を行うことが可能な通信端末を提供することを目的とする。
本発明による通信端末は、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成部と、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、前記ミュート状態である場合に、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有することを特徴とする。
また、本発明による判定方法は、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末による判定方法であって、音声データ生成部が、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成ステップと、ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を有することを特徴とする。
また、本発明によるプログラムは、他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末に、音声データ生成部が、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成ステップと、ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を実行させるプログラムである。
実施例1に係る会議システムの構成を示す図である。 実施例1に係る通信端末の構成を示すブロック図である。 実施例1に係る会議サーバの構成を示すブロック図である。 実施例1に係る通信端末の制御ルーチンを示すフローチャートである。 実施例2に係る会議システムの構成を示す図である 実施例2に係る通信端末の構成を示すブロック図である。 実施例2に係る通信端末に記憶されているキーワードの一例を示すテーブルである。 実施例2に係る音声認識サーバの構成を示すブロック図である。 実施例2に係る通信端末の制御ルーチンを示すフローチャートである。 実施例2に係る音声認識サーバの制御ルーチンを示すフローチャートである。
以下、本発明の実施例について図面を参照しつつ具体的に説明する。なお、図面において、同一の構成要素については同一の符号を付け、重複する構成要素の説明は省略する。
図1は、実施例1に係る音声送受信システムとしての会議システム100を示す図である。以下の説明においては、会議システム100が、3台の通信端末10、11及び12と会議サーバ14とがネットワークNWを介して通信可能に接続されて構築されているシステムである場合を説明する。もちろん、会議システム100を構成する通信端末の台数は、図1に示す3台に限られるものではなく、システムの能力が許す限り何台であっても良い。
ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、公衆通信回線(公衆回線)等の双方向にデータ通信が可能な有線又は無線の通信ネットワークである。
通信端末10、11及び12の各々は、ネットワークNWを介して会議サーバ14に接続可能な通信端末である。通信端末10、11及び12の各々は、会議サーバ14によって互いに通信可能に接続されることで、当該会議サーバ14を介して互いに音声データの送受信を行うことができる。本実施例において、通信端末10、11及び12の各々は、音声データの送受信が可能なPC(Personal Computer)である。
会議サーバ14は、通信端末10、11及び12の各々とネットワークNWを介して個々に接続を確立し、通信端末10、11及び12の各々を互いに音声データの送受信が可能な状態とする通信装置である。
本実施例において、通信端末10、11及び12の各々には、会議システム100を構築するための会議アプリケーションがインストールされている。会議サーバ14は、当該アプリケーションを介した通信端末10、11及び12の各々からの接続要求に応答することにより、通信端末10、11及び12の各々を互いに音声データの送受信が可能な状態にすることができる。
なお、当該会議アプリケーションは、例えば、ネットワークNWを介した通信によって通信端末10、11及び12の各々に取得されても良く、DVD等の光ディスクまたはUSB等の記憶媒体を介して取得されてもよい。
図2は、通信端末10の構成を示すブロック図である。以下、通信端末11及び12についても通信端末10と同様の構成を有する。
制御部15は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を含む処理装置である。CPUは、ROMに記憶された各種プログラムを読み出し実行することにより各種機能を実現する。制御部15は、通信端末10の利用者(以下、ユーザとも称する)による操作に応じて各部への指示及び制御を行う部分である。本実施例では、上記した会議アプリケーションの処理を制御部15が実行する。
入力装置16は、通信端末10のユーザからの入力操作を受け付ける入力装置である。入力装置16は、例えば、キーボードやマウスなどの、文字や数字等の情報を入力する入力機器である。
マイク17は、通信端末10のユーザの音、例えば当該ユーザが発した音声を収音して電気信号に変換する音声入力装置である。言い換えれば、マイク17は、通信端末10に入力された入力音声から第1の音声データとしての音声データを生成する音声データ生成部である。
スピーカ18は、制御部15の制御に基づいて通信端末11及び12から送信される第2の音声データとしての音声データによって示される音声を出力する音声出力装置である。本実施例において、通信端末10のユーザは、マイク17及びスピーカ18を通して通信端末11及び12の各々のユーザと音声通話可能である。
カメラ19は、制御部15の制御に基づいて撮影を行う撮像装置である。カメラ19は、例えば、通信端末10のユーザを撮影するカメラである。
ディスプレイ21は、制御部15の制御に基づいて画面表示を行う表示装置である。ディスプレイ21には、例えば、通信端末11及び12と通信可能に接続されている際に、カメラ19の映像、通信端末10における音声のミュートのON/OFFの状況や会議に参加している通信端末11及び12のユーザ名が表示されるウインドウ等の会議ユーザインタフェースが表示される。
なお、ディスプレイ21は、入力装置16としての通信端末10のユーザからの入力操作を受け付けるタッチパネルと制御部15の制御に基づいて画面表示を行うディスプレイとが組み合わされたタッチパネルディスプレイであってもよい。ディスプレイ21がタッチパネルである場合、ディスプレイ21は、上記入力装置16に加えて、または上記入力装置16に替えて入力機器として機能する。
以下に、制御部15の機能ブロックについて説明する。
通信部23は、制御部15の指示に従って通信端末11及び12とデータの送受信を行う機能部である。通信部23は、例えば、NIC(Network Interface Card)等の通信インターフェース機器とともにネットワークNWを介してデータをやり取りするための通信インターフェースを形成し、ネットワークNWを介したデータの送受信を行う部分である。
通信部23は、マイク17によって音声入力された後に制御部15において変換された音声データを会議サーバ14に送信する送信部であり得る。また、通信部23は、会議サーバ14を介して他の通信端末から送信された音声データを受信する受信部であり得る。
ミュート状態判定部24は、会議システム100において通信端末10が音声データを送信しない状態であるミュート状態であるか否かを判定する判定部である。ミュート状態判定部24は、例えば、ユーザによる入力装置16の操作によって音声のミュートが選択されている場合に、通信端末10がミュート状態であると判定する。
ミュート解除判定部25は、自端末、すなわち通信端末10のマイク17に入力された音声に基づいてミュート状態を解除するか否かを判定する判定部である。具体的には、ミュート解除判定部25は、通信端末10のユーザが発話を意図した発声をしたか否かを判定することでミュート状態を解除すべきかを判定する。
例えば、ミュート解除判定部25は、自端末のマイク17に入力された音声の強度を示す音声レベル(以下、第1の音声レベルとも称する)が所定の閾値(以下、第1の閾値とも称する)以上になったか否かで通信端末10のユーザが発話を意図する発声をしているかを判定する。
第1の閾値は、例えば、自端末のユーザが発話した際の音声レベルの履歴から設定され得る。また、第1の閾値は、ユーザの咳払いの音又はマウスのクリック音などの小さな雑音や環境音の音声レベルよりも大きくなるように設定されている。
ミュート解除判定部25は、他端末、すなわち通信端末11及び12から送信された音声データによって示される音声に基づいて通信端末11及び12のユーザが発話を意図した発声をしているか否かを判定する判定部でもある。
例えば、ミュート解除判定部25は、他端末、すなわち通信端末11及び12から送信された音声データによって示される音声の強度を示す音声レベル(以下、第2の音声レベルとも称する)が所定の閾値(以下、第2の閾値とも称する)以下になったか否かで通信端末11及び12のユーザが発話を意図する発声をしているかを判定する。
第2の閾値は、通信端末11及び12のユーザが発話した際の音声レベルの履歴に基づき、当該音声レベルよりも小さくなるように設定されている。
本実施例において、ミュート解除判定部25は、通信端末10がミュート状態である場合に、第1の音声レベルに基づいて通信端末10のユーザが発話を意図する発声をしたと判定し、且つ第2の音声レベルに基づいて通信端末11及び12のユーザが発話を意図する発声をしていないと判定すると、ミュート状態を解除すべきと判定する。
制御部15は、ミュート解除判定部25がミュート状態を解除すべきと判定すると、スピーカ18から通信端末10がミュート状態であることを通信端末10のユーザに通知するための通知音を出力させる制御を実行する。
当該通知音は、例えば、「ピッピッ」という単純なアラーム音でもよく、「ミュート中です」といった音声でもよい。また、制御部15は、スピーカ18から上記した通知音を出力させると共に、ディスプレイ21上に「ミュート中です」という表示をしてもよい。
通信端末10のユーザは、例えば、発話をした際にスピーカ18から出力された通知音によって通信端末10がミュート状態であることに気が付くことで、入力装置16を操作し、当該通信端末10のミュート状態を解除して再び発話を行い得る。
なお、制御部15は、スピーカ18から通知音を出力させると共に通信端末10のミュート状態を解除してもよい。これにより、当該通知音によって通信端末10がミュート状態であることに気が付いたユーザが、通信端末10のミュート状態を解除する操作を行う手間を省くことができる。
言い換えれば、通信端末10のユーザは、当該通信端末10がミュート状態であったこと及び当該ミュート状態が解除されたことを認識しつつ、そのまま発話を行うことができる。なお、制御部15は、必ずしも通知音を出力させると共に通信端末10のミュート状態を解除しなくてもよく、通知音無しで単に通信端末10のミュート状態を解除してもよい。
また、制御部15は、通信端末10のユーザによる手動で又は自動でミュート状態が解除された際に、ディスプレイ21上に「ミュート状態を解除しました」等の表示をすることで、通信端末10のユーザにミュート状態が解除されたことを知らせてもよい。
図3は、会議サーバ14の構成を示すブロック図である。制御部27は、CPUやROM、RAMを含み、会議サーバ14の各部への指示及び制御を行う処理装置である。
制御部27は、上記したように、会議アプリケーションを介した通信端末10、11及び12の各々から送信される接続要求に応答することにより、通信端末10、11及び12の各々を互いに音声データの送受信が可能な状態にする。
制御部27のうちのミキシング部28は、通信端末10、11及び12の各々が互いに音声データの送受信が可能な状態になると、通信端末10、11及び12の各々から送信される音声データに対して合成処理を行い、1つの音声データを生成するミキサー機能を有する部分である。ミキシング部28によって生成された音声データは通信端末10、11及び12の各々に送信される。
通信部29は、制御部27の指示に従って外部機器とのデータの送受信を行う通信インターフェースである。通信部29は、例えば、ネットワークNWに接続するためのNICである。通信部29は、通信端末10、11及び12の各々から送信される音声データを受信する受信部であり得る。また、通信部29は、ミキシング部28にて合成処理を行った音声データを通信端末10、11及び12の各々に送信する送信部であり得る。
以下に、本実施例における通信端末10の具体的な動作の一例をフローチャートを用いて説明する。
図4は、通信端末10の制御部15において実行される通知音出力ルーチンRT1を示すフローチャートである。制御部15は、例えば、会議サーバ14を介して自端末、すなわち通信端末10と通信端末11及び12との間で接続が確立されたことを開始トリガーとして、通知音出力ルーチンRT1を開始する。
制御部15は、まず、ミュート状態判定部24を介して通信端末10がミュート状態であるか否かを判定する(ステップS101)。制御部15は、ミュート状態判定部24が通信端末10がミュート状態ではないと判定すると(ステップS101:NO)、通知音出力ルーチンRT1を終了する。
制御部15は、ミュート状態判定部24が通信端末10がミュート状態であると判定すると(ステップS101:YES)、ミュート解除判定部25を介してマイク17に入力された音声の強度を示す第1の音声レベルが第1の閾値以上になったか否かを判定する(ステップS102)。
制御部15は、ミュート解除判定部25が第1の音声レベルが第1の閾値以上になっていないと判定すると(ステップS102:NO)、すなわち通信端末10のユーザが発話を意図した発声をしていないと判定すると、通知音出力ルーチンRT1を終了する。
制御部15は、ミュート解除判定部25が第1の音声レベルが第1の閾値以上になったと判定すると(ステップS102:YES)、すなわち通信端末10のユーザが発話を意図した発声をしていると判定すると、ミュート解除判定部25を介して第2の音声レベルが第2の閾値以下になったか否かを判定する(ステップS103)。
制御部15は、ミュート解除判定部25が第2の音声レベルが第2の閾値以下になっていないと判定すると(ステップS103:NO)、すなわち通信端末11及び12のユーザが発話を意図した発声をしていると判定すると、通知音出力ルーチンRT1を終了する。
制御部15は、ミュート解除判定部25が第2の音声レベルが第2の閾値以下になったと判定すると(ステップS103:YES)、すなわち通信端末11及び12のユーザが発話を意図した発声をしていないと判定すると、スピーカ18から通信端末10がミュート状態であることを通知する通知音を出力させる(ステップS104)。
制御部15は、ステップS104により、上記したように、通信端末10がミュート状態であることを通信端末10のユーザに通知するためのアラームや音声等の通知音をスピーカ18から出力させる。制御部15は、ステップS104の後に通知音出力ルーチンRT1を終了する。
上記したように、本実施例によれば、通信端末10がミュート状態である場合に、ミュート解除判定部25が第1の音声レベルに基づいて通信端末10のユーザが発話を意図する発声をしたと判定し、且つ第2の音声レベルに基づいて通信端末11及び12のユーザが発話を意図する発声をしていないと判定すると、制御部15は、スピーカ18から通信端末10がミュート状態である旨を通知する通知音を出力させる。
これにより、通信端末10のユーザは、自身が発話を意図する発声をした際に、通信端末11及び12のユーザが発話を意図する発声をしていないような状況において通信端末10がミュート状態であることを知ることができる。
また、制御部15の制御によってスピーカ18から通知音を出力させると共にミュート状態を解除する態様とした場合には、通信端末10のユーザは、ミュート状態の解除に係る操作等をすることなくスムーズに発話をすることができる。
従って、本実施例によれば、単に自身の音声が捉えられたことをしてミュート状態が解除されることや、会議中に他の会議参加者が発言をしている際にミュート状態が解除されることが発生しないため、ユーザの意図に沿った態様でミュート解除に関する動作を行うことができる。
なお、本実施例において、通信端末10、11及び12の各々は、PCである場合について説明したが、会議サーバ14を介して互いに音声データの送受信が可能な端末であればよく、これに限られない。例えば、通信端末10、11及び12の各々は、タブレット端末やスマートフォンであってもよい。また、通信端末10、11及び12の各々は、例えば、ミュート状態のON/OFFの切り替えが可能なIP(Internet Protocol)電話や、固定電話(アナログ電話)であってもよい。
なお、通信端末10、11及び12の各々は、会議サーバ14を介して互いに音声データの送受信が可能であればよく、互いに異なる端末であってもよい。例えば、会議システム100において、通信端末10をPCとし、通信端末11をスマートフォンとし、通信端末12をIP電話としてもよい。
本実施例において、通信端末10、11及び12の各々には、上記した会議アプリケーションがインストールされ、当該各々の制御部においてミュート状態の判定やユーザの発話の判定が行われるとしたがこれに限られない。例えば、上記した通信端末10、11及び12の各々のミュート状態の判定やユーザの発話の判定は、Webブラウザ上のWebアプリケーション上において会議サーバ14によって行われてもよい。
以下に、実施例2に係る音声送受信システムとしての会議システム200について図5~10を用いて説明する。会議システム200は、音声認識サーバ33を有する点で実施例1と異なっており、また、通信端末30、31及び32の構成が実施例1と異なっている。会議システムは、これらの点以外において実施例1と同様の構成を有する。
図5は、会議システム200の構成を示す図である。以下の説明においては、会議システム200が、3台の通信端末30、31及び32と会議サーバ14と音声認識サーバ33とがネットワークNWを介して通信可能に接続されて構築されているシステムである場合を説明する。もちろん、会議システム200を構成する通信端末の台数は、図5に示す3台に限られるものではなく、システムの能力が許す限り何台であっても良い。
音声認識サーバ33は、通信端末30から送信される音声データをテキストデータに変換し、当該テキストデータを通信端末30に送信する音声認識サーバである。本実施例において、音声認識サーバ33は、会議サーバ14とは別個に設けられている。
図6は、通信端末30の構成を示すブロック図である。制御部34は、ミュート解除判定部35の構成が実施例1と異なっており、それ以外の点で実施例1と同様の構成を有する。以下、通信端末31及び32についても通信端末30と同様の構成を有する。
本実施例において、ミュート解除判定部35は、音声レベル判定部35A及びキーワード判定部35Bとから構成される。
音声レベル判定部35Aは、通信端末30がミュート状態である場合に、上記した第1の音声レベルが第1の閾値以上になったかを判定し、また、上記した第2の音声レベルが第2の閾値以下になったかを判定する。
ミュート解除判定部35は、音声レベル判定部35Aが第1の音声レベルが第1の閾値以上になったと判定した場合に、通信端末30のユーザが発話を意図する発声をしたと判定する。また、ミュート解除判定部35は、音声レベル判定部35Aが第2の音声レベルが第2の閾値以下になったと判定した場合に、通信端末31及び32のユーザが発話を意図する発声をしていないと判定する。
キーワード判定部35Bは、音声認識サーバ33から送信されるテキストデータが示す文字列とキーワードDB36に保存されているキーワードとを比較し、当該文字列に所定のキーワードが含まれているか否かを判定する判定部である。具体的には、キーワード判定部35Bは、上記したテキストデータが示す文字列に発話の意図を有するワードが含まれているか否かを判定する。
ミュート解除判定部35は、キーワード判定部35Bが上記したテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定した場合に通信端末30のユーザが発話を意図する発声をしていると判定する。
キーワードDB36は、上記した発話の意図を有するワードを複数保持しているデータベースである。なお、キーワードDB36は、外部ハードディスク等の外部記憶装置に記憶されていてもよく、制御部34は、当該外部記憶装置を介して上記したキーワードを取得してもよい。
ここで、図7を用いて上記したキーワードDB36が保持しているキーワードについて説明する。
図7は、キーワードDB36が保持しているキーワードの一例を示すキーワードTB1を示す図である。キーワードTB1において、「キーワードの種類」は、キーワードTB1に保存されているワードがどのようなシチュエーションで用いられる言葉であるかを示すものである。また、キーワードTB1において、「キーワードの例」は、上記したキーワードの種類の各々に対応する言葉の一例を示したものである。
キーワードTB1において、「挨拶を示す言葉」とは、例えば、「おはようございます」や「よろしくおねがいします」などの、主に会議の開始時において多く用いられる言葉である。
また、キーワードTB1において、「自身から話しかける際に用いる言葉」とは、例えば、「ちょっとすみません」や「よろしいでしょうか」などの、主に自身が話に割って入る際や自身から話を切り出す際に多く用いられる言葉である。
また、キーワードTB1において、「他者から話を振られた際に用いる言葉」とは、例えば、「それは」や「わかりました」などの、他者から説明を求められた際や他者の意見に同意する際に多く用いられる言葉である。
再び図6を参照する。制御部34は、ミュート解除判定部35が第2の音声レベルに基づいて通信端末31及び32のユーザが発話を意図する発声をしていないと判定すると、音声レベルが第1の閾値以上になっている音声を一定時間(例えば最初の2~3秒程度)抽出し、当該音声を音声データに変換して音声認識サーバ33に送信する。
本実施例において、ミュート解除判定部35は、上記したように、キーワード判定部35Bが上記したテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定した場合に、通信端末30のユーザが発話を意図する発声をしていると判定する。
制御部34は、ミュート解除判定部35が通信端末30のユーザが発話を意図する発声をしていると判定した場合に、実施例1と同様に、スピーカ18から通信端末30がミュート状態であることを通知する通知音を出力させる。なお、制御部34は、実施例1と同様に、スピーカ18から通知音を出力させると共に通信端末30のミュート状態を解除してもよい。
図8は、音声認識サーバ33の構成を示すブロック図である。制御部37は、CPUやROM、RAMを含む処理装置である。制御部37は、音声認識サーバ33の各部への指示及び制御を行う部分である。
制御部37のうちの音声認識部38は、通信端末30から送信される音声データを音声認識する部分である。具体的には、音声認識部38は、上記したように、通信端末30から送信される音声データを音声変換によって文字列からなるテキストデータに変換する。
音声認識部38は、例えば、通信端末30から送信される音声データから音の周波数や強弱等の特徴量を抽出し(音響分析)、音響分析によって抽出した特徴量を予め学習している音や単語の情報に照らし合わせて声の最小単位である音素を抽出し(音響モデル)、情報データベースの中から音の組み合わせを抽出して単語として認識し(発音辞書)、音響モデルで抽出した音素及び発音辞書で認識した単語を組み合わせ、意味のある文章として認識する(言語モデル)ことによって、音声を文字として認識することができる。
通信部39は、制御部37の指示に従って通信端末31及び32とデータの送受信を行う通信インターフェースである。通信部39は、例えば、ネットワークNWに接続するためのNICである。通信部39は、通信端末30から送信される音声データを受信する受信部であり得る。また、通信部39は、音声認識によって生成されたテキストデータを通信端末30に送信する送信部であり得る。
大容量記憶装置41は、例えば、ハードディスク装置、SSD(solid state drive)、フラッシュメモリ等により構成されており、オペレーティングシステムや、ソフトウェア等の各種プログラムを記憶している。本実施例において、大容量記憶装置41は、上記した音声認識のための音響モデルや発音辞書における音や単語の情報などを保持している。
以下に、本実施例における通信端末30及び音声認識サーバ33の各々の具体的な動作の一例をフローチャートを用いて説明する。
図9は、通信端末30の制御部34において実行される通知音出力ルーチンRT2を示すフローチャートである。図9において、実施例1に係る通信端末10の制御部15において実行される通知音出力ルーチンRT1と異なる点のみ説明する。
制御部34は、ステップS103において、ミュート解除判定部25が第2の音声レベルが第2の閾値以下になったと判定すると(ステップS103:YES)、第1の音声レベルが第1の閾値以上となった音声の最初の2~3秒程度を抽出し、音声データに変換して音声認識サーバ33に送信する(ステップS201)。
制御部34は、ステップS201の後に、音声認識サーバ33からテキストデータを受信したか否かを判定する(ステップS202)。制御部34は、音声認識サーバ33からテキストデータを受信していないと判定すると(ステップS202:NO)、ステップS202を繰り返し実行する。
制御部34は、音声認識サーバ33からテキストデータを受信したと判定すると(ステップS202:YES)、キーワード判定部35Bを介して当該テキストデータにキーワードDB36に保存されているキーワードが含まれているか否かを判定する(ステップS203)。すなわち、キーワード判定部35Bは、自端末のマイク17に入力された音声が発話の意図を有するワードであるか否かを判定する。
制御部34は、キーワード判定部35Bがテキストデータに発話の意図を有するワードが含まれていると判定すると(ステップS203:YES)、すなわちミュート解除判定部35が通信端末30のユーザが発話を意図する発声をしていると判定した場合に、スピーカ18から通信端末10がミュート状態であることを通知する通知音を出力させる(ステップS204)。
制御部34は、キーワード判定部35Bがテキストデータにキーワードが含まれていないと判定すると(ステップS203:NO)、通知音出力ルーチンRT2を終了する。制御部34は、ステップS204の後に通知音出力ルーチンRT2を終了する。
図10は、音声認識サーバ33の制御部37において実行される音声認識ルーチンRT3を示すフローチャートである。制御部37は、例えば、ネットワークNWを介して音声認識サーバ33と通信端末30との間で接続が確立されたことを開始トリガーとして、音声認識ルーチンRT3を開始する。
制御部37は、通信端末30から音声データを受信したか否かを判定する(ステップS301)。制御部37は、通信端末30から音声データを受信したと判定すると(ステップS301:YES)、当該音声データが示す音声を音声認識部38を介してテキストデータに変換する(ステップS302)。
制御部37は、通信端末30から音声データを受信していないと判定すると(ステップS301:NO)、音声認識ルーチンRT3を終了する。
制御部37は、ステップS302の後に、音声認識部38を介して変換されたテキストデータを通信端末30に送信する(ステップS303)。ステップS303の後に、音声認識ルーチンRT3を終了する。
上記したように、本実施例によれば、通信端末30がミュート状態である場合に、ミュート解除判定部35が第1の音声レベルが第1の閾値以上であると判定し、且つ第2の音声レベルが第2の閾値以下であると判定すると、制御部34は、第1の閾値以上の音声が示す音声データを音声認識サーバ33に送信する。
そして、制御部34は、音声認識サーバ33から送信されるテキストデータを参照し、キーワード判定部35Bがテキストデータが示す文字列に発話の意図を有するワードが含まれていると判定すると、スピーカ18から通信端末30がミュート状態である旨を通知する通知音を出力させる。
これにより、通信端末30のユーザは、自身が一定の音声レベルを有する音声を発した際に、通信端末11及び12のユーザが発言をしていないような状況において、通信端末30に入力された音声が発話の意図を有するワードである場合に通信端末30がミュート状態であることを知ることができる。
また、制御部34によってスピーカ18から通知音を出力させると共に通信端末30のミュート状態を解除する態様とした場合には、通信端末30のユーザは、通信端末30のミュート状態を解除する操作をすることなく発話をすることができる。
従って、本実施例によれば、実施例1と同様に、単に自身の音声が捉えられたことをしてミュート状態が解除されることや、会議中に他の会議参加者が発言している際にミュート状態が解除されることが発生しないため、ユーザの意図に沿った態様でミュート解除に関する動作を行うことができる。
本実施例において、通信端末30のミュート状態を解除するための機能(ミュート解除機能)の一翼を担う音声認識サーバ33は、会議サーバ14と別個に存在している。言い換えれば、会議サーバ14が変わった場合であっても、その度に音声認識サーバ33を変更する必要がない。
そのため、例えば、会議毎に異なるプロトコルで構築される会議システムを用いる場合であっても、上記したミュート解除機能を発揮させるために異なる処理、例えば会議毎に異なるプロトコルに準じた音声データを生成する等の処理を行う必要が無い。従って、音声認識サーバ33を会議サーバ14と別個に設けることで、上記ミュート解除機能、及び当該機能を搭載したアプリケーションの汎用性を高めることが可能となる。
例えば、上記したミュート解除機能は、ZOOM(登録商標)、Skype(登録商標)、Teams(登録商標)、BlueJeans(登録商標)、Webex(登録商標)等の様々な会議アプリケーションにアドオンとして追加され、各会議アプリケーションで行われる会議の音声データを音声認識サーバ33に送信することで、上記ミュート解除機能を実現可能である。
なお、制御部34は、通知音出力ルーチンRT2において、音声レベル判定部35Aが第2の音声レベルが第2の閾値以下となっていると判定した場合に(ステップS103:YES)、第1の閾値以上の音声レベルを有する音声を音声データとして音声認識サーバ33に送信する(ステップS201)としたが、当該ステップS103は実行されなくてもよい。
すなわち、制御部34は、第1の音声レベルが第1の閾値以上となり、且つ第1の閾値以上の音声レベルを有する音声に発話の意図を有するワードが含まれている場合に、スピーカ18から通知音を出力させてもよい。これにより、制御部34は、自端末に入力された音声の態様のみに基づいて、通信端末30のミュート状態の通知や解除を行うことができる。
本実施例において、音声認識サーバ33は、通信端末30に代わってキーワード判定部35Bを有していてもよく、大容量記憶装置41がキーワードDB36を有していてもよい。例えば、音声認識サーバ33の制御部37は、通信端末30から送信された音声データを音声認識部38にてテキストデータに変換し、キーワード判定部35Bによって当該テキストデータが示す文字列に発話の意図を有するキーワードが含まれているか否かを判定してもよく、当該判定の結果を通信端末30に送信してもよい。
これにより、通信端末30の制御部34は、音声認識サーバ33から送信されるキーワード判定の結果に基づいて、上記した文字列に発話の意図を有するワードが含まれているという判定結果である場合に、スピーカ18からミュート状態の通知音を出力してもよい。
本実施例において、音声認識サーバ33は、通信端末30、31及び32の各々にそれぞれ組み込まれていてもよい。例えば、通信端末30がIP電話である場合には、音声認識サーバ33は、複数の電話機を接続する構内交換機(PBX)に組み込まれていてもよい。また、音声認識サーバ33は、会議サーバ14に組み込まれていてもよい。
実施例1及び実施例2おいて説明した通信端末、会議サーバ14及び音声認識サーバ33の各々の制御部における一連の処理は、コンピュータにより実行させるプログラムとしてもよい。また、当該プログラムは、コンピュータに読み取り可能な記録媒体に記録されていてもよい。
上記した記録媒体のタイプは、特に限定されず、例えば、光ディスク、ハードディスク、またはフラッシュメモリもしくはSSD等の半導体メモリであってもよい。また、上記プログラムは、通信を介して通信端末にダウンロードされインストールされてもよい。
上記した実施例1及び実施例2において示した制御ルーチンは例示に過ぎず、用途または使用条件等に応じて適宜選択及び変更可能である。
10、11、12、30、31、32 通信端末
14 会議サーバ
15、27、34、37 制御部
16 入力装置
17 マイク
18 スピーカ
19 カメラ
21 ディスプレイ
23、29、39 通信部
24 ミュート状態判定部
25、35 ミュート解除判定部
26 ミキシング部
33 音声認識サーバ
35A 音声レベル判定部
35B キーワード判定部
36 キーワードDB
38 音声変換部
41 大容量記憶装置

Claims (8)

  1. 他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末であって、
    前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成部と、
    前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定部と、
    前記ミュート状態である場合に、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定部と、を有することを特徴とする通信端末。
  2. 前記ミュート解除判定部は、前記第1の音声レベルが第1の閾値以上であり、且つ前記第2の音声レベルが第2の閾値以下である場合に前記ミュート状態を解除すべきであると判定することを特徴とする、請求項1に記載の通信端末。
  3. 前記ミュート解除判定部は、前記第1の音声データによって示される音声に所定のキーワードが含まれている場合に前記ミュート状態を解除すべきであると判定することを特徴とする、請求項1又は2に記載の通信端末。
  4. 前記所定のキーワードは、発話の意図を有するワードであることを特徴とする、請求項3に記載の通信端末。
  5. 前記ミュート解除判定部によって前記ミュート状態を解除すべきであるとの判定がなされると、通知音が出力されることを特徴とする、請求項1乃至4のいずれか1つに記載の通信端末。
  6. 前記ミュート解除判定部によって前記ミュート状態を解除すべきであるとの判定がなされると、前記音声送受信システムにおける前記ミュート状態を解除することを特徴とする、請求項1乃至5のいずれか1つに記載の通信端末。
  7. 他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末による判定方法であって、
    音声データ生成部が、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成ステップと、
    ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末が前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、
    前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を有することを特徴とする判定方法。
  8. 他の通信端末と共に互いに音声データの送受信をする音声送受信システムを構築可能な通信端末に、
    音声データ生成部が、前記通信端末に入力された入力音声から第1の音声データを生成する音声データ生成ステップと、
    ミュート状態判定部が、前記音声送受信システムにおいて前記通信端末から前記第1の音声データを送信しない状態であるミュート状態であるか否かを判定するミュート状態判定ステップと、
    前記ミュート状態判定部が前記ミュート状態であると判定した場合に、ミュート解除判定部が、前記入力音声の強度を示す第1の音声レベル及び前記他の通信端末から送信された第2の音声データによって示される音声の強度を示す第2の音声レベルに基づいて前記ミュート状態を解除すべきか否かを判定するミュート解除判定ステップと、を実行させるプログラム。
JP2021116986A 2021-07-15 2021-07-15 通信端末、判定方法及びプログラム Pending JP2023013073A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021116986A JP2023013073A (ja) 2021-07-15 2021-07-15 通信端末、判定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021116986A JP2023013073A (ja) 2021-07-15 2021-07-15 通信端末、判定方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023013073A true JP2023013073A (ja) 2023-01-26

Family

ID=85129350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021116986A Pending JP2023013073A (ja) 2021-07-15 2021-07-15 通信端末、判定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2023013073A (ja)

Similar Documents

Publication Publication Date Title
US9672812B1 (en) Qualifying trigger expressions in speech-based systems
JP6791356B2 (ja) 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
CN105513596B (zh) 一种语音控制方法和控制设备
JP4364251B2 (ja) 対話を検出する装置、方法およびプログラム
US9666209B2 (en) Prevention of unintended distribution of audio information
CN105210355B (zh) 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
CN112071328B (zh) 音频降噪
US9792901B1 (en) Multiple-source speech dialog input
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
CN103973877A (zh) 一种在移动终端中利用文字实现实时通话的方法和装置
JPWO2010113438A1 (ja) 音声認識処理システム、および音声認識処理方法
JP6548045B2 (ja) 会議システム、会議システム制御方法、およびプログラム
JP4852584B2 (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
US11810585B2 (en) Systems and methods for filtering unwanted sounds from a conference call using voice synthesis
KR20200025226A (ko) 전자 장치 및 그 제어 방법
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
JP2018174439A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
JP2010078763A (ja) 音声処理装置、音声処理プログラム、およびインターホンシステム
JP5251588B2 (ja) 携帯電話端末装置及び通話伝達の判断方法
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
US20240029753A1 (en) Systems and methods for filtering unwanted sounds from a conference call
JP2023013073A (ja) 通信端末、判定方法及びプログラム
US8775163B1 (en) Selectable silent mode for real-time audio communication system
Principi et al. A speech-based system for in-home emergency detection and remote assistance