以下に、本発明の実施の形態について図面を参照して説明する。
[第1実施の形態]
図1は、本発明の第1実施の形態に係るインターカムシステムの概略構成図である。
図示するように、本実施の形態に係るインターカムシステムは、WAN、LAN等のネットワーク3に接続されたインターカムサーバ1と、無線アクセスポイント(無線AP)4を介してネットワーク3に接続された複数台のインターカム端末2-1~2-3(以下、単にインターカム端末2とも呼ぶ)と、を備えて構成される。
インターカムサーバ1は、インターカム端末2より受信したテキストデータを、このテキストデータの送信元であるインターカム端末2以外のすべてのインターカム端末2に一斉送信する。インターカム端末2は、PTT(Push To Talk)ボタンのオン・オフで送話モードと受話モードとを切り替えることができる。そして、送話モードの場合、操作者の入力音声に音声認識処理を実施することにより得られるテキストデータをインターカムサーバ1に送信する。また、受話モードの場合、インターカムサーバ1より受信したテキストデータを受信順に音声変換して出力する。
図2は、本発明の第1実施の形態に係るインターカムシステムの動作例を説明するためのシーケンス図である。
インターカム端末2-1~2-3の動作モードは、デフォルトで受話モード(PTTボタンがオフ)に設定されているものとする(S100)。
まず、インターカム端末2-1の操作者(以下、操作者Aとする)により、インターカム端末2-1のPTTボタンがオンにされたものとする(S101)。これを受けて、インターカム端末2-1は、自身の動作モードを送話モードに切り替える(S102)。そして、操作者Aの発話により入力された音声に対する音声認識処理を開始して、操作者Aの発話内容をテキストデータに変換する(S103)。
その後、操作者Aにより、インターカム端末2-1のPTTボタンがオフにされると(S104)、インターカム端末2-1は、自身の動作モードを送話モードから受話モードに切り替える(S105)。そして、音声認識処理を終了し(S106)、それまでに変換された操作者Aの発話内容のテキストデータを表示するとともに(S107)、このテキストデータをインターカムサーバ1に送信する(S108)。
ここで、インターカム端末2-1の動作モードが送話モードの間に(S102~S105)、インターカム端末2-2の操作者(以下、操作者Bとする)によりインターカム端末2-2のPTTボタンがオンにされたものとする(S109)。これを受けて、インターカム端末2-2は、自身の動作モードを送話モードに切り替える(S110)。そして、操作者Bの発話により入力された音声に対する音声認識処理を開始して、操作者Bの発話内容をテキストデータに変換する(S111)。
その後、操作者Bによりインターカム端末2-2のPTTボタンがオフにされると(S112)、インターカム端末2-2は、自身の動作モードを送話モードから受話モードに切り替える(S113)。そして、音声認識処理を終了し(S114)、それまでに変換された操作者Bの発話内容のテキストデータを表示するとともに(S115)、このテキストデータをインターカムサーバ1に送信する(S116)。
インターカムサーバ1は、インターカム端末2-1より操作者Aの発話内容のテキストデータを受信すると、インターカム端末2-1以外のすべてのインターカム端末2-2、2-3に、このテキストデータを一斉送信する(S117)。同様に、インターカム端末2-2より操作者Bの発話内容のテキストデータを受信すると、インターカム端末2-2以外のすべてのインターカム端末2-1、2-3に、このテキストデータを一斉送信する(S118)。
インターカム端末2-3は、動作モードが受話モードであるため、インターカムサーバ1より操作者Aの発話内容のテキストデータおよび操作者Bの発話内容のテキストデータを順番に受信すると、操作者Aの発話内容のテキストデータおよび操作者Bの発話内容のテキストデータをその受信順に表示する(S119)。また、操作者Aの発話内容のテキストデータおよび操作者Bの発話内容のテキストデータをその受信順に音声変換して音声出力(音声読上げ)する(S120)。なお、インターカム端末2-3の動作モードが送話モードである場合、テキストデータの表示(S119)のみを行い、テキストデータの音声読上げ(S120)は行わない。
また、インターカム端末2-1は、動作モードが送話モードから受話モードに切り替わっているため、インターカムサーバ1より操作者Bの発話内容のテキストデータを受信すると、この操作者Bの発話内容のテキストデータを表示する(S121)。また、操作者Bの発話内容のテキストデータを音声変換して音声出力(音声読上げ)する(S122)。なお、インターカム端末2-1の動作モードが送話モードである場合、テキストデータの表示(S121)のみを行い、テキストデータの音声読上げ(S122)は行わない。
同様に、インターカム端末2-2は、動作モードが送話モードから受話モードに切り替わっているため、インターカムサーバ1より操作者Aの発話内容のテキストデータを受信すると、この操作者Aの発話内容のテキストデータを表示する(S123)。また、操作者Aの発話内容のテキストデータを音声変換して音声出力(音声読上げ)する(S124)。なお、インターカム端末2-2の動作モードが送話モードである場合、テキストデータの表示(S123)のみを行い、テキストデータの音声読上げ(S124)は行わない。
つぎに、本実施の形態に係るインターカムシステムを構成するインターカムサーバ1およびインターカム端末2の詳細を説明する。
まず、インターカムサーバ1の詳細を説明する。
図3は、インターカムサーバ1の概略機能構成図である。
図示するように、インターカムサーバ1は、ネットワークインターフェース部10と、端末情報記憶部11と、中継処理部12と、を備えている。
ネットワークインターフェース部10は、ネットワーク3に接続するためのインターフェースである。
端末情報記憶部11には、すべてのインターカム端末2のアドレス情報を含む端末情報が記憶されている。
中継処理部12は、インターカムによるインターカム端末2間の通話を中継する。
図4は、インターカムサーバ1の動作を説明するためのフロー図である。
中継処理部12は、ネットワークインターフェース部10を介してインターカム端末2からテキストデータを受信すると(S230でYES)、端末情報記憶部11を参照し、テキストデータの送信元のインターカム端末2を除くすべてのインターカム端末2に、このテキストデータを一斉送信する(S231)。
つぎに、インターカム端末2の詳細を説明する。
図5は、インターカム端末2の概略機能構成図である。
図示するように、インターカム端末2は、無線インターフェース部20と、マンマシンインターフェース部21と、モード切替部22と、音声認識部23と、送信部24と、受信部25と、音声合成部26と、テキスト表示部27と、を備えている。
無線インターフェース部20は、無線アクセスポイント4を介してネットワーク3に接続するためのインターフェースである。
マンマシンインターフェース部21は、ユーザがインターカムシステムを利用するためのインターフェースであり、PTTボタンを含む入力装置と、液晶ディスプレイ等の表示装置と、送受話器としてのマイクおよびスピーカと、を有している。
モード切替部22は、マンマシンインターフェース部21のPTTボタンのオン・オフにより、音声認識部23および音声合成部26の動作モードを送話モードおよび受話モードのいずれかに切り替える。具体的には、PTTボタンがオンのときに送話モードに切り替え、PTTボタンがオフのときに受話モードに切り替える。
音声認識部23は、モード切替部22により切替え設定された動作モードが送話モードの場合に、マンマシンインターフェース部21のマイクの入力音声に音声認識処理を実施して、操作者の発話内容をテキストデータに変換する。
送信部24は、音声認識部23により変換されたテキストデータを、無線インターフェース部20を介してインターカムサーバ1に送信する。
受信部25は、無線インターフェース部20を介してインターカムサーバ1からテキストデータを受信する。
音声合成部26は、モード切替部22により切替え設定された動作モードが受話モードの場合に、受信部25により受信されたテキストデータを音声変換して、マンマシンインターフェース部21のスピーカから音声出力(音声読上げ)する。
テキスト表示部27は、音声認識部23により変換されたテキストデータおよび受信部25により受信されたテキストデータを表示する。
図6は、インターカム端末2の動作を説明するためのフロー図である。
なお、インターカム端末2のマンマシンインターフェース部21のPTTボタンはデフォルトでオフ状態であり、これによりインターカム端末2の動作モードが受話モードに設定されているものとする。
マンマシンインターフェース部21のPTTボタンがオフのまま(S300でNO)、つまり受話モードにおいて、受信部25は、無線インターフェース部20を介してインターカムサーバ1からテキストデータを受信すると(S301でYES)、このテキストデータをテキスト表示部27および音声合成部26に渡す。これを受けて、テキスト表示部27は、このテキストデータをマンマシンインターフェース部21の表示装置に表示する(S302)。また、音声合成部26は、動作モードが受話モードであるので、このテキストデータを音声変換してマンマシンインターフェース部21のスピーカから音声出力(音声読上げ)する(S303)。
一方、マンマシンインターフェース部21のPTTボタンがオンになると(S300でYES)、モード切替部22は、動作モードを受話モードから送話モードに切り替える(S304)。これにより、音声認識部23は、マンマシンインターフェース部21のマイクの入力音声に対する音声認識処理を開始する(S305)。
ここで、マンマシンインターフェース部21のPTTボタンがオンのまま(S306でNO)、つまり送話モードにおいて、受信部25は、無線インターフェース部20を介してインターカムサーバ1からテキストデータを受信すると(S307でYES)、このテキストデータをテキスト表示部27および音声合成部26に渡す。これを受けて、テキスト表示部27は、このテキストデータをマンマシンインターフェース部21の表示装置に表示する(S308)。しかし、音声合成部26は、動作モードが送話モードであるので、このテキストデータの音声読上げを実施しない。
一方、マンマシンインターフェース部21のPTTボタンがオフになると(S306でYES)、モード切替部22は、動作モードを送話モードから受話モードに切り替える(S309)。これにより、音声認識部23は、マンマシンインターフェース部21のマイクの入力音声に対する音声認識処理を終了し、それまでに変換された操作者の発話内容のテキストデータをテキスト表示部27および送信部24に渡す(S310)。これを受けて、テキスト表示部27は、このテキストデータをマンマシンインターフェース部21の表示装置に表示する(S311)。また、送信部24は、無線インターフェース部20を介してインターカムサーバ1に、このテキストデータを送信する(S312)。その後、S300に戻る。
以上、本発明の第1実施の形態について説明した。
本実施の形態において、送話側のインターカム端末2に入力された音声は、送話単位でテキストデータに変換され、受話側のインターカム端末2に伝送される。そして、受話側のインターカム端末2において、受信されたテキストデータは、順番に音声変換されて出力(音声読上げ)される。このため、複数の発話者の発言が重なった場合でも、これらの発言が個別に受話側に伝わって順番に出力されるので、受話側において誰がどの発言をしたのかを判別し易い。したがって、本実施によれば、インターカムシステムにおいて、多人数による良好なコミュニケーションを実現することができる。
また、本実施の形態において、インターカム端末2は、送話モード中にインターカムサーバ1からテキストデータを受信した場合、このテキストデータの音声読上げを実施せずに、このテキストデータの表示のみを実施する。このため、送話モード中においても、他の発話者の発言を確認することができ、インターカムシステムの使い勝手を向上させることができる。
なお、本実施の形態では、インターカム端末2に音声認識部23を搭載し、マンマシンインターフェース部21に入力された音声に音声認識処理を実施して、操作者の発話内容をテキストデータに変換している。しかし、本発明はこれに限定されない。インターカム端末2が音声認識処理を外部の音声認識サーバに依頼してもよい。この場合、インターカム端末2は、動作モードが送話モードから受話モードに切り替わると、送話モード中にマンマシンインターフェース部21に入力された音声データを音声認識サーバに送信して、この音声データに対する音声認識処理を音声認識サーバに依頼する。そして、音声認識サーバから操作者の発話内容のテキストデータを取得する。
また、本実施の形態では、送話側のインターカム端末2において音声認識処理を実施して、操作者の発話内容をテキストデータに変換している。しかし、本発明はこれに限定されない。音声認識処理をインターカムサーバ1で実施してもよい。すなわち、インターカムサーバ1は、送話側のインターカム端末2から受信した音声データに音声認識処理を実施して、この音声データをテキストデータに変換し、このテキストデータを音声データ送信元のインターカム端末2以外のすべてのインターカム端末2に一斉送信する。ここで、インターカムサーバ1は、自身で音声認識処理を実施するのではなく、外部の音声認識サーバに音声認識処理を依頼してもよい。この場合、インターカムサーバ1は、送話側のインターカム端末2から受信した音声データを音声認識サーバに送信して、この音声データに対する音声認識処理を音声認識サーバに依頼する。そして、音声認識サーバからテキストデータを取得する。
[第2実施の形態]
本発明の第2実施の形態に係るインターカムシステムが、図1に示す本発明の第1実施の形態に係るインターカムシステムと異なる点は、インターカムサーバ1に代えてインターカムサーバ1Aを用いたこと、およびインターカム端末2-1~2-3に代えてインターカム端末2A-1~2A-3(以下、単にインターカム端末2Aとも呼ぶ)を用いたことである。
インターカムサーバ1Aは、インターカム端末2Aより受信した録音データおよびテキストデータを、これらのデータの送信元であるインターカム端末2A以外のすべてのインターカム端末2Aに一斉送信する。インターカム端末2Aは、PTTボタンのオン・オフで送話モードと受話モードとを切り替えることができる。そして、動作モードが送話モードの場合、操作者の入力音声を録音することにより得られる録音データおよびこの入力音声に音声認識処理を施すことにより得られるテキストデータをインターカムサーバ1Aに送信する。また、動作モードが受話モードの場合、インターカムサーバ1Aより受信した録音データを受信順に再生して出力するとともに、録音データとともに受信したテキストデータを受信順に表示する。
図7は、本発明の第2実施の形態に係るインターカムシステムの動作例を説明するためのシーケンス図である。
インターカム端末2A-1~2A-3の動作モードは、デフォルトで受話モード(PTTボタンがオフ)に設定されているものとする(S130)。
まず、インターカム端末2A-1の操作者(以下、操作者Cとする)によりインターカム端末2A-1のPTTボタンがオンにされたものとする(S131)。これを受けて、インターカム端末2A-1は、自身の動作モードを送話モードに切り替える(S132)。そして、操作者Cの発話により入力された音声の録音を開始するとともに、この入力音声に対する音声認識処理を開始して、操作者Cの発話内容をテキストデータに変換する(S133)。
その後、操作者Cによりインターカム端末2A-1のPTTボタンがオフにされると(S134)、インターカム端末2A-1は、自身の動作モードを受話モードに切り替える(S135)。そして、録音および音声認識処理を終了し(S136)、それまでに変換された操作者Cの発話内容のテキストデータを表示するとともに(S137)、それまでに録音された操作者Cの発話内容の録音データを、このテキストデータとともにインターカムサーバ1Aに送信する(S138)。
ここで、インターカム端末2A-1の動作モードが送話モードの間に(S132~S135)、インターカム端末2A-2の操作者(以下、操作者Dとする)によりインターカム端末2A-2のPTTボタンがオンにされたものとする(S139)。これを受けて、インターカム端末2A-2は、自身の動作モードを送話モードに切り替える(S140)。そして、操作者Dの発話により入力された音声の録音を開始するとともに、この入力音声に対する音声認識処理を開始して、操作者Dの発話内容をテキストデータに変換する(S141)。
その後、操作者Dによりインターカム端末2A-2のPTTボタンがオフにされると(S142)、インターカム端末2A-2は、自身の動作モードを受話モードに切り替える(S143)。そして、録音および音声認識処理を終了し(S144)、それまでに変換された操作者Dの発話内容のテキストデータを表示するとともに(S145)、それまでに録音された操作者Dの発話内容の録音データを、このテキストデータとともにインターカムサーバ1Aに送信する(S146)。
インターカムサーバ1Aは、インターカム端末2A-1より操作者Cの発話内容の録音データおよびテキストデータを受信すると、この録音データおよびテキストデータを、インターカム端末2A-1以外のすべてのインターカム端末2A-2、2A-3に一斉送信する(S147)。同様に、インターカム端末2A-2より操作者Dの発話内容の録音データおよびテキストデータを受信すると、この録音データおよびテキストデータを、インターカム端末2A-2以外のすべてのインターカム端末2A-1、2A-3に一斉送信する(S148)。
インターカム端末2A-3は、動作モードが受話モードであるため、インターカムサーバ1Aより操作者Cの発話内容の録音データおよびテキストデータと、操作者Dの発話内容の録音データおよびテキストデータと、を順番に受信すると、操作者Cの発話内容のテキストデータおよび操作者Dの発話内容のテキストデータをその受信順に表示する(S149)。また、操作者Cの発話内容の録音データおよび操作者Dの発話内容の録音データをその受信順に再生して音声出力する(S150)。なお、インターカム端末2A-3の動作モードが送話モードである場合、テキストデータの表示(S149)のみを行い、録音データの再生出力(S150)は行わない。
また、インターカム端末2A-1は、動作モードが送話モードから受話モードに切り替わっているため、インターカムサーバ1Aより操作者Dの発話内容の録音データおよびテキストデータを受信すると、このテキストデータを表示する(S151)。また、操作者Dの発話内容の録音データを再生して音声出力する(S152)。なお、インターカム端末2A-1の動作モードが送話モードである場合、テキストデータの表示(S151)のみを行い、録音データの再生出力(S152)は行わない。
同様に、インターカム端末2A-2は、動作モードが送話モードから受話モードに切り替わっているため、インターカムサーバ1Aより操作者Cの発話内容の録音データおよびテキストデータを受信すると、この操作者Cの発話内容のテキストデータを表示する(S153)。また、操作者Cの発話内容の録音データを再生して音声出力する(S154)。なお、インターカム端末2A-2の動作モードが送話モードである場合、テキストデータの表示(S153)のみを行い、録音データの再生出力(S154)は行わない。
つぎに、本実施の形態に係るインターカムシステムを構成するインターカム端末2Aの詳細を説明する。
なお、本実施の形態に用いるインターカムサーバ1Aは、テキストデータとともに録音データを中継する点を除き、図3に示す上記第1実施の形態に用いるインターカムサーバ1と同様であるので、その詳細な説明を省略する。
図8は、インターカム端末2Aの概略機能構成図である。
図示するように、本実施の形態に用いるインターカム端末2Aが図5に示す上記第1実施の形態に用いるインターカム端末2と異なる点は、音声合成部26に代えて録音再生部29を設けたこと、および録音部28を追加したことである。その他の構成は、図5に示す上記第1実施の形態に用いるインターカム端末2と同様である。
録音部28は、モード切替部22により切り替え設定された動作モードが送話モードの場合に、マンマシンインターフェース部21のマイクに入力された操作者の発話を録音する。
録音再生部29は、モード切替部22により切り替え設定された動作モードが受話モードの場合に、受信部25により受信された録音データを再生して、マンマシンインターフェース部21のスピーカから音声出力(録音再生)する。
図9は、インターカム端末2Aの動作を説明するためのフロー図である。
なお、インターカム端末2Aのマンマシンインターフェース部21のPTTボタンはデフォルトでオフ状態であり、これによりインターカム端末2Aの動作モードは受話モードに設定されているものとする。
マンマシンインターフェース部21のPTTボタンがオフのまま(S320でNO)、つまり受話モードにおいて、受信部25は、無線インターフェース部20を介してインターカムサーバ1Aから録音データをテキストデータとともに受信すると(S321でYES)、録音データを録音再生部29に渡すとともに、テキストデータをテキスト表示部27に渡す。これを受けて、テキスト表示部27は、このテキストデータをマンマシンインターフェース部21の表示装置に表示する(S322)。また、録音再生部29は、動作モードが受話モードであるので、この録音データを再生して、マンマシンインターフェース部21のスピーカから音声出力(録音再生)する(S323)。
一方、マンマシンインターフェース部21のPTTボタンがオンになると(S320でYES)、モード切替部22は、動作モードを受話モードから送話モードに切り替える(S324)。これにより、録音部28は、マンマシンインターフェース部21のマイクの入力音声の録音を開始するとともに、音声認識部23は、この入力音声に対する音声認識処理を開始する(S325)。
ここで、マンマシンインターフェース部21のPTTボタンがオンのまま(S326でNO)、つまり送話モードにおいて、受信部25は、無線インターフェース部20を介してインターカムサーバ1から録音データをテキストデータとともに受信すると(S327でYES)、録音データを録音再生部29に渡すとともに、テキストデータをテキスト表示部27に渡す。これを受けて、テキスト表示部27は、このテキストデータをマンマシンインターフェース部21の表示装置に表示する(S328)。しかし、録音再生部29は、動作モードが送話モードであるので、この録音データの録音再生を実施しない。
一方、マンマシンインターフェース部21のPTTボタンがオフになると(S326でYES)、モード切替部22は、動作モードを送話モードから受話モードに切り替える(S329)。これにより、録音部28は、マンマシンインターフェース部21のマイクの入力音声の録音を終了し、それまでに録音された操作者の発話内容の録音データを送信部24に渡すとともに、音声認識部23は、この入力音声に対する音声認識処理を終了し、それまでに変換された操作者の発話内容のテキストデータをテキスト表示部27および送信部24に渡す(S330)。これを受けて、テキスト表示部27は、このテキストデータをマンマシンインターフェース部21の表示装置に表示する(S331)。また、送信部24は、この録音データを、このテキストデータとともに無線インターフェース部20を介してインターカムサーバ1Aに送信する(S332)。その後、S320に戻る。
以上、本発明の第2実施の形態について説明した。
本実施の形態によれば、上記第1実施の形態が有する効果に加えて、つぎの効果を有する。すなわち、受話側のインターカム端末2Aにおいて、送話側のインターカム端末2Aの操作者の発話内容の録音データが再生される。発話者によって声色が異なるため、送話側のインターカム端末2Aの操作者は、それぞれの発話者の発話内容を再生音から聴覚により識別可能である。このため、上記第1実施の形態に比べて、発話者の認識がさらに容易になる。
なお、本実施の形態においても、上記第1実施の形態に用いるインターカム端末2と同様に、インターカム端末2Aに音声認識部23を搭載する代わりに、インターカム端末2Aが音声認識処理を外部の音声認識サーバに依頼してもよい。
また、本実施の形態では、送話側のインターカム端末2Aにおいて録音処理および音声認識処理を実施して、操作者の発話内容を録音するとともにテキストデータに変換している。しかし、本発明はこれに限定されない。録音処理および音声認識処理をインターカムサーバ1Aで実施してもよい。すなわち、インターカムサーバ1Aは、送話側のインターカム端末2Aから受信した音声データを録音するとともに、この音声データに音声認識処理を実施して、この音声データをテキストデータに変換する。そして、録音データを、テキストデータとともに音声データ送信元のインターカム端末2A以外のすべてのインターカム端末2Aに一斉送信する。ここで、上記第1実施の形態に用いるインターカムサーバ1と同様に、インターカムサーバ1Aは、自身で音声認識処理を実施するのではなく、外部の音声認識サーバに音声認識処理を依頼してもよい。
また、本実施の形態では、送話側のインターカム端末2Aからインターカムサーバ1Aを介して受話側のインターカム端末2Aにテキストデータを録音データとともに送信しているが、録音データのみを送信してテキストデータの送信を省略してもかまわない。この場合、送話側のインターカム端末2Aにおける音声認識処理は不要である。また、この場合、受話側のインターカム端末2Aにおいて、インターカムサーバ1Aから受信した録音データに受信順に音声認識処理を実施してテキストデータに変換し、このテキストデータをマンマシンインターフェース部21に表示することが好ましい。ここで、受話側のインターカム端末2Aは、自身で音声認識処理を実施するのではなく、外部の音声認識サーバに音声認識処理を依頼してもよい。
[第3実施の形態]
図10は、本発明の第3実施の形態に係るインターカムシステムの概略構成図である。
図示するように、本実施の形態に係るインターカムシステムは、無線アクセスポイント(無線AP)4を介してWAN、LAN等のネットワーク3に接続された複数台のインターカム端末2B-1~2B-3(以下、単にインターカム端末2Bとも呼ぶ)を備えて構成される。
インターカム端末2Bは、PTTボタンのオン・オフで送話モードと受話モードとを切り替えることができる。そして、動作モードが送話モードの場合、操作者の入力音声に音声認識処理を施すことにより得られるテキストデータを自インターカム端末2B以外のすべてのインターカム端末2Bに送信する。また、動作モードが受話モードの場合、他のインターカム端末2Bより受信したテキストデータを受信順に音声変換して出力する。
図11は、本発明の第3実施の形態に係るインターカムシステムの動作例を説明するためのシーケンス図である。
インターカム端末2B-1~2B-3の動作モードは、デフォルトで受話モード(PTTボタンがオフ)に設定されているものとする(S160)。
まず、インターカム端末2B-1の操作者(以下、操作者Eとする)によりインターカム端末2B-1のPTTボタンがオンにされたものとする(S161)。これを受けて、インターカム端末2B-1は、動作モードを送話モードに切り替える(S162)。そして、操作者Eの発話により入力された音声に対する音声認識処理を開始して、操作者Eの発話内容をテキストデータに変換する(S163)。
その後、操作者Eにより、インターカム端末2B-1のPTTボタンがオフにされると(S164)、インターカム端末2B-1は、動作モードを送話モードから受話モードに切り替える(S165)。それから、音声認識処理を終了し(S166)、それまでに変換された操作者Eの発話内容のテキストデータを表示するとともに(S167)、このテキストデータを自インターカム端末2B-1以外のすべてのインターカム端末2B-2、2B-3に一斉送信する(S168)。
ここで、インターカム端末2B-1の動作モードが送話モードの間に(S162~S165)、インターカム端末2B-2の操作者(以下、操作者Fとする)によりインターカム端末2B-2のPTTボタンがオンにされたものとする(S169)。これを受けて、インターカム端末2B-2は、動作モードを送話モードに切り替える(S170)。そして、操作者Fの発話により入力された音声に対する音声認識処理を開始して、操作者Fの発話内容をテキストデータに変換する(S171)。
その後、操作者Fによりインターカム端末2B-2のPTTボタンがオフにされると(S172)、インターカム端末2B-2は、動作モードを送話モードから受話モードに切り替える(S173)。それから、音声認識処理を終了し(S174)、それまでに変換された操作者Fの発話内容のテキストデータを表示するとともに(S175)、このテキストデータを自インターカム端末2B-2以外のすべてのインターカム端末2B-1、2B-3に一斉送信する(S176)。
インターカム端末2B-3は、動作モードが受話モードであるため、インターカム端末2B-1およびインターカム端末2B-2から操作者Eの発話内容のテキストデータおよび操作者Fの発話内容のテキストデータを順番に受信すると、操作者Eの発話内容のテキストデータおよび操作者Fの発話内容のテキストデータをその受信順に表示する(S177)。また、操作者Eの発話内容のテキストデータおよび操作者Fの発話内容のテキストデータをその受信順に音声変換して音声出力(音声読上げ)する(S178)。なお、インターカム端末2B-3の動作モードが送話モードである場合、テキストデータの表示(S177)のみを行い、テキストデータの音声読上げ(S178)は行わない。
また、インターカム端末2B-1は、動作モードが送話モードから受話モードに切り替わっているため、インターカム端末2B-2より操作者Fの発話内容のテキストデータを受信すると、このテキストデータを表示する(S179)。また、操作者Fの発話内容のテキストデータを音声変換して音声出力(音声読上げ)する(S180)。なお、インターカム端末2B-1の動作モードが送話モードである場合、テキストデータの表示(S179)のみを行い、テキストデータの音声読上げ(S180)は行わない。
同様に、インターカム端末2B-2は、動作モードが送話モードから受話モードに切り替わっているため、インターカム端末2B-1より操作者Eの発話内容のテキストデータを受信すると、このテキストデータを表示する(S181)。また、操作者Eの発話内容のテキストデータを音声変換して音声出力(音声読上げ)する(S182)。なお、インターカム端末2B-2の動作モードが送話モードである場合、テキストデータの表示(S181)のみを行い、テキストデータの音声読上げ(S182)は行わない。
つぎに、本実施の形態に係るインターカムシステムを構成するインターカム端末2Bの詳細を説明する。
図12は、インターカム端末2Bの概略機能構成図である。
図示するように、本実施の形態に用いるインターカム端末2Bが図5に示す上記第1実施の形態に用いるインターカム端末2と異なる点は、送信部24に代えて一斉送信部31を設けたこと、および端末情報記憶部30を追加したことである。その他の構成は、図5に示す上記第1実施の形態に用いるインターカム端末2と同様である。
端末情報記憶部30には、自インターカム端末2B以外の各インターカム端末2Bのアドレス情報を含む端末情報が少なくとも記憶されている。
一斉送信部31は、端末情報記憶部30を参照し、無線インターフェース部20を介して自インターカム端末2B以外の各インターカム端末2Bに、音声認識部23により変換されたテキストデータを一斉送信する。
インターカム端末2Bの動作は、図6に示す上記第1実施の形態に用いるインターカム端末2の動作と同様である。ただし、図6のS312において、一斉送信部31は、端末情報記憶部30を参照し、自インターカム端末2B以外の各インターカム端末2Bに、音声認識部23により変換されたテキストデータを無線インターフェース部20から一斉送信する。この点において、上記第1実施の形態に用いるインターカム端末2の動作と異なる。
以上、本発明の第3実施の形態について説明した。
本実施の形態によれば、上記第1の実施の形態が有する効果に加えて、つぎの効果を有する。すなわち、ネットワーク3上にインターカムサーバ1を設置する必要がないため、その分のコストを抑制することができる。
なお、本実施の形態においても、上記第1実施の形態に用いるインターカム端末2と同様に、インターカム端末2Bに音声認識部23を搭載する代わりに、インターカム端末2Bが音声認識処理を外部の音声認識サーバに依頼してもよい。
[第4実施の形態]
本発明の第4実施の形態に係るインターカムシステムが、図10に示す本発明の第3実施の形態に係るインターカムシステムと異なる点は、インターカム端末2B-1~2B-3に代えてインターカム端末2C-1~2C-3(以下、単にインターカム端末2Cとも呼ぶ)を用いたことである。
インターカム端末2Cは、PTTボタンのオン・オフで送話モードと受話モードとを切り替えることができる。そして、動作モードが送話モードの場合、操作者の入力音声を録音することにより得られる録音データおよびこの入力音声に音声認識処理を実施することにより得られるテキストデータを、自インターカム端末2C以外のすべてのインターカム端末2Cに一斉送信する。また、動作モードが受話モードの場合、他のインターカム端末2Cより受信した録音データを受信順に再生して出力するとともに、録音データとともに受信したテキストデータを受信順に表示する。
図13は、本発明の第4実施の形態に係るインターカムシステムの動作例を説明するためのシーケンス図である。
インターカム端末2C-1~2C-3の動作モードは、デフォルトで受話モード(PTTボタンがオフ)に設定されているものとする(S190)。
まず、インターカム端末2C-1の操作者(以下、操作者Gとする)により、インターカム端末2C-1のPTTボタンがオンにされたものとする(S191)。これを受けて、インターカム端末2C-1は、動作モードを送話モードに切り替える(S192)。そして、操作者Gの発話により入力された音声の録音を開始するとともに、この入力音声に対する音声認識処理を開始して、操作者Gの発話内容をテキストデータに変換する(S193)。
その後、操作者Gによりインターカム端末2C-1のPTTボタンがオフにされると(S194)、インターカム端末2C-1は、動作モードを受話モードに切り替える(S195)。そして、録音および音声認識処理を終了し(S196)、それまでに変換された操作者Gの発話内容のテキストデータを表示するとともに(S197)、それまでに録音された操作者Gの発話内容の録音データを、このテキストデータとともに、自インターカム端末2C-1以外のすべてのインターカム端末2C-2、2C-3に一斉送信する(S198)。
ここで、インターカム端末2C-1の動作モードが送話モードの間に(S192~S195)、インターカム端末2C-2の操作者(以下、操作者Hとする)によりインターカム端末2C-2のPTTボタンがオンにされたものとする(S199)。これを受けて、インターカム端末2C-2は、動作モードを送話モードに切り替える(S200)。そして、操作者Hの発話により入力された音声の録音を開始するとともに、この入力音声に対する音声認識処理を開始して、操作者Hの発話内容をテキストデータに変換する(S201)。
その後、操作者Hによりインターカム端末2C-2のPTTボタンがオフにされると(S202)、インターカム端末2C-2は、動作モードを受話モードに切り替える(S203)。そして、録音および音声認識処理を終了し(S204)、それまでに変換された操作者Hの発話内容のテキストデータを表示するとともに(S205)、それまでに録音された操作者Hの発話内容の録音データを、このテキストデータとともに、自インターカム端末2C-2以外のすべてのインターカム端末2C-1、2C-3に一斉送信する(S206)。
インターカム端末2C-3は、動作モードが受話モードであるため、インターカム端末2C-1およびインターカム端末2C-2から、操作者Gの発話内容の録音データおよびテキストデータと、操作者Hの発話内容の録音データおよびテキストデータと、を順番に受信すると、操作者Gの発話内容のテキストデータおよび操作者Hの発話内容のテキストデータをその受信順に表示する(S207)。また、操作者Gの発話内容の録音データおよび操作者Hの発話内容の録音データをその受信順に再生して音声出力する(S208)。なお、インターカム端末2C-3の動作モードが送話モードである場合、テキストデータの表示(S207)のみを行い、録音データの再生出力(S208)は行わない。
また、インターカム端末2C-1は、送話モードから受話モードに切り替わっているため、インターカム端末2C-2より操作者Hの発話内容の録音データおよびテキストデータを受信すると、この操作者Hの発話内容のテキストデータを表示する(S209)。また、操作者Hの発話内容の録音データを再生して音声出力する(S210)。なお、インターカム端末2C-1が送話モードである場合、テキストデータの表示(S209)のみを行い、録音データの再生出力(S210)は行わない。
同様に、インターカム端末2C-2は、動作モードが送話モードから受話モードに切り替わっているため、インターカム端末2C-1より操作者Gの発話内容の録音データおよびテキストデータを受信すると、この操作者Gの発話内容のテキストデータを表示する(S211)。また、操作者Gの発話内容の録音データを再生して音声出力する(S212)。なお、インターカム端末2C-2の動作モードが送話モードである場合、テキストデータの表示(S211)のみを行い、録音データの再生出力(S212)は行わない。
つぎに、本実施の形態に係るインターカムシステムを構成するインターカム端末2Cの詳細を説明する。
図14は、インターカム端末2Cの概略機能構成図である。
図示するように、本実施の形態に用いるインターカム端末2Cが図8に示す上記第2実施の形態に用いるインターカム端末2Aと異なる点は、送信部24に代えて一斉送信部33を設けたこと、および端末情報記憶部32を追加したことである。その他の構成は、図8に示す上記第2実施の形態に用いるインターカム端末2Aと同様である。
端末情報記憶部32には、自インターカム端末2C以外の各インターカム端末2Cのアドレス情報を含む端末情報が少なくとも記憶されている。
一斉送信部33は、端末情報記憶部32を参照し、無線インターフェース部20を介して自インターカム端末2C以外の各インターカム端末2Cに、録音部28により録音された録音データを、音声認識部23により変換されたテキストデータとともに一斉送信する。
インターカム端末2Cの動作は、図9に示す上記第2実施の形態に用いるインターカム端末2A動作と同様である。ただし、図9のS332において、一斉送信部33は、端末情報記憶部32を参照し、録音された録音データを、音声認識部23により変換されたテキストデータとともに、無線インターフェース部20から自インターカム端末2C以外の各インターカム端末2Cに一斉送信する。この点において、上記第2実施の形態に用いるインターカム端末2Aの動作と異なる。
以上、本発明の第4実施の形態について説明した。
本実施の形態によれば、上記第2実施の形態が有する効果に加えて、つぎの効果を有する。すなわち、ネットワーク3上にインターカムサーバ1Aを設置する必要がないため、その分のコストを抑制することができる。
なお、本実施の形態においても、上記第2実施の形態に用いるインターカム端末2Aと同様に、インターカム端末2Cに音声認識部23を搭載する代わりに、インターカム端末2Cが音声認識処理を外部の音声認識サーバに依頼してもよい。
また、本実施の形態においても、上記第2実施の形態に用いるインターカム端末2Aと同様に、送話側のインターカム端末2Cにおいて、録音データのみを送信して、テキストデータの送信を省略してもかまわない。この場合、送話側のインターカム端末2Cにおける音声認識処理は不要である。また、この場合、受話側のインターカム端末2Cにおいて、送話側のインターカム端末2Cから受信した録音データに受信順に音声認識処理を実施してテキストデータに変換し、このテキストデータをマンマシンインターフェース部21に表示することが好ましい。ここで、受話側のインターカム端末2Cは、自身で音声認識処理を実施するのではなく、外部の音声認識サーバに音声認識処理を依頼してもよい。
本発明は上記の各実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
また、上記第1実施の形態に用いるインターカムサーバ1(図3参照)、および上記第2実施の形態に用いるインターカムサーバ1Aの機能構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP(Digital Signal Processor)等の計算機によりソフトウエア的に実現されるものでもよい。または、CPU、メモリ、フラッシュメモリ等の補助記憶装置、およびNIC(Network Interface Card)等の通信インターフェースを備えたPC(Personal Computer)において、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することで実現されるものでもよい。
同様に、上記第1実施の形態に用いるインターカム端末2(図5参照)、上記第2実施の形態に用いるインターカム端末2A(図8参照)、上記第3実施の形態に用いるインターカム端末2B(図12参照)、および上記第4実施の形態に用いるインターカム端末2C(図14参照)の機能構成は、ASIC、FPGAなどの集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP等の計算機によりソフトウエア的に実現されるものでもよい。または、CPU、メモリ、フラッシュメモリ等の補助記憶装置、および無線アダプタ等の通信インターフェースを備えたスマートフォン、タブレットPC等の携帯端末において、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することで実現されるものでもよい。