JP2017097092A

JP2017097092A - 端末装置、通信方法

Info

Publication number: JP2017097092A
Application number: JP2015227480A
Authority: JP
Inventors: 古田　宏; Hiroshi Furuta; 宏古田; 英一細野; Hidekazu Hosono
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2017-06-01
Anticipated expiration: 2035-11-20
Also published as: JP6610195B2

Abstract

【課題】実際に出力した音声の内容を知らせる技術を提供する。【解決手段】受信部４２は、他の端末装置１０からの音声信号を受信する。再生部３２は、受信部４２において受信した音声信号を再生する。処理部２８は、再生部３２において再生した音声信号に対して、本端末装置１０を使用するユーザの音声認識モデルにもとづく音声認識処理を実行する。送信部４０は、処理部２８における音声認識処理の結果を他の端末装置１０に送信する。【選択図】図２

Description

本発明は、通信技術に関し、特に音声信号の通信を実行する端末装置、通信方法に関する。

音声認識処理は、周囲環境のノイズが加わったり、音声が小さかったりする場合に、認識不能となる。さらに、音声認識処理を繰り返し実行しても、認識不能になることがある。特に、オペレータが認識不能の理由を分からないと、認識不能が繰り返されやすい。これを防止するために、認識不能の理由がオペレータに通知される（例えば、特許文献１）。

特開２０００−１１２４９７号公報

音声認識処理は、一般的に、音声のデータである音声信号に対してなされる。一方、受話者が聞く音声には、イコライザのオン／オフ、スピーカから出力される際の音量レベル、話速変換のオン／オフの設定がなされている。そのため、受話者が聞く音声は、音声信号と異なる場合がある。また、同一の音声信号から再生された音声を聞いた場合であっても、聞こえ方は受話者によって異なることがある。そのため、音声認識処理は、受話者側の状況に応じてなされる方が望ましい。

本発明はこうした状況に鑑みてなされたものであり、その目的は、受話者側の状況に応じてなされた音声認識結果を知らせる技術を提供することである。

上記課題を解決するために、本発明のある態様の端末装置は、端末装置であって、他の端末装置からの音声信号を受信する受信部と、受信部において受信した音声信号を再生する再生部と、再生部において再生した音声信号に対して、本端末装置を使用するユーザの聞こえ方を反映した音声認識処理を実行する処理部と、処理部における音声認識処理の結果を他の端末装置に送信する送信部と、を備える。

本発明の別の態様は、通信方法である。この方法は、端末装置での通信方法であって、他の端末装置からの音声信号を受信するステップと、受信した音声信号を再生するステップと、再生した音声信号に対して、本端末装置を使用するユーザの聞こえ方を反映した音声認識処理を実行するステップと、音声認識処理の結果を他の端末装置に送信するステップと、を備える。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、受話者側の状況に応じてなされた音声認識結果を知らせることができる。

本発明の実施例１に係る通信システムの構成を示す図である。図１の端末装置の構成を示す図である。図３（ａ）−（ｂ）は、図２の表示部に表示される画面を示す図である。図１の通信システムによる通信手順を示すシーケンス図である。図５（ａ）−（ｂ）は、本発明の実施例１に係る表示部に表示される画面を示す図である。本発明の実施例２に係る通信システムによる通信手順を示すシーケンス図である。本発明の実施例３に係る端末装置の構成を示す図である。図８（ａ）−（ｂ）は、図７の表示部に表示される画面を示す図である。図７の比較部による比較手順を示すフローチャートである。図１０（ａ）−（ｃ）は、本発明の実施例４に係る表示部に表示される画面を示す図である。本発明の実施例４に係る通信システムによる通信手順を示すシーケンス図である。本発明の実施例４に係る端末装置による特定手順を示すフローチャートである。本発明の実施例４に係る端末装置による別の特定手順を示すフローチャートである。本発明の実施例４に係る端末装置によるさらに別の特定手順を示すフローチャートである。

（実施例１）
本発明を具体的に説明する前に、まず概要を述べる。本発明の実施例１は、ＰＴＴ（ＰｕｓｈｔｏＴａｌｋ）による音声通信を実行する端末装置に関する。当該端末装置は、ボタンを備えており、ユーザが当該ボタンを押し下げることによって送話が開始され、当該ボタンを解放することによって送話が終了する。一方、当該ボタンを押していない場合、ユーザはメッセージを聞くのみである。このようなＰＴＴにおいて、送話者は、話して送信するという行動だけで完結しており、それがどう伝わったのかは、受話者の反応を頼りにするしかない。送信者は話した内容が受話者に正しく伝わっていると思い込んでいても、通信状況が悪く雑音が多かったり、早口すぎたりなどにより、自身の意図通りに音声が受話者に伝わっていないおそれがある。

そのため、受信側の端末装置が、音声認識処理を実行することによって、受信した音声信号をテキスト化し、テキスト化したデータ（以下、「テキストデータ」という）を送信側の端末装置に送信する。送信側の端末装置はテキストデータを表示し、送話者はテキストデータを確認することによって、意図通りの音声が出力されているかを確認する。しかしながら、受話者による聞こえ方には個人差があるので、同一の音声であっても、異なったように聞こえる場合がある。そのため、テキストデータの内容と、受話者が実際に認識した内容とが異なるおそれがある。

これに対応するために、本実施例に係る端末装置、特に受信側の端末装置は、当該端末装置を使用するユーザ、つまり受話者の音声認識モデルを使用して、音声認識処理を実行する。そのため、端末装置において生成されるテキストデータの内容には、受話者の聞こえ方が反映されている。

図１は、本発明の実施例１に係る通信システム１００の構成を示す。通信システム１００は、端末装置１０と総称される第１端末装置１０ａ、第２端末装置１０ｂ、基地局装置１２と総称される第１基地局装置１２ａ、第２基地局装置１２ｂ、ネットワーク１４を含む。ここで、通信システム１００は、例えば、業務用無線に対応する。

端末装置１０は、業務用無線による通信を実行可能な装置である。業務用無線については公知の技術が使用されればよいので、ここでは説明を省略する。ここでは、第１端末装置１０ａが業務用無線による音声通信の送信側に相当し、第２端末装置１０ｂが業務用無線による音声通信の受信側に相当する。そのため、第１端末装置１０ａは送話者に使用され、第２端末装置１０ｂは受話者に使用される。なお、第１端末装置１０ａと第２端末装置１０ｂとの関係は逆であってもよく、端末装置１０の数は「２」に限定されない。

基地局装置１２は、業務用無線のシステムに対応するとともに、一端側において、業務用無線により端末装置１０に接続され、他端側において、基地局装置１２に接続される。第１基地局装置１２ａと第２基地局装置１２ｂとは、異なった位置に設置される。なお、業務用無線では、複数の端末装置１０によってグループを形成することも可能である。基地局装置１２は、グループに対して、上りチャネルと下りチャネルを割り当ててもよい。このような状況下において、グループ中の１つの端末装置１０が、上りチャネルにて信号を送信し、グループ中の他の端末装置１０が、下りチャネルにて信号を受信する。

ネットワーク１４は、第１基地局装置１２ａと第２基地局装置１２ｂとを接続する。このような接続によって、第１端末装置１０ａと第２端末装置１０ｂは、第１基地局装置１２ａ、ネットワーク１４、第２基地局装置１２ｂを介して、通信可能になる。ここでは、ＰＴＴによる音声通信であるとする。

図２は、端末装置１０の構成を示す。端末装置１０は、ボタン２０、マイク２２、操作部２４、表示部２６、処理部２８、通信部３０、再生部３２、スピーカ３４を含む。また、処理部２８は、送話部３６、設定部３８を含み、通信部３０は、送信部４０、受信部４２を含む。端末装置１０は、送信側の端末装置１０と受信側の端末装置１０のいずれにも対応する。ここでは、説明を明瞭にするために、処理の順番にしたがって、（１）送信側、（２）受信側、（３）送信側の順に説明する。

（１）送信側
ここでは、送信側の端末装置１０での処理を説明する。ボタン２０は、ＰＴＴボタンに相当し、ＰＴＴによって音声を送信する場合に、ユーザによって押し下げられる。また、音声を送信している間にわたって、ボタン２０は押し下げ続けられる。ボタン２０が押し下げられることは、音声信号を送信するための指示を受けつけることに相当する。ボタン２０は、押し下げられている間にわたって、指示を送話部３６に出力し続ける。マイク２２は、端末装置１０の周囲の音声を集音する。マイク２２は、集音した音声を電気信号（以下、「音声信号」という）に変換し、音声信号を送話部３６に出力する。

送話部３６は、ボタン２０からの指示を受けつけている場合に、マイク２２からの音声信号を入力する。送話部３６は、音声信号をアナログ信号からデジタル信号に変換し、デジタル信号に変換した音声信号（以下、これもまた「音声信号」という）を送信部４０に出力する。一方、送話部３６は、ボタン２０からの指示を受けつけていない場合に、このような処理を実行しない。送信部４０は、送話部３６からの音声信号を入力し、音声信号を受信側の端末装置１０に送信する。音声信号の送信のために、送信部４０は、符号化、変調、周波数変換、増幅等を実行する。

（２）受信側
ここでは、（１）につづく、受信側の端末装置１０での処理を説明する。受信部４２は、送信側の端末装置１０からの音声信号を受信する。受信部４２は、増幅、周波数変換、復調、復号等を実行する。受信部４２は、処理の結果（以下、これもまた「音声信号」という）を再生部３２に出力する。再生部３２は、受信部４２からの音声信号を入力し、音声信号を再生する。音声信号の再生には公知の技術が使用されればよいので、ここでは説明を省略する。再生部３２は、再生した音声信号をスピーカ３４と処理部２８に出力する。スピーカ３４は、電気信号である音声信号を音声に変換し、音声を出力する。

処理部２８は、再生部３２からの音声信号を入力する。一方、設定部３８には、本端末装置１０を使用するユーザ、つまり特定された受話者の音声認識モデルが設定されている。音声認識モデルでは、例えば、音素「あ」に対応した音声信号の波形が記憶されている。また、このような音声信号の波形は、音素毎に記憶されている。特に、記憶された音素と波形とは、音声を聞いた当該特定された受話者が認識するように対応づけられているので、これらの関係は、受話者の音声認識モデルであるといえる。

処理部２８は、設定部３８に設定した受話者の音声認識モデルを使用しながら、音声信号に対して音声認識処理を実行する。具体的に説明すると、処理部２８は、入力した音声信号の波形に最も近い波形を音声認識モデルから選択するとともに、選択した波形に対応した音を特定する。音声認識処理によって、音声信号がテキスト化される。このように、処理部２８は、音声信号に対して、本端末装置１０を使用するユーザの音声認識モデルにもとづく音声認識処理、つまりユーザの聞こえ方を反映した音声認識処理を実行する。

なお、受話者は、操作部２４を操作しながら、受話者の音声認識モデルを設定部３８に設定する。例えば、設定部３８は、試験用の音声信号の波形を予め記憶しており、これを再生部３２において再生することによってスピーカ３４から出力する。受話者は、スピーカ３４からの音声を聞きながら、操作部２４を使用することによって認識した音を入力する。設定部３８は、試験用の音声信号の波形と、入力した音との対応関係をもとに、受話者の音声認識モデルを設定する。

送信部４０は、処理部２８における音声認識処理の結果として、音声認識処理によるテキストデータを処理部２８から入力する。送信部４０は、テキストデータを送信側の端末装置１０に送信する。なお、送信部４０におけるテキストデータの送信は、それだけでなされてもよく、音声信号の送信とともになされてもよい。

（３）送信側
ここでは、（２）につづく、送信側の端末装置１０での処理を説明する。受信部４２は、受信側の端末装置１０からのテキストデータを受信する。受信部４２は、テキストデータを処理部２８に出力する。処理部２８は、受信部４２からのテキストデータを入力し、テキストデータを表示部２６に表示する。送話者は、表示部２６に表示されたテキストデータを確認することによって、受話者がどのように聞き取っているかを認識する。図３（ａ）−（ｂ）は、表示部２６に表示される画面を示す。図３（ａ）は、送話者が「アンゼン」と話し、受話者も「アンゼン」と聞き取っている場合を示す。この場合、送話者が話した内容と、受話者が聞いた内容とが一致する。一方、図３（ｂ）は、送話者が「アンゼン」と話し、受話者が「カンゼン」と聞き取っている場合を示す。この場合、送話者が話した内容と、受話者が聞いた内容とが相違する。

この構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

以上の構成による通信システム１００の動作を説明する。図４は、通信システム１００による通信手順を示すシーケンス図である。第１端末装置１０ａは、音声を入力する（Ｓ１０）と、音声信号を生成する（Ｓ１２）。第１端末装置１０ａは、音声信号を送信する（Ｓ１４）。第２端末装置１０ｂは、音声信号を再生し（Ｓ１６）、再生した音声信号をスピーカ３４から出力する（Ｓ１８）。第２端末装置１０ｂは、ユーザの音声認識モデルで音声認識処理を実行し（Ｓ２０）、テキストデータを生成する（Ｓ２２）。第２端末装置１０ｂは、テキストデータを送信する（Ｓ２４）。第１端末装置１０ａは、テキストデータを表示する（Ｓ２６）。

本実施例によれば、音声信号に対して、端末装置を使用するユーザの音声認識モデルにもとづく処理を実行するので、ユーザの聞こえ方を反映しながら、受信した音声信号をテキスト化できる。また、ユーザの聞こえ方を反映しながら、受信した音声信号がテキスト化されるので、送話者に対して正確な情報を知らせることができる。また、ユーザの音声認識モデルを使用しながら、音声信号に対して音声認識処理を実行するので、送話者の発音による受話者の聞き間違いを特定できる。また、ユーザの音声認識モデルを使用しながら、音声信号に対して音声認識処理を実行するので、無線区間における受話者の聞き間違いを特定できる。

（実施例２）
次に、実施例２を説明する。本発明の実施例２も、実施例１と同様に、ＰＴＴによる音声通信を実行する端末装置であって、かつ受話者の音声認識モデルを使用して音声信号をテキスト化する端末装置に関する。実施例１における音声認識モデルは、受話者によって認識される音声信号の波形に対して構成される。一方、実施例２における音声認識モデルは、受話者が認識可能な音声速度、受話者が認識可能な音量レベルに対して構成される。実施例２に係る通信システム、端末装置は、図１、図２と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

前述の（２）において、処理部２８は、再生部３２からの音声信号を入力する。また、処理部２８は、音声信号に対して音声認識処理を実行することによって、音声信号をテキスト化する。一方、設定部３８には、本端末装置１０を使用するユーザ、つまり受話者の音声認識モデルが設定されている。音声認識モデルでは、例えば、受話者が認識可能な音声速度の値、受話者が認識可能な音量レベルの値の少なくとも一方が記憶されている。

処理部２８は、テキスト化したデータの文字数を数えることによって、一定期間における音声信号の音声速度の値を導出する。処理部２８は、導出した音声速度の値と、設定部３８に記憶した音声速度の値とを比較することによって、音声信号に対して、受話者が認識可能な音声速度以下であるかの判定処理を実行する。処理部２８は、導出した音声速度の値が、受話者が認識可能な音声速度の値よりも大きければ、テキスト化したデータのうち、受話者が認識可能な音声速度よりも大きい部分の文字を伏せ字に変換する。なお、処理部２８は、導出した音声速度の値が、受話者が認識可能な音声速度の値以下であれば、テキスト化したデータに対する変換を実行しない。

また、処理部２８は、一定期間における音声信号の音量レベルの値を導出してもよい。処理部２８は、導出した音量レベルの値と、設定部３８に記憶した音量レベルの値とを比較することによって、音声信号に対して、受話者が認識可能な音量レベル以上であるかの判定処理を実行する。処理部２８は、導出した音量レベルの値が、受話者が認識可能な音量レベルの値よりも小さければ、テキスト化したデータの各文字を伏せ字に変換する。なお、処理部２８は、導出した音量レベルの値が、受話者が認識可能な音量レベルの値以上であれば、テキスト化したデータに対する変換を実行しない。このように処理部２８における音声認識処理には、音量レベル、音声速度のうちの少なくとも１つが反映される。ここで、受話者の音声認識モデルは、操作部２４を操作することによって、設定部３８に設定される。設定される内容は、受話者が認識可能な音声速度の値、受話者が認識可能な音量レベルの値の少なくとも一方である。

送信部４０は、処理部２８からのテキストデータを入力する。送信部４０は、テキストデータを送信側の端末装置１０に送信する。前述のごとく、受話者が認識可能な音声速度の値よりも大きい場合、あるいは受話者が認識可能な音量レベルの値よりも小さい場合、テキストデータの少なくとも一部の文字が伏せ字に変換されている。このことは、送信部４０が、受話者が認識可能な音声速度以下であるかの判定結果を送信すること、あるいは受話者が認識可能な音量レベル以上であるかの判定結果を送信することに相当する。

前述の（３）において、受信部４２は、受信側の端末装置１０からのテキストデータを受信し、処理部２８は、テキストデータを表示部２６に表示する。図５（ａ）−（ｂ）は、表示部２６に表示される画面を示す。図５（ａ）は、受信側の端末装置１０において再生される音声信号の音声速度の値が、受話者が認識可能な音声速度の値よりも大きい場合を示す。この場合、一部の文字が伏せ字によって示される。一方、図５（ｂ）は、受信側の端末装置１０において再生される音声信号の音量レベルの値が、受話者が認識可能な音量レベルの値よりも小さい場合を示す。この場合、すべての文字が伏せ字によって示される。

以上の構成による通信システム１００の動作を説明する。図６は、本発明の実施例２に係る通信システム１００による通信手順を示すシーケンス図である。第１端末装置１０ａは、音声を入力する（Ｓ５０）と、音声信号を生成する（Ｓ５２）。第１端末装置１０ａは、音声信号を送信する（Ｓ５４）。第２端末装置１０ｂは、音声信号を再生し（Ｓ５６）、再生した音声信号をスピーカ３４から出力する（Ｓ５８）。第２端末装置１０ｂは、音声認識処理を実行する（Ｓ６０）とともに、音声速度、音量レベルによる評価を実行する（Ｓ６２）ことによって、テキストデータを生成する（Ｓ６４）。第２端末装置１０ｂは、テキストデータを送信する（Ｓ６６）。第１端末装置１０ａは、テキストデータを表示する（Ｓ６８）。

本実施例によれば、音声信号に対して、ユーザが認識可能な音声速度以下であるかの判定処理を実行するので、音声速度のために聞きづらいかを判定できる。また、音声速度のために聞きづらいことをテキスト化に反映できる。また、音声信号に対して、ユーザが認識可能な音量レベル以上であるかの判定処理を実行するので、音量レベルのために聞きづらいかを判定できる。また、音量レベルのために聞きづらいことをテキスト化に反映できる。

（実施例３）
次に、実施例３を説明する。本発明の実施例３も、これまでと同様に、ＰＴＴによる音声通信を実行する端末装置であって、かつ受話者の音声認識モデルを使用して音声信号をテキスト化する端末装置に関する。実施例３では、音声信号をテキスト化するだけではなく、受話者が音声を聞いている状況を推測可能な情報を送信側の端末装置に通知する。実施例３に係る通信システムは、図１と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

図７は、本発明の実施例３に係る端末装置１０の構成を示す。端末装置１０における処理部２８は、図２と比較して、比較部４６をさらに含む。前述の（２）において、処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、実施例１と同様に、音声信号に対して、本端末装置１０を使用するユーザの音声認識モデルにもとづく音声認識処理、つまりユーザの聞こえ方を反映した音声認識処理を実行する。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第１テキスト」という）される。

その際、処理部２８は、音声認識処理において認識不可能な音素が存在するかを判定してもよい。例えば、入力した音声信号の１音素の波形と、当該１音素の波形に最も近い波形との相関値が予め定められた値よりも小さい場合に、当該１音素が認識不可能な音素と判定される。処理部２８は、第１テキストにおいて、認識不可能な音素を伏せ字に変換する。なお、伏せ字ではなく、別の予め定められた文字に変換されてもよく、「認識不可能な音素あり」とのメッセージが、第１テキストに追加されてもよい。

一方、処理部２８は、本端末装置１０を使用するユーザに特定されない音声認識モデル、つまり標準的な音声認識モデルも記憶する。標準的な音声認識モデルでは、例えば、音「あ」に対応した音声信号の標準的な波形が記憶されている。処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理、つまり、ユーザの聞こえ方を未反映のままの音声認識処理も実行する。ここでも、音声信号はテキスト化（以下、テキスト化された音声信号を「第２テキスト」という）される。なお、処理部２８は、第１テキストの場合と同様に、第２テキストにおいても、認識不可能な音素を伏せ字等に変換してもよい。

比較部４６は、第１テキストと第２テキストとを入力する。比較部４６は、第１テキストと第２テキストとを比較する。ここでは、比較として、第１テキストと第２テキストとが並べられる。比較部４６は、第１テキストと第２テキストとを並べたテキストデータを送信部４０に出力する。送信部４０は、処理部２８からのテキストデータを入力する。送信部４０は、比較結果であるテキストデータを送信側の端末装置１０に送信する。

前述の（３）において、受信部４２は、受信側の端末装置１０からのテキストデータを受信し、処理部２８は、テキストデータを表示部２６に表示する。図８（ａ）−（ｂ）は、表示部２６に表示される画面を示す。画面の上側には、「受話者音声認識」の場合として、第１テキストが示され、画面の下側には、「標準音声認識」の場合として、第２テキストが示される。図８（ａ）では、第２テキストにおいて認識不可能な音素がないにもかかわらず、第１テキストにおいて認識不可能な音素がある場合を示す。これは、標準的な音声認識モデルによって、発話者が発した音声に対応した音声信号を音声認識処理した場合、すべて認識されるが、受話者の音声認識モデルによって音声認識処理した場合、認識不可能な音素が存在することに相当する。つまり、受話者の聞こえ方によって音声が認識されていないといえる。

図８（ｂ）では、第１テキストと第２テキストとのいずれにおいても、認識不可能な音素がある場合を示す。これは、標準的な音声認識モデルと受話者の音声認識モデルのいずれによって、発話者が発した音声に対応した音声信号を音声認識処理した場合、認識不可能な音素が存在することに相当する。この場合、例えば、第１端末装置１０ａと第１基地局装置１２ａとの間の無線区間、あるいは第２端末装置１０ｂと第２基地局装置１２ｂとの無線区間の品質が悪化していることが推定される。

以上の構成による通信システム１００の動作を説明する。図９は、比較部４６による比較手順を示すフローチャートである。比較部４６は、ユーザの音声認識モデルにもとづく音声認識処理の結果を取得する（Ｓ８０）。一方、比較部４６は、標準的な音声認識モデルにもとづく音声認識処理の結果を取得する（Ｓ８２）。比較部４６は、比較として両方の音声認識処理の結果を並べる（Ｓ８４）。

本実施例によれば、ユーザの音声認識モデルにもとづく音声認識処理の結果と、標準的な音声認識モデルにもとづく音声認識処理の結果とを比較するので、どの段階で認識不可能な音素が発生するかを特定できる。また、ユーザの音声認識モデルにもとづく音声認識処理の結果に認識不可能な音素が存在し、標準的な音声認識モデルにもとづく音声認識処理の結果に認識不可能な音素が存在しない場合、特定のユーザだけが聞き取れないことを認識できる。また、ユーザの音声認識モデルにもとづく音声認識処理の結果と、標準的な音声認識モデルにもとづく音声認識処理の結果とに認識不可能な音素が存在する場合、発話あるいは通信の段階に原因があることを認識できる。

（実施例４）
次に、実施例４を説明する。本発明の実施例４も、これまでと同様に、ＰＴＴによる音声通信を実行する端末装置であって、かつ受信した音声信号をテキスト化する端末装置に関する。受信側の端末装置において、イコライザのオン／オフ、スピーカから出力される際の音量レベル、話速変換のオン／オフの設定がなされる場合がある。その際、そのような設定に応じて処理された音声がスピーカから出力される。つまり、このような処理によって、実際にスピーカから出力される音声と、テキストデータの内容とが異なるおそれがある。

これに対応するために、本実施例に係る端末装置、特に受信側の端末装置は、当該端末装置になされた設定に応じて、音声認識処理を実行する。そのため、端末装置において生成されるテキストデータの内容は、設定に応じた処理を反映している。実施例４に係る通信システム、端末装置は、図１、図２と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

前述の（２）において、端末装置１０の設定部３８には、音声の出力に関して、さまざまな設定がなされる。この設定によって、受信部４２において受信した音声信号を再生する際に使用すべき設定値が登録される。設定部３８においてなされる設定のうちの１つは、イコライザのオン／オフである。イコライザは、音声信号の周波数特性を変更する処理である。イコライザをオンにした場合、音声信号の特定の周波数帯域（倍音成分や高調波成分あるいはノイズ成分）を強調したり、減少したりすることが可能になる。また、設定部３８においてなされる設定のうちの別の１つは、音声速度変換のオン／オフである。音声速度変換は、音声の再生速度を高速にしたり、低速にしたりする処理である。さらに、設定部３８においてなされる設定のうちのさらに別の１つは、音量レベルの調節である。音量レベルは、スピーカ３４から音声を出力する際のボリュームである。これらの設定は、操作部２４を操作することによってなされる。また、設定部３８には、これらの設定のすべてがなされている必要はなく、少なくとも１つの設定がなされていればよい。

再生部３２は、受信部４２からの音声信号を入力し、音声信号を再生する。その際、設定部３８においてなされた設定値が反映される。例えば、設定部３８においてイコライザがオンにされている場合、再生部３２は、イコライザ処理を実行しながら音声信号を再生する。一方、設定部３８においてイコライザがオフにされている場合、再生部３２は、イコライザ処理を実行せずに音声信号を再生する。

また、設定部３８において音声速度変換がオンにされている場合、再生部３２は、音声速度を変換しながら音声信号を再生する。なお、音声速度は、２倍、３倍、１／２倍のように設定されている。一方、設定部３８において音声速度変換がオフにされている場合、再生部３２は、音声速度を変換せずに音声信号を再生する。さらに、設定部３８において設定されている音量レベルにおいて、再生部３２は、音声信号を再生する際の音量レベルを調節する。なお、イコライザ処理、音声速度変換、音量レベルの調節、音声信号の再生には公知の技術が使用されればよいので、ここでは説明を省略する。前述のごとく、設定部３８においてこれらの設定のすべてがなされている必要はなく、少なくとも１つの設定がなされていればよいので、再生部３２は、少なくとも１つの設定を使用すればよい。再生部３２は、再生した音声信号をスピーカ３４と処理部２８に出力する。スピーカ３４は、電気信号である音声信号を音声に変換し、音声を出力する。

処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、前述の標準的な音声認識モデルにもとづいて、音声信号に対して音声認識処理を実行する。音声認識処理によって、音声信号がテキスト化される。さらに、処理部２８は、音声認識処理において認識不可能な音素が存在する場合に、その理由（以下、「エラーの理由」という）を特定してもよい。ここでは、エラーの理由として、（Ａ）音声認識処理において認識不可能な音素が存在するか、（Ｂ）再生した音声信号での音声速度がしきい値より大きいか、（Ｃ）再生した音声信号での音量レベルがしきい値より小さいかが特定される。なお、（Ｂ）と（Ｃ）におけるしきい値は別の値でもよい。以下では、これらの処理を順に説明する。

（Ａ）音声認識処理において認識不可能な音素が存在するか
処理部２８は、音声認識処理において認識不可能な音素が存在するかを判定する。例えば、入力した音声信号の１音素の波形と、当該１音素の波形に最も近い波形との相関値が予め定められた値よりも小さい場合に、当該１音素が認識不可能な音素と判定される。処理部２８は、テキスト化したデータにおいて、認識不可能な音素を伏せ字に変換する。なお、伏せ字ではなく、別の予め定められた文字に変換されてもよく、「認識不可能な音素あり」とのメッセージが、テキスト化したデータに追加されてもよい。つまり、処理部２８は、本端末装置１０の設定を反映させながら、再生部３２において再生した音声信号に対して実行された音声認識処理において認識不可能な音素が存在するかを判定することによって、音声信号におけるエラーの理由を特定する。

（Ｂ）再生した音声信号での音声速度がしきい値より大きいか
処理部２８は、実施例２と同様に、テキスト化したデータの文字数を数えることによって、一定期間における音声信号の音声速度の値を導出する。処理部２８は、導出した音声速度の値と、予め記憶したしきい値とを比較することによって、音声信号での音声速度がしきい値より大きいかの判定処理を実行する。処理部２８は、音声速度の値がしきい値よりも大きければ、テキスト化したデータのうち、しきい値よりも大きい部分の文字を伏せ字に変換する。さらに、処理部２８は、テキスト化したデータに、音声速度が速すぎることを示すためのメッセージを追加してもよい。なお、処理部２８は、音声速度の値がしきい値以下であれば、テキスト化したデータに対する変換を実行しない。

（Ｃ）再生した音声信号での音量レベルがしきい値より小さいか
処理部２８は、実施例２と同様に、一定期間における音声信号の音量レベルの値を導出する。処理部２８は、導出した音量レベルの値と、しきい値とを比較することによって、音声信号での音量レベルがしきい値より小さいかの判定処理を実行する。処理部２８は、音量レベルの値がしきい値よりも小さければ、テキスト化したデータの各文字を伏せ字に変換する。さらに、処理部２８は、テキスト化したデータに、音量レベルが小さすぎることを示すためのメッセージを追加してもよい。なお、処理部２８は、音量レベルの値がしきい値以上であれば、テキスト化したデータに対する変換を実行しない。

送信部４０は、処理部２８から、テキストデータを入力する。このテキストデータには、処理部２８において特定したエラーの理由が含まれてもよい。送信部４０は、テキストデータを送信側の端末装置１０に送信する。エラーの理由が含まれる場合、伏せ字によって、認識不可能な音素の存在が示される。また、音声速度がしきい値より大きいことが示されたり、音量レベルがしきい値より小さいことが示されたりする。なお、処理部２８がエラーの理由を特定するための処理を実行しない場合、テキストデータには、エラーの理由が含まれない。

前述の（３）において、受信部４２は、受信側の端末装置１０からのテキストデータを受信する。受信部４２は、テキストデータを処理部２８に出力する。処理部２８は、受信部４２からのテキストデータを入力し、テキストデータを表示部２６に表示する。テキストデータにエラーの理由が含まれない場合、表示部２６は、実施例１と同様にテキストデータを表示する。送話者は、表示部２６に表示されたテキストデータを確認することによって、受話者がどのように聞き取っているかを認識する。

一方、以下では、テキストデータにエラーの理由が含まれている場合を説明する。図１０（ａ）−（ｃ）は、本発明の実施例４に係る表示部２６に表示される画面を示す。図１０（ａ）は、送話者が「アンゼン」と話しているが、「ア」が、認識不可能な音素とされている場合を示す。この場合、受話者は、例えば、「カンゼン」と聞き取っている可能性がある。図１０（ｂ）は、音声速度の値がしきい値よりも大きい場合を示す。この場合、一部の音素が伏せ字によって示されるとともに、メッセージが表示される。一方、図１０（ｃ）は、音量レベルの値がしきい値よりも小さい場合を示す。この場合、すべての音素が伏せ字によって示されるとともに、メッセージが表示される。

以上の構成による通信システム１００の動作を説明する。図１１は、本発明の実施例４に係る通信システム１００による通信手順を示すシーケンス図である。第１端末装置１０ａは、音声を入力する（Ｓ１１０）と、音声信号を生成する（Ｓ１１２）。第１端末装置１０ａは、音声信号を送信する（Ｓ１１４）。第２端末装置１０ｂは、音声信号を再生し（Ｓ１１６）、再生した音声信号をスピーカ３４から出力する（Ｓ１１８）。第２端末装置１０ｂは、音声認識処理を実行し（Ｓ１２０）、エラーの理由を特定する（Ｓ１２２）。また、第２端末装置１０ｂは、テキストデータ、エラーの理由を生成する（Ｓ１２４）。第２端末装置１０ｂは、テキストデータ、エラーの理由を送信する（Ｓ１２６）。第１端末装置１０ａは、テキストデータ、エラーの理由を表示する（Ｓ１２８）。

図１２は、本発明の実施例４に係る端末装置１０による特定手順を示すフローチャートである。設定部３８にイコライザ設定がなされている場合（Ｓ１５０のＹ）、再生部３２は、音声信号に対してイコライザ処理を実行する（Ｓ１５２）。設定部３８にイコライザ設定がなされていない場合（Ｓ１５０のＮ）、ステップ１５２はスキップされる。再生部３２は、音声認識処理を実行する（Ｓ１５４）。認識不可能な音素があれば（Ｓ１５６のＹ）、処理部２８は、エラーの理由を特定する（Ｓ１５８）。認識不可能な音素がなければ（Ｓ１５６のＮ）、ステップ１５８はスキップされる。

図１３は、本発明の実施例４に係る端末装置１０による別の特定手順を示すフローチャートである。設定部３８に音声速度変換設定がなされている場合（Ｓ２００のＹ）、再生部３２は、音声信号を調節する（Ｓ２０２）。設定部３８に音声速度変換設定がなされていない場合（Ｓ２００のＮ）、ステップ２０２はスキップされる。再生部３２は、音声認識処理を実行する（Ｓ２０４）。音声速度がしきい値よりも大きければ（Ｓ２０６のＹ）、処理部２８は、エラーの理由を特定する（Ｓ２０８）。音声速度がしきい値よりも大きくなければ（Ｓ２０６のＮ）、ステップ２０８はスキップされる。

図１４は、本発明の実施例４に係る端末装置１０によるさらに別の特定手順を示すフローチャートである。再生部３２は、設定部３８における音量設定を取得する（Ｓ２５０）。再生部３２は、音声信号を調節する（Ｓ２５２）。音量レベルがしきい値よりも小さければ（Ｓ２５４のＹ）、処理部２８は、エラーの理由を特定する（Ｓ２５６）。音量レベルがしきい値よりも小さくなければ（Ｓ２５４のＮ）、ステップ２５６はスキップされる。

本実施例によれば、音声信号に対して、端末装置の設定を反映させながら音声認識処理を実行するので、端末装置の設定を反映しながら、受信した音声信号をテキスト化できる。端末装置の設定を反映させながら、再生した音声信号におけるエラーの理由を特定して通知するので、端末装置において音声出力に関する設定がなされる場合であっても、音声が聞こえにくい理由を知らせることができる。また、音声が聞こえにくい理由を知らせるので、当該理由を解消しながら音声信号を送信できる。また、端末装置の設定を反映させるので、実際の音声の聞こえ方に近くなるように音声認識処理を実行できる。

また、音声認識処理において認識不可能な音素が存在するかを判定して通知するので、送話者の話し方、通信環境が原因であることを知らせることができる。また、音声信号での音声速度がしきい値より大きいかを判定して通知するので、送話者の話し方が原因であることを知らせることができる。また、音声信号での音量レベルがしきい値より小さいかを判定して通知するので、送話者の話し方が原因であることを知らせることができる。

（実施例５）
次に、実施例５を説明する。実施例５は、実施例４と実施例３との組合せに相当する。実施例５に係る通信システム、端末装置は、図１、図７と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

前述の（２）において、再生部３２は、受信部４２からの音声信号を入力し、音声信号を再生する。その際、実施例４と同様に、設定部３８においてなされた設定値が反映される。処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第１テキスト」という）される。

一方、再生部３２は、受信部４２からの音声信号を入力し、設定部３８において設定した設定値を未使用のまま、音声信号を再生する。処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第２テキスト」という）される。

比較部４６は、第１テキストと第２テキストとを入力する。比較部４６は、第１テキストと第２テキストとを比較する。ここでは、比較として、第１テキストと第２テキストとが並べられる。比較部４６は、第１テキストと第２テキストとを並べたテキストデータを送信部４０に出力する。送信部４０は、処理部２８からのテキストデータを入力する。送信部４０は、比較結果であるテキストデータを送信側の端末装置１０に送信する。これにつづく処理は、これまでと同様であるので、ここでは説明を省略する。

本実施例によれば、端末装置の設定値を使用している場合の音声認識処理の結果と、端末装置の設定値を使用していない場合の音声認識処理の結果とを比較するので、どの段階で認識不可能な音素が発生するかを特定できる。また、端末装置の設定値を使用している場合の音声認識処理の結果に認識不可能な音素が存在し、端末装置の設定値を使用していない場合の音声認識処理の結果に認識不可能な音素が存在しない場合、端末装置の設定によって聞き取れないことを認識できる。また、端末装置の設定値を使用している場合の音声認識処理の結果と、端末装置の設定値を使用していない場合の音声認識処理の結果とに認識不可能な音素が存在する場合、発話あるいは通信の段階に原因があることを認識できる。

（実施例６）
次に、実施例６を説明する。実施例６は、実施例４において音声認識処理を実行する際に、マイクにおいて集音した音の情報も利用することに関する。実施例６に係る通信システム、端末装置は、図１、図２と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

マイク２２は、本端末装置１０の周囲の音、例えば雑音を集音する。マイク２２は、集音した雑音を電気信号（以下、「雑音信号」という）に変換し、雑音信号を処理部２８に出力する。処理部２８は、実施例４と同様に、音声信号に対して音声認識処理を実行する。特に、エラーの理由を特定するために前述の（Ａ）の処理を実行する場合、処理部２８は、音声認識処理において、マイク２２において集音した音の情報を反映させる。例えば、雑音信号の大きさに応じて、相関値と比較すべき値を調節する。具体的に説明すると、雑音信号が大きくなるほど、相関値と比較すべき値が小さくされる。処理部２８は、これまでと同様に、認識不可能な音素を判定する。これにつづく処理は、これまでと同様であるので、ここでは説明を省略する。

本実施例によれば、マイクにおいて集音した端末装置の周囲の音の情報も反映されるので、実際の音声の聞こえ方に近くなるように音声認識処理を実行できる。また、実際の音声の聞こえ方に近くなるような音声認識処理がなされるので、テキスト化の精度を向上できる。

（実施例７）
次に、実施例７を説明する。実施例７は、実施例６と実施例５との組合せに相当する。実施例７に係る通信システム、端末装置は、図１、図７と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

前述の（２）において、再生部３２は、受信部４２からの音声信号を入力し、音声信号を再生する。その際、実施例６と同様に、設定部３８においてなされた設定値が反映される。処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する。ここで、エラーの理由を特定するために前述の（Ａ）の処理を実行する場合、処理部２８は、実施例６と同様に、音声認識処理において、マイク２２において集音した音の情報を反映させる。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第１テキスト」という）される。

一方、再生部３２は、受信部４２からの音声信号を入力し、設定部３８において設定した設定値を未使用のまま、音声信号を再生する。処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する。しかしながら、処理部２８は、音声認識処理において、マイク２２において集音した音の情報を反映させない。つまり、音の情報は未使用のまま音声認識処理が実行される。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第２テキスト」という）される。

本実施例によれば、端末装置の設定値を使用し、かつ集音した音の情報を使用している場合の音声認識処理の結果と、端末装置の設定値を使用せず、かつ集音した音の情報を使用していない場合の音声認識処理の結果とを比較するので、どの段階で認識不可能な音素が発生するかを特定できる。また、端末装置の設定値を使用し、かつ集音した音の情報を使用している場合の音声認識処理の結果に認識不可能な音素が存在し、端末装置の設定値を使用せず、かつ集音した音の情報を使用していない場合の音声認識処理の結果に認識不可能な音素が存在しない場合、端末装置の設定、周囲の雑音によって聞き取れないことを認識できる。また、端末装置の設定値を使用し、かつ集音した音の情報を使用している場合の音声認識処理の結果と、端末装置の設定値を使用せず、かつ集音した音の情報を使用していない場合の音声認識処理の結果とに認識不可能な音素が存在する場合、発話あるいは通信の段階に原因があることを認識できる。

（実施例８）
次に、実施例８を説明する。実施例８は、実施例６において、音声認識処理を実行する際に、受信側の端末装置になされた設定を反映させない場合に相当する。受信側の端末装置になされた設定とは、イコライザのオン／オフ、スピーカから出力される際の音量レベル、話速変換のオン／オフの設定である。一方、実施例８でも、実施例６と同様に、音声認識処理を実行する際に、マイクにおいて集音した音の情報は利用される。実施例８に係る通信システム、端末装置は、図１、図２と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

前述の（２）において、再生部３２は、受信部４２からの音声信号を入力し、音声信号を再生する。その際、実施例６とは異なって、設定部３８においてなされた設定値は反映されない。マイク２２は、本端末装置１０の周囲の音、例えば雑音を集音し、集音した雑音を電気信号（以下、「雑音信号」という）に変換し、雑音信号を処理部２８に出力する。処理部２８は、実施例６と同様に、音声信号に対して音声認識処理を実行する。特に、エラーの理由を特定するために前述の（Ａ）の処理を実行する場合、処理部２８は、音声認識処理において、マイク２２において集音した音の情報を反映させる。これにつづく処理は、これまでと同様であるので、ここでは説明を省略する。

本実施例によれば、マイクにおいて集音した端末装置の周囲の音の情報が反映されるので、実際の音声の聞こえ方に近くなるように音声認識処理を実行できる。また、実際の音声の聞こえ方に近くなるような音声認識処理がなされるので、テキスト化の精度を向上できる。

（実施例９）
次に、実施例９を説明する。実施例９は、実施例８と実施例７との組合せに相当する。実施例９に係る通信システム、端末装置は、図１、図７と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

前述の（２）において、処理部２８は、再生部３２からの音声信号を入力する。処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する。ここで、エラーの理由を特定するために前述の（Ａ）の処理を実行する場合、処理部２８は、実施例８と同様に、音声認識処理において、マイク２２において集音した音の情報を反映させる。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第１テキスト」という）される。

一方、処理部２８は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する。しかしながら、処理部２８は、音声認識処理において、マイク２２において集音した音の情報を反映させない。つまり、音の情報は未使用のまま音声認識処理が実行される。その結果、音声信号はテキスト化（以下、テキスト化された音声信号を「第２テキスト」という）される。

本実施例によれば、集音した音の情報を使用している場合の音声認識処理の結果と、集音した音の情報を使用していない場合の音声認識処理の結果とを比較するので、どの段階で認識不可能な音素が発生するかを特定できる。また、集音した音の情報を使用している場合の音声認識処理の結果に認識不可能な音素が存在し、集音した音の情報を使用していない場合の音声認識処理の結果に認識不可能な音素が存在しない場合、周囲の雑音によって聞き取れないことを認識できる。また、集音した音の情報を使用している場合の音声認識処理の結果と、集音した音の情報を使用していない場合の音声認識処理の結果とに認識不可能な音素が存在する場合、発話あるいは通信の段階に原因があることを認識できる。

以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

本実施例１乃至９によれば、通信システム１００は、業務用無線を使用している。しかしながらこれに限らず例えば、業務用無線以外の無線通信システムが使用されてもよい。本実施例によれば、構成の自由度を向上できる。

１０端末装置、１２基地局装置、１４ネットワーク、２０ボタン、２２マイク、２４操作部、２６表示部、２８処理部、３０通信部、３２再生部、３４スピーカ、３６送話部、３８設定部、４０送信部、４２受信部、４６比較部、１００通信システム。

Claims

端末装置であって、
他の端末装置からの音声信号を受信する受信部と、
前記受信部において受信した音声信号を再生する再生部と、
前記再生部において再生した音声信号に対して、本端末装置を使用するユーザの聞こえ方を反映した音声認識処理を実行する処理部と、
前記処理部における音声認識処理の結果を前記他の端末装置に送信する送信部と、
を備えることを特徴とする端末装置。
前記処理部は、（１）本端末装置を使用するユーザの聞こえ方を未反映のまま音声認識処理を実行し、（２）ユーザの聞こえ方が未反映での音声認識処理の結果と、ユーザの聞こえ方を反映した音声認識処理の結果とを比較し、
前記送信部は、音声認識処理の結果として、前記処理部における比較結果を前記他の端末装置に送信することを特徴とする請求項１に記載の端末装置。
前記処理部における音声認識処理は、音量レベル、音声速度のうちの少なくとも１つを反映することを特徴とする請求項１または２に記載の端末装置。
端末装置での通信方法であって、
他の端末装置からの音声信号を受信するステップと、
受信した音声信号を再生するステップと、
再生した音声信号に対して、本端末装置を使用するユーザの聞こえ方を反映した音声認識処理を実行するステップと、
音声認識処理の結果を前記他の端末装置に送信するステップと、
を備えることを特徴とする通信方法。