JP6822540B2 - 端末装置、通信方法及び通信プログラム - Google Patents
端末装置、通信方法及び通信プログラム Download PDFInfo
- Publication number
- JP6822540B2 JP6822540B2 JP2019196136A JP2019196136A JP6822540B2 JP 6822540 B2 JP6822540 B2 JP 6822540B2 JP 2019196136 A JP2019196136 A JP 2019196136A JP 2019196136 A JP2019196136 A JP 2019196136A JP 6822540 B2 JP6822540 B2 JP 6822540B2
- Authority
- JP
- Japan
- Prior art keywords
- terminal device
- voice
- voice recognition
- unit
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
信プログラムに関する。
識不能となる。さらに、音声認識処理を繰り返し実行しても、認識不能になることがある
。特に、オペレータが認識不能の理由を分からないと、認識不能が繰り返されやすい。こ
れを防止するために、認識不能の理由がオペレータに通知される(例えば、特許文献1)
。
話者が聞く音声には、イコライザのオン/オフ、スピーカから出力される際の音量レベル
、話速変換のオン/オフの設定がなされている。そのため、受話者が聞く音声は、音声信
号と異なる場合がある。また、同一の音声信号から再生された音声を聞いた場合であって
も、聞こえ方は受話者によって異なることがある。そのため、音声認識処理は、受話者側
の状況に応じてなされる方が望ましい。
じてなされた音声認識結果を取得する技術を提供することである。
側となる端末装置に対して音声信号を送信する送信部と、受信側となる端末装置において
、受信した音声信号を再生した音声信号に対して実行する音声認識処理の結果を、受信側
となる端末装置から受信する受信部と、受信した音声認識処理の結果を表示部に表示する
処理部と、を備える。
において、再生した音声信号に対して、受信側となる端末装置を使用するユーザの聞こえ
方を反映する。
(1)受信側となる端末装置を使用するユーザの聞こえ方を未反映のまま音声認識処理を
実行し、(2)ユーザの聞こえ方が未反映での音声認識処理の結果と、ユーザの聞こえ方
を反映した音声認識処理の結果とを比較した比較結果を受信する。
いて、音量レベル、音声速度のうちの少なくとも1つを反映して得られた結果を、受信側
となる端末装置から受信する。
受信側となる端末装置に対して音声信号を送信するステップと、受信側となる端末装置に
おいて、受信した音声信号を再生した音声信号に対して、音声認識処理を実行した結果を
、受信側となる端末装置から受信するステップと、音声認識処理の結果を取得し、表示部
に表示するステップと、を備える。
グラムは、受信側となる端末装置に対して音声信号を送信する処理と、受信側となる端末
装置において、受信した音声信号を再生した音声信号に対して、音声認識処理を実行した
結果を、受信側となる端末装置から受信する処理と、音声認識処理の結果を取得し、表示
部に表示する処理を行う。
体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効で
ある。
る。
本発明を具体的に説明する前に、まず概要を述べる。本発明の実施例1は、PTT(P
ush to Talk)による音声通信を実行する端末装置に関する。当該端末装置は
、ボタンを備えており、ユーザが当該ボタンを押し下げることによって送話が開始され、
当該ボタンを解放することによって送話が終了する。一方、当該ボタンを押していない場
合、ユーザはメッセージを聞くのみである。このようなPTTにおいて、送話者は、話し
て送信するという行動だけで完結しており、それがどう伝わったのかは、受話者の反応を
頼りにするしかない。送信者は話した内容が受話者に正しく伝わっていると思い込んでい
ても、通信状況が悪く雑音が多かったり、早口すぎたりなどにより、自身の意図通りに音
声が受話者に伝わっていないおそれがある。
信号をテキスト化し、テキスト化したデータ(以下、「テキストデータ」という)を送信
側の端末装置に送信する。送信側の端末装置はテキストデータを表示し、送話者はテキス
トデータを確認することによって、意図通りの音声が出力されているかを確認する。しか
しながら、受話者による聞こえ方には個人差があるので、同一の音声であっても、異なっ
たように聞こえる場合がある。そのため、テキストデータの内容と、受話者が実際に認識
した内容とが異なるおそれがある。
装置を使用するユーザ、つまり受話者の音声認識モデルを使用して、音声認識処理を実行
する。そのため、端末装置において生成されるテキストデータの内容には、受話者の聞こ
え方が反映されている。
0は、端末装置10と総称される第1端末装置10a、第2端末装置10b、基地局装置
12と総称される第1基地局装置12a、第2基地局装置12b、ネットワーク14を含
む。ここで、通信システム100は、例えば、業務用無線に対応する。
は公知の技術が使用されればよいので、ここでは説明を省略する。ここでは、第1端末装
置10aが業務用無線による音声通信の送信側に相当し、第2端末装置10bが業務用無
線による音声通信の受信側に相当する。そのため、第1端末装置10aは送話者に使用さ
れ、第2端末装置10bは受話者に使用される。なお、第1端末装置10aと第2端末装
置10bとの関係は逆であってもよく、端末装置10の数は「2」に限定されない。
用無線により端末装置10に接続され、他端側において、基地局装置12に接続される。
第1基地局装置12aと第2基地局装置12bとは、異なった位置に設置される。なお、
業務用無線では、複数の端末装置10によってグループを形成することも可能である。基
地局装置12は、グループに対して、上りチャネルと下りチャネルを割り当ててもよい。
このような状況下において、グループ中の1つの端末装置10が、上りチャネルにて信号
を送信し、グループ中の他の端末装置10が、下りチャネルにて信号を受信する。
のような接続によって、第1端末装置10aと第2端末装置10bは、第1基地局装置1
2a、ネットワーク14、第2基地局装置12bを介して、通信可能になる。ここでは、
PTTによる音声通信であるとする。
部24、表示部26、処理部28、通信部30、再生部32、スピーカ34を含む。また
、処理部28は、送話部36、設定部38を含み、通信部30は、送信部40、受信部4
2を含む。端末装置10は、送信側の端末装置10と受信側の端末装置10のいずれにも
対応する。ここでは、説明を明瞭にするために、処理の順番にしたがって、(1)送信側
、(2)受信側、(3)送信側の順に説明する。
ここでは、送信側の端末装置10での処理を説明する。ボタン20は、PTTボタンに
相当し、PTTによって音声を送信する場合に、ユーザによって押し下げられる。また、
音声を送信している間にわたって、ボタン20は押し下げ続けられる。ボタン20が押し
下げられることは、音声信号を送信するための指示を受けつけることに相当する。ボタン
20は、押し下げられている間にわたって、指示を送話部36に出力し続ける。マイク2
2は、端末装置10の周囲の音声を集音する。マイク22は、集音した音声を電気信号(
以下、「音声信号」という)に変換し、音声信号を送話部36に出力する。
信号を入力する。送話部36は、音声信号をアナログ信号からデジタル信号に変換し、デ
ジタル信号に変換した音声信号(以下、これもまた「音声信号」という)を送信部40に
出力する。一方、送話部36は、ボタン20からの指示を受けつけていない場合に、この
ような処理を実行しない。送信部40は、送話部36からの音声信号を入力し、音声信号
を受信側の端末装置10に送信する。音声信号の送信のために、送信部40は、符号化、
変調、周波数変換、増幅等を実行する。
ここでは、(1)につづく、受信側の端末装置10での処理を説明する。受信部42は
、送信側の端末装置10からの音声信号を受信する。受信部42は、増幅、周波数変換、
復調、復号等を実行する。受信部42は、処理の結果(以下、これもまた「音声信号」と
いう)を再生部32に出力する。再生部32は、受信部42からの音声信号を入力し、音
声信号を再生する。音声信号の再生には公知の技術が使用されればよいので、ここでは説
明を省略する。再生部32は、再生した音声信号をスピーカ34と処理部28に出力する
。スピーカ34は、電気信号である音声信号を音声に変換し、音声を出力する。
装置10を使用するユーザ、つまり特定された受話者の音声認識モデルが設定されている
。音声認識モデルでは、例えば、音素「あ」に対応した音声信号の波形が記憶されている
。また、このような音声信号の波形は、音素毎に記憶されている。特に、記憶された音素
と波形とは、音声を聞いた当該特定された受話者が認識するように対応づけられているの
で、これらの関係は、受話者の音声認識モデルであるといえる。
号に対して音声認識処理を実行する。具体的に説明すると、処理部28は、入力した音声
信号の波形に最も近い波形を音声認識モデルから選択するとともに、選択した波形に対応
した音を特定する。音声認識処理によって、音声信号がテキスト化される。このように、
処理部28は、音声信号に対して、本端末装置10を使用するユーザの音声認識モデルに
もとづく音声認識処理、つまりユーザの聞こえ方を反映した音声認識処理を実行する。
設定する。例えば、設定部38は、試験用の音声信号の波形を予め記憶しており、これを
再生部32において再生することによってスピーカ34から出力する。受話者は、スピー
カ34からの音声を聞きながら、操作部24を使用することによって認識した音を入力す
る。設定部38は、試験用の音声信号の波形と、入力した音との対応関係をもとに、受話
者の音声認識モデルを設定する。
キストデータを処理部28から入力する。送信部40は、テキストデータを送信側の端末
装置10に送信する。なお、送信部40におけるテキストデータの送信は、それだけでな
されてもよく、音声信号の送信とともになされてもよい。
ここでは、(2)につづく、送信側の端末装置10での処理を説明する。受信部42は
、受信側の端末装置10からのテキストデータを受信する。受信部42は、テキストデー
タを処理部28に出力する。処理部28は、受信部42からのテキストデータを入力し、
テキストデータを表示部26に表示する。送話者は、表示部26に表示されたテキストデ
ータを確認することによって、受話者がどのように聞き取っているかを認識する。図3(
a)−(b)は、表示部26に表示される画面を示す。図3(a)は、送話者が「アンゼ
ン」と話し、受話者も「アンゼン」と聞き取っている場合を示す。この場合、送話者が話
した内容と、受話者が聞いた内容とが一致する。一方、図3(b)は、送話者が「アンゼ
ン」と話し、受話者が「カンゼン」と聞き取っている場合を示す。この場合、送話者が話
した内容と、受話者が聞いた内容とが相違する。
SIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現
されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したが
って、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組
合せによっていろいろな形で実現できることは、当業者には理解されるところである。
による通信手順を示すシーケンス図である。第1端末装置10aは、音声を入力する(S
10)と、音声信号を生成する(S12)。第1端末装置10aは、音声信号を送信する
(S14)。第2端末装置10bは、音声信号を再生し(S16)、再生した音声信号を
スピーカ34から出力する(S18)。第2端末装置10bは、ユーザの音声認識モデル
で音声認識処理を実行し(S20)、テキストデータを生成する(S22)。第2端末装
置10bは、テキストデータを送信する(S24)。第1端末装置10aは、テキストデ
ータを表示する(S26)。
もとづく処理を実行するので、ユーザの聞こえ方を反映しながら、受信した音声信号をテ
キスト化できる。また、ユーザの聞こえ方を反映しながら、受信した音声信号がテキスト
化されるので、送話者に対して正確な情報を知らせることができる。また、ユーザの音声
認識モデルを使用しながら、音声信号に対して音声認識処理を実行するので、送話者の発
音による受話者の聞き間違いを特定できる。また、ユーザの音声認識モデルを使用しなが
ら、音声信号に対して音声認識処理を実行するので、無線区間における受話者の聞き間違
いを特定できる。
次に、実施例2を説明する。本発明の実施例2も、実施例1と同様に、PTTによる音
声通信を実行する端末装置であって、かつ受話者の音声認識モデルを使用して音声信号を
テキスト化する端末装置に関する。実施例1における音声認識モデルは、受話者によって
認識される音声信号の波形に対して構成される。一方、実施例2における音声認識モデル
は、受話者が認識可能な音声速度、受話者が認識可能な音量レベルに対して構成される。
実施例2に係る通信システム、端末装置は、図1、図2と同様のタイプである。ここでは
、これまでとの差異を中心に説明する。
処理部28は、音声信号に対して音声認識処理を実行することによって、音声信号をテキ
スト化する。一方、設定部38には、本端末装置10を使用するユーザ、つまり受話者の
音声認識モデルが設定されている。音声認識モデルでは、例えば、受話者が認識可能な音
声速度の値、受話者が認識可能な音量レベルの値の少なくとも一方が記憶されている。
る音声信号の音声速度の値を導出する。処理部28は、導出した音声速度の値と、設定部
38に記憶した音声速度の値とを比較することによって、音声信号に対して、受話者が認
識可能な音声速度以下であるかの判定処理を実行する。処理部28は、導出した音声速度
の値が、受話者が認識可能な音声速度の値よりも大きければ、テキスト化したデータのう
ち、受話者が認識可能な音声速度よりも大きい部分の文字を伏せ字に変換する。なお、処
理部28は、導出した音声速度の値が、受話者が認識可能な音声速度の値以下であれば、
テキスト化したデータに対する変換を実行しない。
処理部28は、導出した音量レベルの値と、設定部38に記憶した音量レベルの値とを比
較することによって、音声信号に対して、受話者が認識可能な音量レベル以上であるかの
判定処理を実行する。処理部28は、導出した音量レベルの値が、受話者が認識可能な音
量レベルの値よりも小さければ、テキスト化したデータの各文字を伏せ字に変換する。な
お、処理部28は、導出した音量レベルの値が、受話者が認識可能な音量レベルの値以上
であれば、テキスト化したデータに対する変換を実行しない。このように処理部28にお
ける音声認識処理には、音量レベル、音声速度のうちの少なくとも1つが反映される。こ
こで、受話者の音声認識モデルは、操作部24を操作することによって、設定部38に設
定される。設定される内容は、受話者が認識可能な音声速度の値、受話者が認識可能な音
量レベルの値の少なくとも一方である。
データを送信側の端末装置10に送信する。前述のごとく、受話者が認識可能な音声速度
の値よりも大きい場合、あるいは受話者が認識可能な音量レベルの値よりも小さい場合、
テキストデータの少なくとも一部の文字が伏せ字に変換されている。このことは、送信部
40が、受話者が認識可能な音声速度以下であるかの判定結果を送信すること、あるいは
受話者が認識可能な音量レベル以上であるかの判定結果を送信することに相当する。
受信し、処理部28は、テキストデータを表示部26に表示する。図5(a)−(b)は
、表示部26に表示される画面を示す。図5(a)は、受信側の端末装置10において再
生される音声信号の音声速度の値が、受話者が認識可能な音声速度の値よりも大きい場合
を示す。この場合、一部の文字が伏せ字によって示される。一方、図5(b)は、受信側
の端末装置10において再生される音声信号の音量レベルの値が、受話者が認識可能な音
量レベルの値よりも小さい場合を示す。この場合、すべての文字が伏せ字によって示され
る。
係る通信システム100による通信手順を示すシーケンス図である。第1端末装置10a
は、音声を入力する(S50)と、音声信号を生成する(S52)。第1端末装置10a
は、音声信号を送信する(S54)。第2端末装置10bは、音声信号を再生し(S56
)、再生した音声信号をスピーカ34から出力する(S58)。第2端末装置10bは、
音声認識処理を実行する(S60)とともに、音声速度、音量レベルによる評価を実行す
る(S62)ことによって、テキストデータを生成する(S64)。第2端末装置10b
は、テキストデータを送信する(S66)。第1端末装置10aは、テキストデータを表
示する(S68)。
定処理を実行するので、音声速度のために聞きづらいかを判定できる。また、音声速度の
ために聞きづらいことをテキスト化に反映できる。また、音声信号に対して、ユーザが認
識可能な音量レベル以上であるかの判定処理を実行するので、音量レベルのために聞きづ
らいかを判定できる。また、音量レベルのために聞きづらいことをテキスト化に反映でき
る。
次に、実施例3を説明する。本発明の実施例3も、これまでと同様に、PTTによる音
声通信を実行する端末装置であって、かつ受話者の音声認識モデルを使用して音声信号を
テキスト化する端末装置に関する。実施例3では、音声信号をテキスト化するだけではな
く、受話者が音声を聞いている状況を推測可能な情報を送信側の端末装置に通知する。実
施例3に係る通信システムは、図1と同様のタイプである。ここでは、これまでとの差異
を中心に説明する。
理部28は、図2と比較して、比較部46をさらに含む。前述の(2)において、処理部
28は、再生部32からの音声信号を入力する。処理部28は、実施例1と同様に、音声
信号に対して、本端末装置10を使用するユーザの音声認識モデルにもとづく音声認識処
理、つまりユーザの聞こえ方を反映した音声認識処理を実行する。その結果、音声信号は
テキスト化(以下、テキスト化された音声信号を「第1テキスト」という)される。
てもよい。例えば、入力した音声信号の1音素の波形と、当該1音素の波形に最も近い波
形との相関値が予め定められた値よりも小さい場合に、当該1音素が認識不可能な音素と
判定される。処理部28は、第1テキストにおいて、認識不可能な音素を伏せ字に変換す
る。なお、伏せ字ではなく、別の予め定められた文字に変換されてもよく、「認識不可能
な音素あり」とのメッセージが、第1テキストに追加されてもよい。
、つまり標準的な音声認識モデルも記憶する。標準的な音声認識モデルでは、例えば、音
「あ」に対応した音声信号の標準的な波形が記憶されている。処理部28は、音声信号に
対して、標準的な音声認識モデルにもとづく音声認識処理、つまり、ユーザの聞こえ方を
未反映のままの音声認識処理も実行する。ここでも、音声信号はテキスト化(以下、テキ
スト化された音声信号を「第2テキスト」という)される。なお、処理部28は、第1テ
キストの場合と同様に、第2テキストにおいても、認識不可能な音素を伏せ字等に変換し
てもよい。
トと第2テキストとを比較する。ここでは、比較として、第1テキストと第2テキストと
が並べられる。比較部46は、第1テキストと第2テキストとを並べたテキストデータを
送信部40に出力する。送信部40は、処理部28からのテキストデータを入力する。送
信部40は、比較結果であるテキストデータを送信側の端末装置10に送信する。
受信し、処理部28は、テキストデータを表示部26に表示する。図8(a)−(b)は
、表示部26に表示される画面を示す。画面の上側には、「受話者音声認識」の場合とし
て、第1テキストが示され、画面の下側には、「標準音声認識」の場合として、第2テキ
ストが示される。図8(a)では、第2テキストにおいて認識不可能な音素がないにもか
かわらず、第1テキストにおいて認識不可能な音素がある場合を示す。これは、標準的な
音声認識モデルによって、発話者が発した音声に対応した音声信号を音声認識処理した場
合、すべて認識されるが、受話者の音声認識モデルによって音声認識処理した場合、認識
不可能な音素が存在することに相当する。つまり、受話者の聞こえ方によって音声が認識
されていないといえる。
素がある場合を示す。これは、標準的な音声認識モデルと受話者の音声認識モデルのいず
れによって、発話者が発した音声に対応した音声信号を音声認識処理した場合、認識不可
能な音素が存在することに相当する。この場合、例えば、第1端末装置10aと第1基地
局装置12aとの間の無線区間、あるいは第2端末装置10bと第2基地局装置12bと
の無線区間の品質が悪化していることが推定される。
較手順を示すフローチャートである。比較部46は、ユーザの音声認識モデルにもとづく
音声認識処理の結果を取得する(S80)。一方、比較部46は、標準的な音声認識モデ
ルにもとづく音声認識処理の結果を取得する(S82)。比較部46は、比較として両方
の音声認識処理の結果を並べる(S84)。
な音声認識モデルにもとづく音声認識処理の結果とを比較するので、どの段階で認識不可
能な音素が発生するかを特定できる。また、ユーザの音声認識モデルにもとづく音声認識
処理の結果に認識不可能な音素が存在し、標準的な音声認識モデルにもとづく音声認識処
理の結果に認識不可能な音素が存在しない場合、特定のユーザだけが聞き取れないことを
認識できる。また、ユーザの音声認識モデルにもとづく音声認識処理の結果と、標準的な
音声認識モデルにもとづく音声認識処理の結果とに認識不可能な音素が存在する場合、発
話あるいは通信の段階に原因があることを認識できる。
次に、実施例4を説明する。本発明の実施例4も、これまでと同様に、PTTによる音
声通信を実行する端末装置であって、かつ受信した音声信号をテキスト化する端末装置に
関する。受信側の端末装置において、イコライザのオン/オフ、スピーカから出力される
際の音量レベル、話速変換のオン/オフの設定がなされる場合がある。その際、そのよう
な設定に応じて処理された音声がスピーカから出力される。つまり、このような処理によ
って、実際にスピーカから出力される音声と、テキストデータの内容とが異なるおそれが
ある。
装置になされた設定に応じて、音声認識処理を実行する。そのため、端末装置において生
成されるテキストデータの内容は、設定に応じた処理を反映している。実施例4に係る通
信システム、端末装置は、図1、図2と同様のタイプである。ここでは、これまでとの差
異を中心に説明する。
まな設定がなされる。この設定によって、受信部42において受信した音声信号を再生す
る際に使用すべき設定値が登録される。設定部38においてなされる設定のうちの1つは
、イコライザのオン/オフである。イコライザは、音声信号の周波数特性を変更する処理
である。イコライザをオンにした場合、音声信号の特定の周波数帯域(倍音成分や高調波
成分あるいはノイズ成分)を強調したり、減少したりすることが可能になる。また、設定
部38においてなされる設定のうちの別の1つは、音声速度変換のオン/オフである。音
声速度変換は、音声の再生速度を高速にしたり、低速にしたりする処理である。さらに、
設定部38においてなされる設定のうちのさらに別の1つは、音量レベルの調節である。
音量レベルは、スピーカ34から音声を出力する際のボリュームである。これらの設定は
、操作部24を操作することによってなされる。また、設定部38には、これらの設定の
すべてがなされている必要はなく、少なくとも1つの設定がなされていればよい。
定部38においてなされた設定値が反映される。例えば、設定部38においてイコライザ
がオンにされている場合、再生部32は、イコライザ処理を実行しながら音声信号を再生
する。一方、設定部38においてイコライザがオフにされている場合、再生部32は、イ
コライザ処理を実行せずに音声信号を再生する。
速度を変換しながら音声信号を再生する。なお、音声速度は、2倍、3倍、1/2倍のよ
うに設定されている。一方、設定部38において音声速度変換がオフにされている場合、
再生部32は、音声速度を変換せずに音声信号を再生する。さらに、設定部38において
設定されている音量レベルにおいて、再生部32は、音声信号を再生する際の音量レベル
を調節する。なお、イコライザ処理、音声速度変換、音量レベルの調節、音声信号の再生
には公知の技術が使用されればよいので、ここでは説明を省略する。前述のごとく、設定
部38においてこれらの設定のすべてがなされている必要はなく、少なくとも1つの設定
がなされていればよいので、再生部32は、少なくとも1つの設定を使用すればよい。再
生部32は、再生した音声信号をスピーカ34と処理部28に出力する。スピーカ34は
、電気信号である音声信号を音声に変換し、音声を出力する。
音声認識モデルにもとづいて、音声信号に対して音声認識処理を実行する。音声認識処理
によって、音声信号がテキスト化される。さらに、処理部28は、音声認識処理において
認識不可能な音素が存在する場合に、その理由(以下、「エラーの理由」という)を特定
してもよい。ここでは、エラーの理由として、(A)音声認識処理において認識不可能な
音素が存在するか、(B)再生した音声信号での音声速度がしきい値より大きいか、(C
)再生した音声信号での音量レベルがしきい値より小さいかが特定される。なお、(B)
と(C)におけるしきい値は別の値でもよい。以下では、これらの処理を順に説明する。
処理部28は、音声認識処理において認識不可能な音素が存在するかを判定する。例え
ば、入力した音声信号の1音素の波形と、当該1音素の波形に最も近い波形との相関値が
予め定められた値よりも小さい場合に、当該1音素が認識不可能な音素と判定される。処
理部28は、テキスト化したデータにおいて、認識不可能な音素を伏せ字に変換する。な
お、伏せ字ではなく、別の予め定められた文字に変換されてもよく、「認識不可能な音素
あり」とのメッセージが、テキスト化したデータに追加されてもよい。つまり、処理部2
8は、本端末装置10の設定を反映させながら、再生部32において再生した音声信号に
対して実行された音声認識処理において認識不可能な音素が存在するかを判定することに
よって、音声信号におけるエラーの理由を特定する。
処理部28は、実施例2と同様に、テキスト化したデータの文字数を数えることによっ
て、一定期間における音声信号の音声速度の値を導出する。処理部28は、導出した音声
速度の値と、予め記憶したしきい値とを比較することによって、音声信号での音声速度が
しきい値より大きいかの判定処理を実行する。処理部28は、音声速度の値がしきい値よ
りも大きければ、テキスト化したデータのうち、しきい値よりも大きい部分の文字を伏せ
字に変換する。さらに、処理部28は、テキスト化したデータに、音声速度が速すぎるこ
とを示すためのメッセージを追加してもよい。なお、処理部28は、音声速度の値がしき
い値以下であれば、テキスト化したデータに対する変換を実行しない。
処理部28は、実施例2と同様に、一定期間における音声信号の音量レベルの値を導出
する。処理部28は、導出した音量レベルの値と、しきい値とを比較することによって、
音声信号での音量レベルがしきい値より小さいかの判定処理を実行する。処理部28は、
音量レベルの値がしきい値よりも小さければ、テキスト化したデータの各文字を伏せ字に
変換する。さらに、処理部28は、テキスト化したデータに、音量レベルが小さすぎるこ
とを示すためのメッセージを追加してもよい。なお、処理部28は、音量レベルの値がし
きい値以上であれば、テキスト化したデータに対する変換を実行しない。
、処理部28において特定したエラーの理由が含まれてもよい。送信部40は、テキスト
データを送信側の端末装置10に送信する。エラーの理由が含まれる場合、伏せ字によっ
て、認識不可能な音素の存在が示される。また、音声速度がしきい値より大きいことが示
されたり、音量レベルがしきい値より小さいことが示されたりする。なお、処理部28が
エラーの理由を特定するための処理を実行しない場合、テキストデータには、エラーの理
由が含まれない。
受信する。受信部42は、テキストデータを処理部28に出力する。処理部28は、受信
部42からのテキストデータを入力し、テキストデータを表示部26に表示する。テキス
トデータにエラーの理由が含まれない場合、表示部26は、実施例1と同様にテキストデ
ータを表示する。送話者は、表示部26に表示されたテキストデータを確認することによ
って、受話者がどのように聞き取っているかを認識する。
0(a)−(c)は、本発明の実施例4に係る表示部26に表示される画面を示す。図1
0(a)は、送話者が「アンゼン」と話しているが、「ア」が、認識不可能な音素とされ
ている場合を示す。この場合、受話者は、例えば、「カンゼン」と聞き取っている可能性
がある。図10(b)は、音声速度の値がしきい値よりも大きい場合を示す。この場合、
一部の音素が伏せ字によって示されるとともに、メッセージが表示される。一方、図10
(c)は、音量レベルの値がしきい値よりも小さい場合を示す。この場合、すべての音素
が伏せ字によって示されるとともに、メッセージが表示される。
に係る通信システム100による通信手順を示すシーケンス図である。第1端末装置10
aは、音声を入力する(S110)と、音声信号を生成する(S112)。第1端末装置
10aは、音声信号を送信する(S114)。第2端末装置10bは、音声信号を再生し
(S116)、再生した音声信号をスピーカ34から出力する(S118)。第2端末装
置10bは、音声認識処理を実行し(S120)、エラーの理由を特定する(S122)
。また、第2端末装置10bは、テキストデータ、エラーの理由を生成する(S124)
。第2端末装置10bは、テキストデータ、エラーの理由を送信する(S126)。第1
端末装置10aは、テキストデータ、エラーの理由を表示する(S128)。
である。設定部38にイコライザ設定がなされている場合(S150のY)、再生部32
は、音声信号に対してイコライザ処理を実行する(S152)。設定部38にイコライザ
設定がなされていない場合(S150のN)、ステップ152はスキップされる。再生部
32は、音声認識処理を実行する(S154)。認識不可能な音素があれば(S156の
Y)、処理部28は、エラーの理由を特定する(S158)。認識不可能な音素がなけれ
ば(S156のN)、ステップ158はスキップされる。
ートである。設定部38に音声速度変換設定がなされている場合(S200のY)、再生
部32は、音声信号を調節する(S202)。設定部38に音声速度変換設定がなされて
いない場合(S200のN)、ステップ202はスキップされる。再生部32は、音声認
識処理を実行する(S204)。音声速度がしきい値よりも大きければ(S206のY)
、処理部28は、エラーの理由を特定する(S208)。音声速度がしきい値よりも大き
くなければ(S206のN)、ステップ208はスキップされる。
ーチャートである。再生部32は、設定部38における音量設定を取得する(S250)
。再生部32は、音声信号を調節する(S252)。音量レベルがしきい値よりも小さけ
れば(S254のY)、処理部28は、エラーの理由を特定する(S256)。音量レベ
ルがしきい値よりも小さくなければ(S254のN)、ステップ256はスキップされる
。
を実行するので、端末装置の設定を反映しながら、受信した音声信号をテキスト化できる
。端末装置の設定を反映させながら、再生した音声信号におけるエラーの理由を特定して
通知するので、端末装置において音声出力に関する設定がなされる場合であっても、音声
が聞こえにくい理由を知らせることができる。また、音声が聞こえにくい理由を知らせる
ので、当該理由を解消しながら音声信号を送信できる。また、端末装置の設定を反映させ
るので、実際の音声の聞こえ方に近くなるように音声認識処理を実行できる。
送話者の話し方、通信環境が原因であることを知らせることができる。また、音声信号で
の音声速度がしきい値より大きいかを判定して通知するので、送話者の話し方が原因であ
ることを知らせることができる。また、音声信号での音量レベルがしきい値より小さいか
を判定して通知するので、送話者の話し方が原因であることを知らせることができる。
次に、実施例5を説明する。実施例5は、実施例4と実施例3との組合せに相当する。
実施例5に係る通信システム、端末装置は、図1、図7と同様のタイプである。ここでは
、これまでとの差異を中心に説明する。
を再生する。その際、実施例4と同様に、設定部38においてなされた設定値が反映され
る。処理部28は、再生部32からの音声信号を入力する。処理部28は、音声信号に対
して、標準的な音声認識モデルにもとづく音声認識処理を実行する。その結果、音声信号
はテキスト化(以下、テキスト化された音声信号を「第1テキスト」という)される。
た設定値を未使用のまま、音声信号を再生する。処理部28は、再生部32からの音声信
号を入力する。処理部28は、音声信号に対して、標準的な音声認識モデルにもとづく音
声認識処理を実行する。その結果、音声信号はテキスト化(以下、テキスト化された音声
信号を「第2テキスト」という)される。
トと第2テキストとを比較する。ここでは、比較として、第1テキストと第2テキストと
が並べられる。比較部46は、第1テキストと第2テキストとを並べたテキストデータを
送信部40に出力する。送信部40は、処理部28からのテキストデータを入力する。送
信部40は、比較結果であるテキストデータを送信側の端末装置10に送信する。これに
つづく処理は、これまでと同様であるので、ここでは説明を省略する。
末装置の設定値を使用していない場合の音声認識処理の結果とを比較するので、どの段階
で認識不可能な音素が発生するかを特定できる。また、端末装置の設定値を使用している
場合の音声認識処理の結果に認識不可能な音素が存在し、端末装置の設定値を使用してい
ない場合の音声認識処理の結果に認識不可能な音素が存在しない場合、端末装置の設定に
よって聞き取れないことを認識できる。また、端末装置の設定値を使用している場合の音
声認識処理の結果と、端末装置の設定値を使用していない場合の音声認識処理の結果とに
認識不可能な音素が存在する場合、発話あるいは通信の段階に原因があることを認識でき
る。
次に、実施例6を説明する。実施例6は、実施例4において音声認識処理を実行する際
に、マイクにおいて集音した音の情報も利用することに関する。実施例6に係る通信シス
テム、端末装置は、図1、図2と同様のタイプである。ここでは、これまでとの差異を中
心に説明する。
音した雑音を電気信号(以下、「雑音信号」という)に変換し、雑音信号を処理部28に
出力する。処理部28は、実施例4と同様に、音声信号に対して音声認識処理を実行する
。特に、エラーの理由を特定するために前述の(A)の処理を実行する場合、処理部28
は、音声認識処理において、マイク22において集音した音の情報を反映させる。例えば
、雑音信号の大きさに応じて、相関値と比較すべき値を調節する。具体的に説明すると、
雑音信号が大きくなるほど、相関値と比較すべき値が小さくされる。処理部28は、これ
までと同様に、認識不可能な音素を判定する。これにつづく処理は、これまでと同様であ
るので、ここでは説明を省略する。
で、実際の音声の聞こえ方に近くなるように音声認識処理を実行できる。また、実際の音
声の聞こえ方に近くなるような音声認識処理がなされるので、テキスト化の精度を向上で
きる。
次に、実施例7を説明する。実施例7は、実施例6と実施例5との組合せに相当する。
実施例7に係る通信システム、端末装置は、図1、図7と同様のタイプである。ここでは
、これまでとの差異を中心に説明する。
を再生する。その際、実施例6と同様に、設定部38においてなされた設定値が反映され
る。処理部28は、再生部32からの音声信号を入力する。処理部28は、音声信号に対
して、標準的な音声認識モデルにもとづく音声認識処理を実行する。ここで、エラーの理
由を特定するために前述の(A)の処理を実行する場合、処理部28は、実施例6と同様
に、音声認識処理において、マイク22において集音した音の情報を反映させる。その結
果、音声信号はテキスト化(以下、テキスト化された音声信号を「第1テキスト」という
)される。
た設定値を未使用のまま、音声信号を再生する。処理部28は、再生部32からの音声信
号を入力する。処理部28は、音声信号に対して、標準的な音声認識モデルにもとづく音
声認識処理を実行する。しかしながら、処理部28は、音声認識処理において、マイク2
2において集音した音の情報を反映させない。つまり、音の情報は未使用のまま音声認識
処理が実行される。その結果、音声信号はテキスト化(以下、テキスト化された音声信号
を「第2テキスト」という)される。
トと第2テキストとを比較する。ここでは、比較として、第1テキストと第2テキストと
が並べられる。比較部46は、第1テキストと第2テキストとを並べたテキストデータを
送信部40に出力する。送信部40は、処理部28からのテキストデータを入力する。送
信部40は、比較結果であるテキストデータを送信側の端末装置10に送信する。これに
つづく処理は、これまでと同様であるので、ここでは説明を省略する。
場合の音声認識処理の結果と、端末装置の設定値を使用せず、かつ集音した音の情報を使
用していない場合の音声認識処理の結果とを比較するので、どの段階で認識不可能な音素
が発生するかを特定できる。また、端末装置の設定値を使用し、かつ集音した音の情報を
使用している場合の音声認識処理の結果に認識不可能な音素が存在し、端末装置の設定値
を使用せず、かつ集音した音の情報を使用していない場合の音声認識処理の結果に認識不
可能な音素が存在しない場合、端末装置の設定、周囲の雑音によって聞き取れないことを
認識できる。また、端末装置の設定値を使用し、かつ集音した音の情報を使用している場
合の音声認識処理の結果と、端末装置の設定値を使用せず、かつ集音した音の情報を使用
していない場合の音声認識処理の結果とに認識不可能な音素が存在する場合、発話あるい
は通信の段階に原因があることを認識できる。
次に、実施例8を説明する。実施例8は、実施例6において、音声認識処理を実行する
際に、受信側の端末装置になされた設定を反映させない場合に相当する。受信側の端末装
置になされた設定とは、イコライザのオン/オフ、スピーカから出力される際の音量レベ
ル、話速変換のオン/オフの設定である。一方、実施例8でも、実施例6と同様に、音声
認識処理を実行する際に、マイクにおいて集音した音の情報は利用される。実施例8に係
る通信システム、端末装置は、図1、図2と同様のタイプである。ここでは、これまでと
の差異を中心に説明する。
を再生する。その際、実施例6とは異なって、設定部38においてなされた設定値は反映
されない。マイク22は、本端末装置10の周囲の音、例えば雑音を集音し、集音した雑
音を電気信号(以下、「雑音信号」という)に変換し、雑音信号を処理部28に出力する
。処理部28は、実施例6と同様に、音声信号に対して音声認識処理を実行する。特に、
エラーの理由を特定するために前述の(A)の処理を実行する場合、処理部28は、音声
認識処理において、マイク22において集音した音の情報を反映させる。これにつづく処
理は、これまでと同様であるので、ここでは説明を省略する。
で、実際の音声の聞こえ方に近くなるように音声認識処理を実行できる。また、実際の音
声の聞こえ方に近くなるような音声認識処理がなされるので、テキスト化の精度を向上で
きる。
次に、実施例9を説明する。実施例9は、実施例8と実施例7との組合せに相当する。
実施例9に係る通信システム、端末装置は、図1、図7と同様のタイプである。ここでは
、これまでとの差異を中心に説明する。
28は、音声信号に対して、標準的な音声認識モデルにもとづく音声認識処理を実行する
。ここで、エラーの理由を特定するために前述の(A)の処理を実行する場合、処理部2
8は、実施例8と同様に、音声認識処理において、マイク22において集音した音の情報
を反映させる。その結果、音声信号はテキスト化(以下、テキスト化された音声信号を「
第1テキスト」という)される。
処理を実行する。しかしながら、処理部28は、音声認識処理において、マイク22にお
いて集音した音の情報を反映させない。つまり、音の情報は未使用のまま音声認識処理が
実行される。その結果、音声信号はテキスト化(以下、テキスト化された音声信号を「第
2テキスト」という)される。
トと第2テキストとを比較する。ここでは、比較として、第1テキストと第2テキストと
が並べられる。比較部46は、第1テキストと第2テキストとを並べたテキストデータを
送信部40に出力する。送信部40は、処理部28からのテキストデータを入力する。送
信部40は、比較結果であるテキストデータを送信側の端末装置10に送信する。これに
つづく処理は、これまでと同様であるので、ここでは説明を省略する。
音した音の情報を使用していない場合の音声認識処理の結果とを比較するので、どの段階
で認識不可能な音素が発生するかを特定できる。また、集音した音の情報を使用している
場合の音声認識処理の結果に認識不可能な音素が存在し、集音した音の情報を使用してい
ない場合の音声認識処理の結果に認識不可能な音素が存在しない場合、周囲の雑音によっ
て聞き取れないことを認識できる。また、集音した音の情報を使用している場合の音声認
識処理の結果と、集音した音の情報を使用していない場合の音声認識処理の結果とに認識
不可能な音素が存在する場合、発話あるいは通信の段階に原因があることを認識できる。
素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本
発明の範囲にあることは当業者に理解されるところである。
しながらこれに限らず例えば、業務用無線以外の無線通信システムが使用されてもよい。
本実施例によれば、構成の自由度を向上できる。
2 マイク、 24 操作部、 26 表示部、 28 処理部、 30 通信部、 3
2 再生部、 34 スピーカ、 36 送話部、 38 設定部、 40 送信部、
42 受信部、 46 比較部、 100 通信システム。
Claims (5)
- 受信側となる端末装置に対して音声信号を送信する送信部と、
前記受信側となる端末装置において、受信した音声信号を再生した音声信号に対して実
行する音声認識処理の結果を、前記受信側となる端末装置から受信する受信部と、
受信した前記音声認識処理の結果を表示部に表示する処理部とを備え、
前記受信側となる端末装置において、
(1)前記受信側となる端末装置を使用するユーザの聞こえ方を未反映のまま音声認識
処理を実行し、(2)ユーザの聞こえ方が未反映での音声認識処理の結果と、ユーザの聞
こえ方を反映した音声認識処理の結果とを比較した比較結果を、前記受信部が受信する
ことを特徴とする端末装置。 - 前記音声認識処理の結果は、
前記受信側となる端末装置において再生した音声信号に対して、前記受信側となる端末
装置を使用するユーザの聞こえ方を反映する
ことを特徴とする請求項1に記載の端末装置。 - 前記受信部は、
前記受信側となる端末装置の音声認識処理において、音量レベル、音声速度のうちの少
なくとも1つを反映して得られた結果を、前記受信側となる端末装置から受信する
ことを特徴とする請求項1または2に記載の端末装置。 - 受信側となる端末装置に対して音声信号を送信するステップと、
前記受信側となる端末装置において、受信した音声信号を再生した音声信号に対して、
音声認識処理を実行した結果を、前記受信側となる端末装置から受信するステップと、
前記音声認識処理の結果を取得し、表示部に表示するステップと、
を含み、
前記受信側となる端末装置において、
(1)前記受信側となる端末装置を使用するユーザの聞こえ方を未反映のまま音声認識
処理を実行し、(2)ユーザの聞こえ方が未反映での音声認識処理の結果と、ユーザの聞
こえ方を反映した音声認識処理の結果とを比較した比較結果を、前記受信するステップに
おいて受信する
ことを特徴とする通信方法。 - 受信側となる端末装置に対して音声信号を送信する処理と、
前記受信側となる端末装置において、受信した音声信号を再生した音声信号に対して、
音声認識処理を実行した結果を、前記受信側となる端末装置から受信する処理と、
前記音声認識処理の結果を取得し、表示部に表示する処理と、をコンピュータに実行さ
せ、
前記受信側となる端末装置において、
(1)前記受信側となる端末装置を使用するユーザの聞こえ方を未反映のまま音声認識
処理を実行し、(2)ユーザの聞こえ方が未反映での音声認識処理の結果と、ユーザの聞
こえ方を反映した音声認識処理の結果とを比較した比較結果を、前記受信する処理は受信
する
ことを特徴とする通信プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019196136A JP6822540B2 (ja) | 2019-10-29 | 2019-10-29 | 端末装置、通信方法及び通信プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019196136A JP6822540B2 (ja) | 2019-10-29 | 2019-10-29 | 端末装置、通信方法及び通信プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015227480A Division JP6610195B2 (ja) | 2015-11-20 | 2015-11-20 | 端末装置、通信方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020013169A JP2020013169A (ja) | 2020-01-23 |
JP6822540B2 true JP6822540B2 (ja) | 2021-01-27 |
Family
ID=69169895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019196136A Active JP6822540B2 (ja) | 2019-10-29 | 2019-10-29 | 端末装置、通信方法及び通信プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6822540B2 (ja) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6195398A (ja) * | 1984-10-17 | 1986-05-14 | 株式会社東芝 | 音声認識装置 |
JP2701431B2 (ja) * | 1989-03-06 | 1998-01-21 | 株式会社デンソー | 音声認識装置 |
JPH09325798A (ja) * | 1996-06-06 | 1997-12-16 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2000004304A (ja) * | 1998-06-16 | 2000-01-07 | Matsushita Electric Ind Co Ltd | 異なる手段での会話が可能な通話装置 |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
JP2002300259A (ja) * | 2001-04-03 | 2002-10-11 | Fujitsu I-Network Systems Ltd | 音声通話装置の評価試験方法及びシステム |
JP2004186870A (ja) * | 2002-12-02 | 2004-07-02 | Nippon Telegr & Teleph Corp <Ntt> | テレビ会議方法、利用者端末装置の処理方法、利用者端末装置、プログラム及び記録媒体 |
JP2004304601A (ja) * | 2003-03-31 | 2004-10-28 | Toshiba Corp | Tv電話装置、tv電話装置のデータ送受信方法 |
JP4197271B2 (ja) * | 2003-06-17 | 2008-12-17 | シャープ株式会社 | 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体 |
-
2019
- 2019-10-29 JP JP2019196136A patent/JP6822540B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020013169A (ja) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107995360B (zh) | 通话处理方法及相关产品 | |
KR101626438B1 (ko) | 오디오 데이터 프로세싱을 위한 방법, 디바이스, 및 시스템 | |
US8972251B2 (en) | Generating a masking signal on an electronic device | |
JP5134876B2 (ja) | 音声通信装置及び音声通信方法並びにプログラム | |
JP2018528479A (ja) | スーパー広帯域音楽のための適応雑音抑圧 | |
JP5425280B2 (ja) | 基準変換手段を伴なう音声認識装置及び方法 | |
US10510361B2 (en) | Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user | |
JP6276132B2 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
US11516599B2 (en) | Personal hearing device, external acoustic processing device and associated computer program product | |
CN110996238B (zh) | 双耳同步信号处理助听系统及方法 | |
US20120271630A1 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program | |
WO2020017518A1 (ja) | 音声信号処理装置 | |
US9972342B2 (en) | Terminal device and communication method for communication of speech signals | |
JP2017216525A (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
JP6822540B2 (ja) | 端末装置、通信方法及び通信プログラム | |
JP6610195B2 (ja) | 端末装置、通信方法 | |
JP6690200B2 (ja) | 端末装置、通信方法 | |
JP7284570B2 (ja) | 音声再生システムおよびプログラム | |
JP2005338454A (ja) | 音声対話装置 | |
JP2008292621A (ja) | 話速変換装置、通話装置および話速変換方法 | |
KR101516589B1 (ko) | 이동통신단말기 및 그의 음성신호 처리 방법 | |
JP2010164992A (ja) | 音声対話装置 | |
KR20090059437A (ko) | 휴대 단말기 및 그 통화 기능 수행 방법 | |
TWI716123B (zh) | 除噪能力評估系統及方法 | |
JP2002300259A (ja) | 音声通話装置の評価試験方法及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6822540 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |