JP2007086592A

JP2007086592A - 音声出力装置および音声出力方法

Info

Publication number: JP2007086592A
Application number: JP2005277397A
Authority: JP
Inventors: Kazumasa Murai; 和昌村井; Kengo Omura; 賢悟大村
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-09-26
Filing date: 2005-09-26
Publication date: 2007-04-05

Abstract

【課題】現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声を聴取できる音声出力装置を提供する。
【解決手段】発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力装置１００であって、発話音声と既発話音声の特徴量を抽出する抽出部５２、５３と、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更する音声変更処理部６とを有する。また、音声出力装置１００は、前記発話音声の特徴量の比較に基づいて既発話音声を出力する際の音声特徴を変更するパラメータ決定部５５を有する。前記特徴量は、音声のピッチ、振幅またはスペクトルを用いる。これにより、現在の発話音声から録音され前に発話された発話音声を聞き取り易くし、現在の発話音声への注意の移行を容易にできる。
【選択図】図１

Description

本発明は、音声出力装置および音声出力方法に関する。

会議において、中座、不注意、居眠り、理解困難な外国語のスピーチ、複数の人が同時に発話する状況など様々な理由により、会議中の他者の音声を聞き漏らしたり理解できなかったりすることが起こる。このような事態では、会議中の音声が録音されていれば、聞き逃した部分や理解できなかった部分の音声を聴き直すことができる。しかしながら、騒音や人の声などの外音が介在する環境では録音音声の聴取は困難であり、特に、声質が近い複数の音声を聞き分けることは著しく困難である。これを避けるための技術がすでにいくつか提案されている。

たとえば、車などの近接した位置での音声出力が互いに干渉しない快適な聴取環境を維持するために、近接した位置での音声出力の音量などを検知し、近接した位置における信号の出力とほぼ逆位相の信号を出力する技術が提案されている（特許文献１参照）。また、他の技術として、複数の音声が錯綜して聞き取りにくい環境の中で特定の会話を聞き取りやすくする補聴器を提供するため、話者識別部で検出された音声に聞き取りやすい補聴処理を施して出力する技術が提案されている（特許文献２参照）。
特開平６−３３４５４５号公報特開２０００−１２５３９７号公報

しかしながら、会議において、例えば外音を遮断する密閉型ヘッドホンを利用して録音音声を聴取した場合には、会議で現在進行中の音声が遮断されてしまい、発言内容の把握が困難になる。また、外音を遮断しないヘッドホンを利用して録音音声を聴取した場合、例えば同じ人物が話している場合などのように会議中の音声と録音音声が類似している場合、両者を聞き分けるのは困難であるという問題がある。

また、上記特許文献１および２は、複数の音声から特定の音声を聞き易くするものであり、両者をともに聞き分けることを支援するものではない。

そこで、本発明は、上記問題点に鑑みてなされたもので、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声や、遠隔地からの受信音声を聞き取り易くすることができる音声出力装置および音声出力方法を提供することを目的とする。

上記課題を解決するために、本発明は、入力部から入力された入力発話音声を遠隔地へ送信する送信部と、該遠隔地から送られてきた遠隔発話音声を出力する出力部とを備えた音声出力装置であって、操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする。本発明によれば、操作者による設定、過去の変更の履歴、または入力発話音声の特徴量に応じて遠隔地から送られてきた発話音声を変更するため、発話の衝突があった場合でも発話の衝突の影響を小さくできる。これにより現在発話されている発話音声を聞きながら、遠隔地からの受信音声を聞き取り易くすることができる。例えば入力発話音声が女声の場合、遠隔発話音声を男声に変更し、反対に入力発話音声が男声の場合、遠隔発話音声を女声に変更することで、発話の衝突があった場合でも発話の衝突の影響を小さくできる。

本発明の音声出力装置は、前記遠隔発話音声と前記入力発話音声が衝突するかを判定する判定部をさらに有する。これにより遠隔地から送られてきた発話音声と入力部から入力された発話音声が衝突しているときにだけ遠隔地から送られてきた発話音声を変換するようにして、必要な場合にだけ変換処理を施すようにできる。本発明の音声出力装置は、前記遠隔発話音声の特徴量と前記入力発話音声の特徴量とに応じて前記遠隔発話音声を変更する変更部をさらに有する。

本発明の音声出力装置は、発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力装置であって、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする。本発明によれば、現在の発話音声から録音され前に発話された発話音声を聞き取り易くし、現在の発話音声への注意の移行を容易にできる。これにより、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声を聞き取り易くすることができる。また、完全な同時聴取は困難であるが、会議中に重要な発言があれば即座に注意をそちらに切り換えることができるようなかたちで録音音声を聴取できるような選択聴取環境を実現できる。例えば発話音声が女声の場合、既発話音声を男声に変更し、反対に発話音声が男声の場合、既発話音声を女声に変更することで、既発話音声を聞き取り易くできる。

本発明の音声出力装置は、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更する変更部をさらに有する。本発明の音声出力装置は、前記発話音声の特徴量を抽出する抽出部をさらに有する。本発明の音声出力装置は、前記発話音声の特徴量の比較に基づいて前記発話音声を出力する際の音声特徴を変更する変更値を決定する決定部をさらに有する。前記特徴量は、音声のピッチ、振幅およびスペクトルのうちの少なくとも一つである。

本発明の音声出力装置は、前記既発話音声を記録するための記録部と、再生要求を行なうための指示部と、前記指示部による再生要求に基づいて前記記録部に記録された既発話音声を検索するための検索部をさらに有する。

本発明は、入力部から入力された入力発話音声を遠隔地へ送信する工程と、該遠隔地から送られてきた遠隔発話音声を出力する工程とを含む音声出力方法であって、操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする。本発明によれば、操作者による設定、過去の変更の履歴、または入力発話音声の特徴量に応じて遠隔地から送られてきた発話音声を変更するため、発話の衝突があった場合でも発話の衝突の影響を小さくできる。これにより現在発話されている発話音声を聞きながら、遠隔地からの受信音声を聞き取り易くすることができる。

本発明の音声出力方法は、前記遠隔発話音声と前記入力発話音声が衝突するかを判定する工程をさらに有する。これにより遠隔地から送られてきた発話音声と入力部から入力された発話音声が衝突しているときにだけ遠隔地から送られてきた発話音声を変換するようにして、必要な場合にだけ変換処理を施すようにできる。

本発明の音声出力方法は、発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力方法であって、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする。本発明によれば、現在の発話音声から録音され前に発話された発話音声を聞き取り易くし、現在の発話音声への注意の移行を容易にできる。これにより、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声を聞き取り易くすることができる。また、完全な同時聴取は困難であるが、会議中に重要な発言があれば即座に注意をそちらに切り換えることができるようなかたちで録音音声を聴取できるような選択聴取環境を実現できる。

本発明によれば、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声や、遠隔地からの受信音声を聞き取り易くすることができる音声出力装置および音声出力方法を提供できる。

以下、本発明を実施するための最良の形態について説明する。

図１は、本発明の第１実施形態に係る音声出力装置１００の構成を示す図である。本発明の音声出力装置１００は、発話音声の聴取中に、前に発話された既発話音声を聴取できるものである。

複数音声からの選択聴取は、聞こうとする音声の特徴が他の背景音声から際立って異なっていれば比較的容易に行なうことができる。また、その他、音源方向等も有力な手がかりとなる。ここで、選択聴取とは、多数の音声から1つの音声を聴取することをいう。また、音声特徴が互いに異なっていれば、現在聴取している音声から以前聴取していた音声に再び注意を戻すことも容易であることが、心理学における同時分離聴実験から明らかになっている。第１実施例の音声出力装置は、上記事実を踏まえて構成されたもので、聞き直す部分の録音音声を、会議中の現在の発話者の音声と明確に異なる音声特徴を備えた音声に変換して出力することにより、選択聴取を支援するようにしている。

図１に示すように、音声入力部１、録音音声蓄積部２、再生指示部３、録音音声検索部４、音声変更制御部５、音声変更処理部６および音声出力部７を有する。音声入力部１は、収音された音を電気信号に変換し、さらにＡ／Ｄ変換してアナログ信号をディジタル信号に変換する。この音声入力部１は、例えばマイクロホンおよびサウンドカードなどで構成される。このアナログ信号をディジタル信号に変換する処理には、時間的なディジタル化である標本化（サンプリング）と、振幅値のディジタル化である量子化の処理が含まれる。このとき、ディジタル化しようとしている信号に、標本化周波数／２（ナイキスト周波数）以上の周波数の成分を含んでいる場合には、ナイキスト周波数以上の成分をあらかじめ低域ろ波器で除去しておく。

録音音声蓄積部２は、ディジタル信号に変換された録音音声を蓄積する。したがって、この録音音声蓄積部２には、発話者によって既に発話された既発話音声が格納されている。この録音音声蓄積部２は、半導体メモリまたはハードディスク装置などにより構成されている。再生指示部３は、蓄積された任意の録音音声に対する再生要求を行なう。この再生指示部３は、利用者により操作されるボタンなどのスイッチにより構成されている。録音音声検索部４は、再生指示部３による再生要求に基づいて録音音声蓄積部２に記録された既発話音声を検索する。

音声変更制御部５は、外部音声検出部５１、第１の特徴抽出部５２、第２の特徴抽出部５３、特徴比較部５４およびパラメータ決定部５５を有する。外部音声検出部５１は、現在発話されている発話音声を電気信号に変換し、さらにＡ／Ｄ変換してアナログ信号をディジタル信号に変換する。この外部音声検出部５１は例えばマイクロホン等により構成されている。なお、この外部音声検出部５１は、音声入力部１を用いてもよい。

第１の特徴抽出部５２は、外部音声検出部５１が検出された発話音声の音声信号の特徴量を抽出する。ここで音声の特徴量には、音声のピッチ、振幅、スペクトルなどが含まれる。例えば、ピッチ抽出法には、波形の上で周期的ピークを検出する波形処理、相関処理、スペクトル処理がある。また、音声スペクトルの主な分析法には、短時間自己相関分析、短時間スペクトル分析、ケプストラム分析、線形予測分析（ＬＰＣ）、ＰＡＲＣＯＲ分析などがある。ここで、ピッチやスペクトルを求める方法については、例えば、古井「ディジタル音声処理」（東海大学出版会、1992）に詳細に記述されている。

第２の特徴抽出部５３は、録音音声検索部４で検索された既発話音声の音声信号の特徴量を抽出する。特徴比較部５４は、発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量を比較する。パラメータ決定部５５は、発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量に応じて既発話音声を出力する際の音声特徴を変更するための変更値（パラメータ値）を決定する。音声変更処理部６は、パラメータ決定部５５で決定された変更値に基づいて既発話音声の音声信号を変更する。なお、音声変更処理部６は、過去の変更値の履歴を保持しておき、この過去の変更値と同じになるように音声を変更するとよい。

音声出力部７は、音声変更処理部６で変換された音声信号をディジタル形式から可聴信号のアナログ信号に変換し、出力する。この音声出力部７は、例えばサウンドカード、外音を遮断しない非密閉型ヘッドホンや片耳型のイヤホン等で構成されている。これにより、会議中の現在の発話が男声によるものであれば、録音音声が本来男声によるものであっても、女声に変換して、外音を遮断しない非密閉型ヘッドホンや片耳型のイヤホン等から出力される。なお、ディジタル化された音声信号をアナログ信号に復元する際にも、帯域内成分が高域に折り返したような信号が再生され、高周波域に雑音が加わった音になるのを防止するため、Ｄ／Ａ変換された信号を低域ろ波器（ローパスフィルタ）に通す必要がある。

次に、近接する現在の発話音声の話者の性別を識別し、既発話音声の発話者の性別と一致している場合に既発話音声を異なる性別の音声に変換して再生を行なう場合の例について説明する。ここでは、現在の発話音声と既発話音声のピッチを抽出・比較することにより、各音声が女声か男声かを識別して、両者が一致している場合には、既発話音声を異性の音声に変換を行っている。

図２は、既発話音声を異性の音声に変換する場合の音声出力装置１００の処理フローチャートである。ステップＳ１０１で、音声出力装置１００は、利用者からの再生開始指示を受け付ける。ステップＳ１０２で、外部音声検出部５１は、現在の発話音声の音声信号を検出する。ステップＳ１０３で、外部音声検出部５１は、発話音声の音量（振幅）情報を取得する。ステップＳ１０４で、外部音声検出部５１は、現在の発話音声の音量が所定の閾値よりも小さい場合、ステップＳ１０５で、音声変更処理部６は、録音音声検索部４で検索された既発話音声の音声信号を音声変換せずにそのまま再生を行なう。

ステップＳ１０４で、外部音声検出部５１は、現在の発話音声の音量が所定の閾値よりも大きい場合、ステップＳ１０６で、第１の特徴抽出部５２は、現在の発話音声の音声信号から特徴量としてピッチ情報を抽出する。また、第２の特徴抽出部５３は、既発話音声の音声信号から特徴量としてピッチ情報を抽出する。ステップＳ１０７で、特徴比較部５４は、現在の発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量を比較する。

パラメータ決定部５５は、現在の発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量に基づいて現在の発話音声を発話者の性別と、既発話音声を発話者の性別を判定し、判定結果に基づいて既発話音声を出力する際の音声特徴を変更するための変更値を決定する。また、ピッチによる性別判定は、例えば、ピッチ時系列集合の平均値をもとめ、それを男性の基本周波数の平均値（約１２５Ｈｚ）、女声の基本周波数の平均値（約２５０Ｈｚ）との差を算定して、いずれの差が小さくなるかというルールにもとづいて行なえばよい。

ステップＳ１０８で、音声変更処理部６は、再生部分の既発話音声の音声信号を録音音声検索部４から取得する。ステップＳ１０９で、音声変更処理部６は、既発話音声の性別判定結果に応じた変更値をパラメータ決定部５５から取得する。ステップＳ１１０で、音声変更処理部６は、現在の発話音声の発話者の性別と既発話音声の発話者の性別が一致しない場合、ステップＳ１０５で、既発話音声の音声信号を音声変換せずに音声出力部７で再生する。ステップＳ１１０で、音声変更処理部６は、現在の発話音声の発話者の性別と既発話音声の発話者の性別が一致する場合、ステップＳ１１１で、既発話音声の音声信号に対して音声変換処理した後、音声出力部７で変換後の音声信号を再生し、処理を終了する。

図３は、異性の音声への音声変換処理のフローチャートである。ステップＳ２０１で、音声変更処理部６は、既発話音声の音声信号を獲得する。ステップＳ２０２で、音声変更処理部６は、既発話音声の音声信号を周波数スペクトル信号に変換する。ステップＳ２０３で、音声変更処理部６は、パラメータ決定部５５から既発話音声の性別判定の結果に基づく変更値を取得する。

ステップＳ２０４で、音声変更処理部６は、変換補正値を取得する。まず、音声変更処理部６は、既発話音声の音声信号のピッチ、ここでは周波数ｆS を取得する。また、音声変更処理部６は、発話音声の音声信号からそのピッチ、ここでは周波数ｆI を取得する。そして、音声変更処理部６は、発話音声の音声信号のピッチ（周波数）ｆI と既発話音声の音声信号のピッチ（周波数）ｆS とから補正値、ここではΔｆ≡ｆS ／ｆI を求める。本実施例の場合、補正値Δｆ≡ｆS ／ｆIの算定において、ｆSは録音音声の性とは異なる性の平均ピッチ（男性の場合、約125Hz、女性の場合、約250Hz）、ｆIは変換すべき録音音声のピッチを用いる。

ステップＳ２０５で、音声変更処理部６は、周波数スペクトル信号に対し、その全周波数帯域に亘って前記補正値Δｆを乗じて周波数シフトを施す。ステップＳ２０６で、音声変更処理部６は、周波数シフト後の周波数スペクトル信号を波形信号へ逆変換する。ステップＳ２０７で、音声出力部７は、変換後の音声を出力する。

なお、以上述べた方法では、現在の発話音声と既発話音声の識別結果が異なる場合には、音声変換を行なわない方法をとるが、既発話音声を発話音声のピッチ(周波数)の２倍または１／２倍（オクターブ上下）になるように変換してもよい。２倍または１／２のいずれに変換するかの判定は、例えば、発話音声のピッチが２００Ｈｚ以上ならば、既発話音声を１／２に、２００Ｈｚ未満ならば、既発話音声をもとの２倍にするというような判定ルールに従えばよい。このようにすることにより、既発話音声は常に発話音声のオクターブ上か下で再生されることになり、両者の適合性（聞きやすさ）は高まることが期待できる。

近接する外部からの音声が男声か女声かに応じて、録音された音声をそれとは異なるものに変換して再生することができれば、聞き分けや選択的な聴取が容易になる。これは、会議での選択聴取事態ばかりではなく、同じ部屋などで複数の人たちが説明やプレゼンを行なう場面で、録音音声を再生する場合や、ロボットまたは擬人化されたソフトウエアエージェントから録音メッセージを流す場合にも有用になる。

次に、本発明の第２実施例について説明する。図４は、本発明の第２実施例に係る会議システムの構成を示す図である。図４に示すように、会議システム２００は、拠点Ａに設置された拠点システム２０１、拠点Ｂに設置された拠点システム３０１を有する。この拠点システム２０１、３０１は音声出力装置として機能する。拠点システム２０１および拠点システム３０１は通信回線４００を介して接続されている。

以下では、拠点Ａおよび拠点Ｂで遠隔会議が行なわれているケースを想定する。拠点システム２０１は、入力部としてのマイク２０２、エコーキャンセラー２０３、音声変更制御部２０４、音声変更処理部２０５および遠隔地から送られてきた遠隔発話音声を再生する再生部としてのスピーカ２０６を有する。この拠点システム２０１は、音声を出力する際に、出力する拠点Ａの環境の周囲音の特性、操作者による設定、過去の変更の履歴の少なくとも1つに基づいて、遠隔地Ｂからの発話音声の特性を変更して出力する。

拠点システム３０１も、拠点システム２０１と同様に、入力部としてのマイク３０２、エコーキャンセラー３０３、音声変更制御部３０４、音声変更処理部３０５および遠隔地から送られてきた遠隔発話音声を出力する出力部としてのスピーカ３０６を有する。この拠点システム３０１は、音声を出力する際に、出力する拠点Ｂの環境の周囲音の特性、操作者による設定、過去の変更の履歴の少なくとも1つに基づいて、遠隔地Ａからの発話音声の特性を変更して出力する。なお、拠点システム２０１および３０１は共に同様な構成であるため、ここでは拠点システム２０１を例にとって説明する。

マイク２０２は、拠点Ａでの発話者の入力発話音声を収音する。処理後の音声信号は、マイク２０２から入力された入力発話音声は、エコーキャンセラー２０３で、エコーがキャンセルされ、送信部（不図示）から通信回路４００を介して遠隔地の拠点Ｂへ送信される。拠点Ｂからの遠隔発話音声の音声信号は、通信回線４００を介して送られてくる。

外部音声検出部５１は、拠点Ｂからの遠隔発話音声の音声信号を検出する。第１の特徴抽出部５２は、拠点Ｂからの遠隔発話音声の音声信号の特徴量を抽出する。ここで特徴量には、音声のピッチ、振幅、スペクトルなどが含まれる。なお、音声の特徴量の抽出法は、実施例１と同様である。第２の特徴抽出部５３は、マイク２０２から入力された入力発話音声の音声信号の特徴量を抽出する。特徴比較部５４は、遠隔発話音声の音声信号の特徴量と入力発話音声の音声信号の特徴量を比較する。パラメータ決定部５５は、遠隔発話音声の音声信号の特徴量と入力発話音声の音声信号の特徴量に基づいて既発話音声を出力する際の音声特徴を変更するための変更値を決定する。

音声変更処理部２０５は、拠点Ａの発話者と、遠隔地の拠点Ｂの発話者の声質が近いとき、遠隔地の拠点Ｂからの音声の声質を変換し、拠点Ａの発話者との聴きわけを容易にする。音声変更処理部２０５は、遠隔発話音声の音声信号と入力発話音声の音声信号を調べ、遠隔発話音声と入力発話音声が衝突するかを判定する。そして、音声変更処理部２０５は、遠隔発話音声と入力発話音声が衝突する場合に、拠点Ｂからの発話音声を変更する。このとき、音声変更処理部２０５は、パラメータ決定部５５で決定された変更値に基づいて遠隔発話音声の音声信号を変更する。音声変更制御部２０４の処理は、第１実施例で説明した音声変更制御部５と同様である。なお、ここでは、音声変更処理部２０５は、遠隔発話音声と入力発話音声が衝突する場合に、拠点Ｂからの発話音声を変更するようにしているが、衝突の有無に関係無く、発話音声を変更するようにしてもよい。

エコーキャンセラー２０３は、音声変更処理部２０５で変更された発話音声信号に対してエコーをキャンセルする処理を施す。スピーカ２０６からは、拠点Ｂの発話音声を変更した音声が再生される。これにより、拠点Ａと拠点Ｂで発話の衝突が生じた場合でも、発話の衝突の影響を小さくできる。

なお、音声変更処理部２０５は、操作者による設定がされている場合には、この操作者による設定に基づいて拠点Ｂからの発話音声を変更する。例えば拠点Ｂからの発話音声はすべて女声に変更するように設定されている場合には、音声変更処理部２０５は拠点Ｂからの遠隔発話音声をすべて女声に変更する。音声変更処理部２０５は、過去の変換パラメータと人（または声質など）の対応データを過去の履歴として記憶する記憶部を内部に有し、同じ人は同じ声になるように音声を変更するとよい。つまり、以前にある人物の音声を所定の音声に変更した場合には、音声変更処理部２０５は内部にそのときの変更値を記憶しておき、拠点Ｂから同一人物の発話音声が送られてきた場合には、以前に使用した変更値を利用して拠点Ｂからの遠隔発話音声を変更する。同一人かどうかは、音質やＩＤ番号等により特定することができる。これにより、遠隔地Ｂの同じ人が、常に同じ声になるので自然な対話が実現できる。

音声変更処理部２０５は、発話衝突が頻発するときに、本人の肉声を良く覚えている場合や、本人と対面することが多い場合は、段階的ないしは連続的に声質を変えるようにしてもよい。また、音声変更処理部２０５は、本人の肉声を知らない場合や、声質がどうでも良い場合、対面することが少ない場合は、徹頭徹尾性質を変えておき、一貫性を保つようにするとよい。このとき、話者の顔と声が一致しないという課題がある。女声の男性、男声の女性と対話することになるので、相応の慣れが必要となる。

次に、本発明の第２実施例に係る会議システムの動作について説明する。図５は、本発明の第２実施例に係る会議システムの動作フローチャートである。ステップＳ３０１で、会議システム２００は、遠隔会議の開始指示により遠隔会議を開始する。ステップＳ３０２で、音声変更処理部２０５は、拠点Ａの発話と拠点Ｂの発話が衝突しているかを判断し、拠点Ａの発話と拠点Ｂの発話が衝突していないと判断した場合は、ステップＳ３０７で、音声変更処理部２０５は、拠点Ｂからの発話音声信号を音声変換せずに再生する。

ステップＳ３０２で、音声変更処理部２０５は、拠点Ａの発話と拠点Ｂの発話が衝突していると判断した場合は、ステップＳ３０３に進む。ステップＳ３０３で、第２の特徴抽出部５３は、拠点Ａの発話音声の音声信号からピッチ情報を取得する。また、第１の特徴抽出部５２は、拠点Ｂの発話音声の音声信号からピッチ情報を取得する。ステップ３０４で、特徴比較部５４は、各ビッチ情報から性別判定を行なう。ステップＳ３０５で、パラメータ決定部５５は、性別判定結果に応じて、変更値を決定する。

ステップＳ３０６で、音声変更処理部２０５は、拠点Ａの発話者の性別と拠点Ｂの発話者の性別が一致しない場合には、ステップＳ３０７で、拠点Ｂの発話音声の音声信号を音声変換せずに再生する。ステップＳ３０７で、音声変更処理部２０５は、拠点Ａの発話者の性別と拠点Ｂの発話者の性別が一致する場合には、ステップＳ３０８で、拠点Ｂの発話音声の音声信号に対して変更値を用いて音声変換処理を行なう。このようにして、遠隔地から送られてきた発話音声を変更するため、発話の衝突があった場合でも発話の衝突の影響を小さくできる。したがって、テレビ会議の遅れなどにより同時に喋ることが多いため、自発話中でも相手の音声を聞くことができる。

以上、各実施例によれば、聞き取りしたい声の質を、環境の声や自発話の音とは似ていないものに変えることによって、音声を聞き取りやすくすることができる。なお、本発明による音声出力方法は、音声出力装置や拠点システムにより実現される。音声出力装置や拠点システムは、上述した以外に、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)等を用いて実現されており、所定のプログラムを実行することにより各機能が実現される。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明の第１実施形態に係る音声出力装置の構成を示す図である。録音音声を異性の音声に変換する場合の音声出力装置の処理フローチャートである。異性の音声への音声変換処理のフローチャートである。本発明の第２実施例に係る会議システムの構成を示す図である。本発明の第２実施例に係る会議システムの動作フローチャートである。

符号の説明

１００音声出力装置５４特徴比較部
１音声入力部５５パラメータ決定部
２録音音声蓄積部６音声変更処理部
３再生指示部７音声出力部
４録音音声検索部２００会議システム
５音声変更制御部２０１、３０１拠点システム
５１外部音声検出部２０４、３０４音声変更制御部
５２第１の特徴抽出部２０５、３０５音声変更処理部
５３第２の特徴抽出部

Claims

入力部から入力された入力発話音声を遠隔地へ送信する送信部と、該遠隔地から送られてきた遠隔発話音声を出力する出力部とを備えた音声出力装置であって、
操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする音声出力装置。
前記遠隔発話音声と前記入力発話音声が衝突するかを判定する判定部をさらに有することを特徴とする請求項１に記載の音声出力装置。
前記遠隔発話音声の特徴量と前記入力発話音声の特徴量とに応じて前記遠隔発話音声を変更する変更部をさらに有することを特徴とする請求項１に記載の音声出力装置。
発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力装置であって、
前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする音声出力装置。
前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更する変更部をさらに有することを特徴とする請求項４に記載の音声出力装置。
前記発話音声の特徴量を抽出する抽出部をさらに有することを特徴とする請求項１または請求項４に記載の音声出力装置。
前記発話音声の特徴量の比較に基づいて前記発話音声を出力する際の音声特徴を変更する変更値を決定する決定部をさらに有することを特徴とする請求項１または請求項４に記載の音声出力装置。
前記特徴量は、音声のピッチ、振幅およびスペクトルのうちの少なくとも一つであることを特徴とする請求項１から請求項７のいずれか一項に記載の音声出力装置。
前記既発話音声を記録するための記録部と、再生要求を行なうための指示部と、前記指示部による再生要求に基づいて前記記録部に記録された既発話音声を検索するための検索部をさらに有することを特徴とする請求項４に記載の音声出力装置。
入力部から入力された入力発話音声を遠隔地へ送信する工程と、該遠隔地から送られてきた遠隔発話音声を出力する工程とを含む音声出力方法であって、
操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする音声出力方法。
前記遠隔発話音声と前記入力発話音声が衝突するかを判定する工程をさらに有することを特徴とする請求項１０に記載の音声出力方法。
発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力方法であって、
前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする音声出力方法。