JP2007086592A - 音声出力装置および音声出力方法 - Google Patents

音声出力装置および音声出力方法 Download PDF

Info

Publication number
JP2007086592A
JP2007086592A JP2005277397A JP2005277397A JP2007086592A JP 2007086592 A JP2007086592 A JP 2007086592A JP 2005277397 A JP2005277397 A JP 2005277397A JP 2005277397 A JP2005277397 A JP 2005277397A JP 2007086592 A JP2007086592 A JP 2007086592A
Authority
JP
Japan
Prior art keywords
voice
speech
spoken
unit
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005277397A
Other languages
English (en)
Inventor
Kazumasa Murai
和昌 村井
Kengo Omura
賢悟 大村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005277397A priority Critical patent/JP2007086592A/ja
Publication of JP2007086592A publication Critical patent/JP2007086592A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】 現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声を聴取できる音声出力装置を提供する。
【解決手段】 発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力装置100であって、発話音声と既発話音声の特徴量を抽出する抽出部52、53と、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更する音声変更処理部6とを有する。また、音声出力装置100は、前記発話音声の特徴量の比較に基づいて既発話音声を出力する際の音声特徴を変更するパラメータ決定部55を有する。前記特徴量は、音声のピッチ、振幅またはスペクトルを用いる。これにより、現在の発話音声から録音され前に発話された発話音声を聞き取り易くし、現在の発話音声への注意の移行を容易にできる。
【選択図】 図1

Description

本発明は、音声出力装置および音声出力方法に関する。
会議において、中座、不注意、居眠り、理解困難な外国語のスピーチ、複数の人が同時に発話する状況など様々な理由により、会議中の他者の音声を聞き漏らしたり理解できなかったりすることが起こる。このような事態では、会議中の音声が録音されていれば、聞き逃した部分や理解できなかった部分の音声を聴き直すことができる。しかしながら、騒音や人の声などの外音が介在する環境では録音音声の聴取は困難であり、特に、声質が近い複数の音声を聞き分けることは著しく困難である。これを避けるための技術がすでにいくつか提案されている。
たとえば、車などの近接した位置での音声出力が互いに干渉しない快適な聴取環境を維持するために、近接した位置での音声出力の音量などを検知し、近接した位置における信号の出力とほぼ逆位相の信号を出力する技術が提案されている(特許文献1参照)。また、他の技術として、複数の音声が錯綜して聞き取りにくい環境の中で特定の会話を聞き取りやすくする補聴器を提供するため、話者識別部で検出された音声に聞き取りやすい補聴処理を施して出力する技術が提案されている(特許文献2参照)。
特開平6−334545号公報 特開2000−125397号公報
しかしながら、会議において、例えば外音を遮断する密閉型ヘッドホンを利用して録音音声を聴取した場合には、会議で現在進行中の音声が遮断されてしまい、発言内容の把握が困難になる。また、外音を遮断しないヘッドホンを利用して録音音声を聴取した場合、例えば同じ人物が話している場合などのように会議中の音声と録音音声が類似している場合、両者を聞き分けるのは困難であるという問題がある。
また、上記特許文献1および2は、複数の音声から特定の音声を聞き易くするものであり、両者をともに聞き分けることを支援するものではない。
そこで、本発明は、上記問題点に鑑みてなされたもので、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声や、遠隔地からの受信音声を聞き取り易くすることができる音声出力装置および音声出力方法を提供することを目的とする。
上記課題を解決するために、本発明は、入力部から入力された入力発話音声を遠隔地へ送信する送信部と、該遠隔地から送られてきた遠隔発話音声を出力する出力部とを備えた音声出力装置であって、操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする。本発明によれば、操作者による設定、過去の変更の履歴、または入力発話音声の特徴量に応じて遠隔地から送られてきた発話音声を変更するため、発話の衝突があった場合でも発話の衝突の影響を小さくできる。これにより現在発話されている発話音声を聞きながら、遠隔地からの受信音声を聞き取り易くすることができる。例えば入力発話音声が女声の場合、遠隔発話音声を男声に変更し、反対に入力発話音声が男声の場合、遠隔発話音声を女声に変更することで、発話の衝突があった場合でも発話の衝突の影響を小さくできる。
本発明の音声出力装置は、前記遠隔発話音声と前記入力発話音声が衝突するかを判定する判定部をさらに有する。これにより遠隔地から送られてきた発話音声と入力部から入力された発話音声が衝突しているときにだけ遠隔地から送られてきた発話音声を変換するようにして、必要な場合にだけ変換処理を施すようにできる。本発明の音声出力装置は、前記遠隔発話音声の特徴量と前記入力発話音声の特徴量とに応じて前記遠隔発話音声を変更する変更部をさらに有する。
本発明の音声出力装置は、発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力装置であって、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする。本発明によれば、現在の発話音声から録音され前に発話された発話音声を聞き取り易くし、現在の発話音声への注意の移行を容易にできる。これにより、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声を聞き取り易くすることができる。また、完全な同時聴取は困難であるが、会議中に重要な発言があれば即座に注意をそちらに切り換えることができるようなかたちで録音音声を聴取できるような選択聴取環境を実現できる。例えば発話音声が女声の場合、既発話音声を男声に変更し、反対に発話音声が男声の場合、既発話音声を女声に変更することで、既発話音声を聞き取り易くできる。
本発明の音声出力装置は、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更する変更部をさらに有する。本発明の音声出力装置は、前記発話音声の特徴量を抽出する抽出部をさらに有する。本発明の音声出力装置は、前記発話音声の特徴量の比較に基づいて前記発話音声を出力する際の音声特徴を変更する変更値を決定する決定部をさらに有する。前記特徴量は、音声のピッチ、振幅およびスペクトルのうちの少なくとも一つである。
本発明の音声出力装置は、前記既発話音声を記録するための記録部と、再生要求を行なうための指示部と、前記指示部による再生要求に基づいて前記記録部に記録された既発話音声を検索するための検索部をさらに有する。
本発明は、入力部から入力された入力発話音声を遠隔地へ送信する工程と、該遠隔地から送られてきた遠隔発話音声を出力する工程とを含む音声出力方法であって、操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする。本発明によれば、操作者による設定、過去の変更の履歴、または入力発話音声の特徴量に応じて遠隔地から送られてきた発話音声を変更するため、発話の衝突があった場合でも発話の衝突の影響を小さくできる。これにより現在発話されている発話音声を聞きながら、遠隔地からの受信音声を聞き取り易くすることができる。
本発明の音声出力方法は、前記遠隔発話音声と前記入力発話音声が衝突するかを判定する工程をさらに有する。これにより遠隔地から送られてきた発話音声と入力部から入力された発話音声が衝突しているときにだけ遠隔地から送られてきた発話音声を変換するようにして、必要な場合にだけ変換処理を施すようにできる。
本発明の音声出力方法は、発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力方法であって、前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする。本発明によれば、現在の発話音声から録音され前に発話された発話音声を聞き取り易くし、現在の発話音声への注意の移行を容易にできる。これにより、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声を聞き取り易くすることができる。また、完全な同時聴取は困難であるが、会議中に重要な発言があれば即座に注意をそちらに切り換えることができるようなかたちで録音音声を聴取できるような選択聴取環境を実現できる。
本発明によれば、現在発話されている発話音声を聞きながら、同時に録音され前に発話された発話音声や、遠隔地からの受信音声を聞き取り易くすることができる音声出力装置および音声出力方法を提供できる。
以下、本発明を実施するための最良の形態について説明する。
図1は、本発明の第1実施形態に係る音声出力装置100の構成を示す図である。本発明の音声出力装置100は、発話音声の聴取中に、前に発話された既発話音声を聴取できるものである。
複数音声からの選択聴取は、聞こうとする音声の特徴が他の背景音声から際立って異なっていれば比較的容易に行なうことができる。また、その他、音源方向等も有力な手がかりとなる。ここで、選択聴取とは、多数の音声から1つの音声を聴取することをいう。また、音声特徴が互いに異なっていれば、現在聴取している音声から以前聴取していた音声に再び注意を戻すことも容易であることが、心理学における同時分離聴実験から明らかになっている。第1実施例の音声出力装置は、上記事実を踏まえて構成されたもので、聞き直す部分の録音音声を、会議中の現在の発話者の音声と明確に異なる音声特徴を備えた音声に変換して出力することにより、選択聴取を支援するようにしている。
図1に示すように、音声入力部1、録音音声蓄積部2、再生指示部3、録音音声検索部4、音声変更制御部5、音声変更処理部6および音声出力部7を有する。音声入力部1は、収音された音を電気信号に変換し、さらにA/D変換してアナログ信号をディジタル信号に変換する。この音声入力部1は、例えばマイクロホンおよびサウンドカードなどで構成される。このアナログ信号をディジタル信号に変換する処理には、時間的なディジタル化である標本化(サンプリング)と、振幅値のディジタル化である量子化の処理が含まれる。このとき、ディジタル化しようとしている信号に、標本化周波数/2(ナイキスト周波数)以上の周波数の成分を含んでいる場合には、ナイキスト周波数以上の成分をあらかじめ低域ろ波器で除去しておく。
録音音声蓄積部2は、ディジタル信号に変換された録音音声を蓄積する。したがって、この録音音声蓄積部2には、発話者によって既に発話された既発話音声が格納されている。この録音音声蓄積部2は、半導体メモリまたはハードディスク装置などにより構成されている。再生指示部3は、蓄積された任意の録音音声に対する再生要求を行なう。この再生指示部3は、利用者により操作されるボタンなどのスイッチにより構成されている。録音音声検索部4は、再生指示部3による再生要求に基づいて録音音声蓄積部2に記録された既発話音声を検索する。
音声変更制御部5は、外部音声検出部51、第1の特徴抽出部52、第2の特徴抽出部53、特徴比較部54およびパラメータ決定部55を有する。外部音声検出部51は、現在発話されている発話音声を電気信号に変換し、さらにA/D変換してアナログ信号をディジタル信号に変換する。この外部音声検出部51は例えばマイクロホン等により構成されている。なお、この外部音声検出部51は、音声入力部1を用いてもよい。
第1の特徴抽出部52は、外部音声検出部51が検出された発話音声の音声信号の特徴量を抽出する。ここで音声の特徴量には、音声のピッチ、振幅、スペクトルなどが含まれる。例えば、ピッチ抽出法には、波形の上で周期的ピークを検出する波形処理、相関処理、スペクトル処理がある。また、音声スペクトルの主な分析法には、短時間自己相関分析、短時間スペクトル分析、ケプストラム分析、線形予測分析(LPC)、PARCOR分析などがある。ここで、ピッチやスペクトルを求める方法については、例えば、古井「ディジタル音声処理」(東海大学出版会、1992)に詳細に記述されている。
第2の特徴抽出部53は、録音音声検索部4で検索された既発話音声の音声信号の特徴量を抽出する。特徴比較部54は、発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量を比較する。パラメータ決定部55は、発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量に応じて既発話音声を出力する際の音声特徴を変更するための変更値(パラメータ値)を決定する。音声変更処理部6は、パラメータ決定部55で決定された変更値に基づいて既発話音声の音声信号を変更する。なお、音声変更処理部6は、過去の変更値の履歴を保持しておき、この過去の変更値と同じになるように音声を変更するとよい。
音声出力部7は、音声変更処理部6で変換された音声信号をディジタル形式から可聴信号のアナログ信号に変換し、出力する。この音声出力部7は、例えばサウンドカード、外音を遮断しない非密閉型ヘッドホンや片耳型のイヤホン等で構成されている。これにより、会議中の現在の発話が男声によるものであれば、録音音声が本来男声によるものであっても、女声に変換して、外音を遮断しない非密閉型ヘッドホンや片耳型のイヤホン等から出力される。なお、ディジタル化された音声信号をアナログ信号に復元する際にも、帯域内成分が高域に折り返したような信号が再生され、高周波域に雑音が加わった音になるのを防止するため、D/A変換された信号を低域ろ波器(ローパスフィルタ)に通す必要がある。
次に、近接する現在の発話音声の話者の性別を識別し、既発話音声の発話者の性別と一致している場合に既発話音声を異なる性別の音声に変換して再生を行なう場合の例について説明する。ここでは、現在の発話音声と既発話音声のピッチを抽出・比較することにより、各音声が女声か男声かを識別して、両者が一致している場合には、既発話音声を異性の音声に変換を行っている。
図2は、既発話音声を異性の音声に変換する場合の音声出力装置100の処理フローチャートである。ステップS101で、音声出力装置100は、利用者からの再生開始指示を受け付ける。ステップS102で、外部音声検出部51は、現在の発話音声の音声信号を検出する。ステップS103で、外部音声検出部51は、発話音声の音量(振幅)情報を取得する。ステップS104で、外部音声検出部51は、現在の発話音声の音量が所定の閾値よりも小さい場合、ステップS105で、音声変更処理部6は、録音音声検索部4で検索された既発話音声の音声信号を音声変換せずにそのまま再生を行なう。
ステップS104で、外部音声検出部51は、現在の発話音声の音量が所定の閾値よりも大きい場合、ステップS106で、第1の特徴抽出部52は、現在の発話音声の音声信号から特徴量としてピッチ情報を抽出する。また、第2の特徴抽出部53は、既発話音声の音声信号から特徴量としてピッチ情報を抽出する。ステップS107で、特徴比較部54は、現在の発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量を比較する。
パラメータ決定部55は、現在の発話音声の音声信号の特徴量と既発話音声の音声信号の特徴量に基づいて現在の発話音声を発話者の性別と、既発話音声を発話者の性別を判定し、判定結果に基づいて既発話音声を出力する際の音声特徴を変更するための変更値を決定する。また、ピッチによる性別判定は、例えば、ピッチ時系列集合の平均値をもとめ、それを男性の基本周波数の平均値(約125Hz)、女声の基本周波数の平均値(約250Hz)との差を算定して、いずれの差が小さくなるかというルールにもとづいて行なえばよい。
ステップS108で、音声変更処理部6は、再生部分の既発話音声の音声信号を録音音声検索部4から取得する。ステップS109で、音声変更処理部6は、既発話音声の性別判定結果に応じた変更値をパラメータ決定部55から取得する。ステップS110で、音声変更処理部6は、現在の発話音声の発話者の性別と既発話音声の発話者の性別が一致しない場合、ステップS105で、既発話音声の音声信号を音声変換せずに音声出力部7で再生する。ステップS110で、音声変更処理部6は、現在の発話音声の発話者の性別と既発話音声の発話者の性別が一致する場合、ステップS111で、既発話音声の音声信号に対して音声変換処理した後、音声出力部7で変換後の音声信号を再生し、処理を終了する。
図3は、異性の音声への音声変換処理のフローチャートである。ステップS201で、音声変更処理部6は、既発話音声の音声信号を獲得する。ステップS202で、音声変更処理部6は、既発話音声の音声信号を周波数スペクトル信号に変換する。ステップS203で、音声変更処理部6は、パラメータ決定部55から既発話音声の性別判定の結果に基づく変更値を取得する。
ステップS204で、音声変更処理部6は、変換補正値を取得する。まず、音声変更処理部6は、既発話音声の音声信号のピッチ、ここでは周波数fS を取得する。また、音声変更処理部6は、発話音声の音声信号からそのピッチ、ここでは周波数fI を取得する。そして、音声変更処理部6は、発話音声の音声信号のピッチ(周波数)fI と既発話音声の音声信号のピッチ(周波数)fS とから補正値、ここではΔf≡fS /fI を求める。本実施例の場合、補正値Δf≡fS /fIの算定において、fSは録音音声の性とは異なる性の平均ピッチ(男性の場合、約125Hz、女性の場合、約250Hz)、fIは変換すべき録音音声のピッチを用いる。
ステップS205で、音声変更処理部6は、周波数スペクトル信号に対し、その全周波数帯域に亘って前記補正値Δfを乗じて周波数シフトを施す。ステップS206で、音声変更処理部6は、周波数シフト後の周波数スペクトル信号を波形信号へ逆変換する。ステップS207で、音声出力部7は、変換後の音声を出力する。
なお、以上述べた方法では、現在の発話音声と既発話音声の識別結果が異なる場合には、音声変換を行なわない方法をとるが、既発話音声を発話音声のピッチ(周波数)の2倍または1/2倍(オクターブ上下)になるように変換してもよい。2倍または1/2のいずれに変換するかの判定は、例えば、発話音声のピッチが200Hz以上ならば、既発話音声を1/2に、200Hz未満ならば、既発話音声をもとの2倍にするというような判定ルールに従えばよい。このようにすることにより、既発話音声は常に発話音声のオクターブ上か下で再生されることになり、両者の適合性(聞きやすさ)は高まることが期待できる。
近接する外部からの音声が男声か女声かに応じて、録音された音声をそれとは異なるものに変換して再生することができれば、聞き分けや選択的な聴取が容易になる。これは、会議での選択聴取事態ばかりではなく、同じ部屋などで複数の人たちが説明やプレゼンを行なう場面で、録音音声を再生する場合や、ロボットまたは擬人化されたソフトウエアエージェントから録音メッセージを流す場合にも有用になる。
次に、本発明の第2実施例について説明する。図4は、本発明の第2実施例に係る会議システムの構成を示す図である。図4に示すように、会議システム200は、拠点Aに設置された拠点システム201、拠点Bに設置された拠点システム301を有する。この拠点システム201、301は音声出力装置として機能する。拠点システム201および拠点システム301は通信回線400を介して接続されている。
以下では、拠点Aおよび拠点Bで遠隔会議が行なわれているケースを想定する。拠点システム201は、入力部としてのマイク202、エコーキャンセラー203、音声変更制御部204、音声変更処理部205および遠隔地から送られてきた遠隔発話音声を再生する再生部としてのスピーカ206を有する。この拠点システム201は、音声を出力する際に、出力する拠点Aの環境の周囲音の特性、操作者による設定、過去の変更の履歴の少なくとも1つに基づいて、遠隔地Bからの発話音声の特性を変更して出力する。
拠点システム301も、拠点システム201と同様に、入力部としてのマイク302、エコーキャンセラー303、音声変更制御部304、音声変更処理部305および遠隔地から送られてきた遠隔発話音声を出力する出力部としてのスピーカ306を有する。この拠点システム301は、音声を出力する際に、出力する拠点Bの環境の周囲音の特性、操作者による設定、過去の変更の履歴の少なくとも1つに基づいて、遠隔地Aからの発話音声の特性を変更して出力する。なお、拠点システム201および301は共に同様な構成であるため、ここでは拠点システム201を例にとって説明する。
マイク202は、拠点Aでの発話者の入力発話音声を収音する。処理後の音声信号は、マイク202から入力された入力発話音声は、エコーキャンセラー203で、エコーがキャンセルされ、送信部(不図示)から通信回路400を介して遠隔地の拠点Bへ送信される。拠点Bからの遠隔発話音声の音声信号は、通信回線400を介して送られてくる。
外部音声検出部51は、拠点Bからの遠隔発話音声の音声信号を検出する。第1の特徴抽出部52は、拠点Bからの遠隔発話音声の音声信号の特徴量を抽出する。ここで特徴量には、音声のピッチ、振幅、スペクトルなどが含まれる。なお、音声の特徴量の抽出法は、実施例1と同様である。第2の特徴抽出部53は、マイク202から入力された入力発話音声の音声信号の特徴量を抽出する。特徴比較部54は、遠隔発話音声の音声信号の特徴量と入力発話音声の音声信号の特徴量を比較する。パラメータ決定部55は、遠隔発話音声の音声信号の特徴量と入力発話音声の音声信号の特徴量に基づいて既発話音声を出力する際の音声特徴を変更するための変更値を決定する。
音声変更処理部205は、拠点Aの発話者と、遠隔地の拠点Bの発話者の声質が近いとき、遠隔地の拠点Bからの音声の声質を変換し、拠点Aの発話者との聴きわけを容易にする。音声変更処理部205は、遠隔発話音声の音声信号と入力発話音声の音声信号を調べ、遠隔発話音声と入力発話音声が衝突するかを判定する。そして、音声変更処理部205は、遠隔発話音声と入力発話音声が衝突する場合に、拠点Bからの発話音声を変更する。このとき、音声変更処理部205は、パラメータ決定部55で決定された変更値に基づいて遠隔発話音声の音声信号を変更する。音声変更制御部204の処理は、第1実施例で説明した音声変更制御部5と同様である。なお、ここでは、音声変更処理部205は、遠隔発話音声と入力発話音声が衝突する場合に、拠点Bからの発話音声を変更するようにしているが、衝突の有無に関係無く、発話音声を変更するようにしてもよい。
エコーキャンセラー203は、音声変更処理部205で変更された発話音声信号に対してエコーをキャンセルする処理を施す。スピーカ206からは、拠点Bの発話音声を変更した音声が再生される。これにより、拠点Aと拠点Bで発話の衝突が生じた場合でも、発話の衝突の影響を小さくできる。
なお、音声変更処理部205は、操作者による設定がされている場合には、この操作者による設定に基づいて拠点Bからの発話音声を変更する。例えば拠点Bからの発話音声はすべて女声に変更するように設定されている場合には、音声変更処理部205は拠点Bからの遠隔発話音声をすべて女声に変更する。音声変更処理部205は、過去の変換パラメータと人(または声質など)の対応データを過去の履歴として記憶する記憶部を内部に有し、同じ人は同じ声になるように音声を変更するとよい。つまり、以前にある人物の音声を所定の音声に変更した場合には、音声変更処理部205は内部にそのときの変更値を記憶しておき、拠点Bから同一人物の発話音声が送られてきた場合には、以前に使用した変更値を利用して拠点Bからの遠隔発話音声を変更する。同一人かどうかは、音質やID番号等により特定することができる。これにより、遠隔地Bの同じ人が、常に同じ声になるので自然な対話が実現できる。
音声変更処理部205は、発話衝突が頻発するときに、本人の肉声を良く覚えている場合や、本人と対面することが多い場合は、段階的ないしは連続的に声質を変えるようにしてもよい。また、音声変更処理部205は、本人の肉声を知らない場合や、声質がどうでも良い場合、対面することが少ない場合は、徹頭徹尾性質を変えておき、一貫性を保つようにするとよい。このとき、話者の顔と声が一致しないという課題がある。女声の男性、男声の女性と対話することになるので、相応の慣れが必要となる。
次に、本発明の第2実施例に係る会議システムの動作について説明する。図5は、本発明の第2実施例に係る会議システムの動作フローチャートである。ステップS301で、会議システム200は、遠隔会議の開始指示により遠隔会議を開始する。ステップS302で、音声変更処理部205は、拠点Aの発話と拠点Bの発話が衝突しているかを判断し、拠点Aの発話と拠点Bの発話が衝突していないと判断した場合は、ステップS307で、音声変更処理部205は、拠点Bからの発話音声信号を音声変換せずに再生する。
ステップS302で、音声変更処理部205は、拠点Aの発話と拠点Bの発話が衝突していると判断した場合は、ステップS303に進む。ステップS303で、第2の特徴抽出部53は、拠点Aの発話音声の音声信号からピッチ情報を取得する。また、第1の特徴抽出部52は、拠点Bの発話音声の音声信号からピッチ情報を取得する。ステップ304で、特徴比較部54は、各ビッチ情報から性別判定を行なう。ステップS305で、パラメータ決定部55は、性別判定結果に応じて、変更値を決定する。
ステップS306で、音声変更処理部205は、拠点Aの発話者の性別と拠点Bの発話者の性別が一致しない場合には、ステップS307で、拠点Bの発話音声の音声信号を音声変換せずに再生する。ステップS307で、音声変更処理部205は、拠点Aの発話者の性別と拠点Bの発話者の性別が一致する場合には、ステップS308で、拠点Bの発話音声の音声信号に対して変更値を用いて音声変換処理を行なう。このようにして、遠隔地から送られてきた発話音声を変更するため、発話の衝突があった場合でも発話の衝突の影響を小さくできる。したがって、テレビ会議の遅れなどにより同時に喋ることが多いため、自発話中でも相手の音声を聞くことができる。
以上、各実施例によれば、聞き取りしたい声の質を、環境の声や自発話の音とは似ていないものに変えることによって、音声を聞き取りやすくすることができる。なお、本発明による音声出力方法は、音声出力装置や拠点システムにより実現される。音声出力装置や拠点システムは、上述した以外に、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を用いて実現されており、所定のプログラムを実行することにより各機能が実現される。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明の第1実施形態に係る音声出力装置の構成を示す図である。 録音音声を異性の音声に変換する場合の音声出力装置の処理フローチャートである。 異性の音声への音声変換処理のフローチャートである。 本発明の第2実施例に係る会議システムの構成を示す図である。 本発明の第2実施例に係る会議システムの動作フローチャートである。
符号の説明
100 音声出力装置 54 特徴比較部
1 音声入力部 55 パラメータ決定部
2 録音音声蓄積部 6 音声変更処理部
3 再生指示部 7 音声出力部
4 録音音声検索部 200 会議システム
5 音声変更制御部 201、301 拠点システム
51 外部音声検出部 204、304 音声変更制御部
52 第1の特徴抽出部 205、305 音声変更処理部
53 第2の特徴抽出部

Claims (12)

  1. 入力部から入力された入力発話音声を遠隔地へ送信する送信部と、該遠隔地から送られてきた遠隔発話音声を出力する出力部とを備えた音声出力装置であって、
    操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする音声出力装置。
  2. 前記遠隔発話音声と前記入力発話音声が衝突するかを判定する判定部をさらに有することを特徴とする請求項1に記載の音声出力装置。
  3. 前記遠隔発話音声の特徴量と前記入力発話音声の特徴量とに応じて前記遠隔発話音声を変更する変更部をさらに有することを特徴とする請求項1に記載の音声出力装置。
  4. 発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力装置であって、
    前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする音声出力装置。
  5. 前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更する変更部をさらに有することを特徴とする請求項4に記載の音声出力装置。
  6. 前記発話音声の特徴量を抽出する抽出部をさらに有することを特徴とする請求項1または請求項4に記載の音声出力装置。
  7. 前記発話音声の特徴量の比較に基づいて前記発話音声を出力する際の音声特徴を変更する変更値を決定する決定部をさらに有することを特徴とする請求項1または請求項4に記載の音声出力装置。
  8. 前記特徴量は、音声のピッチ、振幅およびスペクトルのうちの少なくとも一つであることを特徴とする請求項1から請求項7のいずれか一項に記載の音声出力装置。
  9. 前記既発話音声を記録するための記録部と、再生要求を行なうための指示部と、前記指示部による再生要求に基づいて前記記録部に記録された既発話音声を検索するための検索部をさらに有することを特徴とする請求項4に記載の音声出力装置。
  10. 入力部から入力された入力発話音声を遠隔地へ送信する工程と、該遠隔地から送られてきた遠隔発話音声を出力する工程とを含む音声出力方法であって、
    操作者による設定、過去の変更の履歴、および前記入力発話音声の特徴量の少なくとも一つに応じて前記遠隔発話音声を変更して出力することを特徴とする音声出力方法。
  11. 前記遠隔発話音声と前記入力発話音声が衝突するかを判定する工程をさらに有することを特徴とする請求項10に記載の音声出力方法。
  12. 発話音声の聴取中に、前に発話された既発話音声を聴取できる音声出力方法であって、
    前記既発話音声の特徴量と前記発話音声の特徴量とに応じて前記既発話音声を変更して出力することを特徴とする音声出力方法。
JP2005277397A 2005-09-26 2005-09-26 音声出力装置および音声出力方法 Pending JP2007086592A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005277397A JP2007086592A (ja) 2005-09-26 2005-09-26 音声出力装置および音声出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005277397A JP2007086592A (ja) 2005-09-26 2005-09-26 音声出力装置および音声出力方法

Publications (1)

Publication Number Publication Date
JP2007086592A true JP2007086592A (ja) 2007-04-05

Family

ID=37973607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005277397A Pending JP2007086592A (ja) 2005-09-26 2005-09-26 音声出力装置および音声出力方法

Country Status (1)

Country Link
JP (1) JP2007086592A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010139571A (ja) * 2008-12-09 2010-06-24 Fujitsu Ltd 音声加工装置及び音声加工方法
JP2012002856A (ja) * 2010-06-14 2012-01-05 Nissan Motor Co Ltd 音声情報提示装置および音声情報提示方法
WO2023281605A1 (ja) * 2021-07-05 2023-01-12 日本電信電話株式会社 情報処理方法、情報処理装置、およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010139571A (ja) * 2008-12-09 2010-06-24 Fujitsu Ltd 音声加工装置及び音声加工方法
JP2012002856A (ja) * 2010-06-14 2012-01-05 Nissan Motor Co Ltd 音声情報提示装置および音声情報提示方法
WO2023281605A1 (ja) * 2021-07-05 2023-01-12 日本電信電話株式会社 情報処理方法、情報処理装置、およびプログラム

Similar Documents

Publication Publication Date Title
NL2021308B1 (en) Methods for a voice processing system
US7885818B2 (en) Controlling an apparatus based on speech
JP5134876B2 (ja) 音声通信装置及び音声通信方法並びにプログラム
JP5533854B2 (ja) 音声認識処理システム、および音声認識処理方法
JP2009139592A (ja) 音声処理装置、音声処理システム及び音声処理プログラム
WO2012053629A1 (ja) 音声処理装置及び音声処理方法
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP5051882B2 (ja) 音声対話装置、音声対話方法及びロボット装置
US20050131709A1 (en) Providing translations encoded within embedded digital information
US20160267925A1 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JP4752516B2 (ja) 音声対話装置および音声対話方法
JP2007334968A (ja) 音声切換装置
JP2007086592A (ja) 音声出力装置および音声出力方法
JP4402644B2 (ja) 発話抑制装置、発話抑制方法および発話抑制装置のプログラム
JP2005192004A (ja) ヘッドセットおよびヘッドセットの音楽データの再生制御方法
JP2007187748A (ja) 音選択加工装置
JP2011199698A (ja) Av機器
JP2008292621A (ja) 話速変換装置、通話装置および話速変換方法
JP3284968B2 (ja) 話速変換機能を有する補聴器
JP2007298876A (ja) 音声データ記録再生装置
JP2008249893A (ja) 音声応答装置及びその方法
JP7105320B2 (ja) 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
WO2022137806A1 (ja) 耳装着型デバイス、及び、再生方法
JP4381108B2 (ja) 話速変換装置における時報処理装置
JP7296214B2 (ja) 音声認識システム