JP2010103704A

JP2010103704A - 音声変換装置

Info

Publication number: JP2010103704A
Application number: JP2008272325A
Authority: JP
Inventors: Yoshifumi Oizumi; 好史大泉; Nobuhiko Takehara; 伸彦竹原; 拓弥 ▲高▼橋; Takuya Takahashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-10-22
Filing date: 2008-10-22
Publication date: 2010-05-06

Abstract

【課題】直接対面することなく音声によって他者に対する対応を行う場合において、利用者の精神的負荷を軽減することのできる技術を提供する。
【解決手段】音声変換装置１の通話相手情報データベース１６には、音声の特徴と音声の変換パターンとが対応付けて記憶されている。ユーザ端末２と通話相手端末３との間で音声通信が開始されると、音声変換装置１は、通話相手端末３から送信されてくる音声データを解析して音声の特徴を抽出し、抽出した特徴を通話相手情報データベース１６の記憶内容と照合して、音声変換を行うか否かを判定する。音声変換装置１は、判定結果が肯定的である場合に、抽出された特徴に対応する変換態様で、通話相手端末３から受信される音声データ及びユーザ端末２から受信される音声データの少なくともいずれか一方を変換する。
【選択図】図１

Description

本発明は、音声変換装置に関する。

音声を用いた他者とのコミュニケーションの態様として、クレーム対応、いたずら撃退、不必要な訪問販売や勧誘の断り等の対応がある。より具体的には、例えば、インターホンや電話を介しての勧誘の断り・いたずらの撃退や、コールセンタでのクレーム対応やいたずら撃退などが挙げられる。このようなクレーム対応支援を目的とした技術として、例えば特許文献１には、顧客からのクレームに対し、顧客の負担を軽減して顧客満足度の維持及び向上を図るための技術が提案されている。特許文献１に記載の技術では、顧客のクレーム内容を予め用意した設問とそれに対する回答を基にランク分けし、決定したランクに応じて引き継ぐオペレータを決定する。このようにすることにより、オペレータは顧客のクレームに対して十分理解した上で適切に対応でき、顧客の負担の軽減と満足度の維持及び向上を図ることができる。

また、特許文献２には、音声自動変換を用いていたずらを撃退するための技術が提案されている。特許文献２に記載の技術では、カメラ付きインターホン装置が訪問者のカメラ映像を撮影し、このカメラ映像から訪問者の特徴を抽出し、過去に検出した人物であるか否か、それに対してユーザが音声変換を望んだかどうかを判定する。その結果が音声変換を望んだ訪問者である場合は、ユーザの音声を男性の声に自動で変換する。在宅者が女性もしくは子供等であることがインターホン越しには分からないため、ホームセキュリティを高めることができる。

また、特許文献３には、いたずら電話を防止するために、通話相手からの音声信号を遅延させて通話相手に戻すことによって、通話相手の通話を続ける気をそぐ技術が提案されている。また、特許文献４には、ＴＶ電話において相手又は自分の音声を変更することによって、連絡用途だけではなく楽しみでの通話を行うことのできる技術が提案されている。また、特許文献５には、通話相手を受話者が選択した仮想の３次元ＣＧキャラクタとして表示して、ＣＧキャラクタの声に音声変換することによって、ＣＧキャラクタを介した音声会話を行うことのできる技術が提案されている。
特開２００３−６４１８号公報特開２００５−１０９６１２号公報特開平０６−６４４８号公報特開２００２−３１４６３８号公報特開２００３−２４８８４１号公報

しかしながら、特許文献１及び３乃至５に記載の技術では、クレーム対応やいたずら撃退を行う場合における精神的負荷の軽減については考慮されていない。また、特許文献２に記載の技術では、人物の特定や年齢や性別の推定にはカメラ映像が必須となり、装置構成が複雑になってしまう。
本発明は上述した背景に鑑みてなされたものであり、直接対面することなく音声によって他者に対する対応を行う場合において、利用者の精神的負荷を軽減することのできる技術を提供することを目的とする。

上記課題を解決するために、本発明は、音声の特徴と音声の変換態様とを対応付けて記憶する記憶手段と、第１の通話装置から第１の音声データを受信するとともに、第２の通話装置から第２の音声データを受信する受信手段と、前記受信手段によって受信された第２の音声データを前記第１の通話装置に送信するとともに、前記受信手段によって受信された第１の音声データを前記第２の通話装置に送信する送信手段と、前記受信手段によって受信された第１の音声データを解析して音声の特徴を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された特徴を前記記憶手段に記憶された特徴と照合し、照合結果に応じて、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方の音声を変換するか否かを判定する音声変換判定手段と、前記音声変換判定手段による判定結果が肯定的である場合に、前記特徴抽出手段によって抽出された特徴に対応する変換態様を前記記憶手段の記憶内容を参照して特定する変換態様特定手段と、前記変換態様特定手段によって特定された変換態様で、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方を音声変換して前記送信手段に出力する音声変換手段とを具備することを特徴とする音声変換装置を提供する。

本発明の好ましい態様において、前記音声変換判定手段による判定結果が否定的である場合に、利用者によって操作される操作手段から出力される操作信号に応じて、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方を音声変換するか否かを判定する第２の音声変換判定手段と、前記第２の音声変換判定手段による判定結果が肯定的である場合に、前記操作信号に応じて音声の変換態様を特定する第２の変換態様特定手段と、前記第２の音声変換判定手段による判定結果が肯定的である場合に、前記特徴抽出手段によって抽出された特徴と前記第２の変換態様特定手段によって特定された変換態様とを対応付けて前記記憶手段に記憶する記憶制御手段とを具備し、前記音声変換手段は、前記第２の音声変換判定手段による判定結果が肯定的である場合に、前記第２の変換態様特定手段によって特定された変換態様で、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方を音声変換して前記送信手段に出力してもよい。

本発明によれば、直接対面することなく音声によって他者に対する対応を行う場合において、利用者の精神的負荷を軽減することができる。

＜構成＞
図１は、この発明の一実施形態である通信システムの構成を示すブロック図である。図において、ユーザ端末２と通話相手端末３は、利用者が互いに通話を行うために用いられる通話装置である。ユーザ端末２と通話相手端末３は、音声変換装置１を介して互いに接続される。なお、図１に示す例では、図面が煩雑になるのを防ぐため、１つのユーザ端末２と１つの通話相手端末３とを図示したが、ユーザ端末２と通話相手端末３の数はこれより多くてもよい。また、以下の説明では、説明の便宜上、ユーザ端末２を利用する利用者を「ユーザ」と称し、通話相手端末３を利用する利用者を「通話相手」と称して説明する。

図１において、送受信手段１１は、ユーザ端末２の送受信手段２１から送られてくる、ユーザの発話音声を表す音声データを、通話相手端末３の送受信手段３１へ送信する。また、送受信手段１１は、通話相手端末３の送受信手段３１から送られてくる、通話相手の発話音声を表す音声データを、ユーザ端末２の送受信手段２１へ送信する。また、送受信手段１１は、ユーザ又は通話相手の音声変換が必要であると判定された場合には、音声変換手段１３により変換された音声データを送信する。

音声変換判定手段１２は、通話相手の発話音声の特徴量を特徴量抽出手段１５で抽出し、通話相手情報データベース１６上の情報と照合する。照合の結果、音声変換の必要がある特徴量と適合した場合は、音声変換判定手段１２は、変換対象（ユーザ又は通話相手）の音声データをユーザが選択したパターンの音声に変換する旨を音声変換手段１３に指示する。一方、音声変換の必要がない特徴量と適合した場合は、音声変換判定手段１２は、音声変換を指示しない。また、音声変換判定手段１２は、音声切換スイッチ２２が操作された旨を示す信号が入力された場合にも、変換対象（ユーザ又は通話相手）の音声を変換する旨を音声変換手段１３に指示する。変換する音声のパターンについては通話相手情報データベースから取得し、音声変換については音声変換手段１３を用いて行う。

音声変換手段１３は、変換対象（ユーザ又は通話相手）の音声データを、音声変換判定手段１２によって指示されたパターンの音声に変換する。音声変換手段１３は、ユーザによって選択されたパターンを音声変換判定手段１２から取得する。また、音声変換手段１３は、変換に必要なデータを音声変換データベース１４を参照して取得する。

音声変換データベース１４には、音声の変換に必要なデータ（以下「変換用データ」という）が、変換パターン毎に記憶されている。図２は、音声変換データベース１４の内容の一例を示す図である。図示のように、このデータベースには、「パターン種別」と「変換用データ」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「パターン種別」の項目には、例えば、「男性の声」、「女性の声」、「キャラクタ（○○）の声」といった、変換する音声のパターンの種別を示す識別情報が記憶される。「変換用パターン」の項目には、音声の変換に必要な変換用データ（例えば、フォルマントを表すデータ、等）が記憶される。

特徴量抽出手段１５は、通話相手端末３から送信されてくる音声データから音声の特徴（フォルマント、ピッチ、音圧等）を抽出し、抽出した特徴から通話相手情報データベース１６を参照して人物を特定する。また、特徴量抽出手段１５は、人物が特定されない場合（通話相手情報データベース１６に登録されていない場合）には、抽出した特徴から通話相手の年齢や性別を推定する。

通話相手情報データベース１６には、音声の特徴量と音声の変換パターンとの対応関係が記憶されている。図３は、通話相手情報データベース１６の内容の一例を示す図である。図示のように、このデータベースは、「通話相手」と「特徴量」と「自音声変換パターン」と「相手音声変換パターン」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「通話相手」の項目には、通話相手を識別する識別情報が記憶される。「特徴量」の項目には、その通話相手の音声の特徴（フォルマント、ピッチ、音圧等）を表すデータが記憶される。「自音声変換パターン」の項目には、ユーザの音声を変換するパターンを示すデータが記憶される。「相手音声変換パターン」の項目には、通話相手の音声の変換パターンを示すデータが記憶される。音声変換手段１３は、この通話相手情報データベース１６を参照して音声の変換パターンを特定し、特定した変換パターンに従ってユーザの発話音声又は通話相手の発話音声を変換する。

操作手段１７は、各種のボタンを備え、ユーザの操作に応じた信号を出力する。ユーザは、この操作手段１７を用いて、通話相手情報データベース１６に通話相手毎の変換パターンを設定することができる。なお、操作手段１７は音声変換装置１に内蔵される構成であってもよい。

次に、ユーザ端末２の構成について、図１を参照しつつ説明する。図１において、送受信手段２１は、通話相手端末３から送信された音声データを、音声変換装置１の送受信手段１１から受信する。また、送受信手段２１は、通話相手端末３へ送信する音声データを、音声変換装置１の送受信手段１１へ送信する。

音声切換スイッチ２２は、ユーザが通話相手の音声又は自身の音声を変換させたい場合に用いるスイッチである。音声切換スイッチ２２は、ユーザの操作内容に応じた操作信号を出力する。出力された操作信号は、送受信手段２１を介して音声変換装置１の送受信手段１１へ送信される。

通話手段２３は、収音するマイクと放音するスピーカとを備え、通話相手と通話をするための装置である。ユーザの発話音声は通話手段２３のマイクによって収音され、収音された発話音声を表す音声データは送受信手段２１によって送信される。また、音声変換装置１から受信される音声データは通話手段２３のスピーカから音として放音される。これにより、通話が実現される。

次に、通話相手端末３の構成について、図１を参照しつつ説明する。図１において、送受信手段３１は、ユーザ端末２から送信される音声データを、音声変換装置１の送受信手段１１から受信する。また、送受信手段３１は、ユーザ端末２へ送信する音声データを、音声変換装置１の送受信手段１１へ送信する。

通話手段３２は、収音するマイクと放音するスピーカとを備え、ユーザと会話をするための装置である。通話相手の発話音声は通話手段３２のマイクによって収音され、収音された発話音声を表す音声データは送受信手段３１によって送信される。また、音声変換装置１から受信される音声データは通話手段３２のスピーカから音として放音される。これにより、通話が実現される。

＜動作＞
次に、本実施形態の動作について説明する。
＜前準備動作＞
まず、通話相手情報データベース１６に変換パターンを登録する動作について説明する。システムを利用するユーザは、予めユーザの音声を変換することを望む通話相手の特徴（特定人物、年齢、性別等）と、通話相手の音声を変換することを望む通話相手の特徴と、変換する音声のパターン（男性の声、女性の声、キャラクタの声、等）を選択し、選択結果を操作手段１７を用いて登録する。音声変換装置１は、操作手段１７から出力される信号に応じて、ユーザによって入力された情報を通話相手情報データベース１６に登録する。例えば、図３に示す例では、通話相手が「ＡＡ」である場合にはユーザの音声が「ＰＴ５」の変換パターンで変換される旨が登録されている。また、通話相手が「ＡＢ」である場合には、通話相手の音声が「ＰＴ１０」の変換パターンで変換される旨が登録されている。

＜通話動作＞
次に、本システムの通話動作について図面を参照しつつ説明する。ここでは、ユーザが或る通話相手と通話を行う場合の動作について説明する。通話が開始されると、音声変換装置１は、まず、通話相手端末３から受信される音声データから音声の特徴量を抽出する。

音声変換装置１の音声変換判定手段１２は、抽出された特徴量を通話相手情報データベース１６に登録された特徴量と照合する。音声変換判定手段１２は、照合結果に応じて、音声を変換するか否かを判定する。このとき、ユーザの音声変換を望む人物の特徴量である場合には、音声変換判定手段１２は、ユーザの音声を変換すると判定し、判定結果を音声変換手段１３に通知する。音声変換手段１３は、音声変換判定手段１２の判定結果に従って、ユーザの音声を変換する。一方、通話相手の音声変換を望む人物の特徴量であった場合には、音声変換判定手段１２は、通話相手の音声を変換すると判定し、判定結果を音声変換手段１３に通知する。音声変換手段１３は、音声変換判定手段１２の判定結果に従って、通話相手の音声を変換する。

次に、抽出された特徴量が通話相手情報データベース１６に登録されていない場合の動作について説明する。通話相手情報データベース１６に登録されていない人物の特徴量が検出された場合には、音声変換装置１は、ユーザによって音声切換スイッチ２２が操作されたか否かを判定する。スイッチが操作されたと判定された場合には、音声変換装置１は、操作内容に応じて、ユーザ又は通話相手の音声を変換するか否かを判定する。ユーザの音声を変換すると判定した場合には、音声変換判定手段１２は、操作手段１７から出力される信号に応じた変換態様でユーザの音声を変換する。また、音声変換判定手段１２は、抽出された通話相手の特徴量と、変換する音声のパターン（音声の変換態様）とを対応付けて通話相手情報データベース１６に登録する。一方、音声切換スイッチ２２から出力される信号に応じて通話相手の音声を変換することを選択した場合には、音声変換判定手段１２は、判定結果を音声変換手段１３に通知する。音声変換手段１３は、音声変換判定手段１２の判定結果に応じて、通話相手の音声を変換する。この場合も、音声変換判定手段は、抽出された通話相手の特徴量と、変換する音声のパターンとを対応付けて通話相手情報データベース１６に登録する。

一方、音声切換スイッチ２２からの信号に基づいて音声を変換しないと判定された場合には、音声変換手段１３は音声変換処理を行わない。この場合は、音声変換装置１は、ユーザ端末２から受信される音声データをそのまま（音声変換処理を施さずに）通話相手端末３へ送信するとともに、通話相手端末３から受信される音声データをそのまま（音声変換処理を施さずに）ユーザ端末２へ送信する。また、このとき、音声変換判定手段１２は、通話相手の特徴量と、音声変換を行わない旨を示す情報とを対応付けて通話相手情報データベース１６に登録する。

このように、本実施形態によれば、通話相手の音声から音声の特徴量を抽出し、抽出した特徴が通話相手情報データベース１６に登録されている場合には、登録されている内容に従って、ユーザの発話音声及び通話相手の発話音声の少なくともいずれか一方が音声変換される。具体的には、例えば、ユーザの発話音声が男性の声に変換されることで、女性宅を狙った勧誘や、訪問販売、いたずら電話等を撃退することができる。

また、本実施形態によれば、一度音声変換の対象となった人物は、通話相手情報データベース１６に登録されるため、次回から自動的に変換対象と判定される。従って、毎回変換したユーザの音声で対応することになり、繰り返しの訪問、電話等を防ぐことができる。

また、クレーム対応時は、例えば、通話相手の音声をキャラクタの音声に変換することで、ユーザの精神的負荷を軽減することができる。また、一度音声変換の対象となった人物は、次回から自動的に変換対象と判定される。従って、毎回変換した通話相手の音声の対応をすることとなり、過去にクレームの対応した通話相手であることを即座に理解できる。これは、一つの音声変換装置を共有しているユーザであれば、誰もが得られる効果であり、どのユーザの精神的負荷も軽減できる。

このように、本実施形態によれば、通話相手の発話音声から通話相手を特定し、通話相手次第で自分の音声変換（女性声から男性声への変換）や、通話相手の音声変換（キャラクタ音声変換）を行う。このようにすることで、勧誘の撃退やクレーム対応の精神的負荷を軽減することができる。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
（１）上述の実施形態において、通話相手の発話音声から、通話相手の属性（年齢、性別、等）を推定し、推定結果に応じてユーザの音声変換や通話相手の音声変換を行うようにしてもよい。この場合は、通話相手情報データベース１６に、通話相手の属性（年齢、性別、等）と、自音声変換パターンと、相手音声変換パターンとを対応付けて記憶しておき、音声変換装置１が、予め定められたアルゴリズムに従って通話相手の発話音声から通話相手の属性を推定し、推定した属性に対応する変換態様でユーザの音声及び通話相手の音声の少なくともいずれか一方に対して音声変換処理を施す。具体的には、例えば、通話相手が男性であると推定された場合に、ユーザの音声を女性声から男性声へ変換したり、通話相手の音声をキャラクタの音声に変換したりする。このようにすることで、勧誘の撃退やクレーム対応の精神的負荷を軽減することができる。

（２）上述の実施形態におけるユーザ端末２と通話相手端末３とは、例えば、音声通話を行うための電話端末であってもよく、また、例えば、玄関等に設置されるインターホン端末であってもよい。
また、上述の実施形態では、音声変換装置１とユーザ端末２とが別体の装置として構成されていたが、これに限らず、音声変換装置１とユーザ端末２とが一体となったひとつの装置として構成されていてもよい。

（３）上述の実施形態では、ユーザ端末２が音声切換スイッチ２２を備える構成となっていたが、ユーザ端末２が音声切換スイッチ２２を有しない構成であってもよい。この場合は、ユーザ端末２として従来用いられている電話端末やインターホン端末を用いればよい。
また、上述の実施形態では、音声切換スイッチ２２がユーザ端末２に設けられていたが、これに限らず、音声切換スイッチ２２が音声変換装置１に設けられていてもよい。

（４）上述の実施形態において、音声変換装置１の各部は、ハードウェアとして構成されていてもよく、また、ＣＰＵ等の制御手段がコンピュータプログラムを実行することによってソフトウェアとして実現される構成であってもよい。ソフトウェアとして構成される場合には、ＣＰＵ等の制御手段によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で音声変換装置１にダウンロードさせることも可能である。また、上述の制御を行う制御手段としてはＣＰＵ以外にも種々の装置を適用することができ、例えば、専用のプロセッサなどを用いてもよい。

通信システムの構成の一例を示す図である。音声変換データベースの内容の一例を示す図である。通話相手情報データベースの内容の一例を示す図である。

符号の説明

１…音声変換装置、２…ユーザ端末、３…通話相手端末、１１…送受信手段、１２…音声変換判定手段、１３…音声変換手段、１４…音声変換データベース、１５…特徴量抽出手段、１６…通話相手情報データベース、１７…操作手段、２１…送受信手段、２２…音声切換スイッチ、２３…通話手段、３１…送受信手段、３２…通話手段。

Claims

音声の特徴と音声の変換態様とを対応付けて記憶する記憶手段と、
第１の通話装置から第１の音声データを受信するとともに、第２の通話装置から第２の音声データを受信する受信手段と、
前記受信手段によって受信された第２の音声データを前記第１の通話装置に送信するとともに、前記受信手段によって受信された第１の音声データを前記第２の通話装置に送信する送信手段と、
前記受信手段によって受信された第１の音声データを解析して音声の特徴を抽出する特徴抽出手段と、
前記特徴抽出手段によって抽出された特徴を前記記憶手段に記憶された特徴と照合し、照合結果に応じて、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方の音声を変換するか否かを判定する音声変換判定手段と、
前記音声変換判定手段による判定結果が肯定的である場合に、前記特徴抽出手段によって抽出された特徴に対応する変換態様を前記記憶手段の記憶内容を参照して特定する変換態様特定手段と、
前記変換態様特定手段によって特定された変換態様で、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方を音声変換して前記送信手段に出力する音声変換手段と
を具備することを特徴とする音声変換装置。
前記音声変換判定手段による判定結果が否定的である場合に、利用者によって操作される操作手段から出力される操作信号に応じて、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方を音声変換するか否かを判定する第２の音声変換判定手段と、
前記第２の音声変換判定手段による判定結果が肯定的である場合に、前記操作信号に応じて音声の変換態様を特定する第２の変換態様特定手段と、
前記第２の音声変換判定手段による判定結果が肯定的である場合に、前記特徴抽出手段によって抽出された特徴と前記第２の変換態様特定手段によって特定された変換態様とを対応付けて前記記憶手段に記憶する記憶制御手段と
を具備し、
前記音声変換手段は、前記第２の音声変換判定手段による判定結果が肯定的である場合に、前記第２の変換態様特定手段によって特定された変換態様で、前記第１の音声データ及び前記第２の音声データの少なくともいずれか一方を音声変換して前記送信手段に出力する
ことを特徴とする請求項１に記載の音声変換装置。