JP2010169925A

JP2010169925A - 音声処理装置、チャットシステム、音声処理方法、ならびに、プログラム

Info

Publication number: JP2010169925A
Application number: JP2009012753A
Authority: JP
Inventors: Shoji Mori; 昌二森
Original assignee: Konami Digital Entertainment Co Ltd
Current assignee: Konami Digital Entertainment Co Ltd
Priority date: 2009-01-23
Filing date: 2009-01-23
Publication date: 2010-08-05
Also published as: WO2010084830A1; TW201040940A

Abstract

【課題】ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにする音声処理装置等を提供する。
【解決手段】チャットシステム２１１は、２つの音声処理装置２０１から構成され、各音声処理装置２０１において、入力受付部２０２は、ユーザが発する声の入力を受け付け、抽出部２０３は、受け付けられた声の特徴パラメータを抽出し、生成部２０４は、所定の音声データから合成音声を生成し、出力部２０５は、生成された合成音声を出力し、典型的には、特徴パラメータとして、波形の振幅もしくは音量、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさの時間変化を用い、所定の音声データの特徴パラメータを、抽出された特徴パラメータに置き換えることによって、合成音声を生成する。
【選択図】図２

Description

本発明は、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムに関する。

従来から、オンラインゲームやＳＮＳ（Social Network Service）の分野では、ユーザが発した声をマイクで検出し、当該声の音声データを相手方のユーザの端末装置へ伝送して、当該音声データを相手方の端末装置のスピーカやヘッドホンで再生する処理を双方向で行うことによりチャットを行うボイスチャットシステムが利用されている。このような技術については、後に掲げる特許文献１に開示されている。

ここで、特許文献１には、仮想空間内のユーザの周囲の環境音と当該ユーザが発する声とを合成して他のユーザに伝達し、ボイスチャットの臨場感を高める技術が提案されている。

特開２００６−３４３４４７号公報

しかしながら、ユーザが発する声の波形データはデータ量が大きいため、伝送遅延などの問題が生じやすい。また、ユーザ間の健全な交流を図る上では、不適切な単語の使用を抑制したり、プライバシーを侵害する内容の伝達を抑制する必要がある。

本発明は、上記のような課題を解決するもので、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムを提供することを目的とする。

以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。

本発明の第１の観点に係る音声処理装置は、入力受付部、抽出部、生成部、出力部を備え、以下のように構成する。

すなわち、入力受付部は、ユーザが発する声の入力を受け付ける。典型的には、マイクを利用して、ユーザが発する声の波形データを取得し、所定のサンプリング周波数でＡ／Ｄ（Analog/Digital）変換して、数値列として、処理可能とする。

一方、抽出部は、受け付けられた声の特徴パラメータを抽出する。特徴パラメータとして典型的なものは、波形の振幅もしくは音量、基本周波数、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさであり、特徴パラメータは、時間の経過にともなって変化する。これらの情報は、典型的には離散高速フーリエ変換等の技術を利用することで抽出できる。

さらに、生成部は、所定の音声データから、合成音声を生成する。ここで、生成部は、所定の音声データの特徴パラメータを、抽出された特徴パラメータの値に置き換えることによって、合成音声を生成する。

所定の音声データとしては、正弦波からなる音声データ、あらかじめ用意された声優の声や楽器の音などの音声データを利用することができる。

所定の音声データと、生成される合成音声と、の差は、特徴パラメータの値にある。合成音声の特徴パラメータは、所定の音声データの特徴パラメータを、抽出された特徴パラメータの値に置き換えたものである。

上記のように、特徴パラメータとして振幅や音量を採用した場合には、所定の音声データの振幅や音量を変化させることによって、合成音声を生成する。

また、特徴パラメータとして、基本周波数を採用した場合には、所定の音声データのキーを変化させることによって、合成音声を生成する。

さらに、特徴パラメータとして、基本周波数成分の大きさや、所定の周波数成分の大きさを採用した場合には、所定の音声データの当該成分の大きさを変化させることによって、合成音声を生成する。

このような置き換えを行うと、合成音声の大小、強弱、高低、抑揚などの時間変化は、ユーザが発した声と一致するようになる。したがって、合成音声は、ユーザの感情をある程度反映したものとなると考えられる。

一方で、合成音声は「人間が発した声」ではなくなるため、ユーザが単語や文章などを発声しても、合成音声では、その単語や文章の内容はわからないことになる。

さらに、出力部は、生成された合成音声を出力する。

ここで出力される合成音声は、上記のように、ユーザの感情の変化は反映しているものの、声によって単語や文章などを伝達することはできないような状態となっている。したがって、ユーザがプライバシーを侵す発言や公序良俗に反する発言をしたとしても、相手方ユーザには、その発言内容は伝わらない。

本発明によれば、ユーザの発言内容の詳細を言語情報として取得することはできないものの、ユーザ同士の感情による意思疎通は可能とすることができる。特に、ユーザ同士の発言内容に基づくトラブルを抑制することが可能となる。

また、本発明の音声処理装置において、特徴パラメータは、波形の振幅もしくは音量、基本周波数、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさの時間変化であるように構成することができる。

上記のように、当該構成は、本発明の好適実施形態に係るものである。なお、所定の代表周波数成分としては、あらかじめ定めた複数の周波数のそれぞれに対する成分の大きさを取得することとしても良いし、周波数分布のピークの上位所定数について、周波数と成分の大きさとの組を取得することとしても良い。

また、本発明の音声処理装置において、抽出部は、特徴パラメータを、１秒間に２０回未満の頻度で抽出するように構成することができる。

人間の可聴範囲は２０Ｈｚ〜２０ｋＨｚであるから、声の波形データを完全に復元するためには、４０ｋＨｚ以上のサンプリング周波数が必要となる。また、電話程度の音声品質を維持するには、４０００Ｈｚ程度のサンプリング周波数が必要となる。逆に、２０Ｈｚ未満のサンプリング周波数を採用すれば、処理しなければならないデータ量を激減させることが可能であるとともに、音声により伝達される単語や文章の言語情報を完全に除去することが可能となる。

本発明によれば、処理すべきデータ量を激減させることが可能であるとともに、言語による意思疎通を事実上不可能とすることができ、プライバシーの侵害や公序良俗に反する発言などを効率良く防止できるようになる。

また、本発明の音声処理装置において、抽出部は、受け付けられた声を離散フーリエ変換し、得られる周波数分布のうち、所定の複数の周波数成分の大きさを特徴パラメータとして抽出し、生成部は、抽出された周波数成分のそれぞれにあらかじめ対応付けられる波形データを抽出された大きさに増幅して合成して、合成音声を生成するように構成することができる。

本発明においては、抽出部では、あらかじめ定めた周波数の成分の大きさ、もしくは、ピークの上位所定数個分の周波数の成分の大きさを特徴パラメータとし、それ以外の周波数成分は除去するマスクをかけて、合成音声を生成することとなる。

また、各周波数成分に対応付けられる波形データとして方形波を採用した場合には、離散フーリエ変換の逆変換を行うこととなるが、その他の波形データを採用することとしても良い。

本発明によれば、離散フーリエ変換を利用して、容易に特徴パラメータを抽出することが可能となる。

また、本発明の音声処理装置において、周波数成分のそれぞれにあらかじめ対応付けられる波形データの基本周波数は当該周波数成分の中心周波数に一致し、当該波形データは、当該基本周波数の倍音の成分を含むように構成することができる。

すなわち、各周波数成分に対応付けられる波形データとして、基本周波数の高さは一致するが、音色が異なる波形データを採用するものである。波形データとしては、楽器が発する音などを採用することができる。たとえば、ピーク第１位の周波数成分についてはピアノの音声、ピーク第２位の周波数成分についてはギターの音声、ピーク第３位の周波数成分についてはベースの音声などを割り当てる等である。

本発明によれば、ユーザが発した声の特徴を反映した種々の音声を出力することができるようになる。

また、本発明の音声処理装置において、生成部は、複数の音声データの候補から、当該候補の特徴パラメータが抽出された特徴パラメータに最も近いものを選択し、当該選択された候補の音声データを、所定の音声データとするように構成することができる。

たとえば、周波数分布のピークを４つ取得し、その周波数が低い順に、ドラム、ベース、ギター、ピアノの順に音声データを割り当てる等である。

本発明のその他の観点に係るチャットシステムは、第１のユーザが発する声の入力を受け付けて、第２のユーザに合成音声を出力する第１の音声処理装置と、第２のユーザが発する声の入力を受け付けて、第１のユーザに合成音声を出力する第２の音声処理装置と、を備え、第１の音声処理装置と、第２の音声処理装置と、の、それぞれは、上記の音声処理装置であり、第１の音声処理装置と、第２の音声処理装置と、の、それぞれにおいて、抽出された特徴パラメータは、抽出部から生成部へ、コンピュータ通信網を介して伝送されるように構成する。

本発明は上記の音声処理装置をボイスチャットに適用したものであり、抽出部と生成部の間をコンピュータ通信網で接続するものである。

本発明によれば、ボイスチャットに類似したシステムを提供することによって、ユーザの発言内容の詳細を言語情報として取得することはできないものの、ユーザ同士の感情による意思疎通は可能とすることができる。特に、ユーザ同士の発言内容に基づくトラブルを抑制することが可能となる。

本発明のその他の観点に係る音声処理方法は、入力受付部、抽出部、生成部、出力部を備える音声処理装置が実行し、入力受付工程、抽出工程、生成工程、出力工程、を備え、以下のように構成する。

すなわち、入力受付工程では、入力受付部が、ユーザが発する声の入力を受け付ける。

一方、抽出工程では、抽出部が、受け付けられた声の特徴パラメータを抽出する。

さらに、生成工程では、生成部が、所定の音声データの特徴パラメータから合成音声を生成する。

ここで、生成工程では、所定の音声データの特徴パラメータを、抽出された特徴パラメータの値に置き換えることによって、合成音声を生成する。

そして、出力工程では、出力部が、生成された合成音声を出力する。

本発明のその他の観点に係るプログラムは、コンピュータを上記のゲーム装置の各部として機能させるように構成する。

また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記憶媒体に記録することができる。

上記プログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記憶媒体は、コンピュータとは独立して配布・販売することができる。

本発明によれば、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムを提供することができる。

典型的な情報処理装置の概要構成を示す模式図である。本発明の実施形態に係る音声処理装置と、当該音声処理装置を利用したチャットシステムの概要構成を示す説明図である。本実施形態に係る音声処理装置にて実行される送信処理の制御の流れを示すフローチャートである。本実施形態に係る音声処理装置にて実行される受信処理の制御の流れを示すフローチャートである。

以下に本発明の実施形態を説明する。以下では、理解を容易にするため、ゲーム用の情報処理装置を利用して本発明が実現される実施形態を説明するが、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。

したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。

図１は、プログラムを実行することにより、本実施形態の音声処理装置として機能しうる典型的な情報処理装置の概要構成を示す模式図である。以下、本図を参照して説明する。

情報処理装置１００は、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ１０２と、ＲＡＭ（Random Access Memory）１０３と、インターフェース１０４と、コントローラ１０５と、外部メモリ１０６と、画像処理部１０７と、ＤＶＤ−ＲＯＭ（Digital Versatile Disc ROM）ドライブ１０８と、ＮＩＣ（Network Interface Card）１０９と、音声処理部１１０と、マイク１１１と、を備えるように構成することができる。各種の入出力装置は、適宜省略することができる。

ゲーム用のプログラムおよびデータを記憶したＤＶＤ−ＲＯＭをＤＶＤ−ＲＯＭドライブ１０８に装着して、情報処理装置１００の電源を投入することにより、当該プログラムが実行され、本実施形態の音声処理装置が実現される。

また、携帯型のゲーム装置においては、携帯可能とするために、ＤＶＤ−ＲＯＭドライブ１０８を利用するのではなく、ＲＯＭカセット用スロットを利用することも可能である。この場合、プログラムが記録されたＲＯＭカセットを挿入して、当該プログラムを実行することで、本実施形態の音声処理装置が実現される。

このほか、端末装置からサーバ装置に接続することによりチャットを進めるようなシステムにおいては、端末装置同士とサーバ装置とが共働してチャットシステムとして機能することとなるが、この場合、端末装置と、サーバ装置と、は、計算能力の違いや機器構成に少々の相違はあるものの、本質的には、情報処理装置１００と同様の構成とするのが典型的である。また、この場合に、サーバ装置は端末装置の紹介のみを担い、その後は、端末装置同士がピアツーピアで通信することによって、チャットシステムを形成する形態を採用することもできる。

ＣＰＵ１０１は、情報処理装置１００全体の動作を制御し、各構成要素と接続され制御信号やデータをやりとりする。また、ＣＰＵ１０１は、レジスタ（図示せず）という高速アクセスが可能な記憶域に対してＡＬＵ（Arithmetic Logic Unit）（図示せず）を用いて加減乗除等の算術演算や、論理和、論理積、論理否定等の論理演算、ビット和、ビット積、ビット反転、ビットシフト、ビット回転等のビット演算などを行うことができる。さらに、マルチメディア処理対応のための加減乗除等の飽和演算や、三角関数等、ベクトル演算などを高速に行えるように、ＣＰＵ１０１自身が構成されているものや、コプロセッサを備えて実現するものがある。

ＲＯＭ１０２には、電源投入直後に実行されるＩＰＬ（Initial Program Loader）が記録され、これが実行されることにより、ＤＶＤ−ＲＯＭに記録されたプログラムをＲＡＭ１０３に読み出してＣＰＵ１０１による実行が開始される。また、ＲＯＭ１０２には、情報処理装置１００全体の動作制御に必要なオペレーティングシステムのプログラムや各種のデータが記録される。

ＲＡＭ１０３は、データやプログラムを一時的に記憶するためのもので、ＤＶＤ−ＲＯＭから読み出したプログラムやデータ、その他ゲームの進行やチャット通信に必要なデータが保持される。また、ＣＰＵ１０１は、ＲＡＭ１０３に変数領域を設け、当該変数に格納された値に対して直接ＡＬＵを作用させて演算を行ったり、ＲＡＭ１０３に格納された値を一旦レジスタに格納してからレジスタに対して演算を行い、演算結果をメモリに書き戻す、などの処理を行う。

インターフェース１０４を介して接続されたコントローラ１０５は、ユーザがゲーム実行の際に行う操作入力を受け付ける。

なお、コントローラ１０５は、必ずしも情報処理装置１００に対して外付けにされている必要はなく、一体に形成されていても良い。

携帯可能な端末装置のコントローラ１０５は、各種のボタンやスイッチから構成され、これらの押圧操作を操作入力として扱う。このほか、タッチスクリーンを利用した情報処理装置１００では、ユーザがペンや指を利用してタッチスクリーンをなぞった軌跡を操作入力として扱う。

インターフェース１０４を介して着脱自在に接続された外部メモリ１０６には、ゲーム等のプレイ状況（過去の成績等）を示すデータ、ゲームの進行状態を示すデータ、ネットワーク対戦の場合のチャット通信のログ（記録）のデータなどが書き換え可能に記憶される。ユーザは、コントローラ１０５を介して指示入力を行うことにより、これらのデータを適宜外部メモリ１０６に記録することができる。

ＤＶＤ−ＲＯＭドライブ１０８に装着されるＤＶＤ−ＲＯＭには、ゲームを実現するためのプログラムとゲームに付随する画像データや音声データが記録される。ＣＰＵ１０１の制御によって、ＤＶＤ−ＲＯＭドライブ１０８は、これに装着されたＤＶＤ−ＲＯＭに対する読み出し処理を行って、必要なプログラムやデータを読み出し、これらはＲＡＭ１０３等に一時的に記憶される。

画像処理部１０７は、ＤＶＤ−ＲＯＭから読み出されたデータをＣＰＵ１０１や画像処理部１０７が備える画像演算プロセッサ（図示せず）によって加工処理した後、これを画像処理部１０７が備えるフレームメモリ（図示せず）に記録する。フレームメモリに記録された画像情報は、所定の同期タイミングでビデオ信号に変換され画像処理部１０７に接続されるモニタ（図示せず）へ出力される。これにより、各種の画像表示が可能となる。

携帯可能なゲーム装置のモニタとしては、小型の液晶ディスプレイを利用するのが典型的であり、コントローラ１０５としてタッチスクリーンを利用する場合には、当該タッチスクリーンの表示パネルがモニタとして機能する。自宅で遊ぶためのゲーム装置やサーバ装置のモニタとしては、ＣＲＴ（Cathode Ray Tube）やプラズマディスプレイなどの表示装置を利用することも可能である。

画像演算プロセッサは、２次元の画像の重ね合わせ演算やαブレンディング等の透過演算、各種の飽和演算を高速に実行できる。

また、仮想３次元空間に配置され、各種のテクスチャ情報が付加されたポリゴン情報を、Ｚバッファ法によりレンダリングして、所定の視点位置から仮想３次元空間に配置されたポリゴンを所定の視線の方向へ俯瞰したレンダリング画像を得る演算の高速実行も可能である。

さらに、ＣＰＵ１０１と画像演算プロセッサが協調動作することにより、文字の形状を定義するフォント情報にしたがって、文字列を２次元画像としてフレームメモリへ描画したり、各ポリゴン表面へ描画することが可能である。

ＮＩＣ１０９は、情報処理装置１００をインターネット等のコンピュータ通信網（図示せず）に接続するためのものであり、ＬＡＮを構成する際に用いられる１０ＢＡＳＥ−Ｔ／１００ＢＡＳＥ−Ｔ規格にしたがうものや、電話回線を用いてインターネットに接続するためのアナログモデム、ＩＳＤＮ（Integrated Services Digital Network）モデム、ＡＤＳＬ（Asymmetric Digital Subscriber Line）モデム、ケーブルテレビジョン回線を用いてインターネットに接続するためのケーブルモデム等と、これらとＣＰＵ１０１との仲立ちを行うインターフェース（図示せず）により構成される。

音声処理部１１０は、ＤＶＤ−ＲＯＭから読み出した音声データをアナログ音声信号に変換し、これに接続されたスピーカ（図示せず）から出力させる。また、ＣＰＵ１０１の制御の下、ゲームの進行の中で発生させるべき効果音や楽曲データを生成し、これに対応した音声をスピーカや、ヘッドホン（図示せず）、イヤフォン（図示せず）から出力させる。

音声処理部１１０では、ＤＶＤ−ＲＯＭに記録された音声データがＭＩＤＩデータである場合には、これが有する音源データを参照して、ＭＩＤＩデータをＰＣＭデータに変換する。また、ADPCM形式やOgg Vorbis形式等の圧縮済音声データである場合には、これを展開してＰＣＭデータに変換する。ＰＣＭデータは、そのサンプリング周波数に応じたタイミングでＤ／Ａ（Digital/Analog）変換を行って、スピーカに出力することにより、音声出力が可能となる。

さらに、情報処理装置１００には、インターフェース１０４を介してマイク１１１を接続することができる。この場合、マイク１１１からのアナログ信号に対しては、適当なサンプリング周波数でＡ／Ｄ変換を行い、ＰＣＭ形式のディジタル信号として、音声処理部１１０でのミキシング等の処理ができるようにする。

このほか、情報処理装置１００は、ハードディスク等の大容量外部記憶装置を用いて、ＲＯＭ１０２、ＲＡＭ１０３、外部メモリ１０６、ＤＶＤ−ＲＯＭドライブ１０８に装着されるＤＶＤ−ＲＯＭ等と同じ機能を果たすように構成してもよい。

また、ユーザからの文字列の編集入力を受け付けるためのキーボードや、各種の位置の指定および選択入力を受け付けるためのマウスなどを接続する形態も採用することができる。また、本実施形態の情報処理装置１００にかえて、汎用のパーソナルコンピュータを利用することもできる。

以上で説明した情報処理装置１００は、いわゆるコンシューマ向けゲーム装置に相当するものであるが、携帯電話、携帯ゲーム機器、カラオケ装置、一般的なビジネス用コンピュータなど、種々の計算機上で本発明のゲーム装置を実現することが可能である。

たとえば、一般的なコンピュータは、上記情報処理装置１００と同様に、ＣＰＵ、ＲＡＭ、ＲＯＭ、ＤＶＤ−ＲＯＭドライブ、および、ＮＩＣを備え、情報処理装置１００よりも簡易な機能を備えた画像処理部を備え、外部記憶装置としてハードディスクを有する他、フレキシブルディスク、光磁気ディスク、磁気テープ等が利用できるようになっている。また、コントローラ１０５ではなく、キーボードやマウスなどを入力装置として利用する。

図２は、本実施形態に係る音声処理装置と、当該音声処理装置を利用したチャットシステムの概要構成を示す説明図である。以下、本図を参照して、本音声処理装置の各部の概要を説明する。

本実施形態に係るチャットシステム２１１は、２つの音声処理装置２０１からなる。音声処理装置２０１は、それぞれ、入力受付部２０２、抽出部２０３、生成部２０４、出力部２０５を備える。

ここで、入力受付部２０２は、ユーザが発する声の入力を受け付ける。本実施形態では、ＣＰＵ１０１の制御の下、マイク１１１が入力受付部２０２の機能を果たす。

一方、抽出部２０３は、受け付けられた声の特徴パラメータを抽出する。本実施形態では、ＣＰＵ１０１ならびに音声処理部１１０が抽出部２０３の機能を果たす。

さらに、生成部２０４は、所定の音声データから合成音声を生成する。ここで生成される合成音声は、当該所定の音声データの特徴パラメータを抽出部２０３により抽出される特徴パラメータに置き換えたものである。

本実施形態では、ＣＰＵ１０１ならびに音声処理部１１０が生成部２０４の機能を果たす。

さらに、出力部２０５は、生成された合成音声を出力する。本実施形態では、ＣＰＵ１０１の制御の下、ならびに音声処理部１１０がスピーカやヘッドホンを駆動して、出力部２０５の機能を果たす。

なお、本図に示すように、チャットシステム２１１ならびに２つの音声処理装置２０１は、２人のユーザＡとユーザＢが利用する２つの情報処理装置１００によって実現されるが、１つの音声処理装置２０１の抽出部２０３と生成部２０４の間で、コンピュータ通信網を介した通信によって特徴パラメータが伝送される。

すなわち、ユーザＡが利用する情報処理装置１００は、ユーザＡが発した声に対する入力受付部２０２および抽出部２０３、ならびに、ユーザＢが発した声に対する生成部２０４および出力部２０５として機能する。

一方、ユーザＢが利用する情報処理装置１００は、ユーザＢが発した声に対する入力受付部２０２および抽出部２０３、ならびに、ユーザＡが発した声に対する生成部２０４および出力部２０５として機能する。

図３は、音声処理装置２０１が行う送信処理の制御の流れを示すフローチャートである。これは、入力受付部２０２および抽出部２０３が行う処理に相当する。以下、本図を参照して説明する。

本処理が開始されると、ＣＰＵ１０１は、マイク１１１からの音声の波形入力機能ならびにＲＡＭ１０３を初期化する（ステップＳ３０１）。ここで、ＲＡＭ１０３には、マイク１１１から入力された音声の波形データを所定の時間長分だけ記録できるバッファを２つ用意し、中身をゼロクリアしておく。

マイク１１１からの音声の波形データのサンプリング周波数は、音声処理部１１０の能力ならびに設定によって変更が可能であるが、４４１００Ｈｚ、２２０５０Ｈｚ、もしくは、１１０２５Ｈｚのいずれかとし、Ａ／Ｄ変換の精度は、８ビットもしくは１６ビットのモノラルとするのが典型的である。

バッファに蓄積する際の所定の時間長は、音声処理装置２０１を実現する情報処理装置１００の垂直同期割込周期の整数倍とするのが典型的である。たとえば垂直同期割込の周期が、６０分の１秒（これは６０Ｈｚに相当する。）である場合、バッファの時間長は、６０分の１秒、３０分の１秒、あるいは２０分の１秒とするのが典型的である。

ここで、２０分の１秒（これは２０Ｈｚに相当する。）は、人間の可聴周波数領域の下限に相当する。すなわち、波形データが変化した場合に、人間が「音量の変化」と「音色の変化」のいずれと感じるか、の境界に相当するため、本発明においては、この時間長を採用するのが典型的である。

たとえば、１６ビット符号付きモノラルサンプリングでサンプリング周波数が４４１００Ｈｚの場合、バッファ長は、（１６／８）×（４４１００／２０）＝４４１０バイトとなる。

そして、ＲＡＭ１０３内のバッファの一方のバッファへ、マイク１１１からの波形データに蓄積を開始し（ステップＳ３０２）、これと並行して、ＲＡＭ１０３内の他方のバッファについて、以下の処理を行う。

すなわち、当該バッファの波形データ列から、特徴パラメータを抽出する（ステップＳ３０３）。ここで、バッファに記憶される波形データ列を
a₁，a₂，…，a_L
とする。上記の例では、a₁，a₂，…，a_Lはいずれも１６ビット符号付き整数であり、L = 2205である。

最も簡単な特徴パラメータとしては、
（１）変位の絶対値の平均Σ_t=1 ^L|a_t|/L、
（２）変位の自乗平均Σ_t=1 ^L a_t ²/L、
（３）変位の絶対値の総和Σ_t=1 ^L|a_t|、
（４）変位の自乗和Σ_t=1 ^L a_t ²
などを採用することができる。これらは、マイク１１１から入力された声の大きさに相当する特徴パラメータである。より複雑な特徴パラメータについては、後述する。

ついで、情報処理装置１００のＮＩＣ１０９を介して、当該特徴パラメータを相手方の情報処理装置１００へ送信し（ステップＳ３０４）、ステップＳ３０２において開始したバッファへの蓄積が完了するまで待機する（ステップＳ３０５）。なお、当該待機中には、他の処理を並行してコルーチン的に実行することも可能である。典型的には、後述する受信処理が並行に行われる。

バッファへの蓄積が完了したら、２つのバッファの役割を交換して（ステップＳ３０６）、ステップＳ３０２に戻る。

上記のように、バッファへの波形データの蓄積は、２０分の１秒単位で行われるから、特徴パラメータの送信は、２０分の１秒ごとに行われることになるため、通常のボイスチャットに比較して、伝送すべきデータ量は激減する。なお、当該特徴パラメータの送信は、適宜バッファリングを行うことも可能である。

図４は、音声処理装置２０１が行う受信処理の制御の流れを示すフローチャートである。これは、生成部２０４および出力部２０５が行う処理に相当する。以下、本図を参照して説明する。

ＣＰＵ１０１は、まず、所定の音声波形データの出力を、音量０で開始する（ステップＳ４０１）。所定の音声波形データとしては、正弦波、方形波、ＭＩＤＩなどで用意された各種の楽器の音声波形データ、声優などの声のデータ等、種々のものを採用することができる。

ついで、ＮＩＣ１０９を制御して、相手方の情報処理装置１００から送信された特徴パラメータが到達するまで待機する（ステップＳ４０２）。この待機中には、他の処理を並行してコルーチン的に実行することも可能である。典型的には、上記の送信処理が並行に行われる。

特徴パラメータが到達したら、当該特徴パラメータを受信する（ステップＳ４０３）。

そして、ステップＳ４０１で開始した所定の音声波形データの出力音量を、受信した特徴パラメータに比例する音量に変更して（ステップＳ４０４）、ステップＳ４０２に戻る。

これらの送信処理および受信処理によって、送信側のユーザが発声した声の大きさに合わせて音量が変化する音声を、受信側のユーザは聞くことができるようになる。

声の大きさは相手方ユーザの感情を反映するから、このような処理であっても、ある程度の意思疎通は可能である。

一方で、受信側のユーザが聞く音声は、所定の音声波形データの音量を変化させたものに過ぎないから、どのような音韻が発せられたかを知ることはできない。したがって、送信側のユーザが公序良俗に反する発言をした場合であっても、受信側のユーザは、その内容を知ることはない。このため、発言内容に基づくトラブルを防止することが可能である。

さらに、一般に、声の大きさと感情との相関関係は、どのような言語を用いているかにはあまり依存しない。本実施形態では、受信側では音韻が不明であり、もともと言語として理解できないコミュニケーションであることが前提となっているから、送信側のユーザと受信側のユーザが互いに理解できるような言語を持たない場合であっても、言語による障害が存在しないため、かえって意思疎通が促進される状況もありうる。

上記実施形態では、声の大きさを特徴パラメータとして抽出し、出力される音声の音量を変化させることとしていたが、この態様は種々の変形が可能である。

まず、抽出する特徴パラメータとして、さらに
（５）基本周波数
を採用する手法が考えられる。基本周波数を取得するためには、バッファに蓄積された波形データ列a₁，a₂，…，a_Lを離散高速フーリエ変換し、最も大きな成分を有するピークの周波数を取得すれば良い。

そして、基本周波数と、上記（１）〜（４）のいずれかを組み合わせて特徴パラメータとして、相手方の情報処理装置１００に伝送する。

受信側では、ステップＳ４０４において、音量を変化させるほか、所定の波形データを再生する音程（周波数、あるいは、キー）を、受信した特徴パラメータの基本周波数に変更するのである。

正弦波、方形波、ＭＩＤＩなどで用意された各種の楽器の音声波形データの場合には、当該音声波形データの再生周波数を、受信した特徴パラメータに合わせて変更すれば良い。これは、カラオケなどで行われる「キーの変更」をより細かく行う制御に相当する。

また、声優などの声のデータを採用する場合であっても、伝送された特徴パラメータに指定される再生周波数の上下の変化に合わせて、音声波形データのキーを上下に変更すれば良い。

本態様では、声の大きさのほか、声の高低も相手方に伝えることができ、抑揚やイントネーションなどによって、さらに詳細にユーザの感情を理解させることができるようになり、より意思疎通が図られるようになる。

このほか、離散高速フーリエ変換の結果を利用して、
（６）所定の複数の周波数における周波数成分の大きさ
を特徴パラメータとしても良い。

この際、受信側では、複数の周波数のそれぞれに対応する波形データを用意しておき、各波形データの増幅率を、対応する周波数成分の大きさに比例させる。典型的には、上記（１）〜（４）のいずれか１つに比例するようにする。

たとえば、ＭＩＤＩの音源を考えた場合、ドラム、ベース、ギター、ピアノは、受け持つ音高の範囲が異なる。そこで、これらの楽器の代表的な音の周波数を、上記の「所定の複数の周波数」とする。

そして、受信側では、各楽器の音量を、フーリエ変換の結果のうち、その楽器の代表周波数について抽出された成分の大きさに合わせて変化させる。このような処理によって、人間の発声が、ジャズバンドの演奏のように再生されることになる。

これをさらに応用する場合には、
（７）所定の１つまたは複数の周波数帯内におけるピークの周波数とその大きさ
を特徴とする手法もありうる。

上記の例では、ドラム用の周波数帯、ベース用の周波数帯、ギター用の周波数帯、ピアノ用の周波数帯を、あらかじめ定めておき、フーリエ変換の結果から、各周波数帯におけるピークを選択する。

なお、各周波数帯について選択するピークは１つとしても良いし、複数としても良い。たとえば、ピアノは他の楽器に比べてカバーできる周波数帯が広いから、それに合わせて選択するピークの個数を多くする等である。

そして、受信側では、各楽器の波形データの出力音高を、そのピークの周波数に合わせるとともに、そのピークの周波数成分の大きさに合わせて変化させる。ある楽器についてピークを複数選択する場合には、その楽器で複数の音を演奏するように、設定すれば良い。

この手法では、さらに、ジャズバンドの演奏によって人間の発声を模したかのような再生結果が得られることになる。

なお、上記の手法は、適宜組み合わせたり、一部を省略したりしても良い。

このように、本実施形態によれば、ボイスチャットに類似したシステムを提供することによって、ユーザの発言内容の詳細を言語情報として取得することはできないものの、ユーザ同士の感情による意思疎通は可能とすることができ、特に、ユーザ同士の発言内容に基づくトラブルを抑制することが可能となる。

以上説明したように、本発明によれば、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムを提供することができる。

１００情報処理装置
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４インターフェース
１０５コントローラ
１０６外部メモリ
１０７画像処理部
１０８ＤＶＤ−ＲＯＭドライブ
１０９ＮＩＣ
１１０音声処理部
１１１マイク
２０１音声処理装置
２０２入力受付部
２０３抽出部
２０４生成部
２０５出力部
２１１チャットシステム

Claims

ユーザが発する声の入力を受け付ける入力受付部、
前記受け付けられた声の特徴パラメータを抽出する抽出部、
所定の音声データから、合成音声を生成する生成部、
前記生成された合成音声を出力する出力部
を備え、
前記生成部は、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成する
ことを特徴とする音声処理装置。
請求項１に記載の音声処理装置であって、
前記特徴パラメータは、波形の振幅もしくは音量、基本周波数、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさの時間変化である
ことを特徴とする音声処理装置。
請求項２に記載の音声処理装置であって、
前記抽出部は、前記特徴パラメータを、１秒間に２０回未満の頻度で抽出する
ことを特徴とする音声処理装置。
請求項１または２に記載の音声処理装置であって、
前記抽出部は、前記受け付けられた声を離散フーリエ変換し、得られる周波数分布のうち、所定の複数の周波数成分の大きさを前記特徴パラメータとして抽出し、
前記生成部は、前記抽出された周波数成分のそれぞれにあらかじめ対応付けられる波形データを前記抽出された大きさに増幅して合成して、合成音声を生成する
ことを特徴とする音声処理装置。
請求項４に記載の音声処理装置であって、
前記周波数成分のそれぞれにあらかじめ対応付けられる波形データの基本周波数は当該周波数成分の中心周波数に一致し、当該波形データは、当該基本周波数の倍音の成分を含む
ことを特徴とする音声処理装置。
請求項１または２に記載の音声処理装置であって、
前記生成部は、複数の音声データの候補から、当該候補の特徴パラメータが前記抽出された特徴パラメータに最も近いものを選択し、当該選択された候補の音声データを、前記所定の音声データとする
ことを特徴とする音声処理装置。
第１のユーザが発する声の入力を受け付けて、第２のユーザに合成音声を出力する第１の音声処理装置と、
前記第２のユーザが発する声の入力を受け付けて、前記第１のユーザに合成音声を出力する第２の音声処理装置と、
を備え、
前記第１の音声処理装置と、前記第２の音声処理装置と、の、それぞれは、
ユーザが発する声の入力を受け付ける入力受付部、
前記受け付けられた声の特徴パラメータを抽出する抽出部、
所定の音声データから、合成音声を生成する生成部、
前記生成された合成音声を出力する出力部
を備え、
前記生成部は、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成し、
前記抽出された特徴パラメータは、前記抽出部から前記生成部へ、コンピュータ通信網を介して伝送される
ことを特徴とするチャットシステム。
入力受付部、抽出部、生成部、出力部を備える音声処理装置が実行する音声処理方法であって、
前記入力受付部が、ユーザが発する声の入力を受け付ける入力受付工程、
前記抽出部が、前記受け付けられた声の特徴パラメータを抽出する抽出工程、
前記生成部が、所定の音声データから、合成音声を生成する生成工程、
前記出力部が、前記生成された合成音声を出力する出力工程
を備え、
前記生成工程では、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成する
ことを特徴とする音声処理方法。
コンピュータを、
ユーザが発する声の入力を受け付ける入力受付部、
前記受け付けられた声の特徴パラメータを抽出する抽出部、
所定の音声データから、合成音声を生成する生成部、
前記生成された合成音声を出力する出力部
として機能させ、
前記生成部が、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成する
ように機能させることを特徴とするプログラム。