JP5152588B2

JP5152588B2 - 声質変化判定装置、声質変化判定方法、声質変化判定プログラム

Info

Publication number: JP5152588B2
Application number: JP2008290314A
Authority: JP
Inventors: 拓也野田; 一宏渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-11-12
Filing date: 2008-11-12
Publication date: 2013-02-27
Anticipated expiration: 2028-11-12
Also published as: JP2010117528A

Description

本願は、発声者の声質変化の判定を行う声質変化判定装置、声質変化判定方法および声質変化判定プログラムに関する。

音声合成データベースや録音再生コンテンツ等の音声を収録する場合、発声者による大量の音声を均一な声質で収録する必要がある。しかし、収録が長時間に渡ると、発声者の声質は、疲労により経時的に変化してしまう。さらに、収録が複数日に渡る場合には、収録日に応じて発声者の声質が変化してしまう。従来は、監督者が発声者の音声を聞きながら、収録を行う手法が採られていた。この手法では、発声者の声質が変化した場合は、監督者がそれを察知し、その場で発声者に再収録させる。このような、監督者の聴感に頼った手法では声質の均一化が困難である。そのため、収録後の試聴によって声質変化が判明し、後日改めて再収録するなどといった事態が発生しうる。すなわち、費用コスト、時間コストのロスが発生するといった問題がある。

そのため、人の聴覚に頼らずに発声者の声質変化を判定する技術が開示されている（例えば、特許文献１参照）。この従来技術は、予め特定の音声を登録しておき、その特定の音声と入力音声との比較により音声認識し、音声認識率に応じて体調を判定するものである。
特開２００６−２３０５４８号公報

しかしながら、上記従来技術では、発声者が特定の発声をしなければ声質変化を検査することができない。この方法だと、発声者は、音声収録途中に、声質判定のために特定の発声を強要されるため、無駄に発声量を増やすこととなる。その結果、発声者を疲労させ、発声者の声質を変化させてしまう。

本発明は、上記課題に鑑み、発声者の発声量を増やすことなく、発声者の声質変化の自動判定を可能にする声質変化判定装置、声質変化判定方法および声質変化判定プログラムを提供することを目的とする。

本願に開示する声質変化判定装置は、基準となる声質を表す基準特徴量と、基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能な声質変化判定装置であって、発声者の音声を入力音声として入力する音声入力部と、前記入力音声に対応するテキストを、入力テキストとして入力するテキスト入力部と、前記入力音声の特徴量を算出する特徴量算出部と、前記入力テキストと前記基準テキストとが互いに一致する部分に対応する入力音声の特徴量を基準特徴量と比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する声質判定部と、該声質判定部が、声質変化は許容範囲内であると判定した入力音声に対応する入力テキストを、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録部とを備える。

声質判定部は、入力テキストと基準テキストとが互いに一致する部分において、入力音声の特徴量と基準特徴量とを比較することにより、入力音声の声質の変化を判定することができる。そして、声質判定部は、判定結果を出力する。

さらに、前記基準登録部は、前記声質判定部により声質変化が許容範囲内と判定された入力音声の特徴量および対応するテキストを、新たな基準テキストおよび基準特徴量として記録する。そのため、入力音声の声質変化の判定に伴って、基準特徴量と基準テキストの追加登録が自動的になされる。すなわち、発声者の発声量を増やさなくても、声質変化判定の基準となる情報を追加することができる。その結果、発声者の発声量を無駄に増やすくことなく、基準となるデータが拡充され、発声者の声質変化の自動判定が可能になる。ひいては、声質の安定した音声収録が実現になる。

なお、声質は、例えば、音量、話速、声の高さ、抑揚または音色もしくはこれらの組み合わせによって表すことができる。

本発明の実施形態において、前記声質変化判定装置は、さらに、音声入力すべきテキストが予め登録されているテキスト記録部にアクセス可能であり、前記テキスト入力部は、前記テキスト記録部にアクセスして、入力テキストを読み込み、当該入力テキストを発声者に対して出力し、前記音声入力部は、前記出力された前記入力テキストを読み上げる発声者の音声を入力する態様とすることができる。

本発明の実施形態において、声質変化判定装置は、前記入力テキストを言語解析し、言語解析の結果に基づき前記入力テキストを解析単位に分割する言語処理部をさらに備え、前記特徴量算出部は、前記言語処理部により分割された解析単位ごとに対応する特徴量を算出し、前記声質判定部は、前記入力テキストと前記基準テキストとが互いに一致する解析単位に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する態様とすることができる。

上記構成により、言語解析に基づいた適切な解析単位で、特徴量を算出し、声質変化の判定を行うことができる。その結果、判定精度をより向上させることができる。なお、言語解析は、例えば、形態素解析のようにテキストを言語処理上意味のある単位に区切る処理である。解析単位は、声質変化の判定を行うのに適した単位であり、言語解析の結果区切られた単位と必ずしも同じである必要はない。

本発明の実施形態において、基準データ記録部は、前記基準テキストを表音テキストとして記録し、前記入力テキストを表音テキストに変換する変換部をさらに備え、前記声質判定部は、表音テキストに変換された前記入力テキストと前記基準テキストが互いに一致する部分に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化を判定する態様とすることができる。

これにより、表音テキストが一致する部分について、入力音声の特徴量と基準特徴量を比較することにより声質変化が判定されるので、表音テキストが一致しない部分については判定の対象から除外される。そのため、より正確な判定が可能になる。

なお、表音テキストは、コンピュータが処理する際、読みを表す情報として扱うことができるテキストであればよい。

本発明の実施形態において、前記基準登録部は、テキストと基準テキストが一致する部分に対応する入力音声の特徴量を前記基準データ記録部に追加する場合に、前記部分に対応する既存の基準特徴量を、前記入力音声の特徴量に置換するか、または、前記既存の基準特徴量と前記入力音声の特徴量を用いて算出される特徴量を、新たな基準特徴量として追加する態様とすることができる。

本発明の実施形態において、前記基準登録部は、前記声質判定部が声質変化は許容範囲内と判定した前記入力音声について、前記入力テキストと前記基準テキストとが互いに一致する解析単位および当該解析単位に隣接する解析単位に対応する入力テキストおよび特徴量を、新たな基準テキストおよび基準特徴量として、前記基準データ記録部に記録する態様とすることができる。

これにより、入力テキストと基準テキストが一致した箇所の近傍を新たに基準テキスト、基準特徴量として登録することができる。そのため、既存の基準となる音声に比べて声質変化の少ない部分の特徴量を適格に選び出し、新たな基準特徴量に追加することができる。

上記実施形態にかかる声質変化判定装置を含む音声収録装置であって、前記入力音声のうち、前記声質変化判定装置の前記声質判定部によって、声質の変化が許容範囲内であると判定された入力音声を、収録データとして記録する収録部を備える音声収録装置も、本発明の実施形態に含まれる。

コンピュータに声質変化判定処理を実行させることにより、当該コンピュータを上記声質変化判定装置として機能させる声質変化判定プログラムも、本発明の実施形態の一つである。

コンピュータが、上記声質変化判定装置の機能を実現するために実行する声質変化判定方法も、本発明の実施形態の一つである。

本願開示によれば、人の耳に頼らなくても、発声者の声質変化を正確に自動的に判定できるため、発声者の無駄な発声量を増やすことなく、発声者の声質の安定した音声収録をすることが可能になる。

（第１の実施形態）
［声質変化判定装置の構成］
図１は、第１の実施形態にかかる声質変化判定装置の構成を示す機能ブロック図である。図１に示す声質変化判定装置１は、発声者の音声を入力して、発声者の声質を判定し、声質の変化が許容範囲内でない場合に警告を出力する装置である。そのため、声質変化判定装置１は、音声入力部２、テキスト入力部３、特徴量算出部４、声質判定部５、基準登録部６および基準データ記録部７を備える。

なお、図示していないが、声質変化判定装置１は、スピーカやディスプレイ等の警告を出力するための出力機器、並びに、マウス、キーボード、タブレット、ボタン、スキャナまたはカメラ等の入力情報を入力するための入力機器を備えてもよい。

声質変化判定装置１は、例えば、パーソナルコンピュータやサーバマシン等の汎用コンピュータに所定のプログラムをインストールすることによって実現することができる。また、汎用コンピュータに限らず、例えば、車載情報端末、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、家電製品等の電子機器に組み込まれたコンピュータによって声質変化判定装置１が形成されてもよい。あるいは、コンピュータを内蔵した専用機器で声質変化判定装置１が形成されてもよい。

音声入力部２、テキスト入力部３、特徴量算出部４、声質判定部５および基準登録部６の各機能は、ＣＰＵが所定のプログラムを実行することによって実現される。したがって、上記の各機能をコンピュータで実現するためのプログラムまたはそれを記録した記録媒体も本発明の一実施態様である。また、基準データ記録部７は、安定した声質で入力された音声データであり、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

なお、声質変化判定装置１の構成は、図１に示す例に限られない。例えば、基準データ記録部８は、声質変化判定装置１の外部に設けられた記憶媒体で実現されてもよい。以下、各機能部について詳細に説明する。

［音声入力部２］
音声入力部２は、発声者の音声を外部から入力し、入力音声として、声質変化判定装置１で処理可能な状態にする。音声入力部２は、例えば、収録マイクなどを介して、発声者の音声を声質変化判定装置１に取り込み、特徴量算出部４に渡す。あるいは、音声入力部２は、外部または内蔵の記録媒体に予め記録された発声者の音声データを読み込むか、またはネットワークを介して音声データを受信することで発声者の音声を入力してもよい。

［テキスト入力部３］
テキスト入力部３は、発声者の音声の内容を示すテキストを外部から入力し、入力テキストとして声質変化判定装置１で処理可能な状態にする。テキスト入力部３は、例えば、基準文章または読み上げ原稿の内容を入力テキストとして入力する。入力テキストの形式は、漢字の読みやアクセント位置情報を表す表音テキストが好ましいが、例えば、かな漢字混じりテキストのような通常表記のテキストでも良い。

また、テキスト入力部３は、例えば、ＧＵＩを介して、発声者に対してテキストを表示し、表示されたテキストを読み上げる発声者の音声を音声入力部２に入力させることで、入力音声とテキストとの対応関係を特定することができる。あるいは、テキスト入力部３は、ＧＵＩを介して発声者あるいは他のユーザから入力音声に対応するテキストの入力を受け付けてもよいし、音声入力部２の入力音声を音声認識することによって入力音声に対応する入力テキストを生成してもよい。そのため、音質変化判定装置１は、例えば、入力音声を認識して入力テキストを生成する音声認識部をさらに備えてもよい。

［特徴量算出部４］
特徴量算出部４は、入力音声と入力テキストから特徴量を算出し、対応する入力テキストとともに、声質判定部５あるいは基準データ記録部７へ出力する。本実施形態における特徴量は、音声の音響的、音韻的な特徴を数値化した量である。特徴量は、例えば、音量、話速、声の高さ、抑揚、音色または音韻のうち少なくとも１つを計算することにより得ることができる。以下に、特徴量の具体例を示すが、特徴量はこれらに限定されない。

音量については、例えば、音声の有音区間における振幅平均値を特徴量とすることができる。振幅平均値は、絶対値振幅の平均値、あるいはＲＭＳ値などを採用することができる。話速については、例えば、音声の有音区間における単位時間(秒)当たりの音節数または拍数(モーラ数)を特徴量とすることができる。声の高さについては、例えば、音声の有音区間のうち、音声波形に周期性が認められる有声区間のピッチ周波数(Hz)を特徴量とすることができる。抑揚については、例えば、前述の声の高さであるピッチ周波数の変化幅（ダイナミックレンジ）を特徴量とすることができる。音色については、例えば、音声の有音区間におけるフォルマント周波数を特徴量とすることができる。音韻については、例えば、音声を音声認識して得られる音素表記を特徴量とすることができる。

［切り替え手段８、９］
図１に示す例では、特徴量算出部４からの特徴量およびテキストの出力先を、声質判定部５にするか、基準データ記録部７にするかを切り替える切り替え手段８、９が設けられる。切り替え手段８、９は、例えば、発声者が、声質判定の基準となる音声の特徴量およびテキストを登録する場合に、特徴量算出部４をＢとＤに接続することができる。これにより、特徴量算出部４からの特徴量およびテキストは、基準データ記録部７に出力される。それ以外の場合は、切り替え手段８、９は、特徴量算出部４をＡ、Ｃに接続するようにしてもよい。これにより、入力音声の特徴量およびテキストが声質判定部５に出力され、声質変化の判定が実行される。

例えば、発声者が、音声収録の初回に、音量、話速、声の高さ、抑揚、音色等を予め決めた上で、基準文章を読み上げて基準音声とし、その音声の特徴量を基準音声特徴量、読み上げ原稿を基準テキストとして登録する場合が想定される。この場合、発声者が基準テキストとなる文章を読み上げて、その基準テキストと基準特徴量を登録する時に限り、特徴量算出部４をＢとＤに接続し、それ以外の場合はＡとＣに接続するように切り替え手段８、９を制御することができる。ここで、初回に登録される基準テキストは、１文章であっても良いが、文章数が多いほど発声者の声質変化判定の精度が向上するため、複数文章用意することが好ましい。

なお、切り替え手段８、９は、必ずしも、物理的なスイッチである必要はなく、例えば、ソフトウエアの処理によりデータの出力先を切り替えるものであってもよい。

［基準データ記録部７］
基準データ記録部７は、声質変化の判定において基準声質となる音声の基準特徴量と、基準テキストとを対応付けて記録する。基準特徴量と基準テキストのデータ形式は特に限定されないが、例えば、テーブル形式で記録されてもよい。基準テキストは、例えば、文節単位のように、特徴量を算出し、声質変化の判定を行うのに適した単位で記録されることが好ましい。

［声質判定部５］
声質判定部５は、特徴量算出部４から出力された入力音声の特徴量および対応するテキストと、基準データ記録部７から読み出した基準特徴量および基準テキストを比較することにより、声質変化の判定を実行する。声質判定部５は、例えば、入力テキストのうちで基準データ記録部７に記録された基準テキストと一致する部分を検索し、当該一致する部分について、特徴量と基準特徴量を比較することができる。声質判定部５は、この比較によって声質変化の程度を示す値（声質変化量）を計算することができる。一例として、特徴量と基準特徴量の差または比から声質変化量を算出することができる。特徴量に、上記の音量、話速、声の高さ、抑揚、音色、音韻等の複数の項目が含まれる場合は、各項目について声質変化量を算出すればよい。

声質判定部５は、声質変化量が許容範囲を越えているか否かを判断する。この判断は、例えば、声質変化量と予め設定された閾値とを比較することにより行うことができる。声質変化量が許容範囲を越えている場合には、発声者に対して、警告を出力する。警告は、例えば、ディスプレイまたはスピーカ等の出力装置を介して発声者に伝えることができる。なお、声質判定部５が出力する判定結果は、警告に限られない。例えば、声質判定部５は、算出した声質変化量を、判定結果としてそのまま出力してもよい。

［基準登録部６］
基準登録部６は、声質判定部５が、音声変化量が許容範囲内であると判定した入力音声の特徴量とテキストを、基準特徴量および基準テキストとして、基準データ記録部７に記録する。その際、音声変化量が許容範囲内であると判定された入力音声のうち一部の特徴量およびテキストを抽出して記録してもよい。

例えば、入力音声が、文章ごとに入力されて、文章ごとに声質変化判定された場合、許容範囲内と判定された文章について、文章全体のテキストおよび特徴量を基準データ記録部７に記録してもよいし、当該文章のうち、既存の基準テキストと一致する部分とその周辺部を基準テキストおよび基準特徴量として記録してもよい。

すなわち、基準登録部６は、入力テキストと既存の基準テキストとが一致する部分を基に、基準テキストとして追加する部分を選択することができる。これにより、声質変化が少なく、基準にするのに相応しい部分のテキストおよび特徴量を基準データ記録部に追加することが可能になる。

［動作例］
次に、声質変化判定装置１の動作例について説明する。図２は、声質判定部５および基準登録部６の動作例を示すフローチャートである。図２に示す処理は、声質判定部５が、テキストと基準テキストが一致した部分の特徴量と基準特徴量から、音声の声質変化を判定する処理の一例である。

まず、声質判定部５に、特徴量算出部４から、入力音声の特徴量と入力テキストが入力される（Ｏｐ１）。ここでは、一例として、入力テキストと入力特徴量が、１文章単位で入力され、文章ごとに音質変化判定が行われる場合について説明する。すなわち、Ｏｐ１では、１文章の入力テキストと、その１文章を読み上げる入力音声の特徴量の組が入力される。この実施例では、入力テキストと音声を同時に入力しているが、先に入力テキストを登録しておき、登録された入力テキストを表示して、音声を入力するようにしてもよい。

次に、声質判定部５は、１文章（１解析単位）の入力テキスト中に含まれるテキストと一致する基準テキストを探索する（Ｏｐ２）。

一例として、発声者が図３Ａに示す原稿を読み上げる場合、入力テキストとして、「昨日と今日の天気を調べます。」、「あなたの電話番号を教えて下さい。」および「あしたの予定はありません。」の３つの文章が入力される。例えば、図３Ｂに示す、「あしたの天気を教えて下さい」という１文章が、基準テキストとして、基準データ記録部７に記録されている場合、上記３つの文章において、基準テキストと一致するテキストは、それぞれ「天気を」、「教えて下さい」、「あしたの」となる。

一致する基準テキストが無い場合（Ｏｐ２でＮｏ）は、声質判定部５は、次の入力テキストと特徴量の組を入力して探索を継続する（Ｏｐ１およびＯｐ２の処理を繰り返す）。さらなる入力テキストおよび入力特徴量の組が無い場合(Ｏｐ７でＮｏ)、声質判定部５は処理を終了する。

基準テキストと一致するテキストが入力テキスト中にある場合（Ｏｐ２でＹｅｓ）、声質判定部５は、一致する部分の特徴量と基準特徴量を比較して声質変化を算出する（Ｏｐ３）。声質判定部５は、例えば、特徴量と基準特徴量の差または比から声質変化量を算出することができる。ここでは、特徴量が、前述の音量、話速、声の高さ、抑揚、音色、音韻等、複数項目の値を含む場合について説明する。例えば、項目数がｎ（ｎ＝自然数）の場合、特徴量の項目ごと（１，・・・ｎ）に声質変化量Ｋ（１），Ｋ（２），・・・Ｋ（ｎ）が算出される。

次に、声質判定部５は、１つ以上の声質変化量Ｋ（１），・・・，Ｋ（ｎ）と、声質変化量ごとに予め設定された閾値Ｔ（１），・・・，Ｔ（ｎ）とを比較し、音声の声質変化の有無を判定する（Ｏｐ４−１〜ｎ）。声質判定部５は、例えば、１つ以上の声質変化量のうち、少なくとも１項目の声質変化量が閾値を超えた場合（Ｏｐ４−１〜ｎのいずれかでＮｏの場合）、音声の声質が変化したと判定し、その情報を警告として出力する（Ｏｐ６）。また、声質判定部５は、声質変化量の項目全てが閾値を越えないか、あるいは閾値と等しい場合（Ｏｐ４−１〜ｎの全てでＹｅｓの場合）、音声の声質変化は無く、適正な発声であると判定し、基準登録部６は、入力テキストとその特徴量を基準データ記録部７へ登録する（Ｏｐ５）。

ここで、声質判定部５による判定と基準登録部６による登録の具体例について説明する。ここでは、図３Ａに示す原稿の例文１）と３）が「声質変化なし」と判定され、例文２）が「声質変化あり」と判定された場合の例を説明する。例文２）については、声質判定部５が、声質変化があったことを、ディスプレイおよびスピーカを介して発声者に通知する。この場合は、例文２）について、改めて、音声の再入力を発声者に促す表示を行うことにより、音声の再収録をすることができる。

一方、例文１）と３）の文章については、声質変化が無いと判定されたため、これらの文章のテキストおよび特徴量が、新たな基準テキストおよび特徴量として、基準データ記録部７に記録される。

図４Ａおよび図４Ｂは、新規登録後の基準テキストの例を示す図である。図４Ａに示す例では、基準テキストと一致する「天気を」を含む例文１）の文章のテキスト全体と、「あしたの」を含む例文３）の文章のテキスト全体が、新たな基準テキストとして対応する特徴量とともに登録されている。

図４Ｂは、例文１）および３）の文章のテキスト全体ではなく、基準テキストが一致した箇所の近傍のみを新規に基準テキストとして登録した場合の例を示す。図４Ｂに示す例では、例文１）の場合、「天気の」の前後の文節「今日の」と「調べます」のみが基準テキストとして登録されている。一致部分から離れている文節「昨日と」は登録されていない。例文３）についても、基準テキストと一致する「あしたの」の後の文節「予定は」のみが新たな基準テキストとして登録され、一致部分から離れている文節「ありません」は登録されていない。

このように、基準登録部６は、声質変化の少ない一致部分の近傍のテキストおよび特徴量を選択し、新たな基準テキストおよび基準特徴量として登録することができる。これにより、入力テキストと基準テキストが一致した箇所から離れた部分、すなわち、声質が変化する可能性が高い部分のテキストおよび特徴量が、基準テキストおよび基準特徴量に追加されるのを防ぐことができる。

なお、上記例では、基準登録部６は、一致部分に隣接する文節を基準テキストに含める範囲としているが、基準テキストに含める範囲は、これに限られない。例えば、一致部分に隣接する所定数の単語または所定数の文字等を基準テキストに含める範囲としてもよい。

以上、図２に示した声質変化判定装置１の動作により、入力音声のうち、声質変化が少なく、基準の音声に相応しい音声のテキストおよび特徴量が、自動的に基準テキストおよび基準特徴量に追加される。そのため、発声者の無駄な発声量を増やすことなく、基準テキストおよび基準特徴量が拡充される。その結果、発声者の声質(音量、話速、声の高さ、抑揚、音色など)の変化をより正確に自動判定することが可能になる。

なお、上記例では、ｎ個の特徴量の差または比をｎ個の声質変化量とし、n個の声質変化量とn個の各閾値との比較によって声質変化の有無を判定しているが、判定処理はこれに限られない。例えば、ｎ個の声質変化量をｎ次元ユークリッド空間として捕らえ、ユ−クリッド距離と所定の閾値との比較によって声質変化の有無を判定しても良い。

（変形例）
図５は、上記実施形態における声質変化判定装置１の構成の変形例を示す図である。図５に示す声質変化判定装置１は、発声者が読み上げるためのテキストを事前に入力して画面に表示し、表示されたテキストを見た発声者がそのテキストを読み上げる音声を、入力音声として受け付けるように構成したものである。

そのため、図５に示す声質変化判定装置１は、テキスト入力部３が外部のテキスト記録部１６から読み込んだ入力テキストを発声者に対して出力する入力テキスト出力部１７を備える。テキスト記録部１６には、発声者が読み上げるべきテキストが予め記録される。なお、テキスト記録部１６は、音質変化判定装置１の内部に設けられてもよい。

テキスト入力部３は、テキスト記録部１６から読み込んだ入力テキストを、入力テキスト出力部１７と特徴量算出部４に渡す。入力テキスト出力部１７は、入力テキストを発声者に出力する。入力テキスト出力部１７は、例えば、入力テキストを文章単位でディスプレイに表示させてもよい。その際、発声者に入力テキストの読み上げを促すメッセージも同時に表示することができる。発声者は、ディスプレイに表示された入力テキストを読み上げ、音声入力部２が発声者の音声を入力して特徴量算出部４へ渡す。入力テキストと入力テキストに対応する入力音声が特徴量算出部４へ入力される。

上記構成により、発声者は、入力テキスト出力部１７の出力に従って、入力テキストを読み上げるだけで、声質変化判定を実行し、基準データを自動的に拡充することができる。

（第２の実施形態）
第２の実施形態は、上記第１の実施形態におけるテキスト入力部３の変形例である。図６は、本実施形態におけるテキスト入力部３ａの構成を示す機能ブロック図である。図６に示すテキスト入力部３ａは、言語処理部１１と、変換部１２を含む。言語処理部１１および変換部１２は言語辞書１３にアクセス可能となっている。言語辞書１３は、言語処理部１１および変換部１２の処理で必要なデータが記録される。言語辞書１３には、例えば、入力テキストに含まれ得る複数の単語の表記、読み、品詞、アクセント情報等が記録されている。

言語処理部１１は、言語辞書１３を用いて、入力テキストを言語解析することにより解析単位に分割する。例えば、入力テキストが、かな漢字混じりテキストである場合、言語処理部１１は、入力テキストと言語辞書１３とを照合して形態素解析を行う。形態素解析の方法として、例えば、ビタビ（Viterbi）アルゴリズムや最長一致法等が挙げられるが、本発明に用いられる形態素解析の方法は、特定のものに限定されない。また、言語解析は、形態素解析に限られない。例えば、対象となる言語が英語の場合は、入力テキストを単語単位で区切る単語解析が実行されてもよい。

言語処理部１１は、形態素解析によって、入力テキストを、言語処理上意味を持つ要素単位に区切ることができる。例えば、品詞、文節、アクセント句または呼気段落(句読点)などの境界が検出される。言語処理部１１は、これらの境界のうちいずれかを解析境界とすることができる。解析境界により、入力テキストが解析単位に分割される。

ここで、解析境界は、特徴量を算出し、声質変化の判定を行うのに適した範囲を設定するように決定されることが好ましい。例えば、文節の境界を解析境界とするとよい。なぜなら、句読点で区切られた呼気段落境界のように、文節より長い区間を設定する境界を解析境界とすると、テキストと基準テキストが一致する確率が低下し、声質変化の自動判定や、基準声質への新規登録も困難となる場合があるからである。逆に、解析単位を短くすると、テキストと基準テキストが一致する確率は格段に上がるため、声質変化の自動判定は容易となる傾向はある。しかしながら、品詞単位のように、文節より短い区間を設定する境界を、解析境界とすると、短い音節単位での特徴量と基準特徴量の比較は、その精度の信頼性に乏しい場合が多くなる。そのため、呼気段落境界と品詞境界の中間単位である文節境界が音節数として妥当な解析境界といえる。アクセント句は、1文節ないし数文節で構成される長さであり、アクセント句の境界を解析境界とすることも同様に好ましい。

変換部１２は、言語辞書１３を用いて、入力テキストを表音テキストに変換する。変換部１２は、言語処理部１１の一部として機能してもよい。表音テキストは、入力テキストの読みを表すテキストであり、アクセント等が付加されていてもよい。

例えば、言語処理部１１が、入力テキストの形態素解析を実行する際に、各単語の読みおよびアクセント等の表音情報を言語辞書１３から取得し、各単語の表音テキストを生成することができる。

以下、言語処理部１１および変換部１２の処理の具体例を示す。図７Ａは、発声者が読み上げる原稿の一例であり、図７Ｂは、図７Ａに示す原稿の内容の入力テキストが、テキスト入力部３ａにより、解析単位に分割され、表音テキストに変換された後のテキストの例を示す。

テキスト入力部３ａが、図７Ａに示すような、かな漢字混じりテキストを入力すると、言語処理部１１は、当該テキストと言語辞書とを照合して形態素解析を行う。この形態素解析によって、かな漢字混じりテキストが、文節に分解される。それぞれの文節は、変換部１２によってカタカナ表記に変換され、さらに、アクセント情報等が付与されて、表音テキストに変換される。

例えば、図７Ａに示す例文１）の「会議の最中です。」は、言語処理部１１で解析単位「会議の」「最中です」に分解され、変換部１２で、表音テキスト「カ’イギノ」、「サイチューデス」に変換される（図７Ｂ参照）。なお、図７Ｂに示す表音テキストは、一例として、文節の境界をスペースで表し、アクセントが「高」から「低」に移行する位置（アクセント核）を「’」で表している。

これにより、特徴量算出部４から基準データ記録部７に記録される基準テキストも、特徴量算出部４から声質判定部５に渡されるテキストも、いずれも、解析単位に分解された表音テキストとなる。このように、基準テキストおよび入力テキストのいずれも表音テキストであれば、入力テキストと基準テキストの一致箇所を探索する場合、テキストの文字一致に加え、読みおよびアクセントの一致も考慮できる。そのため、同表記異読語や、同表記異アクセントのテキストを区別することができる。

例えば、図７Ａに示す例文１）および２）は、同表記の「最中」を含むが、例文１）の「最中」の読みは「サイチュー」であり、例文２）の「最中」読みは「もなか」であり、全く異なる。このように表記が同じでも読みが異なるテキストについて、その表記を比較すると、発声者の声質に変化が無くとも、特徴量全般に大差が生じ、声質判定部５は「声質変化あり」と誤判定してしまう。

同様に、図７Ａに示す例文３）、４）は共に「天気」を含む読み上げ原稿であるが、例文３）の「天気」は「て」の部分にアクセントのある頭高アクセント、例文４）の「天気」は平板型アクセント（アクセントなし）である。両者のテキスト表記は同一であるが、アクセントは一致しない。アクセントが一致しない特徴量同士を比較した場合、発声者の声質に変化が無くとも、特にピッチ周波数に大差が生じ、声質判定部は「声質変化あり」と誤判定してしまう。

したがって、本実施形態の構成では、テキストと基準テキストの一致部分を探索する場合、テキストの一致のみでなく、読みやアクセント等の表音情報の一致を含めた探索をすることが可能になる。すなわち、読みやアクセント情報を含めたテキストと基準テキストの一致部分探索が可能となる。

具体的には、声質判定部５が、入力テキストに、表音テキストで表される読みおよびアクセントが基準テキストと一致する文節がある否かを探索し、これらが一致する文節があれば、その文節の特徴量を基準特徴量と比較する。これにより、より正確な声質変化の判定が可能になる。

また、テキストと基準テキストの一致部分の探索や、テキストと基準テキストの特徴量の比較が文節単位で実行されるので、より精度の高い探索および特徴量の比較が可能になる。さらに、基準登録部６による、基準テキストおよび基準特徴量の追加も、文節単位で実行することができるので、基準にするのにより適切なテキストおよび特徴量を基準データ記録部に追加することができる。

なお、上記実施形態では、テキスト入力部３ａが、言語処理部１１および変換部１２を有する場合を説明したが、テキスト入力部３ａは、言語処理部１１または変換部１２のいずれか１つを備える構成であってもよい。

（第３の実施形態）
第３の実施形態は、上記第１または第２の実施形態における基準登録部６の変形例である。本実施形態における基準登録部６ｂは、入力テキストと基準テキストが一致する部分に対応する入力音声の特徴量を基準データ記録部７に追加する場合に、（１）前記一致する部分に対応する既存の基準特徴量を入力音声の特徴量に置換するか。あるいは、（２）基準登録部６ｂは、前記既存の基準特徴量と前記入力音声の特徴量を用いて算出される特徴量を基準特徴量として基準データ記録部７に追加する処理を実行する。

以下に、本実施形態の基準登録部６ｂによる処理の具体例を説明する。ここでは、一例として、入力テキストが図８Ａに示す例文１）〜３）を含み、基準データ記録部７に記録されている既存の基準テキストおよび特徴量が、図８Ｂに示す内容である場合について説明する。本例では、例文１）〜３）いずれにおいても、「あしたの」の部分（フレーズ）が既存の基準テキストと一致する。ここで、声質判定部５が、例文１）〜３）いずれについても、声質変化量は、許容範囲を越えてない（「声質変化なし」）と判断した場合を想定する。この場合、基準登録部６ｂは、例えば、下記の３パターンの登録処理を実行することができる。

第１の登録処理として、基準登録部６ｂは、入力テキストと基準テキストが一致する部分の既存の基準特徴量を、入力音声の特徴量に置換してもよい。例えば、基準登録部６ｂは、既存の「あしたの」の基準特徴量「Ａ１」を破棄し、例文１）、２）、３）における「あしたの」のそれぞれの特徴量Ａ２、Ａ３、Ａ４のうちのいずれかを選定して登録することができる。図９Ａは、既存の基本特徴量「Ａ１」を、例文１）の「あしたの」の特徴量「Ａ２」で置換した場合の、基準データ記録部７のデータ内容の一例を示す図である。このように、既存の基準特徴量を、入力音声の特徴量で置換することにより、発声者の状況を基準特徴量に反映させることができる。すなわち、基準特徴量を、発声者の状況に合わせて更新することが可能になる。

第２の登録処理として、基準登録部６ｂは、既存の基準特徴量と入力音声の特徴量を用いて計算された特徴量を、基準特徴量として登録することができる。例えば、既存の基準特徴量と入力音声の特徴量を重み付け平均などによって平均化した特徴量を基準特徴量とすることができる。図９Ｂは、既存の基準特徴量Ａ１および、例文１）、２）、３）の特徴量Ａ２、Ａ３、Ａ４の重み付け平均を、新たな基準特徴量として記録した場合の、基準データ記録部７のデータ内容の一例を示す図である。図９Ｂにおいて、α、β、γ、εはそれぞれ重み付け係数を表す。これにより、基準特徴量をより妥当な値に近づけることができる。

なお、既存の基準特徴量と入力音声の特徴量を用いて計算される特徴量は、上記例の重み付け平均に限られない。例えば、平均、中間値（最大値と最小値の中間の値）、最頻値等、その他の代表値が計算されてもよい。

第３の登録処理として、基準登録部６ｂは、入力テキストと基準テキストが一致する部分の基準特徴量については、更新せずにそのまま継続利用してもよい。このように更新処理を省略することで、コンピュータへの負荷を軽減することができる。図９Ｃは、基準特徴量Ａ１を更新しない場合の基準データ記録部７のデータ内容を示す図である。

（第４の実施形態）
第４の実施形態は、上記第１〜３いずれかの実施形態の声質変化判定装置を含む音声収録装置に関するものである。図１０は、本実施形態における音声収録装置１０の構成を示す機能ブロック図である。図１０に示す音声収録装置１０は、入力音声を収録データとして記録する機能をさらに有する。音声収録装置１０は、図１に示す声質変化判定装置１に、収録部１４を追加した構成である。図１０において、図１と同じ機能ブロックには同じ番号を付す。

収録部１４は、音声入力部２が入力した入力音声を、収録データ記録部１５へ記録する。その際、収録部１４は、声質判定部５が、声質変化が許容範囲内であると判定した音声についてのみ記録するようにすることができる。

これにより、声質変化が許容範囲を越えている音声については、自動的に、収録データから除外される。その結果、音質の安定した音声収録が実現される。

以上、本発明の実施形態を、第１〜第４の実施形態として例示した。以上の実施形態によれば、発声者は読み上げ原稿を読み上げるだけで、その声質が自動判定されるとともに声質の基準となるデータも拡充されるため、従来技術のような定型文を発声する無駄がなく、発声者の負担が軽減される。すなわち、上記実施形態では、基準音声とする発声者の事前発声は最低１文章程度あれば良く、以後は発声者が原稿読み上げを継続していくにつれ、基準音質が自動的に新規登録される。特に、発声者により読み上げられた入力音声のうち、声質変化が無いと判定された音声の全体、または一部を基準声質（テキスト、特徴量）として新規登録される。これにより、基準声質量が自然増加する。その結果、読み上げ原稿と基準声質のテキスト一致率が増加し、声質判定精度が飛躍的に向上する。

なお、本発明の適用可能な範囲は、上記の実施形態に限定されない。また、上記第１〜４の実施形態のうち少なくとも２つの実施形態の組み合わせも、本発明の実施形態に含まれる。

以上の第１〜第４の実施形態に関し、さらに以下の付記を開示する。

（付記１）
基準となる声質を表す基準特徴量と、基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能な声質変化判定装置であって、
発声者の音声を入力音声として入力する音声入力部と、
前記入力音声に対応するテキストを、入力テキストとして入力するテキスト入力部と、
前記入力音声の特徴量を算出する特徴量算出部と、
前記入力テキストと前記基準テキストとが互いに一致する部分に対応する入力音声の特徴量を基準特徴量と比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する声質判定部と、
該声質判定部が、声質変化は許容範囲内であると判定した入力音声に対応する入力テキストを、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録部とを備える、声質変化判定装置。

（付記２）
前記声質変化判定装置は、さらに、音声入力すべきテキストが予め登録されているテキスト記録部にアクセス可能であり、
前記テキスト入力部は、前記テキスト記録部にアクセスして、入力テキストを読み込み、当該入力テキストを発声者に対して出力し、
前記音声入力部は、前記出力された前記入力テキストを読み上げる発声者の音声を入力する、付記１に記載の声質変化判定装置。

（付記３）
前記入力テキストを言語解析し、言語解析の結果に基づき前記入力テキストを解析単位に分割する言語処理部をさらに備え、
前記特徴量算出部は、前記言語処理部により分割された解析単位ごとに対応する特徴量を算出し、
前記声質判定部は、前記入力テキストと前記基準テキストとが互いに一致する解析単位に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する、付記１または２に記載の声質変化判定装置。

（付記４）
基準データ記録部は、前記基準テキストを表音テキストとして記録し、
前記入力テキストを表音テキストに変換する変換部をさらに備え、
前記声質判定部は、表音テキストに変換された前記入力テキストと前記基準テキストが互いに一致する部分に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化を判定する、付記１〜３のいずれか１項に記載の声質変化判定装置。

（付記５）
前記基準登録部は、テキストと基準テキストが一致する部分に対応する入力音声の特徴量を前記基準データ記録部に追加する場合に、前記部分に対応する既存の基準特徴量を、前記入力音声の特徴量に置換するか、または、前記既存の基準特徴量と前記入力音声の特徴量を用いて算出される特徴量を、新たな基準特徴量として追加する、付記１〜４のいずれか１項に記載の声質変化判定装置。

（付記６）
前記基準登録部は、前記声質判定部が声質変化は許容範囲内と判定した前記入力音声について、前記入力テキストと前記基準テキストとが互いに一致する解析単位および当該解析単位に隣接する解析単位に対応する入力テキストおよび特徴量を、新たな基準テキストおよび基準特徴量として、前記基準データ記録部に記録する、付記３に記載の声質変化判定装置。

（付記７）
付記１〜６のいずれか１項に記載の声質変化判定装置を含む音声収録装置であって、
前記入力音声のうち、前記声質変化判定装置の前記声質判定部によって、声質の変化が許容範囲内であると判定された入力音声を、収録データとして記録する収録部を備える、音声収録装置。

（付記８）
基準となる声質を示す基準特徴量と、前記基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能なコンピュータに、声質変化判定処理を実行させる声質変化判定プログラムであって、
発声者の音声を入力音声として入力する音声入力処理と、
前記入力音声に対応するテキストを、入力テキストとして入力するテキスト入力処理と、
前記入力音声の特徴量を算出する特徴量算出処理と、
前記入力テキストと前記基準テキストとが互いに一致する部分に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する声質判定処理と、
前記声質判定処理で、声質変化は許容範囲内であると判定された入力音声に対応するテキストを、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録処理とをコンピュータに実行させる、声質変化判定プログラム。

（付記９）
コンピュータが、声質変化判定を実行する声質変化判定方法であって、
前記コンピュータは、基準となる声質を示す基準特徴量と、前記基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能であり、
前記コンピュータが、発声者の音声を入力音声として受け付ける音声入力工程と、
前記コンピュータが、前記入力音声に対応するテキストを、入力テキストとして取得するテキスト入力工程と、
前記コンピュータが、前記入力音声の特徴量を算出する特徴量算出工程と、
前記コンピュータが、前記入力テキストと前記基準テキストとが互いに一致する部分に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化を判定する声質判定工程と、
前記コンピュータが、前記声質判定工程で声質変化は許容範囲内であると判定された入力音声に対応するテキストの全体または一部を、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録工程とを含む声質変化判定方法。

第１の実施形態にかかる声質変化判定装置の構成を示す機能ブロック図声質判定部および基準登録部の動作例を示すフローチャート発声者が読み上げる原稿の一例を示す図基準データ記録部７に記録される基準テキストの一例を示す図新規登録後の基準テキストの例を示す図新規登録後の基準テキストの例を示す図第１の実施形態における声質変化判定装置の構成の変形例を示す図第２の実施形態におけるテキスト入力部の構成を示す機能ブロック図発声者が読み上げる原稿の一例を示す図図７Ａに示す原稿の内容の入力テキストが、表音テキストに変換された後のテキストの一例を示す図発声者が読み上げる文章の例を示す図基準データ記録部に記録される基準テキストおよび基準特徴量の一例を示す図第３の実施形態における基準登録部による処理後の基準データ記録部におけるデータ内容の一例を示す図第３の実施形態における基準登録部による処理後の基準データ記録部におけるデータ内容の一例を示す図第３の実施形態における基準登録部による処理後の基準データ記録部におけるデータ内容の一例を示す図第４の実施形態における音声収録装置の構成を示す機能ブロック図

符号の説明

１声質変化判定装置
２音声入力部
３テキスト入力部
４特徴量算出部
５声質判定部
６基準登録部
７基準データ記録部
１０音声収録装置
１１言語処理部
１２変換部
１３言語辞書
１４収録部
１５収録データ記録部

Claims

基準となる声質を表す基準特徴量と、基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能な声質変化判定装置であって、
発声者の音声を入力音声として入力する音声入力部と、
前記入力音声に対応するテキストを、入力テキストとして入力するテキスト入力部と、
前記入力音声の特徴量を算出する特徴量算出部と、
前記入力テキストのうちで前記基準データ記録部に記録された前記基準テキストと互いに一致する部分を検索し、当該一致する部分について、前記入力音声の特徴量を基準特徴量と比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する声質判定部と、
該声質判定部が、声質変化は許容範囲内であると判定した入力音声に対応する入力テキストを、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録部とを備える、声質変化判定装置。
前記声質変化判定装置は、さらに、音声入力すべきテキストが予め登録されているテキスト記録部にアクセス可能であり、
前記テキスト入力部は、前記テキスト記録部にアクセスして、入力テキストを読み込み、当該入力テキストを発声者に対して出力し、
前記音声入力部は、前記出力された前記入力テキストを読み上げる発声者の音声を入力する、請求項１に記載の声質変化判定装置。
前記入力テキストを言語解析し、言語解析の結果に基づき前記入力テキストを解析単位に分割する言語処理部をさらに備え、
前記特徴量算出部は、前記言語処理部により分割された解析単位ごとに対応する特徴量を算出し、
前記声質判定部は、前記入力テキストと前記基準テキストとが互いに一致する解析単位に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する、請求項１または２に記載の声質変化判定装置。
基準データ記録部は、前記基準テキストを表音テキストとして記録し、
前記入力テキストを表音テキストに変換する変換部をさらに備え、
前記声質判定部は、表音テキストに変換された前記入力テキストと前記基準テキストが互いに一致する部分に対応する入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化を判定する、請求項１〜３のいずれか１項に記載の声質変化判定装置。
前記基準登録部は、テキストと基準テキストが一致する部分に対応する入力音声の特徴量を前記基準データ記録部に追加する場合に、前記部分に対応する既存の基準特徴量を、前記入力音声の特徴量に置換するか、または、前記既存の基準特徴量と前記入力音声の特徴量を用いて算出される特徴量を、新たな基準特徴量として追加する、請求項１〜４のいずれか１項に記載の声質変化判定装置。
基準となる声質を示す基準特徴量と、前記基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能なコンピュータに、声質変化判定処理を実行させる声質変化判定プログラムであって、
発声者の音声を入力音声として入力する音声入力処理と、
前記入力音声に対応するテキストを、入力テキストとして入力するテキスト入力処理と、
前記入力音声の特徴量を算出する特徴量算出処理と、
前記入力テキストのうちで前記基準データ記録部に記録された前記基準テキストと互いに一致する部分を検索し、当該一致する部分について、前記入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化が所定の許容範囲内であるか否かを判定する声質判定処理と、
前記声質判定処理で、声質変化は許容範囲内であると判定された入力音声に対応するテキストを、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録処理とをコンピュータに実行させる、声質変化判定プログラム。
コンピュータが、声質変化判定を実行する声質変化判定方法であって、
前記コンピュータは、基準となる声質を示す基準特徴量と、前記基準特徴量に対応する基準テキストとを記録する基準データ記録部にアクセス可能であり、
前記コンピュータが、発声者の音声を入力音声として受け付ける音声入力工程と、
前記コンピュータが、前記入力音声に対応するテキストを、入力テキストとして取得するテキスト入力工程と、
前記コンピュータが、前記入力音声の特徴量を算出する特徴量算出工程と、
前記コンピュータが、前記入力テキストのうちで前記基準データ記録部に記録された前記基準テキストと互いに一致する部分を検索し、当該一致する部分について、前記入力音声の特徴量と基準特徴量を比較することにより、前記入力音声の声質変化を判定する声質判定工程と、
前記コンピュータが、前記声質判定工程で声質変化は許容範囲内であると判定された入力音声に対応するテキストの全体または一部を、対応する特徴量とともに、新たな基準テキストおよび基準特徴量として前記基準データ記録部に記録する基準登録工程とを含む声質変化判定方法。