JP2012247679A

JP2012247679A - テキスト及び音声特徴量収集方法、そのシステム、プログラム

Info

Publication number: JP2012247679A
Application number: JP2011120323A
Authority: JP
Inventors: Yoshikazu Yamaguchi; 義和山口; Narihisa Nomoto; 済央野本; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-30
Filing date: 2011-05-30
Publication date: 2012-12-13
Anticipated expiration: 2031-05-30
Also published as: JP5524131B2

Abstract

【課題】大幅に送信データ量を増やすことなくサーバ端末から音声認識用の音声特徴量と元の音声の発言内容を書き起こすための情報とを送信することができ、かつ、サーバ端末で元の音声の発言内容を示すテキストと音声認識用の音声特徴量を収集することができる技術を提供する。
【解決手段】クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成し、音声特徴量変換部が、入力音声信号を音声特徴量に変換し、送信データ結合部が、圧縮音声信号と音声特徴量とを結合し送信データを生成する。サーバ端末の送信データ分割部が、受信した送信データを圧縮音声信号と音声特徴量とに分割し、音声認識部が、音声特徴量を用いて音声認識を行い、認識結果を求め、音声復元部が、低ビットレートコーデックにより圧縮音声信号を低品質の音声に復元する。
【選択図】図１

Description

本発明は、クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する技術に関する。

音声認識の精度を向上させるには、音響モデルや言語モデルの学習及び適応、あるいは辞書への新規単語追加が必要である。そのためには、例えば１００時間以上の大量の音声データやそれらを書き起こしたテキストを準備する必要がある。音響モデルでよく利用される連続混合分布ＨＭＭ（Hidden Markov Model）や、言語モデルでよく利用されるＮ−ｇｒａｍなどは統計モデルと呼ばれ、音声データサンプル及びその書き起こしテキストデータサンプルから統計値を算出することでモデルを学習するため、音声データを大量に収集し利用することが重要である。

様々な人、環境（雑音）、話題に対応できる汎用的な音響モデルや辞書・言語モデルを学習及び適応するためには、ただ音声データを大量に収集するのではなく、人、環境（雑音）、話題などが異なる、多様なバリエーションの音声データを収集することが有効である。その音声の収集方法の１つとして、多数の人が携帯電話等を利用して様々な場所から音声を入力し、サーバ端末に送信して、サーバ端末が音声データを収集及び保存する方法がある。例えば、サーバ端末が、携帯電話に入力された音声データに対して音声認識結果を返信するサービスを提供している場合、サーバ端末は、音声認識サービスを提供しつつ、そこで入力された音声データを収集することもでき、別途必要となる音声収録コストを削減することができる。

携帯電話等のクライアント端末で音声を音声認識用の音声特徴量に変換し、その音声特徴量をサーバ端末に送信し、サーバ端末で音声認識を行い、認識結果をクライアント端末に送信する従来技術として特許文献１が知られている。

特開２００６−３５００９０号公報

このような携帯電話等の携帯端末で音声認識を利用する場合、音声認識の処理量が大きいため、クライアント端末側で全ての処理を行えない。そのため、無線網等のネットワークを介した先にあるサーバ端末に音声情報を送信して、サーバ端末において音声認識を行い、認識結果をクライアント端末に送信することが多い。この場合、音声をそのまま音声情報として送信すると、その送信データ量が大きい。送信データ量が大きいと、データの送信遅延が発生し、結果としてクライアント端末が認識結果を取得するまでのレスポンスタイムが長くなる場合がある。よって、携帯電話網など狭帯域通信においては送信データ量を削減するために、クライアント端末側で、音声信号を音声特徴量に変換したり、音声信号を音声コーデックで圧縮する等して、送信データ量を削減してサーバ端末に送信する。

しかしながら、携帯電話端末等のクライアント端末で音声を入力し、音声認識用の音声特徴量に変換して送信データ量を圧縮してサーバ端末に送信し、サーバ端末で音声認識処理し、認識結果をクライアントに送信するようなクライアント・サーバ音声認識（分散型音声認識またはＤＳＲ（Distributed Speech Recognition）とも呼ぶ）では、音声が人間にとって可聴でない音声特徴量（以下「音声認識用音声特徴量」という）に変換される。そのため、サーバ端末側で発言内容の書き起こしができない。よって、上述の分散型音声認識においては、書き起こしテキストを収集できないため、収集したデータ（音声特徴量のみ）に基づいて、音響モデルや辞書・言語モデルを学習及び適応することができない。

また、可聴でない音声特徴量に変換する代わりに、音声コーデックにより可聴な音声に圧縮してからサーバ端末に送信し、サーバ端末で復元してから音声認識を行うクライアント・サーバ音声認識も考えられる。この場合、音声が可聴なので発言内容の書き起こしはできるが、圧縮されているため音声品質が劣化してしまう。この劣化した音声を音声特徴量に変換し、この音声特徴量と書き起こしテキストを用いると、圧縮音声品質に特化した音響モデルの学習及び適応を行うことはできるが、汎用的な音響モデルを学習及び適応することはできない。

本発明は、大幅に送信データ量を増やすことなくサーバ端末から音声認識用の音声特徴量と元の音声の発言内容を書き起こすための情報とを送信することができ、かつ、サーバ端末で元の音声の発言内容を示すテキストと音声認識用の音声特徴量を収集することができる技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する。音声特徴量は元の音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の音声を復元することはできないものとする。クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成し、クライアント端末の音声特徴量変換部が、入力音声信号を音声特徴量に変換し、クライアント端末の送信データ結合部が、圧縮音声信号と音声特徴量とを結合し送信データを生成する。サーバ端末の送信データ分割部が、受信した送信データを圧縮音声信号と音声特徴量とに分割し、サーバ端末の音声認識部が、音声特徴量を用いて音声認識を行い、認識結果を求め、サーバ端末の音声復元部が、低ビットレートコーデックにより圧縮音声信号を低品質の音声に復元し、サーバ端末の出力部が、認識結果と低品質の音声とに基づいて書き起こされたテキストと、テキストに対応する音声特徴量と、を出力する。

上記の課題を解決するために、本発明の第二の態様によれば、クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集する。第一音声特徴量及び第二音声特徴量はそれぞれ元の音声の特徴を表すデータであって、何れか一方の音声特徴量のみに基づいて元の音声が復元することはできないが、二つの音声特徴量に基づいて劣化した元の音声を復元することはでき、第一音声特徴量のみに基づいて音声認識を行うことはできるものとする。クライアント端末の音声特徴量変換部が、入力音声信号を第一音声特徴量及び第二音声特徴量に変換する。サーバ端末の音声認識部が、第一音声特徴量を用いて音声認識を行い、認識結果を求め、サーバ端末の音声復元部が、第一音声特徴量及び第二音声特徴量を劣化した元の音声に復元し、サーバ端末の出力部が、劣化した元の音声に基づいて書き起こされたテキストと、テキストに対応する第一音声特徴量と、を出力する。

上記の課題を解決するために、本発明の第三の態様によれば、クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する。音声特徴量は元の音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の音声を復元することはできないものとし、所定のピッチ情報と音声特徴量を組合せると劣化した元の音声を復元することはできるものとする。クライアント端末の音声特徴量変換部が、入力音声信号を音声特徴量に変換する。サーバ端末の音声認識部が、単語単位の音声認識辞書を参照し音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求め、サーバ端末の音声復元部が、音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、劣化した元の音声を復元し、サーバ端末の出力部が、劣化した元の音声に基づいて書き起こされたテキストと、テキストに対応する音声特徴量と、を出力する。

本発明は、大幅に送信データ量を増やすことなくサーバ端末から音声認識用の音声特徴量と元の音声の発言内容を書き起こすための情報とを送信することができ、かつ、サーバ端末で元の音声の発言内容を示すテキストと音声認識用の音声特徴量を収集することができるという効果を奏する。

さらに、本発明により収集したテキストと音声特徴量に基づけば、高品質かつ汎用的な辞書・言語モデルや音響モデルを学習及び適応することができる。

テキスト及び音声特徴量収集システム１の機能ブロック図。テキスト及び音声特徴量収集システム１の処理フローを示す図。クライアント端末１１_ｍの機能ブロック図。クライアント端末１１_ｍの処理フローを示す図。圧縮音声記憶部１１３と音声特徴量記憶部１１５と送信データ記憶部１１７に記憶されるデータ例を示す図。サーバ端末１３の機能ブロック図。サーバ端末１３の処理フローを示す図。音声波形をケプストラムに変換する流れ、及びケプストラムを音声波形に復元する流れを説明するための図。クライアント端末２１_ｍの機能ブロック図。クライアント端末２１_ｍの処理フローを示す図。図。サーバ端末２３の機能ブロック図。サーバ端末２３の処理フローを示す図。クライアント端末３１_ｍの機能ブロック図。クライアント端末３１_ｍの処理フローを示す図。図。サーバ端末３３の機能ブロック図。サーバ端末３３の処理フローを示す図。サーバ端末４３の機能ブロック図。サーバ端末４３の処理フローを示す図。

以下、本発明の実施形態について、説明する。

＜第一実施形態に係るテキスト及び音声特徴量収集システム１＞
図１及び図２を用いて第一実施形態に係るテキスト及び音声特徴量収集システム１を説明する。テキスト及び音声特徴量収集システム１は、Ｍ台のクライアント端末１１_ｍと通信回線１２とサーバ端末１３とを含む。但し、Ｍは１以上の整数であり、ｍ＝１，２，…，Ｍである。

クライアント端末１１_ｍから音声が入力される（ｓ１１）。クライアント端末１１_ｍは、この入力音声から音声認識用の音声特徴量を含む送信データを生成し、無線回線網やインターネット網等を含む通信回線１２を介してサーバ端末１３に送信する。

サーバ端末１３は、送信データを受信し、音声認識用の音声特徴量を用いて音声認識し、さらに、送信データを用いて、元の音声の発言内容を復元する（ｓ１３）。

一定量の音声データ（例えば、一単語や一発話分、一通話分、一定期間分（一時間分、一日間分、一月間分等））が蓄積されると（ｓ１３２）、人手によりその発言内容をテキストに書き起こす（ｓ１４０）。サーバ端末１３は、音声に対するテキストを辞書・言語モデル学習装置９２に出力し、音声に対するテキスト及び音声特徴量を音響モデル学習装置９３に出力する（ｓ１４２）。

辞書・言語モデル学習装置９２や音響モデル学習装置９３において学習及び適応した辞書・言語モデルや音響モデルはサーバ端末１３で用いる音声認識処理に用いてもよいし、他の音声認識装置９４で用いてもよい。

また、サーバ端末１３の音声認識結果は、通信回線１２を介してクライアント端末１１_ｍに対して送信してもよい。このような構成とすることで分散型音声認識を実現することができる。

なお、音声認識用の音声特徴量とは元の音声の特徴を表すデータであり、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとする。複数の時系列の音声信号サンプルを１つにまとめたものをフレームといい、このフレーム毎に音声認識用の音声特徴量に変換される。例えば、音声認識用の音声特徴量は、１次〜１２次ケプストラムとパワーの１３個の音声特徴量からなる。

以下、各端末の処理内容を説明する。

＜クライアント端末１１_ｍ＞
図３及び図４を用いてクライアント端末１１_ｍを説明する。クライアント端末１１_ｍは、音声入力部１１１と音声圧縮部１１２と圧縮音声記憶部１１３と音声特徴量変換部１１４と音声特徴量記憶部１１５と送信データ結合部１１６と送信データ記憶部１１７とデータ送信部１１８とを含む。

クライアント端末１１_ｍは、携帯電話端末や携帯情報端末等の通信機能を備える携帯端末であり、音声を入力され、送信データを出力する。以下、各部の処理内容を説明する。

＜音声入力部１１１＞
音声入力部１１１は、マイクロホン等を介して入力音声をアナログ入力音声信号として取得し（ｓ１１１）、これをＡ／Ｄ変換器を用いてデジタル入力音声信号に変換し、図示しないバッファに蓄積する。さらに、バッファに蓄積された時系列のデジタル入力音声信号をフレームに分割し、音声圧縮部１１２と音声特徴量変換部１１４へ出力する。例えば、１秒間のデジタル入力音声信号を１００フレームに分割する（例えば、デジタル入力音声信号のサンプリング周波数を１６ｋＨｚとし、フレーム長３０ｍｓとし、シフト幅１０ｍｓとし、１フレームに含まれるサンプル数を４８０サンプルとする）。

＜音声圧縮部１１２と圧縮音声記憶部１１３＞
音声圧縮部１１２は、入力音声の開始からフレーム毎に入力音声信号を低ビットレートコーデック（例えばＧ．７２３（５．３ｋｂｐｓ））により圧縮し圧縮音声信号を生成し（ｓ１１２）、圧縮音声記憶部１１３に記憶する。

なお、この圧縮音声は、書き起こしのための再生音声として使用するのみで、音響モデルの学習には用いないため、可聴であればビットレートの低い、低品質音声に変換されても問題はない。詳細は後述する。

＜音声特徴量変換部１１４と音声特徴量記憶部１１５＞
音声特徴量変換部１１４は、入力音声の開始からフレーム毎に入力音声信号を音声特徴量に変換し（ｓ１１４）、音声特徴量記憶部１１５に記憶する。

この音声特徴量に変換した時点で人には非可聴な音声情報となる。しかし、元々音声特徴量に基づいて音声認識処理を行うため、音声認識にとっては品質が劣化していない音声情報である。

なお、音声認識処理における音声品質劣化を許容する形で、この後段の処理として、例えば参考文献１のように、音声特徴量を圧縮する処理を含めても良い。但し、この場合、高精度かつ汎用的な音響モデル学習の効果は少なくなる。
［参考文献１］「ETSI ES 202 212 V1.1.1」, ETSI, 2003

＜送信データ結合部１１６と送信データ記憶部１１７とデータ送信部１１８＞
送信データ結合部１１６は、１フレームあるいは複数フレーム毎に圧縮音声信号と音声特徴量とを結合し送信データを生成し（ｓ１１６）、送信データ記憶部１１７に記憶する。図５は、音声特徴量と圧縮音声信号を１フレーム毎に交互に結合している例である。

例えば、サンプリング周波数を１６ｋＨｚとし、１サンプルを１６ビットで量子化し、ＰＣＭ（pulse code modulation）形式のデジタル入力音声信号をそのままサーバ端末１３に送信する場合、そのデータ量は１６ｋ×１６＝２５６ｋｂｐｓとなる。

一方、本実施形態において、１秒あたり１００フレーム、１フレームあたり１３個の音声特徴量を持ち、１音声特徴量を３２ビットで表す場合、そのデータ量は１００×１３×３２＝４１．６ｋｂｐｓであり、圧縮音声信号のデータ量は例えばＧ．７２３ならば５．３ｋｂｐｓである。結合された送信データは上記の例ではたかだか５．３＋４１．６＝４６．９ｋｂｐｓであり、デジタル入力音声信号をそのまま送信するよりも送信データ量が少なくなる。言い換えると、本実施形態には送信データ量の削減効果がある。

データ送信部１１８は、結合された送信データを、１フレームあるいは複数フレーム毎にパケット化してサーバ端末１３に送信する。図５では、２フレーム毎にパケット化し、サーバ端末１３に送信している。

さらに、クライアント端末１１_ｍは、未処理のフレームがあるか否かを判定する（ｓ１１７１）。未処理のフレームがある場合には、Ｎ（但し、Ｎは１パケットに含まれるフレーム数であり、例えばＮ＝２）フレーム分の未送信の送信データがあるか否かを判定し（ｓ１１７２）、ある場合には、データ送信部１１８がパケット化したＮフレーム分の送信データを送信し（ｓ１１８）、ない場合にはＮフレーム分の未送信の送信データを送信するために上述の処理（ｓ１１２、ｓ１１４、ｓ１１６）を繰り返す。

ｓ１１７１において、未処理のフレームがない場合には、データ送信部１１８がパケット化した送信データ（Ｎフレーム以下）を送信する（ｓ１１８）。

このようにしてクライアント端末１１_ｍは、全ての入力音声に対して、言い換えると未処理フレームがなくなるまで（ｓ１１９）、上述の処理（ｓ１１２、ｓ１１４、ｓ１１６）を行い、送信データを送信する。

例えば、クライアント端末１１_ｍは、５秒間分の音声が入力された場合に、その音声は５００フレームに分割し、各フレームに対し圧縮音声信号と音声特徴量を求め、これらの信号を結合して送信データを作成し、この送信データをＮフレーム毎にパケット化して、サーバ１３に送信する。

＜サーバ端末１３＞
図６及び図７を用いてサーバ端末１３を説明する。サーバ端末１３は、データ受信部１３１と受信データ記憶部１３２と送信データ分割部１３３と圧縮音声記憶部１３４と音声復元部１３５と復元音声記憶部１３６と音声特徴量記憶部１３７と音声認識部１３８と認識結果記憶部１３９と書き起こし部１４０とテキスト記憶部１４１と出力部１４２とを含む。

サーバ端末１３は、上述の送信データを入力され、テキストと音声特徴量を出力する。以下、各部の処理内容を説明する。

＜データ受信部１３１と受信データ記憶部１３２＞
サーバ端末１３は、データ受信部１３１を介して送信データを受信し（ｓ１３１）、受信データ記憶部１３２に記憶する。

＜送信データ分割部１３３と圧縮音声記憶部１３４と音声特徴量記憶部１３７＞
送信データ分割部１３３は、受信データ記憶部１３２から送信データを取得し、元の圧縮音声信号と前記音声特徴量とに分割し（ｓ１３３）、それぞれ圧縮音声記憶部１３４と音声特徴量記憶部１３７に記憶する。

＜音声復元部１３５と復元音声記憶部１３６＞
音声復元部１３５は、圧縮音声記憶部１３４から圧縮音声信号を取得し、音声圧縮部１１２で用いた低ビットレートコーデックと同様のコーデックにより圧縮音声信号を低品質の可聴な音声信号に復元し（ｓ１３５）、復元音声記憶部１３６に記憶する。

＜音声認識部１３８と認識結果記憶部１３９＞
音声認識部１３８は、音声特徴量記憶部１３７から音声特徴量を取得し、これを用いて音声認識を行い（ｓ１３８）、認識結果を求め、認識結果記憶部１３９に記憶する。

サーバ端末１３は、受信した全ての送信データに対して（言い換えると、受信した全ての送信データ内の全フレームに対し、未処理のフレームがなくなるまで（ｓ１３９））上述の処理（ｓ１３３、ｓ１３５、ｓ１３８）を行う。

このときに認識結果をクライアント端末１１_ｍに送信する構成とすることで、分散型音声認識を実現することができる。但し、必ずしも認識結果をクライアント端末１１_ｍに送信する必要はない。詳細は変形例で説明する。

＜書き起こし部１４０とテキスト記憶部１４１＞
書き起こし部１４０は、復元音声記憶部１３６から低品質の可聴な音声を取得し、再生し、図示しないスピーカ等から出力する。テキスト及び音声特徴量収集システム１を使ってテキスト及び音声特徴量を収集しようとする利用者は、再生音（低品質の可聴な音声）に対応するテキストを書き起こす、つまり、再生音を聞きながら、図示しないキーボード等を使って、再生音に対応するテキスト（以下「書き起こしテキスト）という）を作成する。書き起こしテキストはテキスト記憶部１４１に記憶される。

なお、この書き起こしの際に、書き起こし効率を向上させるために、認識結果を修正する形で書き起こしを実施しても良い。この場合、聞き起こし部１４０は、認識結果記憶部１３９から認識結果を取得し、図示しないディスプレイ等に出力する。利用者は、低品質の可聴な音声と認識結果を視聴し、図示しないキーボード等を使って、認識結果を修正する形で書き起こしテキストを作成する。

なお、音声認識部１３８における音声認識率は必ずしも１００％ではないため、音響モデルや言語モデルの学習用データとして利用するには必ず音声を再生して、利用者が音声を確認し、正解のテキストとして書き起こす必要がある。

＜出力部１４２＞
出力部１４２は、テキスト記憶部１４１からテキストを取得し、音声特徴量記憶部１３７から音声特徴量を取得し、テキストを復元音声に紐づいている音声特徴量に同じく紐付ける。このテキストと、このテキストに対応する音声特徴量と、を出力する（ｓ１４２）。

例えば、サーバ端末１３は、５００フレーム分の圧縮音声信号を復元し、復元音声（５秒分）を再生して聞き起したテキストに、復元音声（または圧縮音声信号）に紐づいている音声特徴量を紐付けて、テキストと、そのテキストに紐付けられた音声特徴量を出力する。

書き起こされたテキストと、テキストに紐付けられた音声特徴量は、外部の音響モデル学習装置９３に送られ、ある一定のデータ量が蓄積された時点で音響モデルの学習に利用される。また、書き起こされたテキストは、外部の辞書・言語モデル学習装置９２に送られ、ある一定のデータ量が蓄積された時点で、辞書への単語登録と言語モデルの学習に利用される。

＜効果＞
このように、圧縮音声信号と音声特徴量が同時にクライアント端末１１_ｍからサーバ端末１３に送信されることで、大幅に送信データ量を増やすことなく、低品質の可聴な音声に基づき書き起こしが可能となり、テキストと音声認識用の音声特徴量を収集することができる。テキストと音声認識用の音声特徴量を音響モデルや辞書・言語モデルの学習へ利用することができる。さらに音響モデルの学習には品質劣化のない音声特徴量を用いることから、高精度かつ特定の圧縮された品質によらない音響モデルの学習及び適応が可能となる。

また、本実施形態は、クライアント端末を利用した音声認識サービスを提供すると同時に、音声に対するテキスト及び音声特徴量の収集を実施することができる。

＜変形例＞
第一実施形態と異なる部分についてのみ説明する。サーバ端末１３の構成が第一実施形態とは異なる。本変形例では、サーバ端末１３は、音声認識部１３８と認識結果記憶部１３９を含まない構成とする（図６の破線部分の構成を含まない）。

クライアント端末１１_ｍに対して音声認識サービスを提供せず、音声に対するテキストと音声特徴量の収集のみを目的として実施する例を示す。このとき第一実施形態との違いは、サーバ端末１３に音声認識部１３８と認識結果記憶部１３９がなく、音声認識処理を実施しないところにある（図７の破線部分の処理を行わない）。つまり、サーバ端末１３の音声特徴量記憶部１３７に記憶される音声特徴量は音声認識には用いられず、外部の音響モデル学習装置９３に送られ、音響モデルの学習に利用されるのみである。

この変形例では、書き起こし部１４０において書き起こし効率を向上するために、認識結果を修正する形で書き起こしを実施することはできなくなる。しかし、サーバ端末１３へのＣＰＵ負荷が少なくて済むという効果がある。

また、テキスト及び音声特徴量の収集と同時に音声認識を提供しているわけではないので認識結果を得るまでに時間がかかるという問題は存在しない。そのため、音声を音声特徴量変換及び音声圧縮なしで送信してもよいが、一方で収集のみを目的とした場合、発声直後に発話内容を再生して確認する作業を実施することが多いため、データの送信遅延が存在すると、発話内容の再生までに時間がかかってしまうために収集効率が悪くなる。つまり収集効率を高めるためには、収集のみを目的とする場合であっても音声特徴量と圧縮音声をサーバ端末１３に送信して送信データ量を削減することの効果はある。

＜第二実施形態に係るテキスト及び音声特徴量収集システム２＞
第一実施形態と異なる部分についてのみ説明する。図１及び図２を用いて第二実施形態に係るテキスト及び音声特徴量収集システム２を説明する。テキスト及び音声特徴量収集システム２は、Ｍ台のクライアント端末２１_ｍと通信回線１２とサーバ端末２３とを含む。クライアント端末２１_ｍにおける音声入力処理（ｓ２１）とクライアント端末２１_ｍの構成、サーバ端末２３における音声認識及び復元処理（ｓ２３）とサーバ端末２３の構成が第一実施形態とは異なる。

なお、以下で説明する第一音声特徴量及び第二音声特徴量はそれぞれ元の音声の特徴を表すデータであって、何れか一方の音声特徴量のみに基づいて元の音声が復元することはできないが、二つの音声特徴量に基づいて劣化した元の音声を復元することはでき、第一音声特徴量のみに基づいて音声認識を行うことはできるものとする。例えば、第一音声特徴量は、１次〜１２次ケプストラムとパワーの１３個の音声特徴量からなり、第二音声特徴量は、ピッチ情報である。ここで、ピッチ情報とはピッチ周波数のみ、あるいは、ピッチ周波数とそのピッチ周波数におけるケプストラム値である。

第一実施形態においてクライアント端末１１_ｍが圧縮音声信号をサーバ端末１３に送信するのは、人が可聴な音声信号を送信するためである。本実施形態では、圧縮音声信号を送信する代わりにピッチ情報を送信する。本実施形態では、音声認識用に用いる音声特徴量であるケプストラムやパワー（第一音声特徴量）に加えて、ピッチ情報（第二音声特徴量）をサーバ端末２３に送信することで、これら音声特徴量から可聴な音声を復元することが可能である。図８は（ａ）音声波形から（ｂ）周波数スペクトル、そして（ｃ）ケプストラムに変換される工程と、その逆の工程（（ｄ）ケプストラムから（ｅ）周波数スペクトル、そして（ｆ）音声波形に変換される工程）を示している。音声認識用に用いる音声特徴量であるケプストラムとパワーだけでは音声のスペクトル包絡（図８（ｅ）の破線）のみの復元しかできないが、ピッチ情報を加えることでスペクトルの微細構造も復元され（図６（ｆ）の実線）、可聴な音声が復元できる。以下、各端末の詳細を説明する。

＜クライアント端末２１_ｍ＞
クライアント端末１１_ｍと異なる部分についてのみ説明する。図９及び図１０を用いてクライアント端末２１_ｍを説明する。クライアント端末２１_ｍは、音声入力部１１１と音声特徴量変換部２１４と音声特徴量記憶部２１５とデータ送信部１１８とを含む。

クライアント端末２１_ｍは、音声を入力され、送信データを出力する。クライアント端末２１_ｍは、圧縮音声信号に代えて第二音声特徴量（ピッチ情報）を送信する点が第一実施形態と異なる。以下、各部の処理内容を説明する。

＜音声特徴量変換部２１４と音声特徴量記憶部２１５＞
音声特徴量変換部２１４は、入力音声の開始からフレーム毎に入力音声信号を第一音声特徴量及び第二音声特徴量に変換し（ｓ２１４）、音声特徴量記憶部２１５に記憶する。

これは、図８（ｃ）にあるように、音声から変換されたケプストラムのうち有意な値である値のみを抽出していることになる。

＜データ送信部１１８＞
データ送信部１１８は、第一音声特徴量と第二音声特徴量からなる送信データを、１フレームあるいは複数フレーム毎にパケット化してサーバ端末１３に送信する。図５では、２フレームごとにパケット化し、サーバ端末１３に送信している。

このときの送信データ量は、ピッチ周波数を８ビットで送信したとして４２．４ｋｂｐｓとなり（但し、第一音声特徴量の送信量は第一実施形態の音声特徴量と同様とし、４１．６ｋｂｐｓとする）、さらにピッチ周波数におけるケプストラム値を３２ビットで追加で送信したとして４５．６ｋｂｐｓとなる。よって、第一実施形態で説明した場合と同様に、音声信号をそのまま送信するよりも少ない送信量となる。

＜サーバ端末２３＞
サーバ端末１３と異なる部分についてのみ説明する。図１１及び図１２を用いてサーバ端末２３を説明する。サーバ端末２３は、データ受信部１３１と音声復元部２３５と復元音声記憶部１３６と音声特徴量記憶部２３７と音声認識部１３８と認識結果記憶部１３９と書き起こし部１４０とテキスト記憶部１４１と出力部１４２とを含む。

サーバ端末２３は、上述の送信データを入力され、テキストと音声特徴量を出力する。

＜音声特徴量記憶部２３７＞
サーバ端末２３は、データ受信部１３１を介して送信データを受信し（ｓ１３１）、音声特徴量記憶部２３７に記憶する。なお、送信データには、第一音声特徴量と第二音声特徴量とが含まれる。

＜音声復元部２３５＞
音声復元部２３５は、音声特徴量記憶部２３７から第一音声特徴量と第二音声特徴量とを取得し、第一音声特徴量及び第二音声特徴量を劣化した元の音声に復元し（ｓ２３５）、復元音声記憶部１３６に記憶する。

音声復元部２３５では第一音声特徴量及び第二音声特徴量の全てを用いて、図６（ｄ）のケプストラムから（ｆ）音声波形に変換する工程を実施する。この工程は例えば音声合成で実施される工程と類似している（例えば参考文献２参照）。
［参考文献２］赤川達也、岩野公司、古井貞煕、「ＨＭＭを用いた話し言葉音声合成の実現に向けての検討」、電子情報通信学会技術研究報告、2005年5月、Vol. SP2005、No. 16、pp. 25-30

参考文献２では、２４次までのケプストラムを利用することで音声品質を高めている。しかしながら、本実施形態では送信データ量を増加させないことが目的であり、ケプストラムの次数を高めるわけには行かない。そこで、サーバから送信されていない欠落したケプストラムの値は、適切な値（例えば０）で補完する。また、ピッチ周波数におけるケプストラム値が送信されていない場合、ピッチ周波数が０の場合、すなわち無声音の場合は０、そうでない場合、すなわち有声音の場合は適切な値（例えば１２次までのケプストラム最大値に０．８を乗じたものなど）で補完する。このようにして復元された復元音声は復元音声記憶部１３６に記憶され、後段の書き起こし部で再生音声として利用される。

＜音声認識部１３８＞
なお、音声認識部１３８は、音声特徴量記憶部２３７から第一実施形態と同様にケプストラムとパワーを含む音声特徴量（第一音声特徴量）を取得し、これを用いて音声認識を行い（ｓ１３８）、認識結果を求め、認識結果記憶部１３９に記憶する。つまり、音声認識処理には、ピッチ情報（第二音声特徴量）を使わない。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。音声復元部２３５において、音声特徴量のみからなる音声復元によることで可聴音声品質は劣化してしまうが、第一実施形態の送信量（４６．９ｋｂｐｓ）よりもさらに送信量（４５．６ｋｂｐｓ）を削減することができる。

＜第三実施形態に係るテキスト及び音声特徴量収集システム３＞
第一実施形態と異なる部分についてのみ説明する。図１及び図２を用いて第三実施形態に係るテキスト及び音声特徴量収集システム３を説明する。テキスト及び音声特徴量収集システム３は、Ｍ台のクライアント端末３１_ｍと通信回線１２とサーバ端末３３とを含む。

クライアント端末３１_ｍにおける音声入力処理（ｓ３１）とクライアント端末３１_ｍの構成、サーバ端末３３における音声認識及び復元処理（ｓ３３）とサーバ端末３３の構成が第一実施形態とは異なる。

本実施形態は、第一実施形態及び第二実施形態において圧縮音声やピッチ情報を送信しない構成となる。第二実施形態で説明したように音声特徴量から音声を復元するには音声認識用の音声特徴量（１次〜１２次ケプストラムとパワー）に加え、ピッチ情報が必要である。しかし、本実施形態ではこのピッチ情報を送信せずに、認識結果を基づいてピッチ情報を補完し、音声を復元する。以下、詳細を説明する。

＜クライアント端末３１_ｍ＞
クライアント端末１１_ｍと異なる部分についてのみ説明する。図１３及び図１４を用いてクライアント端末３１_ｍを説明する。クライアント端末３１_ｍは、音声入力部１１１と音声特徴量変換部１１４と音声特徴量記憶部１１５とデータ送信部１１８とを含む。つまり、音声圧縮部１１２と圧縮音声記憶部１１３と送信データ結合部１１６と送信データ記憶部１１７を含まない点がクライアント端末１１_ｍと異なる。

クライアント端末３１_ｍは、音声を入力され、送信データを出力する。なお、送信データは、音声認識用の音声特徴量のみからなる（圧縮音声信号もピッチ情報も含まない）。以下、各部の処理内容は、第一実施形態と同様である。

なお、データ送信部１１８は、音声特徴量のみからなる送信データを、１フレームあるいは複数フレーム毎にパケット化してサーバ端末１３に送信する。

＜サーバ端末３３＞
サーバ端末１３と異なる部分についてのみ説明する。図１５及び図１６を用いてサーバ端末３３を説明する。サーバ端末３３は、データ受信部１３１と音声復元部３３５と復元音声記憶部１３６と音声特徴量記憶部１３７と音声認識部３３８と認識結果記憶部３３９と書き起こし部１４０とテキスト記憶部１４１と出力部１４２とを含む。

＜音声認識部３３８＞
音声認識部３３８が、単語単位の音声認識辞書（例えばサービス実施用の音声認識辞書）を参照し、音声特徴量を用いて音声認識を行い、テキスト（例えば漢字かな混じりテキスト）に加え、さらに、音素列及びその区間情報を含む認識結果を求め（ｓ３３８）、認識結果を認識結果記憶部３３９に記憶する。

＜音声復元部３３５＞
音声復元部３３５は、音声特徴量記憶部１３７から音声特徴量を取得し、さらに、認識結果記憶部３３９から音素列及び区間情報を取得し、これらの情報に基づき、音声特徴量をフレーム毎に有音部と無声部とに判別する。さらに、音声復元部３３５は、有声部と判別されたフレームに対し所定のピッチ情報（例えば、一般女性の平均値である２２０Ｈｚ）を与え、無声部と判別されたフレームに対し０を与えて、劣化した元の音声を復元し（ｓ３３５）、復元音声記憶部１３６に記憶する。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。クライアント端末３１_ｍから送信される音声特徴量に対して圧縮音声信号やピッチ情報等の付加情報がなく送信データ量を増加させずに、サーバ端末３３側で音声を復元し、書き起こしを実施することが可能になる。よって、送信データ量をさらに削減することができる。

＜第四実施形態に係るテキスト及び音声特徴量収集システム４＞
第三実施形態と異なる部分についてのみ説明する。図１及び図２を用いて第四実施形態に係るテキスト及び音声特徴量収集システム４を説明する。テキスト及び音声特徴量収集システム４は、Ｍ台のクライアント端末３１_ｍと通信回線１２とサーバ端末４３とを含む。サーバ端末４３における音声認識及び復元処理（ｓ４３）とサーバ端末４３の構成が第三実施形態とは異なる。

本実施形態では、第四実施形態の音声認識部３３８とは別に、有声無声判別を実施する。本実施形態では、第三実施形態と同様に、ピッチ情報を送信せずに、認識結果を基づいてピッチ情報を補完し、音声を復元する。しかし、第三実施形態の場合、単語単位の音声認識辞書（例えばサービス実施用の音声認識辞書）を参照し、音声特徴量を用いて音声認識を行うので、誤認識があった場合でも限られた認識対象単語の中から単語が選ばれてしまう。例えば都道府県を認識するような音声認識サービスを実施するための音声認識辞書の場合、実際の発声内容が「名古屋」であっても必ず都道府県の中から選ばれてしまうため、誤認識があった場合に「長崎」としてしまう可能性がある。このような実際の音声とかけ離れた単語であれば、有声音と無声音の判別に誤りが含まれ復元音声が聞きづらい可能性があり、書き起こし効率が悪化する。そこで、本実施形態ではサービス実施用の音声認識辞書の内容によらない、有声無声判別方法を採用する。つまり、仮に誤認識であっても発声内容に近い認識結果（例えば「ながや」）が得られるため、有声音と無声音の判別誤りが軽減され、復元音声の聞きづらさも軽減することができる。

以下、詳細を説明する。

＜サーバ端末４３＞
サーバ端末３３と異なる部分についてのみ説明する。図１７及び図１８を用いてサーバ端末４３を説明する。サーバ端末４３は、データ受信部１３１と有声無声判別部４３８と有声無声記憶部４３９と音声復元部４３５と復元音声記憶部１３６と音声特徴量記憶部１３７と音声認識部３３８と認識結果記憶部３３９と書き起こし部１４０とテキスト記憶部１４１と出力部１４２とを含む。但し、音声認識部３３８と認識結果記憶部３３９を、それぞれ第一実施形態の音声認識部１３８と認識結果記憶部１３９に置き換えてもよい。

サーバ端末４３は、上述の送信データを入力され、テキストと音声特徴量を出力する。以下、各部の処理内容を説明する。

＜有声無声判別部４３８と有声無声記憶部４３９＞
有声無声判別部４３８は、音声認識部３３８で用いる単語単位の音声認識辞書よりも短い単位の判別辞書を参照し音声特徴量を用いて判別処理を行い（ｓ４３８）、判別結果を有声無声記憶部４３９に記憶する。

例えば有声無声判別部では、音声特徴量記憶部１３７の音声特徴量を、音節タイプライタと呼ばれる音声認識用辞書を判別辞書として用いて音声認識処理し（参考文献３参照）、その結果である音素列からフレーム毎に有音部と無声部に判別し、判別結果をその区間情報とともに有声無声記憶部４３９に記憶する。こ
［参考文献３］渡辺隆夫、塚田聡、「音節認識を用いたゆう度補正による未知発話のリジェクション」、電子情報通信学会論文誌、1992年、Vol.J75-D2、No.12、pp.2002-2009
このような構成とすることで、発話内容が「名古屋」である場合に、認識結果が「長崎」となるような誤認識を避けることができる。例えば、音節タイプライタを用いて音声認識処理を行った場合には、誤認識があった場合にも、上述のような大きな誤認識を避けることができる。例えば、誤認識の認識結果は「ながや」等の小さな誤認識となる可能性が高い。

また、判別辞書として、有声音だけで学習したＧＭＭ（Gaussian Mixture Model）と無声音だけで学習したＧＭＭを用いてもよい。この場合も、音声認識部３３８で用いる単語単位の音声認識辞書よりも短い単位の判別辞書となる。有声無声判別部４３８は、ＧＭＭによる判別辞書を参照し音声特徴量を用いて、有声部と無声部とを判別することができる。

＜音声復元部４３５＞
音声復元部４３５は、有声無声記憶部４３９から判定結果を取得し、有声部と判別されたフレームに対し、所定のピッチ情報（例えば、一般女性の平均値である２２０Ｈｚ）を、無声部には０を与えて、音声を復元し（ｓ４３５）、復元音声記憶部１３６に記憶する。

＜効果＞
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、音節タイプライタを利用することで、仮に誤認識であっても発声に近い認識結果が得られるため、有声音と無声音の判別誤りが軽減され、復元音声の聞きづらさも軽減することができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述したクライアント端末及びサーバ端末は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施例で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

本発明を用いて収集したテキストを辞書・言語モデルの学習に利用することができる。また、本発明を用いて収集したテキスト及び音声特徴量を音響モデルの学習に利用することができる。

Claims

クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する方法であって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとし、
前記クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成する音声圧縮ステップと、
前記クライアント端末の音声特徴量変換部が、前記入力音声信号を前記音声特徴量に変換する音声特徴量変換ステップと、
前記クライアント端末の送信データ結合部が、前記圧縮音声信号と前記音声特徴量とを結合し送信データを生成する送信データ結合ステップと、
前記サーバ端末の送信データ分割部が、受信した前記送信データを前記圧縮音声信号と前記音声特徴量とに分割する送信データ分割ステップと、
前記サーバ端末の音声認識部が、前記音声特徴量を用いて音声認識を行い、認識結果を求める音声認識ステップと、
前記サーバ端末の音声復元部が、前記低ビットレートコーデックにより前記圧縮音声信号を低品質の前記音声に復元する音声復元ステップと、
前記サーバ端末の出力部が、前記認識結果と低品質の前記音声とに基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力ステップと、
を含むテキスト及び音声特徴量収集方法。
クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集する方法であって、前記第一音声特徴量及び第二音声特徴量はそれぞれ元の前記音声の特徴を表すデータであって、何れか一方の前記音声特徴量のみに基づいて元の前記音声が復元することはできないが、二つの前記音声特徴量に基づいて劣化した元の前記音声を復元することはでき、前記第一音声特徴量のみに基づいて音声認識を行うことはできるものとし、
前記クライアント端末の音声特徴量変換部が、入力音声信号を前記第一音声特徴量及び第二音声特徴量に変換する音声特徴量変換ステップと、
前記サーバ端末の音声認識部が、前記第一音声特徴量を用いて音声認識を行い、認識結果を求める音声認識ステップと、
前記サーバ端末の音声復元部が、前記第一音声特徴量及び第二音声特徴量を劣化した元の前記音声に復元する音声復元ステップと、
前記サーバ端末の出力部が、劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記第一音声特徴量と、を出力する出力ステップと、
を含むテキスト及び音声特徴量収集方法。
クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する方法であって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の前記音声を復元することはできないものとし、所定のピッチ情報と前記音声特徴量を組合せると劣化した元の前記音声を復元することはできるものとし、
前記クライアント端末の音声特徴量変換部が、入力音声信号を前記音声特徴量に変換する音声特徴量変換ステップと、
前記サーバ端末の音声認識部が、単語単位の音声認識辞書を参照し前記音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求める音声認識ステップと、
前記サーバ端末の音声復元部が、音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、前記劣化した元の前記音声を復元する音声復元ステップと、
前記サーバ端末の出力部が、劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力ステップと、
を含むテキスト及び音声特徴量収集方法。
請求項３記載のテキスト及び音声特徴量収集方法であって、
前記サーバ端末の有声無声判別部が、前記音声認識ステップで用いる音声認識辞書よりも短い単位の判別辞書を参照し前記音声特徴量を用いて、有声部と無声部とを判別する有声無声判別ステップをさらに含み、
前記音声復元ステップにおいて、前記有声無声判別ステップにおいて前記有声部と判別されたフレームに対し、所定のピッチ情報を与える、
テキスト及び音声特徴量収集方法。
クライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集するシステムであって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとし、
前記クライアント端末は、
入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成する音声圧縮部と、
前記入力音声信号を前記音声特徴量に変換する音声特徴量変換部と、
前記圧縮音声信号と前記音声特徴量とを結合し送信データを生成する送信データ結合部と、を含み、
前記サーバ端末は、
受信した前記送信データを前記圧縮音声信号と前記音声特徴量とに分割する送信データ分割部と、
前記音声特徴量を用いて音声認識を行い、認識結果を求める音声認識部と、
前記低ビットレートコーデックにより前記圧縮音声信号を低品質の前記音声に復元する音声復元部と、
前記認識結果と低品質の前記音声とに基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力部と、を含む、
テキスト及び音声特徴量収集システム。
クライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集するシステムであって、前記第一音声特徴量及び第二音声特徴量はそれぞれ元の前記音声の特徴を表すデータであって、何れか一方の前記音声特徴量のみに基づいて元の前記音声が復元することはできないが、二つの前記音声特徴量に基づいて劣化した元の前記音声を復元することはでき、前記第一音声特徴量のみに基づいて音声認識を行うことはできるものとし、
前記クライアント端末は、入力音声信号を前記第一音声特徴量及び第二音声特徴量に変換する音声特徴量変換部を含み、
前記サーバ端末は、
前記第一音声特徴量を用いて音声認識を行い、認識結果を求める音声認識部と、
前記第一音声特徴量及び第二音声特徴量を劣化した元の前記音声に復元する音声復元部と、
劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記第一音声特徴量と、を出力する出力部と、を含む、
テキスト及び音声特徴量収集システム。
ククライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集するシステムであって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の前記音声を復元することはできないものとし、所定のピッチ情報と前記音声特徴量を組合せると劣化した元の前記音声を復元することはできるものとし、
前記クライアント端末は、入力音声信号を前記音声特徴量に変換する音声特徴量変換部を含み、
前記サーバ端末は、
単語単位の音声認識辞書を参照し前記音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求める音声認識部と、
音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、前記劣化した元の前記音声を復元する音声復元部と、
劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力部と、を含む、
テキスト及び音声特徴量収集システム。
請求項５から７の何れかに記載のクライアント端末またはサーバ端末としてコンピュータを機能させるためのプログラム。