JP2012247679A - テキスト及び音声特徴量収集方法、そのシステム、プログラム - Google Patents
テキスト及び音声特徴量収集方法、そのシステム、プログラム Download PDFInfo
- Publication number
- JP2012247679A JP2012247679A JP2011120323A JP2011120323A JP2012247679A JP 2012247679 A JP2012247679 A JP 2012247679A JP 2011120323 A JP2011120323 A JP 2011120323A JP 2011120323 A JP2011120323 A JP 2011120323A JP 2012247679 A JP2012247679 A JP 2012247679A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- text
- unit
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成し、音声特徴量変換部が、入力音声信号を音声特徴量に変換し、送信データ結合部が、圧縮音声信号と音声特徴量とを結合し送信データを生成する。サーバ端末の送信データ分割部が、受信した送信データを圧縮音声信号と音声特徴量とに分割し、音声認識部が、音声特徴量を用いて音声認識を行い、認識結果を求め、音声復元部が、低ビットレートコーデックにより圧縮音声信号を低品質の音声に復元する。
【選択図】図1
Description
図1及び図2を用いて第一実施形態に係るテキスト及び音声特徴量収集システム1を説明する。テキスト及び音声特徴量収集システム1は、M台のクライアント端末11mと通信回線12とサーバ端末13とを含む。但し、Mは1以上の整数であり、m=1,2,…,Mである。
図3及び図4を用いてクライアント端末11mを説明する。クライアント端末11mは、音声入力部111と音声圧縮部112と圧縮音声記憶部113と音声特徴量変換部114と音声特徴量記憶部115と送信データ結合部116と送信データ記憶部117とデータ送信部118とを含む。
音声入力部111は、マイクロホン等を介して入力音声をアナログ入力音声信号として取得し(s111)、これをA/D変換器を用いてデジタル入力音声信号に変換し、図示しないバッファに蓄積する。さらに、バッファに蓄積された時系列のデジタル入力音声信号をフレームに分割し、音声圧縮部112と音声特徴量変換部114へ出力する。例えば、1秒間のデジタル入力音声信号を100フレームに分割する(例えば、デジタル入力音声信号のサンプリング周波数を16kHzとし、フレーム長30msとし、シフト幅10msとし、1フレームに含まれるサンプル数を480サンプルとする)。
音声圧縮部112は、入力音声の開始からフレーム毎に入力音声信号を低ビットレートコーデック(例えばG.723(5.3kbps))により圧縮し圧縮音声信号を生成し(s112)、圧縮音声記憶部113に記憶する。
音声特徴量変換部114は、入力音声の開始からフレーム毎に入力音声信号を音声特徴量に変換し(s114)、音声特徴量記憶部115に記憶する。
[参考文献1]「ETSI ES 202 212 V1.1.1」, ETSI, 2003
送信データ結合部116は、1フレームあるいは複数フレーム毎に圧縮音声信号と音声特徴量とを結合し送信データを生成し(s116)、送信データ記憶部117に記憶する。図5は、音声特徴量と圧縮音声信号を1フレーム毎に交互に結合している例である。
図6及び図7を用いてサーバ端末13を説明する。サーバ端末13は、データ受信部131と受信データ記憶部132と送信データ分割部133と圧縮音声記憶部134と音声復元部135と復元音声記憶部136と音声特徴量記憶部137と音声認識部138と認識結果記憶部139と書き起こし部140とテキスト記憶部141と出力部142とを含む。
サーバ端末13は、データ受信部131を介して送信データを受信し(s131)、受信データ記憶部132に記憶する。
送信データ分割部133は、受信データ記憶部132から送信データを取得し、元の圧縮音声信号と前記音声特徴量とに分割し(s133)、それぞれ圧縮音声記憶部134と音声特徴量記憶部137に記憶する。
音声復元部135は、圧縮音声記憶部134から圧縮音声信号を取得し、音声圧縮部112で用いた低ビットレートコーデックと同様のコーデックにより圧縮音声信号を低品質の可聴な音声信号に復元し(s135)、復元音声記憶部136に記憶する。
音声認識部138は、音声特徴量記憶部137から音声特徴量を取得し、これを用いて音声認識を行い(s138)、認識結果を求め、認識結果記憶部139に記憶する。
書き起こし部140は、復元音声記憶部136から低品質の可聴な音声を取得し、再生し、図示しないスピーカ等から出力する。テキスト及び音声特徴量収集システム1を使ってテキスト及び音声特徴量を収集しようとする利用者は、再生音(低品質の可聴な音声)に対応するテキストを書き起こす、つまり、再生音を聞きながら、図示しないキーボード等を使って、再生音に対応するテキスト(以下「書き起こしテキスト)という)を作成する。書き起こしテキストはテキスト記憶部141に記憶される。
出力部142は、テキスト記憶部141からテキストを取得し、音声特徴量記憶部137から音声特徴量を取得し、テキストを復元音声に紐づいている音声特徴量に同じく紐付ける。このテキストと、このテキストに対応する音声特徴量と、を出力する(s142)。
このように、圧縮音声信号と音声特徴量が同時にクライアント端末11mからサーバ端末13に送信されることで、大幅に送信データ量を増やすことなく、低品質の可聴な音声に基づき書き起こしが可能となり、テキストと音声認識用の音声特徴量を収集することができる。テキストと音声認識用の音声特徴量を音響モデルや辞書・言語モデルの学習へ利用することができる。さらに音響モデルの学習には品質劣化のない音声特徴量を用いることから、高精度かつ特定の圧縮された品質によらない音響モデルの学習及び適応が可能となる。
第一実施形態と異なる部分についてのみ説明する。サーバ端末13の構成が第一実施形態とは異なる。本変形例では、サーバ端末13は、音声認識部138と認識結果記憶部139を含まない構成とする(図6の破線部分の構成を含まない)。
第一実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第二実施形態に係るテキスト及び音声特徴量収集システム2を説明する。テキスト及び音声特徴量収集システム2は、M台のクライアント端末21mと通信回線12とサーバ端末23とを含む。クライアント端末21mにおける音声入力処理(s21)とクライアント端末21mの構成、サーバ端末23における音声認識及び復元処理(s23)とサーバ端末23の構成が第一実施形態とは異なる。
クライアント端末11mと異なる部分についてのみ説明する。図9及び図10を用いてクライアント端末21mを説明する。クライアント端末21mは、音声入力部111と音声特徴量変換部214と音声特徴量記憶部215とデータ送信部118とを含む。
音声特徴量変換部214は、入力音声の開始からフレーム毎に入力音声信号を第一音声特徴量及び第二音声特徴量に変換し(s214)、音声特徴量記憶部215に記憶する。
データ送信部118は、第一音声特徴量と第二音声特徴量からなる送信データを、1フレームあるいは複数フレーム毎にパケット化してサーバ端末13に送信する。図5では、2フレームごとにパケット化し、サーバ端末13に送信している。
サーバ端末13と異なる部分についてのみ説明する。図11及び図12を用いてサーバ端末23を説明する。サーバ端末23は、データ受信部131と音声復元部235と復元音声記憶部136と音声特徴量記憶部237と音声認識部138と認識結果記憶部139と書き起こし部140とテキスト記憶部141と出力部142とを含む。
サーバ端末23は、データ受信部131を介して送信データを受信し(s131)、音声特徴量記憶部237に記憶する。なお、送信データには、第一音声特徴量と第二音声特徴量とが含まれる。
音声復元部235は、音声特徴量記憶部237から第一音声特徴量と第二音声特徴量とを取得し、第一音声特徴量及び第二音声特徴量を劣化した元の音声に復元し(s235)、復元音声記憶部136に記憶する。
[参考文献2]赤川達也、岩野公司、古井貞煕、「HMMを用いた話し言葉音声合成の実現に向けての検討」、電子情報通信学会 技術研究報告、2005年5月、Vol. SP2005、No. 16、pp. 25-30
なお、音声認識部138は、音声特徴量記憶部237から第一実施形態と同様にケプストラムとパワーを含む音声特徴量(第一音声特徴量)を取得し、これを用いて音声認識を行い(s138)、認識結果を求め、認識結果記憶部139に記憶する。つまり、音声認識処理には、ピッチ情報(第二音声特徴量)を使わない。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。音声復元部235において、音声特徴量のみからなる音声復元によることで可聴音声品質は劣化してしまうが、第一実施形態の送信量(46.9kbps)よりもさらに送信量(45.6kbps)を削減することができる。
第一実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第三実施形態に係るテキスト及び音声特徴量収集システム3を説明する。テキスト及び音声特徴量収集システム3は、M台のクライアント端末31mと通信回線12とサーバ端末33とを含む。
クライアント端末11mと異なる部分についてのみ説明する。図13及び図14を用いてクライアント端末31mを説明する。クライアント端末31mは、音声入力部111と音声特徴量変換部114と音声特徴量記憶部115とデータ送信部118とを含む。つまり、音声圧縮部112と圧縮音声記憶部113と送信データ結合部116と送信データ記憶部117を含まない点がクライアント端末11mと異なる。
サーバ端末13と異なる部分についてのみ説明する。図15及び図16を用いてサーバ端末33を説明する。サーバ端末33は、データ受信部131と音声復元部335と復元音声記憶部136と音声特徴量記憶部137と音声認識部338と認識結果記憶部339と書き起こし部140とテキスト記憶部141と出力部142とを含む。
音声認識部338が、単語単位の音声認識辞書(例えばサービス実施用の音声認識辞書)を参照し、音声特徴量を用いて音声認識を行い、テキスト(例えば漢字かな混じりテキスト)に加え、さらに、音素列及びその区間情報を含む認識結果を求め(s338)、認識結果を認識結果記憶部339に記憶する。
音声復元部335は、音声特徴量記憶部137から音声特徴量を取得し、さらに、認識結果記憶部339から音素列及び区間情報を取得し、これらの情報に基づき、音声特徴量をフレーム毎に有音部と無声部とに判別する。さらに、音声復元部335は、有声部と判別されたフレームに対し所定のピッチ情報(例えば、一般女性の平均値である220Hz)を与え、無声部と判別されたフレームに対し0を与えて、劣化した元の音声を復元し(s335)、復元音声記憶部136に記憶する。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。クライアント端末31mから送信される音声特徴量に対して圧縮音声信号やピッチ情報等の付加情報がなく送信データ量を増加させずに、サーバ端末33側で音声を復元し、書き起こしを実施することが可能になる。よって、送信データ量をさらに削減することができる。
第三実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第四実施形態に係るテキスト及び音声特徴量収集システム4を説明する。テキスト及び音声特徴量収集システム4は、M台のクライアント端末31mと通信回線12とサーバ端末43とを含む。サーバ端末43における音声認識及び復元処理(s43)とサーバ端末43の構成が第三実施形態とは異なる。
サーバ端末33と異なる部分についてのみ説明する。図17及び図18を用いてサーバ端末43を説明する。サーバ端末43は、データ受信部131と有声無声判別部438と有声無声記憶部439と音声復元部435と復元音声記憶部136と音声特徴量記憶部137と音声認識部338と認識結果記憶部339と書き起こし部140とテキスト記憶部141と出力部142とを含む。但し、音声認識部338と認識結果記憶部339を、それぞれ第一実施形態の音声認識部138と認識結果記憶部139に置き換えてもよい。
有声無声判別部438は、音声認識部338で用いる単語単位の音声認識辞書よりも短い単位の判別辞書を参照し音声特徴量を用いて判別処理を行い(s438)、判別結果を有声無声記憶部439に記憶する。
[参考文献3]渡辺隆夫、塚田聡、「音節認識を用いたゆう度補正による未知発話のリジェクション」、電子情報通信学会論文誌、1992年、Vol.J75-D2、No.12、pp.2002-2009
このような構成とすることで、発話内容が「名古屋」である場合に、認識結果が「長崎」となるような誤認識を避けることができる。例えば、音節タイプライタを用いて音声認識処理を行った場合には、誤認識があった場合にも、上述のような大きな誤認識を避けることができる。例えば、誤認識の認識結果は「ながや」等の小さな誤認識となる可能性が高い。
音声復元部435は、有声無声記憶部439から判定結果を取得し、有声部と判別されたフレームに対し、所定のピッチ情報(例えば、一般女性の平均値である220Hz)を、無声部には0を与えて、音声を復元し(s435)、復元音声記憶部136に記憶する。
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、音節タイプライタを利用することで、仮に誤認識であっても発声に近い認識結果が得られるため、有声音と無声音の判別誤りが軽減され、復元音声の聞きづらさも軽減することができる。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述したクライアント端末及びサーバ端末は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
Claims (8)
- クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する方法であって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとし、
前記クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成する音声圧縮ステップと、
前記クライアント端末の音声特徴量変換部が、前記入力音声信号を前記音声特徴量に変換する音声特徴量変換ステップと、
前記クライアント端末の送信データ結合部が、前記圧縮音声信号と前記音声特徴量とを結合し送信データを生成する送信データ結合ステップと、
前記サーバ端末の送信データ分割部が、受信した前記送信データを前記圧縮音声信号と前記音声特徴量とに分割する送信データ分割ステップと、
前記サーバ端末の音声認識部が、前記音声特徴量を用いて音声認識を行い、認識結果を求める音声認識ステップと、
前記サーバ端末の音声復元部が、前記低ビットレートコーデックにより前記圧縮音声信号を低品質の前記音声に復元する音声復元ステップと、
前記サーバ端末の出力部が、前記認識結果と低品質の前記音声とに基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力ステップと、
を含むテキスト及び音声特徴量収集方法。 - クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集する方法であって、前記第一音声特徴量及び第二音声特徴量はそれぞれ元の前記音声の特徴を表すデータであって、何れか一方の前記音声特徴量のみに基づいて元の前記音声が復元することはできないが、二つの前記音声特徴量に基づいて劣化した元の前記音声を復元することはでき、前記第一音声特徴量のみに基づいて音声認識を行うことはできるものとし、
前記クライアント端末の音声特徴量変換部が、入力音声信号を前記第一音声特徴量及び第二音声特徴量に変換する音声特徴量変換ステップと、
前記サーバ端末の音声認識部が、前記第一音声特徴量を用いて音声認識を行い、認識結果を求める音声認識ステップと、
前記サーバ端末の音声復元部が、前記第一音声特徴量及び第二音声特徴量を劣化した元の前記音声に復元する音声復元ステップと、
前記サーバ端末の出力部が、劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記第一音声特徴量と、を出力する出力ステップと、
を含むテキスト及び音声特徴量収集方法。 - クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する方法であって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の前記音声を復元することはできないものとし、所定のピッチ情報と前記音声特徴量を組合せると劣化した元の前記音声を復元することはできるものとし、
前記クライアント端末の音声特徴量変換部が、入力音声信号を前記音声特徴量に変換する音声特徴量変換ステップと、
前記サーバ端末の音声認識部が、単語単位の音声認識辞書を参照し前記音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求める音声認識ステップと、
前記サーバ端末の音声復元部が、音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、前記劣化した元の前記音声を復元する音声復元ステップと、
前記サーバ端末の出力部が、劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力ステップと、
を含むテキスト及び音声特徴量収集方法。 - 請求項3記載のテキスト及び音声特徴量収集方法であって、
前記サーバ端末の有声無声判別部が、前記音声認識ステップで用いる音声認識辞書よりも短い単位の判別辞書を参照し前記音声特徴量を用いて、有声部と無声部とを判別する有声無声判別ステップをさらに含み、
前記音声復元ステップにおいて、前記有声無声判別ステップにおいて前記有声部と判別されたフレームに対し、所定のピッチ情報を与える、
テキスト及び音声特徴量収集方法。 - クライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集するシステムであって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとし、
前記クライアント端末は、
入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成する音声圧縮部と、
前記入力音声信号を前記音声特徴量に変換する音声特徴量変換部と、
前記圧縮音声信号と前記音声特徴量とを結合し送信データを生成する送信データ結合部と、を含み、
前記サーバ端末は、
受信した前記送信データを前記圧縮音声信号と前記音声特徴量とに分割する送信データ分割部と、
前記音声特徴量を用いて音声認識を行い、認識結果を求める音声認識部と、
前記低ビットレートコーデックにより前記圧縮音声信号を低品質の前記音声に復元する音声復元部と、
前記認識結果と低品質の前記音声とに基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力部と、を含む、
テキスト及び音声特徴量収集システム。 - クライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集するシステムであって、前記第一音声特徴量及び第二音声特徴量はそれぞれ元の前記音声の特徴を表すデータであって、何れか一方の前記音声特徴量のみに基づいて元の前記音声が復元することはできないが、二つの前記音声特徴量に基づいて劣化した元の前記音声を復元することはでき、前記第一音声特徴量のみに基づいて音声認識を行うことはできるものとし、
前記クライアント端末は、入力音声信号を前記第一音声特徴量及び第二音声特徴量に変換する音声特徴量変換部を含み、
前記サーバ端末は、
前記第一音声特徴量を用いて音声認識を行い、認識結果を求める音声認識部と、
前記第一音声特徴量及び第二音声特徴量を劣化した元の前記音声に復元する音声復元部と、
劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記第一音声特徴量と、を出力する出力部と、を含む、
テキスト及び音声特徴量収集システム。 - ククライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集するシステムであって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の前記音声を復元することはできないものとし、所定のピッチ情報と前記音声特徴量を組合せると劣化した元の前記音声を復元することはできるものとし、
前記クライアント端末は、入力音声信号を前記音声特徴量に変換する音声特徴量変換部を含み、
前記サーバ端末は、
単語単位の音声認識辞書を参照し前記音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求める音声認識部と、
音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、前記劣化した元の前記音声を復元する音声復元部と、
劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力部と、を含む、
テキスト及び音声特徴量収集システム。 - 請求項5から7の何れかに記載のクライアント端末またはサーバ端末としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011120323A JP5524131B2 (ja) | 2011-05-30 | 2011-05-30 | テキスト及び音声特徴量収集方法、そのシステム、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011120323A JP5524131B2 (ja) | 2011-05-30 | 2011-05-30 | テキスト及び音声特徴量収集方法、そのシステム、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012247679A true JP2012247679A (ja) | 2012-12-13 |
JP5524131B2 JP5524131B2 (ja) | 2014-06-18 |
Family
ID=47468156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011120323A Active JP5524131B2 (ja) | 2011-05-30 | 2011-05-30 | テキスト及び音声特徴量収集方法、そのシステム、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5524131B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210826A (zh) * | 2019-12-26 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 语音信息处理方法、装置、存储介质和智能终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06102894A (ja) * | 1992-09-22 | 1994-04-15 | Toshiba Corp | 音声認識装置 |
JP2003005949A (ja) * | 2001-06-20 | 2003-01-10 | Nec Corp | サーバ・クライアント型音声認識装置及び方法 |
JP2006350090A (ja) * | 2005-06-17 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 |
-
2011
- 2011-05-30 JP JP2011120323A patent/JP5524131B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06102894A (ja) * | 1992-09-22 | 1994-04-15 | Toshiba Corp | 音声認識装置 |
JP2003005949A (ja) * | 2001-06-20 | 2003-01-10 | Nec Corp | サーバ・クライアント型音声認識装置及び方法 |
JP2006350090A (ja) * | 2005-06-17 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210826A (zh) * | 2019-12-26 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 语音信息处理方法、装置、存储介质和智能终端 |
CN111210826B (zh) * | 2019-12-26 | 2022-08-05 | 深圳市优必选科技股份有限公司 | 语音信息处理方法、装置、存储介质和智能终端 |
Also Published As
Publication number | Publication date |
---|---|
JP5524131B2 (ja) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8898055B2 (en) | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech | |
CN103035238B (zh) | 音频数据的编码方法及解码方法 | |
US9135923B1 (en) | Pitch synchronous speech coding based on timbre vectors | |
US11727922B2 (en) | Systems and methods for deriving expression of intent from recorded speech | |
US7269561B2 (en) | Bandwidth efficient digital voice communication system and method | |
JP2007534278A (ja) | ショートメッセージサービスを通じる音声 | |
JPH10260692A (ja) | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム | |
Loscos et al. | Low-delay singing voice alignment to text | |
WO2007063827A1 (ja) | 声質変換システム | |
WO2006080149A1 (ja) | 音復元装置および音復元方法 | |
Gallardo | Human and automatic speaker recognition over telecommunication channels | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
García et al. | Automatic emotion recognition in compressed speech using acoustic and non-linear features | |
JP5524131B2 (ja) | テキスト及び音声特徴量収集方法、そのシステム、プログラム | |
US11043212B2 (en) | Speech signal processing and evaluation | |
Vicente-Peña et al. | Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
Duxans et al. | Residual conversion versus prediction on voice morphing systems | |
Abad et al. | Automatic classification and transcription of telephone speech in radio broadcast data | |
JP2003122395A (ja) | 音声認識システム、端末およびプログラム、並びに音声認識方法 | |
El-Maleh | Classification-based Techniques for Digital Coding of Speech-plus-noise | |
Sun et al. | Speech compression | |
Gallardo | Human and automatic speaker recognition over telecommunication channels | |
JP4932530B2 (ja) | 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム | |
JP7296214B2 (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5524131 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |