JP2012247679A - テキスト及び音声特徴量収集方法、そのシステム、プログラム - Google Patents

テキスト及び音声特徴量収集方法、そのシステム、プログラム Download PDF

Info

Publication number
JP2012247679A
JP2012247679A JP2011120323A JP2011120323A JP2012247679A JP 2012247679 A JP2012247679 A JP 2012247679A JP 2011120323 A JP2011120323 A JP 2011120323A JP 2011120323 A JP2011120323 A JP 2011120323A JP 2012247679 A JP2012247679 A JP 2012247679A
Authority
JP
Japan
Prior art keywords
voice
speech
text
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011120323A
Other languages
English (en)
Other versions
JP5524131B2 (ja
Inventor
Yoshikazu Yamaguchi
義和 山口
Narihisa Nomoto
済央 野本
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011120323A priority Critical patent/JP5524131B2/ja
Publication of JP2012247679A publication Critical patent/JP2012247679A/ja
Application granted granted Critical
Publication of JP5524131B2 publication Critical patent/JP5524131B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】大幅に送信データ量を増やすことなくサーバ端末から音声認識用の音声特徴量と元の音声の発言内容を書き起こすための情報とを送信することができ、かつ、サーバ端末で元の音声の発言内容を示すテキストと音声認識用の音声特徴量を収集することができる技術を提供する。
【解決手段】クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成し、音声特徴量変換部が、入力音声信号を音声特徴量に変換し、送信データ結合部が、圧縮音声信号と音声特徴量とを結合し送信データを生成する。サーバ端末の送信データ分割部が、受信した送信データを圧縮音声信号と音声特徴量とに分割し、音声認識部が、音声特徴量を用いて音声認識を行い、認識結果を求め、音声復元部が、低ビットレートコーデックにより圧縮音声信号を低品質の音声に復元する。
【選択図】図1

Description

本発明は、クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する技術に関する。
音声認識の精度を向上させるには、音響モデルや言語モデルの学習及び適応、あるいは辞書への新規単語追加が必要である。そのためには、例えば100時間以上の大量の音声データやそれらを書き起こしたテキストを準備する必要がある。音響モデルでよく利用される連続混合分布HMM(Hidden Markov Model)や、言語モデルでよく利用されるN−gramなどは統計モデルと呼ばれ、音声データサンプル及びその書き起こしテキストデータサンプルから統計値を算出することでモデルを学習するため、音声データを大量に収集し利用することが重要である。
様々な人、環境(雑音)、話題に対応できる汎用的な音響モデルや辞書・言語モデルを学習及び適応するためには、ただ音声データを大量に収集するのではなく、人、環境(雑音)、話題などが異なる、多様なバリエーションの音声データを収集することが有効である。その音声の収集方法の1つとして、多数の人が携帯電話等を利用して様々な場所から音声を入力し、サーバ端末に送信して、サーバ端末が音声データを収集及び保存する方法がある。例えば、サーバ端末が、携帯電話に入力された音声データに対して音声認識結果を返信するサービスを提供している場合、サーバ端末は、音声認識サービスを提供しつつ、そこで入力された音声データを収集することもでき、別途必要となる音声収録コストを削減することができる。
携帯電話等のクライアント端末で音声を音声認識用の音声特徴量に変換し、その音声特徴量をサーバ端末に送信し、サーバ端末で音声認識を行い、認識結果をクライアント端末に送信する従来技術として特許文献1が知られている。
特開2006−350090号公報
このような携帯電話等の携帯端末で音声認識を利用する場合、音声認識の処理量が大きいため、クライアント端末側で全ての処理を行えない。そのため、無線網等のネットワークを介した先にあるサーバ端末に音声情報を送信して、サーバ端末において音声認識を行い、認識結果をクライアント端末に送信することが多い。この場合、音声をそのまま音声情報として送信すると、その送信データ量が大きい。送信データ量が大きいと、データの送信遅延が発生し、結果としてクライアント端末が認識結果を取得するまでのレスポンスタイムが長くなる場合がある。よって、携帯電話網など狭帯域通信においては送信データ量を削減するために、クライアント端末側で、音声信号を音声特徴量に変換したり、音声信号を音声コーデックで圧縮する等して、送信データ量を削減してサーバ端末に送信する。
しかしながら、携帯電話端末等のクライアント端末で音声を入力し、音声認識用の音声特徴量に変換して送信データ量を圧縮してサーバ端末に送信し、サーバ端末で音声認識処理し、認識結果をクライアントに送信するようなクライアント・サーバ音声認識(分散型音声認識またはDSR(Distributed Speech Recognition)とも呼ぶ)では、音声が人間にとって可聴でない音声特徴量(以下「音声認識用音声特徴量」という)に変換される。そのため、サーバ端末側で発言内容の書き起こしができない。よって、上述の分散型音声認識においては、書き起こしテキストを収集できないため、収集したデータ(音声特徴量のみ)に基づいて、音響モデルや辞書・言語モデルを学習及び適応することができない。
また、可聴でない音声特徴量に変換する代わりに、音声コーデックにより可聴な音声に圧縮してからサーバ端末に送信し、サーバ端末で復元してから音声認識を行うクライアント・サーバ音声認識も考えられる。この場合、音声が可聴なので発言内容の書き起こしはできるが、圧縮されているため音声品質が劣化してしまう。この劣化した音声を音声特徴量に変換し、この音声特徴量と書き起こしテキストを用いると、圧縮音声品質に特化した音響モデルの学習及び適応を行うことはできるが、汎用的な音響モデルを学習及び適応することはできない。
本発明は、大幅に送信データ量を増やすことなくサーバ端末から音声認識用の音声特徴量と元の音声の発言内容を書き起こすための情報とを送信することができ、かつ、サーバ端末で元の音声の発言内容を示すテキストと音声認識用の音声特徴量を収集することができる技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する。音声特徴量は元の音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の音声を復元することはできないものとする。クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成し、クライアント端末の音声特徴量変換部が、入力音声信号を音声特徴量に変換し、クライアント端末の送信データ結合部が、圧縮音声信号と音声特徴量とを結合し送信データを生成する。サーバ端末の送信データ分割部が、受信した送信データを圧縮音声信号と音声特徴量とに分割し、サーバ端末の音声認識部が、音声特徴量を用いて音声認識を行い、認識結果を求め、サーバ端末の音声復元部が、低ビットレートコーデックにより圧縮音声信号を低品質の音声に復元し、サーバ端末の出力部が、認識結果と低品質の音声とに基づいて書き起こされたテキストと、テキストに対応する音声特徴量と、を出力する。
上記の課題を解決するために、本発明の第二の態様によれば、クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集する。第一音声特徴量及び第二音声特徴量はそれぞれ元の音声の特徴を表すデータであって、何れか一方の音声特徴量のみに基づいて元の音声が復元することはできないが、二つの音声特徴量に基づいて劣化した元の音声を復元することはでき、第一音声特徴量のみに基づいて音声認識を行うことはできるものとする。クライアント端末の音声特徴量変換部が、入力音声信号を第一音声特徴量及び第二音声特徴量に変換する。サーバ端末の音声認識部が、第一音声特徴量を用いて音声認識を行い、認識結果を求め、サーバ端末の音声復元部が、第一音声特徴量及び第二音声特徴量を劣化した元の音声に復元し、サーバ端末の出力部が、劣化した元の音声に基づいて書き起こされたテキストと、テキストに対応する第一音声特徴量と、を出力する。
上記の課題を解決するために、本発明の第三の態様によれば、クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する。音声特徴量は元の音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の音声を復元することはできないものとし、所定のピッチ情報と音声特徴量を組合せると劣化した元の音声を復元することはできるものとする。クライアント端末の音声特徴量変換部が、入力音声信号を音声特徴量に変換する。サーバ端末の音声認識部が、単語単位の音声認識辞書を参照し音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求め、サーバ端末の音声復元部が、音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、劣化した元の音声を復元し、サーバ端末の出力部が、劣化した元の音声に基づいて書き起こされたテキストと、テキストに対応する音声特徴量と、を出力する。
本発明は、大幅に送信データ量を増やすことなくサーバ端末から音声認識用の音声特徴量と元の音声の発言内容を書き起こすための情報とを送信することができ、かつ、サーバ端末で元の音声の発言内容を示すテキストと音声認識用の音声特徴量を収集することができるという効果を奏する。
さらに、本発明により収集したテキストと音声特徴量に基づけば、高品質かつ汎用的な辞書・言語モデルや音響モデルを学習及び適応することができる。
テキスト及び音声特徴量収集システム1の機能ブロック図。 テキスト及び音声特徴量収集システム1の処理フローを示す図。 クライアント端末11の機能ブロック図。 クライアント端末11の処理フローを示す図。 圧縮音声記憶部113と音声特徴量記憶部115と送信データ記憶部117に記憶されるデータ例を示す図。 サーバ端末13の機能ブロック図。 サーバ端末13の処理フローを示す図。 音声波形をケプストラムに変換する流れ、及びケプストラムを音声波形に復元する流れを説明するための図。 クライアント端末21の機能ブロック図。 クライアント端末21の処理フローを示す図。図。 サーバ端末23の機能ブロック図。 サーバ端末23の処理フローを示す図。 クライアント端末31の機能ブロック図。 クライアント端末31の処理フローを示す図。図。 サーバ端末33の機能ブロック図。 サーバ端末33の処理フローを示す図。 サーバ端末43の機能ブロック図。 サーバ端末43の処理フローを示す図。
以下、本発明の実施形態について、説明する。
<第一実施形態に係るテキスト及び音声特徴量収集システム1>
図1及び図2を用いて第一実施形態に係るテキスト及び音声特徴量収集システム1を説明する。テキスト及び音声特徴量収集システム1は、M台のクライアント端末11と通信回線12とサーバ端末13とを含む。但し、Mは1以上の整数であり、m=1,2,…,Mである。
クライアント端末11から音声が入力される(s11)。クライアント端末11は、この入力音声から音声認識用の音声特徴量を含む送信データを生成し、無線回線網やインターネット網等を含む通信回線12を介してサーバ端末13に送信する。
サーバ端末13は、送信データを受信し、音声認識用の音声特徴量を用いて音声認識し、さらに、送信データを用いて、元の音声の発言内容を復元する(s13)。
一定量の音声データ(例えば、一単語や一発話分、一通話分、一定期間分(一時間分、一日間分、一月間分等))が蓄積されると(s132)、人手によりその発言内容をテキストに書き起こす(s140)。サーバ端末13は、音声に対するテキストを辞書・言語モデル学習装置92に出力し、音声に対するテキスト及び音声特徴量を音響モデル学習装置93に出力する(s142)。
辞書・言語モデル学習装置92や音響モデル学習装置93において学習及び適応した辞書・言語モデルや音響モデルはサーバ端末13で用いる音声認識処理に用いてもよいし、他の音声認識装置94で用いてもよい。
また、サーバ端末13の音声認識結果は、通信回線12を介してクライアント端末11に対して送信してもよい。このような構成とすることで分散型音声認識を実現することができる。
なお、音声認識用の音声特徴量とは元の音声の特徴を表すデータであり、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとする。複数の時系列の音声信号サンプルを1つにまとめたものをフレームといい、このフレーム毎に音声認識用の音声特徴量に変換される。例えば、音声認識用の音声特徴量は、1次〜12次ケプストラムとパワーの13個の音声特徴量からなる。
以下、各端末の処理内容を説明する。
<クライアント端末11
図3及び図4を用いてクライアント端末11を説明する。クライアント端末11は、音声入力部111と音声圧縮部112と圧縮音声記憶部113と音声特徴量変換部114と音声特徴量記憶部115と送信データ結合部116と送信データ記憶部117とデータ送信部118とを含む。
クライアント端末11は、携帯電話端末や携帯情報端末等の通信機能を備える携帯端末であり、音声を入力され、送信データを出力する。以下、各部の処理内容を説明する。
<音声入力部111>
音声入力部111は、マイクロホン等を介して入力音声をアナログ入力音声信号として取得し(s111)、これをA/D変換器を用いてデジタル入力音声信号に変換し、図示しないバッファに蓄積する。さらに、バッファに蓄積された時系列のデジタル入力音声信号をフレームに分割し、音声圧縮部112と音声特徴量変換部114へ出力する。例えば、1秒間のデジタル入力音声信号を100フレームに分割する(例えば、デジタル入力音声信号のサンプリング周波数を16kHzとし、フレーム長30msとし、シフト幅10msとし、1フレームに含まれるサンプル数を480サンプルとする)。
<音声圧縮部112と圧縮音声記憶部113>
音声圧縮部112は、入力音声の開始からフレーム毎に入力音声信号を低ビットレートコーデック(例えばG.723(5.3kbps))により圧縮し圧縮音声信号を生成し(s112)、圧縮音声記憶部113に記憶する。
なお、この圧縮音声は、書き起こしのための再生音声として使用するのみで、音響モデルの学習には用いないため、可聴であればビットレートの低い、低品質音声に変換されても問題はない。詳細は後述する。
<音声特徴量変換部114と音声特徴量記憶部115>
音声特徴量変換部114は、入力音声の開始からフレーム毎に入力音声信号を音声特徴量に変換し(s114)、音声特徴量記憶部115に記憶する。
この音声特徴量に変換した時点で人には非可聴な音声情報となる。しかし、元々音声特徴量に基づいて音声認識処理を行うため、音声認識にとっては品質が劣化していない音声情報である。
なお、音声認識処理における音声品質劣化を許容する形で、この後段の処理として、例えば参考文献1のように、音声特徴量を圧縮する処理を含めても良い。但し、この場合、高精度かつ汎用的な音響モデル学習の効果は少なくなる。
[参考文献1]「ETSI ES 202 212 V1.1.1」, ETSI, 2003
<送信データ結合部116と送信データ記憶部117とデータ送信部118>
送信データ結合部116は、1フレームあるいは複数フレーム毎に圧縮音声信号と音声特徴量とを結合し送信データを生成し(s116)、送信データ記憶部117に記憶する。図5は、音声特徴量と圧縮音声信号を1フレーム毎に交互に結合している例である。
例えば、サンプリング周波数を16kHzとし、1サンプルを16ビットで量子化し、PCM(pulse code modulation)形式のデジタル入力音声信号をそのままサーバ端末13に送信する場合、そのデータ量は16k×16=256kbpsとなる。
一方、本実施形態において、1秒あたり100フレーム、1フレームあたり13個の音声特徴量を持ち、1音声特徴量を32ビットで表す場合、そのデータ量は100×13×32=41.6kbpsであり、圧縮音声信号のデータ量は例えばG.723ならば5.3kbpsである。結合された送信データは上記の例ではたかだか5.3+41.6=46.9kbpsであり、デジタル入力音声信号をそのまま送信するよりも送信データ量が少なくなる。言い換えると、本実施形態には送信データ量の削減効果がある。
データ送信部118は、結合された送信データを、1フレームあるいは複数フレーム毎にパケット化してサーバ端末13に送信する。図5では、2フレーム毎にパケット化し、サーバ端末13に送信している。
さらに、クライアント端末11は、未処理のフレームがあるか否かを判定する(s1171)。未処理のフレームがある場合には、N(但し、Nは1パケットに含まれるフレーム数であり、例えばN=2)フレーム分の未送信の送信データがあるか否かを判定し(s1172)、ある場合には、データ送信部118がパケット化したNフレーム分の送信データを送信し(s118)、ない場合にはNフレーム分の未送信の送信データを送信するために上述の処理(s112、s114、s116)を繰り返す。
s1171において、未処理のフレームがない場合には、データ送信部118がパケット化した送信データ(Nフレーム以下)を送信する(s118)。
このようにしてクライアント端末11は、全ての入力音声に対して、言い換えると未処理フレームがなくなるまで(s119)、上述の処理(s112、s114、s116)を行い、送信データを送信する。
例えば、クライアント端末11は、5秒間分の音声が入力された場合に、その音声は500フレームに分割し、各フレームに対し圧縮音声信号と音声特徴量を求め、これらの信号を結合して送信データを作成し、この送信データをNフレーム毎にパケット化して、サーバ13に送信する。
<サーバ端末13>
図6及び図7を用いてサーバ端末13を説明する。サーバ端末13は、データ受信部131と受信データ記憶部132と送信データ分割部133と圧縮音声記憶部134と音声復元部135と復元音声記憶部136と音声特徴量記憶部137と音声認識部138と認識結果記憶部139と書き起こし部140とテキスト記憶部141と出力部142とを含む。
サーバ端末13は、上述の送信データを入力され、テキストと音声特徴量を出力する。以下、各部の処理内容を説明する。
<データ受信部131と受信データ記憶部132>
サーバ端末13は、データ受信部131を介して送信データを受信し(s131)、受信データ記憶部132に記憶する。
<送信データ分割部133と圧縮音声記憶部134と音声特徴量記憶部137>
送信データ分割部133は、受信データ記憶部132から送信データを取得し、元の圧縮音声信号と前記音声特徴量とに分割し(s133)、それぞれ圧縮音声記憶部134と音声特徴量記憶部137に記憶する。
<音声復元部135と復元音声記憶部136>
音声復元部135は、圧縮音声記憶部134から圧縮音声信号を取得し、音声圧縮部112で用いた低ビットレートコーデックと同様のコーデックにより圧縮音声信号を低品質の可聴な音声信号に復元し(s135)、復元音声記憶部136に記憶する。
<音声認識部138と認識結果記憶部139>
音声認識部138は、音声特徴量記憶部137から音声特徴量を取得し、これを用いて音声認識を行い(s138)、認識結果を求め、認識結果記憶部139に記憶する。
サーバ端末13は、受信した全ての送信データに対して(言い換えると、受信した全ての送信データ内の全フレームに対し、未処理のフレームがなくなるまで(s139))上述の処理(s133、s135、s138)を行う。
このときに認識結果をクライアント端末11に送信する構成とすることで、分散型音声認識を実現することができる。但し、必ずしも認識結果をクライアント端末11に送信する必要はない。詳細は変形例で説明する。
<書き起こし部140とテキスト記憶部141>
書き起こし部140は、復元音声記憶部136から低品質の可聴な音声を取得し、再生し、図示しないスピーカ等から出力する。テキスト及び音声特徴量収集システム1を使ってテキスト及び音声特徴量を収集しようとする利用者は、再生音(低品質の可聴な音声)に対応するテキストを書き起こす、つまり、再生音を聞きながら、図示しないキーボード等を使って、再生音に対応するテキスト(以下「書き起こしテキスト)という)を作成する。書き起こしテキストはテキスト記憶部141に記憶される。
なお、この書き起こしの際に、書き起こし効率を向上させるために、認識結果を修正する形で書き起こしを実施しても良い。この場合、聞き起こし部140は、認識結果記憶部139から認識結果を取得し、図示しないディスプレイ等に出力する。利用者は、低品質の可聴な音声と認識結果を視聴し、図示しないキーボード等を使って、認識結果を修正する形で書き起こしテキストを作成する。
なお、音声認識部138における音声認識率は必ずしも100%ではないため、音響モデルや言語モデルの学習用データとして利用するには必ず音声を再生して、利用者が音声を確認し、正解のテキストとして書き起こす必要がある。
<出力部142>
出力部142は、テキスト記憶部141からテキストを取得し、音声特徴量記憶部137から音声特徴量を取得し、テキストを復元音声に紐づいている音声特徴量に同じく紐付ける。このテキストと、このテキストに対応する音声特徴量と、を出力する(s142)。
例えば、サーバ端末13は、500フレーム分の圧縮音声信号を復元し、復元音声(5秒分)を再生して聞き起したテキストに、復元音声(または圧縮音声信号)に紐づいている音声特徴量を紐付けて、テキストと、そのテキストに紐付けられた音声特徴量を出力する。
書き起こされたテキストと、テキストに紐付けられた音声特徴量は、外部の音響モデル学習装置93に送られ、ある一定のデータ量が蓄積された時点で音響モデルの学習に利用される。また、書き起こされたテキストは、外部の辞書・言語モデル学習装置92に送られ、ある一定のデータ量が蓄積された時点で、辞書への単語登録と言語モデルの学習に利用される。
<効果>
このように、圧縮音声信号と音声特徴量が同時にクライアント端末11からサーバ端末13に送信されることで、大幅に送信データ量を増やすことなく、低品質の可聴な音声に基づき書き起こしが可能となり、テキストと音声認識用の音声特徴量を収集することができる。テキストと音声認識用の音声特徴量を音響モデルや辞書・言語モデルの学習へ利用することができる。さらに音響モデルの学習には品質劣化のない音声特徴量を用いることから、高精度かつ特定の圧縮された品質によらない音響モデルの学習及び適応が可能となる。
また、本実施形態は、クライアント端末を利用した音声認識サービスを提供すると同時に、音声に対するテキスト及び音声特徴量の収集を実施することができる。
<変形例>
第一実施形態と異なる部分についてのみ説明する。サーバ端末13の構成が第一実施形態とは異なる。本変形例では、サーバ端末13は、音声認識部138と認識結果記憶部139を含まない構成とする(図6の破線部分の構成を含まない)。
クライアント端末11に対して音声認識サービスを提供せず、音声に対するテキストと音声特徴量の収集のみを目的として実施する例を示す。このとき第一実施形態との違いは、サーバ端末13に音声認識部138と認識結果記憶部139がなく、音声認識処理を実施しないところにある(図7の破線部分の処理を行わない)。つまり、サーバ端末13の音声特徴量記憶部137に記憶される音声特徴量は音声認識には用いられず、外部の音響モデル学習装置93に送られ、音響モデルの学習に利用されるのみである。
この変形例では、書き起こし部140において書き起こし効率を向上するために、認識結果を修正する形で書き起こしを実施することはできなくなる。しかし、サーバ端末13へのCPU負荷が少なくて済むという効果がある。
また、テキスト及び音声特徴量の収集と同時に音声認識を提供しているわけではないので認識結果を得るまでに時間がかかるという問題は存在しない。そのため、音声を音声特徴量変換及び音声圧縮なしで送信してもよいが、一方で収集のみを目的とした場合、発声直後に発話内容を再生して確認する作業を実施することが多いため、データの送信遅延が存在すると、発話内容の再生までに時間がかかってしまうために収集効率が悪くなる。つまり収集効率を高めるためには、収集のみを目的とする場合であっても音声特徴量と圧縮音声をサーバ端末13に送信して送信データ量を削減することの効果はある。
<第二実施形態に係るテキスト及び音声特徴量収集システム2>
第一実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第二実施形態に係るテキスト及び音声特徴量収集システム2を説明する。テキスト及び音声特徴量収集システム2は、M台のクライアント端末21と通信回線12とサーバ端末23とを含む。クライアント端末21における音声入力処理(s21)とクライアント端末21の構成、サーバ端末23における音声認識及び復元処理(s23)とサーバ端末23の構成が第一実施形態とは異なる。
なお、以下で説明する第一音声特徴量及び第二音声特徴量はそれぞれ元の音声の特徴を表すデータであって、何れか一方の音声特徴量のみに基づいて元の音声が復元することはできないが、二つの音声特徴量に基づいて劣化した元の音声を復元することはでき、第一音声特徴量のみに基づいて音声認識を行うことはできるものとする。例えば、第一音声特徴量は、1次〜12次ケプストラムとパワーの13個の音声特徴量からなり、第二音声特徴量は、ピッチ情報である。ここで、ピッチ情報とはピッチ周波数のみ、あるいは、ピッチ周波数とそのピッチ周波数におけるケプストラム値である。
第一実施形態においてクライアント端末11が圧縮音声信号をサーバ端末13に送信するのは、人が可聴な音声信号を送信するためである。本実施形態では、圧縮音声信号を送信する代わりにピッチ情報を送信する。本実施形態では、音声認識用に用いる音声特徴量であるケプストラムやパワー(第一音声特徴量)に加えて、ピッチ情報(第二音声特徴量)をサーバ端末23に送信することで、これら音声特徴量から可聴な音声を復元することが可能である。図8は(a)音声波形から(b)周波数スペクトル、そして(c)ケプストラムに変換される工程と、その逆の工程((d)ケプストラムから(e)周波数スペクトル、そして(f)音声波形に変換される工程)を示している。音声認識用に用いる音声特徴量であるケプストラムとパワーだけでは音声のスペクトル包絡(図8(e)の破線)のみの復元しかできないが、ピッチ情報を加えることでスペクトルの微細構造も復元され(図6(f)の実線)、可聴な音声が復元できる。以下、各端末の詳細を説明する。
<クライアント端末21
クライアント端末11と異なる部分についてのみ説明する。図9及び図10を用いてクライアント端末21を説明する。クライアント端末21は、音声入力部111と音声特徴量変換部214と音声特徴量記憶部215とデータ送信部118とを含む。
クライアント端末21は、音声を入力され、送信データを出力する。クライアント端末21は、圧縮音声信号に代えて第二音声特徴量(ピッチ情報)を送信する点が第一実施形態と異なる。以下、各部の処理内容を説明する。
<音声特徴量変換部214と音声特徴量記憶部215>
音声特徴量変換部214は、入力音声の開始からフレーム毎に入力音声信号を第一音声特徴量及び第二音声特徴量に変換し(s214)、音声特徴量記憶部215に記憶する。
これは、図8(c)にあるように、音声から変換されたケプストラムのうち有意な値である値のみを抽出していることになる。
<データ送信部118>
データ送信部118は、第一音声特徴量と第二音声特徴量からなる送信データを、1フレームあるいは複数フレーム毎にパケット化してサーバ端末13に送信する。図5では、2フレームごとにパケット化し、サーバ端末13に送信している。
このときの送信データ量は、ピッチ周波数を8ビットで送信したとして42.4kbpsとなり(但し、第一音声特徴量の送信量は第一実施形態の音声特徴量と同様とし、41.6kbpsとする)、さらにピッチ周波数におけるケプストラム値を32ビットで追加で送信したとして45.6kbpsとなる。よって、第一実施形態で説明した場合と同様に、音声信号をそのまま送信するよりも少ない送信量となる。
<サーバ端末23>
サーバ端末13と異なる部分についてのみ説明する。図11及び図12を用いてサーバ端末23を説明する。サーバ端末23は、データ受信部131と音声復元部235と復元音声記憶部136と音声特徴量記憶部237と音声認識部138と認識結果記憶部139と書き起こし部140とテキスト記憶部141と出力部142とを含む。
サーバ端末23は、上述の送信データを入力され、テキストと音声特徴量を出力する。
<音声特徴量記憶部237>
サーバ端末23は、データ受信部131を介して送信データを受信し(s131)、音声特徴量記憶部237に記憶する。なお、送信データには、第一音声特徴量と第二音声特徴量とが含まれる。
<音声復元部235>
音声復元部235は、音声特徴量記憶部237から第一音声特徴量と第二音声特徴量とを取得し、第一音声特徴量及び第二音声特徴量を劣化した元の音声に復元し(s235)、復元音声記憶部136に記憶する。
音声復元部235では第一音声特徴量及び第二音声特徴量の全てを用いて、図6(d)のケプストラムから(f)音声波形に変換する工程を実施する。この工程は例えば音声合成で実施される工程と類似している(例えば参考文献2参照)。
[参考文献2]赤川達也、岩野公司、古井貞煕、「HMMを用いた話し言葉音声合成の実現に向けての検討」、電子情報通信学会 技術研究報告、2005年5月、Vol. SP2005、No. 16、pp. 25-30
参考文献2では、24次までのケプストラムを利用することで音声品質を高めている。しかしながら、本実施形態では送信データ量を増加させないことが目的であり、ケプストラムの次数を高めるわけには行かない。そこで、サーバから送信されていない欠落したケプストラムの値は、適切な値(例えば0)で補完する。また、ピッチ周波数におけるケプストラム値が送信されていない場合、ピッチ周波数が0の場合、すなわち無声音の場合は0、そうでない場合、すなわち有声音の場合は適切な値(例えば12次までのケプストラム最大値に0.8を乗じたものなど)で補完する。このようにして復元された復元音声は復元音声記憶部136に記憶され、後段の書き起こし部で再生音声として利用される。
<音声認識部138>
なお、音声認識部138は、音声特徴量記憶部237から第一実施形態と同様にケプストラムとパワーを含む音声特徴量(第一音声特徴量)を取得し、これを用いて音声認識を行い(s138)、認識結果を求め、認識結果記憶部139に記憶する。つまり、音声認識処理には、ピッチ情報(第二音声特徴量)を使わない。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。音声復元部235において、音声特徴量のみからなる音声復元によることで可聴音声品質は劣化してしまうが、第一実施形態の送信量(46.9kbps)よりもさらに送信量(45.6kbps)を削減することができる。
<第三実施形態に係るテキスト及び音声特徴量収集システム3>
第一実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第三実施形態に係るテキスト及び音声特徴量収集システム3を説明する。テキスト及び音声特徴量収集システム3は、M台のクライアント端末31と通信回線12とサーバ端末33とを含む。
クライアント端末31における音声入力処理(s31)とクライアント端末31の構成、サーバ端末33における音声認識及び復元処理(s33)とサーバ端末33の構成が第一実施形態とは異なる。
本実施形態は、第一実施形態及び第二実施形態において圧縮音声やピッチ情報を送信しない構成となる。第二実施形態で説明したように音声特徴量から音声を復元するには音声認識用の音声特徴量(1次〜12次ケプストラムとパワー)に加え、ピッチ情報が必要である。しかし、本実施形態ではこのピッチ情報を送信せずに、認識結果を基づいてピッチ情報を補完し、音声を復元する。以下、詳細を説明する。
<クライアント端末31
クライアント端末11と異なる部分についてのみ説明する。図13及び図14を用いてクライアント端末31を説明する。クライアント端末31は、音声入力部111と音声特徴量変換部114と音声特徴量記憶部115とデータ送信部118とを含む。つまり、音声圧縮部112と圧縮音声記憶部113と送信データ結合部116と送信データ記憶部117を含まない点がクライアント端末11と異なる。
クライアント端末31は、音声を入力され、送信データを出力する。なお、送信データは、音声認識用の音声特徴量のみからなる(圧縮音声信号もピッチ情報も含まない)。以下、各部の処理内容は、第一実施形態と同様である。
なお、データ送信部118は、音声特徴量のみからなる送信データを、1フレームあるいは複数フレーム毎にパケット化してサーバ端末13に送信する。
<サーバ端末33>
サーバ端末13と異なる部分についてのみ説明する。図15及び図16を用いてサーバ端末33を説明する。サーバ端末33は、データ受信部131と音声復元部335と復元音声記憶部136と音声特徴量記憶部137と音声認識部338と認識結果記憶部339と書き起こし部140とテキスト記憶部141と出力部142とを含む。
サーバ端末13は、上述の送信データを入力され、テキストと音声特徴量を出力する。以下、各部の処理内容を説明する。
<音声認識部338>
音声認識部338が、単語単位の音声認識辞書(例えばサービス実施用の音声認識辞書)を参照し、音声特徴量を用いて音声認識を行い、テキスト(例えば漢字かな混じりテキスト)に加え、さらに、音素列及びその区間情報を含む認識結果を求め(s338)、認識結果を認識結果記憶部339に記憶する。
<音声復元部335>
音声復元部335は、音声特徴量記憶部137から音声特徴量を取得し、さらに、認識結果記憶部339から音素列及び区間情報を取得し、これらの情報に基づき、音声特徴量をフレーム毎に有音部と無声部とに判別する。さらに、音声復元部335は、有声部と判別されたフレームに対し所定のピッチ情報(例えば、一般女性の平均値である220Hz)を与え、無声部と判別されたフレームに対し0を与えて、劣化した元の音声を復元し(s335)、復元音声記憶部136に記憶する。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。クライアント端末31から送信される音声特徴量に対して圧縮音声信号やピッチ情報等の付加情報がなく送信データ量を増加させずに、サーバ端末33側で音声を復元し、書き起こしを実施することが可能になる。よって、送信データ量をさらに削減することができる。
<第四実施形態に係るテキスト及び音声特徴量収集システム4>
第三実施形態と異なる部分についてのみ説明する。図1及び図2を用いて第四実施形態に係るテキスト及び音声特徴量収集システム4を説明する。テキスト及び音声特徴量収集システム4は、M台のクライアント端末31と通信回線12とサーバ端末43とを含む。サーバ端末43における音声認識及び復元処理(s43)とサーバ端末43の構成が第三実施形態とは異なる。
本実施形態では、第四実施形態の音声認識部338とは別に、有声無声判別を実施する。本実施形態では、第三実施形態と同様に、ピッチ情報を送信せずに、認識結果を基づいてピッチ情報を補完し、音声を復元する。しかし、第三実施形態の場合、単語単位の音声認識辞書(例えばサービス実施用の音声認識辞書)を参照し、音声特徴量を用いて音声認識を行うので、誤認識があった場合でも限られた認識対象単語の中から単語が選ばれてしまう。例えば都道府県を認識するような音声認識サービスを実施するための音声認識辞書の場合、実際の発声内容が「名古屋」であっても必ず都道府県の中から選ばれてしまうため、誤認識があった場合に「長崎」としてしまう可能性がある。このような実際の音声とかけ離れた単語であれば、有声音と無声音の判別に誤りが含まれ復元音声が聞きづらい可能性があり、書き起こし効率が悪化する。そこで、本実施形態ではサービス実施用の音声認識辞書の内容によらない、有声無声判別方法を採用する。つまり、仮に誤認識であっても発声内容に近い認識結果(例えば「ながや」)が得られるため、有声音と無声音の判別誤りが軽減され、復元音声の聞きづらさも軽減することができる。
以下、詳細を説明する。
<サーバ端末43>
サーバ端末33と異なる部分についてのみ説明する。図17及び図18を用いてサーバ端末43を説明する。サーバ端末43は、データ受信部131と有声無声判別部438と有声無声記憶部439と音声復元部435と復元音声記憶部136と音声特徴量記憶部137と音声認識部338と認識結果記憶部339と書き起こし部140とテキスト記憶部141と出力部142とを含む。但し、音声認識部338と認識結果記憶部339を、それぞれ第一実施形態の音声認識部138と認識結果記憶部139に置き換えてもよい。
サーバ端末43は、上述の送信データを入力され、テキストと音声特徴量を出力する。以下、各部の処理内容を説明する。
<有声無声判別部438と有声無声記憶部439>
有声無声判別部438は、音声認識部338で用いる単語単位の音声認識辞書よりも短い単位の判別辞書を参照し音声特徴量を用いて判別処理を行い(s438)、判別結果を有声無声記憶部439に記憶する。
例えば有声無声判別部では、音声特徴量記憶部137の音声特徴量を、音節タイプライタと呼ばれる音声認識用辞書を判別辞書として用いて音声認識処理し(参考文献3参照)、その結果である音素列からフレーム毎に有音部と無声部に判別し、判別結果をその区間情報とともに有声無声記憶部439に記憶する。こ
[参考文献3]渡辺隆夫、塚田聡、「音節認識を用いたゆう度補正による未知発話のリジェクション」、電子情報通信学会論文誌、1992年、Vol.J75-D2、No.12、pp.2002-2009
このような構成とすることで、発話内容が「名古屋」である場合に、認識結果が「長崎」となるような誤認識を避けることができる。例えば、音節タイプライタを用いて音声認識処理を行った場合には、誤認識があった場合にも、上述のような大きな誤認識を避けることができる。例えば、誤認識の認識結果は「ながや」等の小さな誤認識となる可能性が高い。
また、判別辞書として、有声音だけで学習したGMM(Gaussian Mixture Model)と無声音だけで学習したGMMを用いてもよい。この場合も、音声認識部338で用いる単語単位の音声認識辞書よりも短い単位の判別辞書となる。有声無声判別部438は、GMMによる判別辞書を参照し音声特徴量を用いて、有声部と無声部とを判別することができる。
<音声復元部435>
音声復元部435は、有声無声記憶部439から判定結果を取得し、有声部と判別されたフレームに対し、所定のピッチ情報(例えば、一般女性の平均値である220Hz)を、無声部には0を与えて、音声を復元し(s435)、復元音声記憶部136に記憶する。
<効果>
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、音節タイプライタを利用することで、仮に誤認識であっても発声に近い認識結果が得られるため、有声音と無声音の判別誤りが軽減され、復元音声の聞きづらさも軽減することができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述したクライアント端末及びサーバ端末は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
本発明を用いて収集したテキストを辞書・言語モデルの学習に利用することができる。また、本発明を用いて収集したテキスト及び音声特徴量を音響モデルの学習に利用することができる。

Claims (8)

  1. クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する方法であって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとし、
    前記クライアント端末の音声圧縮部が、入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成する音声圧縮ステップと、
    前記クライアント端末の音声特徴量変換部が、前記入力音声信号を前記音声特徴量に変換する音声特徴量変換ステップと、
    前記クライアント端末の送信データ結合部が、前記圧縮音声信号と前記音声特徴量とを結合し送信データを生成する送信データ結合ステップと、
    前記サーバ端末の送信データ分割部が、受信した前記送信データを前記圧縮音声信号と前記音声特徴量とに分割する送信データ分割ステップと、
    前記サーバ端末の音声認識部が、前記音声特徴量を用いて音声認識を行い、認識結果を求める音声認識ステップと、
    前記サーバ端末の音声復元部が、前記低ビットレートコーデックにより前記圧縮音声信号を低品質の前記音声に復元する音声復元ステップと、
    前記サーバ端末の出力部が、前記認識結果と低品質の前記音声とに基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力ステップと、
    を含むテキスト及び音声特徴量収集方法。
  2. クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集する方法であって、前記第一音声特徴量及び第二音声特徴量はそれぞれ元の前記音声の特徴を表すデータであって、何れか一方の前記音声特徴量のみに基づいて元の前記音声が復元することはできないが、二つの前記音声特徴量に基づいて劣化した元の前記音声を復元することはでき、前記第一音声特徴量のみに基づいて音声認識を行うことはできるものとし、
    前記クライアント端末の音声特徴量変換部が、入力音声信号を前記第一音声特徴量及び第二音声特徴量に変換する音声特徴量変換ステップと、
    前記サーバ端末の音声認識部が、前記第一音声特徴量を用いて音声認識を行い、認識結果を求める音声認識ステップと、
    前記サーバ端末の音声復元部が、前記第一音声特徴量及び第二音声特徴量を劣化した元の前記音声に復元する音声復元ステップと、
    前記サーバ端末の出力部が、劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記第一音声特徴量と、を出力する出力ステップと、
    を含むテキスト及び音声特徴量収集方法。
  3. クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集する方法であって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の前記音声を復元することはできないものとし、所定のピッチ情報と前記音声特徴量を組合せると劣化した元の前記音声を復元することはできるものとし、
    前記クライアント端末の音声特徴量変換部が、入力音声信号を前記音声特徴量に変換する音声特徴量変換ステップと、
    前記サーバ端末の音声認識部が、単語単位の音声認識辞書を参照し前記音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求める音声認識ステップと、
    前記サーバ端末の音声復元部が、音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、前記劣化した元の前記音声を復元する音声復元ステップと、
    前記サーバ端末の出力部が、劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力ステップと、
    を含むテキスト及び音声特徴量収集方法。
  4. 請求項3記載のテキスト及び音声特徴量収集方法であって、
    前記サーバ端末の有声無声判別部が、前記音声認識ステップで用いる音声認識辞書よりも短い単位の判別辞書を参照し前記音声特徴量を用いて、有声部と無声部とを判別する有声無声判別ステップをさらに含み、
    前記音声復元ステップにおいて、前記有声無声判別ステップにおいて前記有声部と判別されたフレームに対し、所定のピッチ情報を与える、
    テキスト及び音声特徴量収集方法。
  5. クライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集するシステムであって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが元の前記音声を復元することはできないものとし、
    前記クライアント端末は、
    入力音声信号を低ビットレートコーデックにより圧縮し圧縮音声信号を生成する音声圧縮部と、
    前記入力音声信号を前記音声特徴量に変換する音声特徴量変換部と、
    前記圧縮音声信号と前記音声特徴量とを結合し送信データを生成する送信データ結合部と、を含み、
    前記サーバ端末は、
    受信した前記送信データを前記圧縮音声信号と前記音声特徴量とに分割する送信データ分割部と、
    前記音声特徴量を用いて音声認識を行い、認識結果を求める音声認識部と、
    前記低ビットレートコーデックにより前記圧縮音声信号を低品質の前記音声に復元する音声復元部と、
    前記認識結果と低品質の前記音声とに基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力部と、を含む、
    テキスト及び音声特徴量収集システム。
  6. クライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び第一音声特徴量をサーバ端末で収集するシステムであって、前記第一音声特徴量及び第二音声特徴量はそれぞれ元の前記音声の特徴を表すデータであって、何れか一方の前記音声特徴量のみに基づいて元の前記音声が復元することはできないが、二つの前記音声特徴量に基づいて劣化した元の前記音声を復元することはでき、前記第一音声特徴量のみに基づいて音声認識を行うことはできるものとし、
    前記クライアント端末は、入力音声信号を前記第一音声特徴量及び第二音声特徴量に変換する音声特徴量変換部を含み、
    前記サーバ端末は、
    前記第一音声特徴量を用いて音声認識を行い、認識結果を求める音声認識部と、
    前記第一音声特徴量及び第二音声特徴量を劣化した元の前記音声に復元する音声復元部と、
    劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記第一音声特徴量と、を出力する出力部と、を含む、
    テキスト及び音声特徴量収集システム。
  7. ククライアント端末とサーバ端末とを含み、前記クライアント端末に入力される音声に対するテキスト及び音声特徴量をサーバ端末で収集するシステムであって、前記音声特徴量は元の前記音声の特徴を表すデータであって、それのみに基づいて音声認識を行うことはできるが、元の前記音声を復元することはできないものとし、所定のピッチ情報と前記音声特徴量を組合せると劣化した元の前記音声を復元することはできるものとし、
    前記クライアント端末は、入力音声信号を前記音声特徴量に変換する音声特徴量変換部を含み、
    前記サーバ端末は、
    単語単位の音声認識辞書を参照し前記音声特徴量を用いて音声認識を行い、テキスト、音素列及びその区間情報を含む認識結果を求める音声認識部と、
    音素列及び区間情報により有声部と判別されたフレームに対し、所定のピッチ情報を与え、前記劣化した元の前記音声を復元する音声復元部と、
    劣化した元の前記音声に基づいて書き起こされたテキストと、テキストに対応する前記音声特徴量と、を出力する出力部と、を含む、
    テキスト及び音声特徴量収集システム。
  8. 請求項5から7の何れかに記載のクライアント端末またはサーバ端末としてコンピュータを機能させるためのプログラム。
JP2011120323A 2011-05-30 2011-05-30 テキスト及び音声特徴量収集方法、そのシステム、プログラム Active JP5524131B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011120323A JP5524131B2 (ja) 2011-05-30 2011-05-30 テキスト及び音声特徴量収集方法、そのシステム、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011120323A JP5524131B2 (ja) 2011-05-30 2011-05-30 テキスト及び音声特徴量収集方法、そのシステム、プログラム

Publications (2)

Publication Number Publication Date
JP2012247679A true JP2012247679A (ja) 2012-12-13
JP5524131B2 JP5524131B2 (ja) 2014-06-18

Family

ID=47468156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011120323A Active JP5524131B2 (ja) 2011-05-30 2011-05-30 テキスト及び音声特徴量収集方法、そのシステム、プログラム

Country Status (1)

Country Link
JP (1) JP5524131B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210826A (zh) * 2019-12-26 2020-05-29 深圳市优必选科技股份有限公司 语音信息处理方法、装置、存储介质和智能终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06102894A (ja) * 1992-09-22 1994-04-15 Toshiba Corp 音声認識装置
JP2003005949A (ja) * 2001-06-20 2003-01-10 Nec Corp サーバ・クライアント型音声認識装置及び方法
JP2006350090A (ja) * 2005-06-17 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06102894A (ja) * 1992-09-22 1994-04-15 Toshiba Corp 音声認識装置
JP2003005949A (ja) * 2001-06-20 2003-01-10 Nec Corp サーバ・クライアント型音声認識装置及び方法
JP2006350090A (ja) * 2005-06-17 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210826A (zh) * 2019-12-26 2020-05-29 深圳市优必选科技股份有限公司 语音信息处理方法、装置、存储介质和智能终端
CN111210826B (zh) * 2019-12-26 2022-08-05 深圳市优必选科技股份有限公司 语音信息处理方法、装置、存储介质和智能终端

Also Published As

Publication number Publication date
JP5524131B2 (ja) 2014-06-18

Similar Documents

Publication Publication Date Title
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
CN103035238B (zh) 音频数据的编码方法及解码方法
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
US11727922B2 (en) Systems and methods for deriving expression of intent from recorded speech
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
JP2007534278A (ja) ショートメッセージサービスを通じる音声
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
Loscos et al. Low-delay singing voice alignment to text
WO2007063827A1 (ja) 声質変換システム
WO2006080149A1 (ja) 音復元装置および音復元方法
Gallardo Human and automatic speaker recognition over telecommunication channels
Mandel et al. Audio super-resolution using concatenative resynthesis
García et al. Automatic emotion recognition in compressed speech using acoustic and non-linear features
JP5524131B2 (ja) テキスト及び音声特徴量収集方法、そのシステム、プログラム
US11043212B2 (en) Speech signal processing and evaluation
Vicente-Peña et al. Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition
JPH10254473A (ja) 音声変換方法及び音声変換装置
Duxans et al. Residual conversion versus prediction on voice morphing systems
Abad et al. Automatic classification and transcription of telephone speech in radio broadcast data
JP2003122395A (ja) 音声認識システム、端末およびプログラム、並びに音声認識方法
El-Maleh Classification-based Techniques for Digital Coding of Speech-plus-noise
Sun et al. Speech compression
Gallardo Human and automatic speaker recognition over telecommunication channels
JP4932530B2 (ja) 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム
JP7296214B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140409

R150 Certificate of patent or registration of utility model

Ref document number: 5524131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150