JP2008289028A - 音声認識・蓄積システムおよびその方法 - Google Patents
音声認識・蓄積システムおよびその方法 Download PDFInfo
- Publication number
- JP2008289028A JP2008289028A JP2007133685A JP2007133685A JP2008289028A JP 2008289028 A JP2008289028 A JP 2008289028A JP 2007133685 A JP2007133685 A JP 2007133685A JP 2007133685 A JP2007133685 A JP 2007133685A JP 2008289028 A JP2008289028 A JP 2008289028A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- digital
- received
- reception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】通話音声の蓄積とその通話音声の音声認識の双方を行う際に、蓄積データの容量やネットワークの負荷を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現する。
【解決手段】アナログ送話信号とアナログ送話信号が、それぞれ送話A/D変換手段103と受話A/D変換手段104でディジタル送話信号とディジタル受話信号に変換され、ディジタル受話信号は更に低圧縮音声符号化手段11で圧縮される。ディジタル送話信号と圧縮された受話信号は、通信ネットワーク4を介して転送され、圧縮された受話信号は低圧縮音声復号化手段12でディジタル受話信号に復号化される。そして、ディジタル送話信号とディジタル受話信号は、それぞれ送話音声認識手段13と受話音声認識手段14で音声認識処理され、結果が認識結果データメモリ113に蓄積されると共に、高圧縮音声符号化手段16で圧縮され、音声データメモリ109に蓄積される。
【選択図】図1
Description
本発明は、通話音声の蓄積とその通話音声の音声認識の双方を行う際に用いる、音声認識・蓄積システムおよびその方法に関する。
通話音声を録音し、かつその通話音声の音声認識を行いたい場合、例えば図5に示すような構成により行うことができる。一方の通話者と相手方の通話者とがそれぞれの通話装置1、2を用いて公衆回線等3を介して通話を行い、一方の通話者の側においてこの通話音声を録音し、かつ音声認識を行う場合には、一方の通話者の通話装置1に音声認識・蓄積システム100を接続して音声認識・蓄積を行う。音声認識・蓄積システム100は、特許文献1などにおいて開示されている通話録音装置に公知の音声認識装置を組み合わせることにより構成することができる。
音声認識・蓄積システム100は、信号取込部100aと認識・蓄積部100bとから構成される。一般に信号取込部100aは通話装置近傍に設置され、認識・蓄積部100bとはLAN等の通信ネットワーク4を介して接続される。信号取込部100aと認識・蓄積部100bの具体的構成を図6に示す。
信号取込部100aは、送話A/D変換手段103、受話A/D変換手段104、ステレオ/モノラル変換手段105、圧縮音声符号化手段106、及び転送手段107を有する。送話A/D変換手段103は、送話信号入力端子101を有し、ここから入力されたアナログ送話信号5をディジタル送話信号に変換して出力する。受話A/D変換手段104は、受話信号入力端子102を有し、ここから入力されたアナログ受話信号6をディジタル受話信号に変換して出力する。ステレオ/モノラル変換手段105は、上記変換されディジタル送話信号とディジタル受話信号とがステレオ入力され、両者のタイミングを合わせた上でモノラル化して送受話ディジタル信号を生成し、出力する。圧縮音声符号化手段106は、上記送受話ディジタル信号を圧縮して圧縮符号化信号を出力する。転送手段107は、上記圧縮符号化信号を通信ネットワークに転送する。
信号取込部100aは、送話A/D変換手段103、受話A/D変換手段104、ステレオ/モノラル変換手段105、圧縮音声符号化手段106、及び転送手段107を有する。送話A/D変換手段103は、送話信号入力端子101を有し、ここから入力されたアナログ送話信号5をディジタル送話信号に変換して出力する。受話A/D変換手段104は、受話信号入力端子102を有し、ここから入力されたアナログ受話信号6をディジタル受話信号に変換して出力する。ステレオ/モノラル変換手段105は、上記変換されディジタル送話信号とディジタル受話信号とがステレオ入力され、両者のタイミングを合わせた上でモノラル化して送受話ディジタル信号を生成し、出力する。圧縮音声符号化手段106は、上記送受話ディジタル信号を圧縮して圧縮符号化信号を出力する。転送手段107は、上記圧縮符号化信号を通信ネットワークに転送する。
認識・蓄積部100bは、受信手段108、音声データメモリ109、音声取得手段110、音声復号化手段111、音声認識手段112、及び認識結果データメモリ113を有する。受信手段108は、転送手段107から転送された圧縮符号化信号を通信ネットワーク4を介して受信する。音声データメモリ109は、受信した圧縮符号化信号を蓄積する。音声取得手段110は、音声データメモリ109に蓄積された圧縮符号化信号を取り出す。音声復号化手段111は、音声取得手段110が取り出した圧縮符号化信号を復号化してディジタル受話信号を得る。音声認識手段112は、上記復号化されたディジタル受話信号を用いて音声認識を行い、認識結果を出力する。認識結果データメモリ113は、上記認識結果を蓄積する。
次に、音声認識・蓄積システム100による処理について説明する。通話装置1から出力された、アナログ受話信号5とアナログ受話信号6とがそれぞれ信号取込部100aの送話信号入力端子101と受話信号入力端子102にステレオ入力される。入力された各アナログ信号はそれぞれディジタル信号に変換された後、ステレオ/モノラル変換手段105においてタイミングを合わせて束ねられ、モノラルの送受話ディジタル信号として出力される。出力された送受話ディジタル信号は、通信ネットワーク4の負荷の抑制及び音声データメモリ109のディスク資源節約のため、圧縮音声符号化手段106において圧縮符号化された上で、転送手段107から通信ネットワーク4へ転送される。なお、ここでの圧縮処理は上記のような趣旨で行われることから高い圧縮率で行われることが多い。転送された圧縮符号化信号は受信手段108で受信された上、音声データメモリ109に蓄積される。音声認識を行う際には、この音声データメモリ109に蓄積された圧縮符号化信号を音声取得手段110により取り出し、音声復号化手段111において復号化した上で、音声認識手段112において復号化した信号を用いて音声認識処理を行い、処理結果を認識結果データメモリ113に蓄積する。
特開平11−74975号公報
従来の音声認識・蓄積システムは、上記のように通話装置から取り込んだ音声を、信号取込部から認識・蓄積部へのデータ転送前に高い圧縮率により圧縮を行い、転送後にこの圧縮したデータを一旦音声データメモリに蓄積した上で、この蓄積データを復号化して音声認識を行う。しかし、この方法によると蓄積データの容量やネットワークの負荷は抑えられるものの、圧縮により品質が劣化したデータを用いて音声認識を行うため、認識性能が著しく劣化してしまう。
また、信号取込部から認識・蓄積部へのデータ転送前には圧縮を行わず、転送後に音声認識を行った上でデータの圧縮を行う方法も考えられるが、逆に認識性能は担保できるものの、ネットワークの負荷が大きくなる。
また、信号取込部から認識・蓄積部へのデータ転送前には圧縮を行わず、転送後に音声認識を行った上でデータの圧縮を行う方法も考えられるが、逆に認識性能は担保できるものの、ネットワークの負荷が大きくなる。
本発明の目的は、蓄積データの容量やネットワークの負荷を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することにある。
本発明の音声認識・蓄積システムは、送話A/D変換手段、受話A/D変換手段、低圧縮音声符号化手段、及び転送手段を有する信号取込部と、受信手段、低圧縮音声復号化手段、送話音声認識手段、受話音声認識手段、認識結果同期手段、認識結果データメモリ、ステレオ/モノラル変換手段、高圧縮音声符号化手段、及び音声データメモリを有する認識・蓄積部とから構成される。
送話A/D変換手段は、アナログ送話信号が入力され、ディジタル送話信号に変換して出力する。受話A/D変換手段は、アナログ受話信号が入力され、ディジタル受話信号に変換して出力する。低圧縮音声符号化手段は、上記ディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を生成し出力する。転送手段は、上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する。受信手段は、上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する。低圧縮音声復号化手段は、上記受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する。送話音声認識手段は、上記受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する。受話音声認識手段は、上記復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する。認識結果同期手段は、上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する。認識結果データメモリは、上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する。ステレオ/モノラル変換手段は、上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とがステレオ入力され、モノラル化して送受話ディジタル信号を生成し出力する。高圧縮音声符号化手段は、上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを生成し出力する。音声データメモリは、上記蓄積用音声データを蓄積する。
送話A/D変換手段は、アナログ送話信号が入力され、ディジタル送話信号に変換して出力する。受話A/D変換手段は、アナログ受話信号が入力され、ディジタル受話信号に変換して出力する。低圧縮音声符号化手段は、上記ディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を生成し出力する。転送手段は、上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する。受信手段は、上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する。低圧縮音声復号化手段は、上記受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する。送話音声認識手段は、上記受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する。受話音声認識手段は、上記復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する。認識結果同期手段は、上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する。認識結果データメモリは、上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する。ステレオ/モノラル変換手段は、上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とがステレオ入力され、モノラル化して送受話ディジタル信号を生成し出力する。高圧縮音声符号化手段は、上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを生成し出力する。音声データメモリは、上記蓄積用音声データを蓄積する。
本発明の音声認識・蓄積システムによれば、蓄積データの容量やネットワークの負荷を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。
〔第1実施形態〕
図1は、本発明の音声認識・蓄積システム10の機能構成例である。また、図2は処理フローである。
音声認識・蓄積システム10は、送話A/D変換手段103、受話A/D変換手段104、低圧縮音声符号化手段11、及び転送手段107を有する信号取込部10aと、受信手段108、低圧縮音声復号化手段12、送話音声認識手段13、受話音声認識手段14、認識結果同期手段15、認識結果データメモリ113、ステレオ/モノラル変換手段105、高圧縮音声符号化手段16、及び音声データメモリ109を有する認識・蓄積部10bとから構成される。
図1は、本発明の音声認識・蓄積システム10の機能構成例である。また、図2は処理フローである。
音声認識・蓄積システム10は、送話A/D変換手段103、受話A/D変換手段104、低圧縮音声符号化手段11、及び転送手段107を有する信号取込部10aと、受信手段108、低圧縮音声復号化手段12、送話音声認識手段13、受話音声認識手段14、認識結果同期手段15、認識結果データメモリ113、ステレオ/モノラル変換手段105、高圧縮音声符号化手段16、及び音声データメモリ109を有する認識・蓄積部10bとから構成される。
送話A/D変換手段103、受話A/D変換手段104、転送手段107、受信手段108、認識結果データメモリ113、ステレオ/モノラル変換手段105、及び音声データメモリ109の機能は図6に示した従来技術と同じである。よって、図1の中で図6と対応する部分については同一参照番号を付け、説明は省略する。その他の図面についても同様とする。
以下、図6と異なる、低圧縮音声符号化手段11、低圧縮音声復号化手段12、送話音声認識手段13、受話音声認識手段14、認識結果同期手段15、及び高圧縮音声符号化手段16について説明する。
以下、図6と異なる、低圧縮音声符号化手段11、低圧縮音声復号化手段12、送話音声認識手段13、受話音声認識手段14、認識結果同期手段15、及び高圧縮音声符号化手段16について説明する。
低圧縮音声符号化手段11は、受話A/D変換手段104から出力されたディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を出力する。低圧縮音声復号化手段12は、受信手段108で受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する。送話音声認識手段13は、受信手段108で受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する。受話音声認識手段14は、上記低圧縮音声復号化手段12で復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する。なお、送話音声認識手段13及び受話音声認識手段14における音声認識処理方法は公知のいかなる技術を用いても構わない。認識結果同期手段15は、上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する。高圧縮音声符号化手段16は、ステレオ/モノラル変換手段105から出力された送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを生成し出力する。
次に、音声認識・蓄積システム10による処理フローについて説明する。通話装置1から出力されたアナログ受話信号5が送話信号入力端子101から送話A/D変換手段103に、アナログ受話信号6が受話信号入力端子102から受話A/D変換手段104に入力され(S1)、それぞれディジタル送話信号とディジタル受話信号に変換される(S2、S3)。ディジタル受話信号については更に低圧縮音声符号化手段11に入力され、低圧縮率で圧縮符号化されて、低圧縮符号化受話信号として出力される(S4)。一方、ディジタル送話信号については圧縮を行わない。これは次の理由による。
受話信号については、相手方から公衆回線等を経て音声認識・蓄積システムが接続された通話装置に到達し、信号形式は例えば電話回線ではサンプリング周波数8kHz、量子化ビット数8bitのビットレート64kbpsのμ−law PCM形式が一般的である。一方、送話信号はマイク帯域の音声であるため、サンプリング周波数16kHz、量子化ビット数16bitのビットレート256kbpsのリニアPCM形式の信号が一般的である。このように送話信号と受話信号はデータの持つ情報量がそもそも異なっている(送話:受話=4:1)。しかし、音声認識・蓄積システムをはじめとする通常の録音デバイスは、送話信号と受話信号とをステレオ録音する場合、異なるフォーマットで録音することが困難である。そこで、本発明では送話A/D変換手段103と受話A/D変換手段104において、アナログ送話信号とアナログ受話信号を同一フォーマットの同期したステレオ信号として取り込むこととし、具体的には送話信号に合わせてマイク帯域のリニアPCM形式により取り込みを行う。もっとも、受話信号については帯域を拡大して取り込んでいるため、A/D変換後に更に低圧縮音声符号化手段11において公衆回線等のビットレートまで圧縮を行う。上記の例では受話信号を1/4に圧縮できるため、送受話トータルでは、5/8(=(1+1/4)/(1+1))に通信ネットワークの負荷を抑制できる。このような圧縮処理を行っても、あくまで本来の受話信号のビットレートに戻すに過ぎないため、本来の受話信号を用いた場合と同様な音声認識性能を得ることができる。
そして、送話A/D変換手段103から出力されたディジタル送話信号と低圧縮音声符号化手段11から出力された低圧縮符号化受話信号は、転送手段107から通信ネットワーク4へ転送される(S5)。転送されたディジタル送話信号と低圧縮符号化受話信号は、受信手段108で受信され(S6)、低圧縮符号化受話信号については低圧縮音声復号化手段12においてディジタル受話信号に復号化される(S7)。受信されたディジタル送話信号と復号化されたディジタル受話信号は、それぞれ送話音声認識手段13と受話音声認識手段14に入力されて音声認識処理が行われ(S8−1、S8−2)、認識結果同期手段15において送話・受話の認識処理結果のタイミングが合わされた上で(S8−3)、認識結果データメモリ113に送話・受話の認識結果が蓄積される(S8−4)。一方、S8の一連の認識処理と並行して音声蓄積処理が行われる。S7で受信されたディジタル送話信号と復号化されたディジタル受話信号は、ステレオ/モノラル変換手段105にステレオ入力され、両者のタイミングを合わせた上でモノラル化されて送受話ディジタル信号として出力される(S9−1)。送受話ディジタル信号は、高圧縮音声符号化手段16において、再生する際に音声が聞ける程度の高圧縮率で圧縮され(S9−2)、この圧縮された蓄積用音声データが音声データメモリ109に蓄積される(S9−3)。ステレオ/モノラル変換手段105に入力されるステレオ信号は、サンプリング周波数16kHz、量子化ビット数16bitとすると、ビットレートは512kbpsとなる。このような信号に対する高圧縮率の圧縮方式として、μ−law PCM形式の64kbpsや、G.729.Aの8kbps、G.723.1の5.3kbpsなどが挙げられる。例えば、G.729.Aを採用した場合、非圧縮の場合と比べ1/64まで音声データの蓄積容量を圧縮することが可能となる。
なお、再生時には音声データメモリ109に高圧縮率で圧縮蓄積された音声データを復号化した音声信号を再生する。
このように、第1実施形態の構成により、ネットワークの負荷やディスク容量を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。また、転送手段107の前に可逆圧縮化手段、受信手段108の後に可逆復号手段を追加することで、ネットワークの負荷を更に減らすことも考えられる。
このように、第1実施形態の構成により、ネットワークの負荷やディスク容量を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。また、転送手段107の前に可逆圧縮化手段、受信手段108の後に可逆復号手段を追加することで、ネットワークの負荷を更に減らすことも考えられる。
〔第2実施形態〕
図3は、本発明の音声認識・蓄積システム20の機能構成例である。また、図4は処理フローである。
第1実施形態は、通信ネットワークへ転送する通話信号のうち、受話信号についてのみ転送前に低圧縮率の圧縮符号化処理を行い、転送後に受話信号の復号化処理をした上で、非圧縮の通話信号に対し、音声認識処理を行うと共に高圧縮率の圧縮符号化処理を行った上で通話音声の蓄積処理を行うものである。しかし、この方法によると音声データの容量は抑制できるものの、通信ネットワークへの転送前に受話信号についてのみ、それも圧縮率が低いため、通信ネットワークの負荷の抑制効果は十分なものとは言い難い。
そこで、第2実施形態では、通信ネットワークにデータ転送を行う前に非圧縮の通話信号について、音声特徴量の抽出処理を行うと共に高圧縮率の圧縮符号化処理を行い、音声特徴量と高圧縮符号化通話信号の転送後に、音声特徴量を用いて音声認識を行うと共に受信した高圧縮符号化通話信号をそのまま蓄積する。このように音声認識を音声特徴量により行うこととし、かつ特徴量の抽出を転送前に行うことで、転送後に非圧縮の通話信号が不要になるため、通話信号に対する高圧縮率の圧縮符号化処理を転送前に行うことができ、また、音声特徴量はパラメータの組み合わせデータに過ぎないため容量がわずかである。そのため、通信ネットワークの負荷を大きく抑制することができる。
図3は、本発明の音声認識・蓄積システム20の機能構成例である。また、図4は処理フローである。
第1実施形態は、通信ネットワークへ転送する通話信号のうち、受話信号についてのみ転送前に低圧縮率の圧縮符号化処理を行い、転送後に受話信号の復号化処理をした上で、非圧縮の通話信号に対し、音声認識処理を行うと共に高圧縮率の圧縮符号化処理を行った上で通話音声の蓄積処理を行うものである。しかし、この方法によると音声データの容量は抑制できるものの、通信ネットワークへの転送前に受話信号についてのみ、それも圧縮率が低いため、通信ネットワークの負荷の抑制効果は十分なものとは言い難い。
そこで、第2実施形態では、通信ネットワークにデータ転送を行う前に非圧縮の通話信号について、音声特徴量の抽出処理を行うと共に高圧縮率の圧縮符号化処理を行い、音声特徴量と高圧縮符号化通話信号の転送後に、音声特徴量を用いて音声認識を行うと共に受信した高圧縮符号化通話信号をそのまま蓄積する。このように音声認識を音声特徴量により行うこととし、かつ特徴量の抽出を転送前に行うことで、転送後に非圧縮の通話信号が不要になるため、通話信号に対する高圧縮率の圧縮符号化処理を転送前に行うことができ、また、音声特徴量はパラメータの組み合わせデータに過ぎないため容量がわずかである。そのため、通信ネットワークの負荷を大きく抑制することができる。
音声認識・蓄積システム20は、送話A/D変換手段103、受話A/D変換手段104、送話特徴量抽出手段21、受話特徴量抽出手段22、ステレオ/モノラル変換手段105、高圧縮音声符号化手段16、及び転送手段107を有する信号取込部20aと、受信手段108、送話特徴量認識手段23、受話特徴量認識手段24、認識結果同期手段15、認識結果データメモリ113、及び音声データメモリ109を有する認識・蓄積部20bとから構成される。
送話A/D変換手段103、受話A/D変換手段104、ステレオ/モノラル変換手段105、転送手段107、受信手段108、認識結果データメモリ113、及び音声データメモリ109の機能は図6に示した従来技術と同じであり、認識結果同期手段15の機能は図3に示した第1実施形態と同じである。
送話A/D変換手段103、受話A/D変換手段104、ステレオ/モノラル変換手段105、転送手段107、受信手段108、認識結果データメモリ113、及び音声データメモリ109の機能は図6に示した従来技術と同じであり、認識結果同期手段15の機能は図3に示した第1実施形態と同じである。
以下、図3及び図6と異なる、送話特徴量抽出手段21、受話特徴量抽出手段22、送話特徴量認識手段23、及び受話特徴量認識手段24について説明する。
送話特徴量抽出手段21は、送話A/D変換手段103から出力されたディジタル送話信号が入力され、送話特徴量を抽出して出力する。受話特徴量抽出手段22は、受話A/D変換手段104から出力されたディジタル受話信号が入力され、受話特徴量を抽出して出力する。送話特徴量認識手段23は、上記抽出された送話特徴量が通信ネットワーク4などを介して入力され、特徴量に基づく音声認識処理を行って送話音声認識結果を出力する。受話特徴量認識手段24は、上記抽出された受話特徴量が通信ネットワーク4などを介して入力され、特徴量に基づく音声認識処理を行って受話音声認識結果を出力する。なお、送話特徴量抽出手段21及び受話特徴量抽出手段22における特徴量抽出処理方法と、送話特徴量認識手段23及び送話特徴量認識手段24における音声認識処理方法は、それぞれ組み合わせて利用することが可能な方法であれば公知のいかなる技術を用いても構わない。
送話特徴量抽出手段21は、送話A/D変換手段103から出力されたディジタル送話信号が入力され、送話特徴量を抽出して出力する。受話特徴量抽出手段22は、受話A/D変換手段104から出力されたディジタル受話信号が入力され、受話特徴量を抽出して出力する。送話特徴量認識手段23は、上記抽出された送話特徴量が通信ネットワーク4などを介して入力され、特徴量に基づく音声認識処理を行って送話音声認識結果を出力する。受話特徴量認識手段24は、上記抽出された受話特徴量が通信ネットワーク4などを介して入力され、特徴量に基づく音声認識処理を行って受話音声認識結果を出力する。なお、送話特徴量抽出手段21及び受話特徴量抽出手段22における特徴量抽出処理方法と、送話特徴量認識手段23及び送話特徴量認識手段24における音声認識処理方法は、それぞれ組み合わせて利用することが可能な方法であれば公知のいかなる技術を用いても構わない。
次に、音声認識・蓄積システム20による処理フローについて説明する。通話装置1から出力されたアナログ受話信号5が送話信号入力端子101から送話A/D変換手段103に、アナログ受話信号6が受話信号入力端子102から受話A/D変換手段104にステレオ入力され(S1)、それぞれディジタル送話信号とディジタル受話信号に変換される(S2、S3)。送話特徴量抽出手段21においてディジタル送話信号から送話特徴量が抽出され(S4−1)、受話特徴量抽出手段22においてディジタル受話信号から受話特徴量が抽出される(S4−2)。S4での特徴量の抽出処理と並行して、ステレオ/モノラル変換手段105にディジタル送話信号とディジタル受話信号とがステレオ入力され、両者のタイミングを合わせた上でモノラル化されて送受話ディジタル信号として出力され(S5−1)、更に高圧縮音声符号化手段16に入力され、再生する際に音声が聞ける程度の高圧縮率で圧縮されて、蓄積用音声データとして出力される(S5−2)。次に、抽出された送話・受話特徴量と、蓄積用音声データとが転送手段107から通信ネットワーク4へ転送され(S6)、受信手段108で受信される(S7)。受信された送話特徴量と受話特徴量については、それぞれ送話特徴量認識手段23と受話特徴量認識手段24において音声認識処理が行われ(S8−1、S8−2)、認識結果同期手段15において送話・受話の認識処理結果のタイミングが合わされた上で(S8−3)、認識結果データメモリ113に送話・受話の認識結果が蓄積される(S8−4)。また、S8の一連の認識処理と並行して、S7で受信された蓄積用音声データが音声データメモリ109に蓄積される(S9)。
このように、第2実施形態においては、通信ネットワークには容量の小さい特徴量データと高圧縮率で圧縮された通話音声データとを転送すればよいため、通信ネットワークの負荷を十分に抑え、かつ、ディスク容量を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。
このように、第2実施形態においては、通信ネットワークには容量の小さい特徴量データと高圧縮率で圧縮された通話音声データとを転送すればよいため、通信ネットワークの負荷を十分に抑え、かつ、ディスク容量を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。
〔その他の形態について〕
本発明における音声認識・蓄積システム及びその方法は、上記の実施形態に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、上記に説明した処理は記載の順に従った時系列において実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
本発明における音声認識・蓄積システム及びその方法は、上記の実施形態に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、上記に説明した処理は記載の順に従った時系列において実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記音声認識・蓄積システムにおける処理機能をコンピュータによって実現する場合、音声認識・蓄積システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより上記音声認識・蓄積システムにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magnet-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magnet-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、このプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等をすることによって行う。更に、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介してサーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦自己の記録装置に格納する。そして、処理の実行時、このコンピュータは自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータからこのコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって上記の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦自己の記録装置に格納する。そして、処理の実行時、このコンピュータは自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータからこのコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって上記の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態ではコンピュータ上で所定のプログラムを実行させることにより、音声認識・蓄積システムを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、通話音声の蓄積とその通話音声の音声認識の双方を行う際に、蓄積データの容量やネットワークの負荷を抑えつつ、音声性能を劣化させずに音声認識を行いたい場合に有用である。
Claims (4)
- アナログ送話信号が入力され、ディジタル送話信号に変換して出力する送話A/D変換手段と、
アナログ受話信号が入力され、ディジタル受話信号に変換して出力する受話A/D変換手段と、
上記ディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を出力する低圧縮音声符号化手段と、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する転送手段と、
を有する信号取込部と、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する受信手段と、
上記受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する低圧縮音声復号化手段と、
上記受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する送話音声認識手段と、
上記復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する受話音声認識手段と、
上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する認識結果同期手段と、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する認識結果データメモリと、
上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とが入力され、モノラル化して送受話ディジタル信号を出力するステレオ/モノラル変換手段と、
上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを出力する高圧縮音声符号化手段と、
上記蓄積用音声データを蓄積する音声データメモリと、
を有する認識・蓄積部と、
を具備する音声認識・蓄積システム。 - アナログ送話信号が入力され、ディジタル送話信号に変換して出力する送話A/D変換手段と、
アナログ受話信号が入力され、ディジタル受話信号に変換して出力する受話A/D変換手段と、
上記ディジタル送話信号が入力され、送話音声特徴量を抽出して出力する送話特徴量抽出手段と、
上記ディジタル受話信号が入力され、受話音声特徴量を抽出して出力する受話特徴量抽出手段と、
上記ディジタル送話信号と上記ディジタル受話信号とが入力され、モノラル化して送受話ディジタル信号を出力するステレオ/モノラル変換手段と、
上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを出力する高圧縮音声符号化手段と、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信ネットワークに転送する転送手段と、
を有する信号取込部と、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信
ネットワークから受信する受信手段と、
上記受信された送話音声特徴量が入力され、特徴量に基づく音声認識処理を行って送話音声認識結果を出力する送話特徴量認識手段と、
上記受信された受話音声特徴量が入力され、特徴量に基づく音声認識処理を行って受話音声認識結果を出力する受話特徴量認識手段と、
上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する認識結果同期手段と、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する認識結果データメモリと、
上記受信された蓄積用音声データを蓄積する音声データメモリと、
を有する認識・蓄積部と、
を具備する音声認識・蓄積システム。 - アナログ送話信号をディジタル送話信号に変換する送話A/D変換ステップと、
アナログ受話信号をディジタル受話信号に変換する受話A/D変換ステップと、
上記ディジタル受話信号を、低圧縮率で圧縮符号化して低圧縮符号化受話信号を生成する低圧縮音声符号化ステップと、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する転送ステップと、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する受信ステップと、
上記受信された低圧縮符号化受話信号を復号化してディジタル受話信号を得る低圧縮音声復号化ステップと、
上記受信されたディジタル送話信号について、音声認識処理を行って送話音声認識結果を得る送話音声認識サブステップと、
上記復号化されたディジタル受話信号について、音声認識処理を行って受話音声認識結果を得る受話音声認識サブステップと、
上記送話音声認識結果と上記受話音声認識結果とのタイミングを合わせる認識結果同期サブステップと、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを認識結果データメモリに蓄積する認識結果データ蓄積サブステップと、
を実行する認識結果蓄積ステップと、
上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とをモノラル化して、送受話ディジタル信号を生成するステレオ/モノラル変換サブステップと、
上記送受話ディジタル信号を高圧縮率で圧縮符号化して蓄積用音声データを生成する高圧縮音声符号化サブステップと、
上記蓄積用音声データを音声データメモリに蓄積する音声データ蓄積サブステップと、
を実行する音声蓄積ステップと、
を実行する音声認識・蓄積方法。 - アナログ送話信号をディジタル送話信号に変換する送話A/D変換ステップと、
アナログ受話信号をディジタル受話信号に変換する受話A/D変換ステップと、
上記ディジタル送話信号の送話音声特徴量を抽出する送話特徴量抽出サブステップと、
上記ディジタル受話信号の受話音声特徴量を抽出する受話特徴量抽出サブステップと、
を実行する特徴量抽出ステップと、
上記ディジタル送話信号と上記ディジタル受話信号とをモノラル化して、送受話ディジタル信号を生成するステレオ/モノラル変換サブステップと、
上記送受話ディジタル信号を高圧縮率で圧縮符号化して蓄積用音声データを生成する高圧縮音声符号化サブステップと、
を実行する音声圧縮ステップと、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信ネットワークに転送する転送ステップと、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信
ネットワークから受信する受信ステップと、
上記受信された上記送話音声特徴量について、特徴量に基づく音声認識処理を行って送話音声認識結果を得る送話特徴量認識ステップと、
上記受信された上記受話音声特徴量について、特徴量に基づく音声認識処理を行って受話音声認識結果を得る受話特徴量認識ステップと、
上記送話音声認識結果と上記受話音声認識結果とのタイミングを合わせる認識結果同期サブステップと、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを認識結果データメモリに蓄積する認識結果データ蓄積サブステップと、
を実行する認識結果蓄積ステップと、
上記受信された蓄積用音声データを蓄積する音声蓄積ステップと、
を実行することを特徴とする音声認識・蓄積方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007133685A JP2008289028A (ja) | 2007-05-21 | 2007-05-21 | 音声認識・蓄積システムおよびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007133685A JP2008289028A (ja) | 2007-05-21 | 2007-05-21 | 音声認識・蓄積システムおよびその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008289028A true JP2008289028A (ja) | 2008-11-27 |
Family
ID=40148305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007133685A Pending JP2008289028A (ja) | 2007-05-21 | 2007-05-21 | 音声認識・蓄積システムおよびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008289028A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417222A (zh) * | 2017-02-10 | 2018-08-17 | 三星电子株式会社 | 加权有限状态变换器解码系统以及语音识别系统 |
-
2007
- 2007-05-21 JP JP2007133685A patent/JP2008289028A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417222A (zh) * | 2017-02-10 | 2018-08-17 | 三星电子株式会社 | 加权有限状态变换器解码系统以及语音识别系统 |
CN108417222B (zh) * | 2017-02-10 | 2024-01-02 | 三星电子株式会社 | 加权有限状态变换器解码系统以及语音识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6339760B1 (en) | Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data | |
WO2006137425A1 (ja) | オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置 | |
US20070036228A1 (en) | Method and apparatus for audio encoding and decoding | |
KR20070002065A (ko) | 스케일러블 무손실 음성 코덱 및 오서링 툴 | |
CN1388965A (zh) | 音频信号压缩 | |
JP2002014697A (ja) | ディジタルオーディオ装置 | |
JP3946812B2 (ja) | オーディオ信号変換装置及びオーディオ信号変換方法 | |
CN101534308A (zh) | 语音数据处理方法及系统 | |
JP2008289028A (ja) | 音声認識・蓄積システムおよびその方法 | |
JP4103361B2 (ja) | 携帯通信装置 | |
KR100433984B1 (ko) | 디지털 오디오 부호화/복호화 장치 및 방법 | |
JP3942523B2 (ja) | ディジタル信号符号化方法、復号化方法、符号器、復号器及びこれらのプログラム | |
US6515715B1 (en) | Method and system for code packing in a digital video system | |
JP3624884B2 (ja) | 音声データ処理装置 | |
JP2002156998A (ja) | オーディオ信号のビットストリーム処理方法、この処理方法を記録した記録媒体、及び処理装置 | |
JP3749216B2 (ja) | デジタル映像音声記録装置 | |
KR100662382B1 (ko) | 방송데이터를 저장하는 방법 및 그 기능을 갖는이동통신단말기 | |
JPH01205200A (ja) | 音声符号化方式 | |
US20090157396A1 (en) | Voice data signal recording and retrieving | |
TWI235359B (en) | Electronic anti-shock system and performance improvement method thereof | |
JP3491320B2 (ja) | 通信装置 | |
JP2001211251A (ja) | 音声録音器を含む無線ディジタル電話機 | |
JPH08115567A (ja) | 画像送信装置 | |
JP2945245B2 (ja) | 静止画像伝送装置 | |
JPH0823526A (ja) | テレビ電話 |