JP2008289028A

JP2008289028A - 音声認識・蓄積システムおよびその方法

Info

Publication number: JP2008289028A
Application number: JP2007133685A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Tasuku Shinozaki; 翼篠崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-05-21
Filing date: 2007-05-21
Publication date: 2008-11-27

Abstract

【課題】通話音声の蓄積とその通話音声の音声認識の双方を行う際に、蓄積データの容量やネットワークの負荷を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現する。
【解決手段】アナログ送話信号とアナログ送話信号が、それぞれ送話Ａ／Ｄ変換手段１０３と受話Ａ／Ｄ変換手段１０４でディジタル送話信号とディジタル受話信号に変換され、ディジタル受話信号は更に低圧縮音声符号化手段１１で圧縮される。ディジタル送話信号と圧縮された受話信号は、通信ネットワーク４を介して転送され、圧縮された受話信号は低圧縮音声復号化手段１２でディジタル受話信号に復号化される。そして、ディジタル送話信号とディジタル受話信号は、それぞれ送話音声認識手段１３と受話音声認識手段１４で音声認識処理され、結果が認識結果データメモリ１１３に蓄積されると共に、高圧縮音声符号化手段１６で圧縮され、音声データメモリ１０９に蓄積される。
【選択図】図１

Description

本発明は、通話音声の蓄積とその通話音声の音声認識の双方を行う際に用いる、音声認識・蓄積システムおよびその方法に関する。

通話音声を録音し、かつその通話音声の音声認識を行いたい場合、例えば図５に示すような構成により行うことができる。一方の通話者と相手方の通話者とがそれぞれの通話装置１、２を用いて公衆回線等３を介して通話を行い、一方の通話者の側においてこの通話音声を録音し、かつ音声認識を行う場合には、一方の通話者の通話装置１に音声認識・蓄積システム１００を接続して音声認識・蓄積を行う。音声認識・蓄積システム１００は、特許文献１などにおいて開示されている通話録音装置に公知の音声認識装置を組み合わせることにより構成することができる。

音声認識・蓄積システム１００は、信号取込部１００ａと認識・蓄積部１００ｂとから構成される。一般に信号取込部１００ａは通話装置近傍に設置され、認識・蓄積部１００ｂとはＬＡＮ等の通信ネットワーク４を介して接続される。信号取込部１００ａと認識・蓄積部１００ｂの具体的構成を図６に示す。
信号取込部１００ａは、送話Ａ／Ｄ変換手段１０３、受話Ａ／Ｄ変換手段１０４、ステレオ／モノラル変換手段１０５、圧縮音声符号化手段１０６、及び転送手段１０７を有する。送話Ａ／Ｄ変換手段１０３は、送話信号入力端子１０１を有し、ここから入力されたアナログ送話信号５をディジタル送話信号に変換して出力する。受話Ａ／Ｄ変換手段１０４は、受話信号入力端子１０２を有し、ここから入力されたアナログ受話信号６をディジタル受話信号に変換して出力する。ステレオ／モノラル変換手段１０５は、上記変換されディジタル送話信号とディジタル受話信号とがステレオ入力され、両者のタイミングを合わせた上でモノラル化して送受話ディジタル信号を生成し、出力する。圧縮音声符号化手段１０６は、上記送受話ディジタル信号を圧縮して圧縮符号化信号を出力する。転送手段１０７は、上記圧縮符号化信号を通信ネットワークに転送する。

認識・蓄積部１００ｂは、受信手段１０８、音声データメモリ１０９、音声取得手段１１０、音声復号化手段１１１、音声認識手段１１２、及び認識結果データメモリ１１３を有する。受信手段１０８は、転送手段１０７から転送された圧縮符号化信号を通信ネットワーク４を介して受信する。音声データメモリ１０９は、受信した圧縮符号化信号を蓄積する。音声取得手段１１０は、音声データメモリ１０９に蓄積された圧縮符号化信号を取り出す。音声復号化手段１１１は、音声取得手段１１０が取り出した圧縮符号化信号を復号化してディジタル受話信号を得る。音声認識手段１１２は、上記復号化されたディジタル受話信号を用いて音声認識を行い、認識結果を出力する。認識結果データメモリ１１３は、上記認識結果を蓄積する。

次に、音声認識・蓄積システム１００による処理について説明する。通話装置１から出力された、アナログ受話信号５とアナログ受話信号６とがそれぞれ信号取込部１００ａの送話信号入力端子１０１と受話信号入力端子１０２にステレオ入力される。入力された各アナログ信号はそれぞれディジタル信号に変換された後、ステレオ／モノラル変換手段１０５においてタイミングを合わせて束ねられ、モノラルの送受話ディジタル信号として出力される。出力された送受話ディジタル信号は、通信ネットワーク４の負荷の抑制及び音声データメモリ１０９のディスク資源節約のため、圧縮音声符号化手段１０６において圧縮符号化された上で、転送手段１０７から通信ネットワーク４へ転送される。なお、ここでの圧縮処理は上記のような趣旨で行われることから高い圧縮率で行われることが多い。転送された圧縮符号化信号は受信手段１０８で受信された上、音声データメモリ１０９に蓄積される。音声認識を行う際には、この音声データメモリ１０９に蓄積された圧縮符号化信号を音声取得手段１１０により取り出し、音声復号化手段１１１において復号化した上で、音声認識手段１１２において復号化した信号を用いて音声認識処理を行い、処理結果を認識結果データメモリ１１３に蓄積する。
特開平１１−７４９７５号公報

従来の音声認識・蓄積システムは、上記のように通話装置から取り込んだ音声を、信号取込部から認識・蓄積部へのデータ転送前に高い圧縮率により圧縮を行い、転送後にこの圧縮したデータを一旦音声データメモリに蓄積した上で、この蓄積データを復号化して音声認識を行う。しかし、この方法によると蓄積データの容量やネットワークの負荷は抑えられるものの、圧縮により品質が劣化したデータを用いて音声認識を行うため、認識性能が著しく劣化してしまう。
また、信号取込部から認識・蓄積部へのデータ転送前には圧縮を行わず、転送後に音声認識を行った上でデータの圧縮を行う方法も考えられるが、逆に認識性能は担保できるものの、ネットワークの負荷が大きくなる。

本発明の目的は、蓄積データの容量やネットワークの負荷を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することにある。

本発明の音声認識・蓄積システムは、送話Ａ／Ｄ変換手段、受話Ａ／Ｄ変換手段、低圧縮音声符号化手段、及び転送手段を有する信号取込部と、受信手段、低圧縮音声復号化手段、送話音声認識手段、受話音声認識手段、認識結果同期手段、認識結果データメモリ、ステレオ／モノラル変換手段、高圧縮音声符号化手段、及び音声データメモリを有する認識・蓄積部とから構成される。
送話Ａ／Ｄ変換手段は、アナログ送話信号が入力され、ディジタル送話信号に変換して出力する。受話Ａ／Ｄ変換手段は、アナログ受話信号が入力され、ディジタル受話信号に変換して出力する。低圧縮音声符号化手段は、上記ディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を生成し出力する。転送手段は、上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する。受信手段は、上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する。低圧縮音声復号化手段は、上記受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する。送話音声認識手段は、上記受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する。受話音声認識手段は、上記復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する。認識結果同期手段は、上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する。認識結果データメモリは、上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する。ステレオ／モノラル変換手段は、上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とがステレオ入力され、モノラル化して送受話ディジタル信号を生成し出力する。高圧縮音声符号化手段は、上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを生成し出力する。音声データメモリは、上記蓄積用音声データを蓄積する。

本発明の音声認識・蓄積システムによれば、蓄積データの容量やネットワークの負荷を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。

〔第１実施形態〕
図１は、本発明の音声認識・蓄積システム１０の機能構成例である。また、図２は処理フローである。
音声認識・蓄積システム１０は、送話Ａ／Ｄ変換手段１０３、受話Ａ／Ｄ変換手段１０４、低圧縮音声符号化手段１１、及び転送手段１０７を有する信号取込部１０ａと、受信手段１０８、低圧縮音声復号化手段１２、送話音声認識手段１３、受話音声認識手段１４、認識結果同期手段１５、認識結果データメモリ１１３、ステレオ／モノラル変換手段１０５、高圧縮音声符号化手段１６、及び音声データメモリ１０９を有する認識・蓄積部１０ｂとから構成される。

送話Ａ／Ｄ変換手段１０３、受話Ａ／Ｄ変換手段１０４、転送手段１０７、受信手段１０８、認識結果データメモリ１１３、ステレオ／モノラル変換手段１０５、及び音声データメモリ１０９の機能は図６に示した従来技術と同じである。よって、図１の中で図６と対応する部分については同一参照番号を付け、説明は省略する。その他の図面についても同様とする。
以下、図６と異なる、低圧縮音声符号化手段１１、低圧縮音声復号化手段１２、送話音声認識手段１３、受話音声認識手段１４、認識結果同期手段１５、及び高圧縮音声符号化手段１６について説明する。

低圧縮音声符号化手段１１は、受話Ａ／Ｄ変換手段１０４から出力されたディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を出力する。低圧縮音声復号化手段１２は、受信手段１０８で受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する。送話音声認識手段１３は、受信手段１０８で受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する。受話音声認識手段１４は、上記低圧縮音声復号化手段１２で復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する。なお、送話音声認識手段１３及び受話音声認識手段１４における音声認識処理方法は公知のいかなる技術を用いても構わない。認識結果同期手段１５は、上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する。高圧縮音声符号化手段１６は、ステレオ／モノラル変換手段１０５から出力された送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを生成し出力する。

次に、音声認識・蓄積システム１０による処理フローについて説明する。通話装置１から出力されたアナログ受話信号５が送話信号入力端子１０１から送話Ａ／Ｄ変換手段１０３に、アナログ受話信号６が受話信号入力端子１０２から受話Ａ／Ｄ変換手段１０４に入力され（Ｓ１）、それぞれディジタル送話信号とディジタル受話信号に変換される（Ｓ２、Ｓ３）。ディジタル受話信号については更に低圧縮音声符号化手段１１に入力され、低圧縮率で圧縮符号化されて、低圧縮符号化受話信号として出力される（Ｓ４）。一方、ディジタル送話信号については圧縮を行わない。これは次の理由による。

受話信号については、相手方から公衆回線等を経て音声認識・蓄積システムが接続された通話装置に到達し、信号形式は例えば電話回線ではサンプリング周波数８ｋＨｚ、量子化ビット数８ｂｉｔのビットレート６４ｋｂｐｓのμ−ｌａｗＰＣＭ形式が一般的である。一方、送話信号はマイク帯域の音声であるため、サンプリング周波数１６ｋＨｚ、量子化ビット数１６ｂｉｔのビットレート２５６ｋｂｐｓのリニアＰＣＭ形式の信号が一般的である。このように送話信号と受話信号はデータの持つ情報量がそもそも異なっている（送話：受話＝４：１）。しかし、音声認識・蓄積システムをはじめとする通常の録音デバイスは、送話信号と受話信号とをステレオ録音する場合、異なるフォーマットで録音することが困難である。そこで、本発明では送話Ａ／Ｄ変換手段１０３と受話Ａ／Ｄ変換手段１０４において、アナログ送話信号とアナログ受話信号を同一フォーマットの同期したステレオ信号として取り込むこととし、具体的には送話信号に合わせてマイク帯域のリニアＰＣＭ形式により取り込みを行う。もっとも、受話信号については帯域を拡大して取り込んでいるため、Ａ／Ｄ変換後に更に低圧縮音声符号化手段１１において公衆回線等のビットレートまで圧縮を行う。上記の例では受話信号を１／４に圧縮できるため、送受話トータルでは、５／８（＝（１＋１／４）／（１＋１））に通信ネットワークの負荷を抑制できる。このような圧縮処理を行っても、あくまで本来の受話信号のビットレートに戻すに過ぎないため、本来の受話信号を用いた場合と同様な音声認識性能を得ることができる。

そして、送話Ａ／Ｄ変換手段１０３から出力されたディジタル送話信号と低圧縮音声符号化手段１１から出力された低圧縮符号化受話信号は、転送手段１０７から通信ネットワーク４へ転送される（Ｓ５）。転送されたディジタル送話信号と低圧縮符号化受話信号は、受信手段１０８で受信され（Ｓ６）、低圧縮符号化受話信号については低圧縮音声復号化手段１２においてディジタル受話信号に復号化される（Ｓ７）。受信されたディジタル送話信号と復号化されたディジタル受話信号は、それぞれ送話音声認識手段１３と受話音声認識手段１４に入力されて音声認識処理が行われ（Ｓ８−１、Ｓ８−２）、認識結果同期手段１５において送話・受話の認識処理結果のタイミングが合わされた上で（Ｓ８−３）、認識結果データメモリ１１３に送話・受話の認識結果が蓄積される（Ｓ８−４）。一方、Ｓ８の一連の認識処理と並行して音声蓄積処理が行われる。Ｓ７で受信されたディジタル送話信号と復号化されたディジタル受話信号は、ステレオ／モノラル変換手段１０５にステレオ入力され、両者のタイミングを合わせた上でモノラル化されて送受話ディジタル信号として出力される（Ｓ９−１）。送受話ディジタル信号は、高圧縮音声符号化手段１６において、再生する際に音声が聞ける程度の高圧縮率で圧縮され（Ｓ９−２）、この圧縮された蓄積用音声データが音声データメモリ１０９に蓄積される（Ｓ９−３）。ステレオ／モノラル変換手段１０５に入力されるステレオ信号は、サンプリング周波数１６ｋＨｚ、量子化ビット数１６ｂｉｔとすると、ビットレートは５１２ｋｂｐｓとなる。このような信号に対する高圧縮率の圧縮方式として、μ−ｌａｗＰＣＭ形式の６４ｋｂｐｓや、Ｇ．７２９．Ａの８ｋｂｐｓ、Ｇ．７２３．１の５．３ｋｂｐｓなどが挙げられる。例えば、Ｇ．７２９．Ａを採用した場合、非圧縮の場合と比べ１／６４まで音声データの蓄積容量を圧縮することが可能となる。

なお、再生時には音声データメモリ１０９に高圧縮率で圧縮蓄積された音声データを復号化した音声信号を再生する。
このように、第１実施形態の構成により、ネットワークの負荷やディスク容量を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。また、転送手段１０７の前に可逆圧縮化手段、受信手段１０８の後に可逆復号手段を追加することで、ネットワークの負荷を更に減らすことも考えられる。

〔第２実施形態〕
図３は、本発明の音声認識・蓄積システム２０の機能構成例である。また、図４は処理フローである。
第１実施形態は、通信ネットワークへ転送する通話信号のうち、受話信号についてのみ転送前に低圧縮率の圧縮符号化処理を行い、転送後に受話信号の復号化処理をした上で、非圧縮の通話信号に対し、音声認識処理を行うと共に高圧縮率の圧縮符号化処理を行った上で通話音声の蓄積処理を行うものである。しかし、この方法によると音声データの容量は抑制できるものの、通信ネットワークへの転送前に受話信号についてのみ、それも圧縮率が低いため、通信ネットワークの負荷の抑制効果は十分なものとは言い難い。
そこで、第２実施形態では、通信ネットワークにデータ転送を行う前に非圧縮の通話信号について、音声特徴量の抽出処理を行うと共に高圧縮率の圧縮符号化処理を行い、音声特徴量と高圧縮符号化通話信号の転送後に、音声特徴量を用いて音声認識を行うと共に受信した高圧縮符号化通話信号をそのまま蓄積する。このように音声認識を音声特徴量により行うこととし、かつ特徴量の抽出を転送前に行うことで、転送後に非圧縮の通話信号が不要になるため、通話信号に対する高圧縮率の圧縮符号化処理を転送前に行うことができ、また、音声特徴量はパラメータの組み合わせデータに過ぎないため容量がわずかである。そのため、通信ネットワークの負荷を大きく抑制することができる。

音声認識・蓄積システム２０は、送話Ａ／Ｄ変換手段１０３、受話Ａ／Ｄ変換手段１０４、送話特徴量抽出手段２１、受話特徴量抽出手段２２、ステレオ／モノラル変換手段１０５、高圧縮音声符号化手段１６、及び転送手段１０７を有する信号取込部２０ａと、受信手段１０８、送話特徴量認識手段２３、受話特徴量認識手段２４、認識結果同期手段１５、認識結果データメモリ１１３、及び音声データメモリ１０９を有する認識・蓄積部２０ｂとから構成される。
送話Ａ／Ｄ変換手段１０３、受話Ａ／Ｄ変換手段１０４、ステレオ／モノラル変換手段１０５、転送手段１０７、受信手段１０８、認識結果データメモリ１１３、及び音声データメモリ１０９の機能は図６に示した従来技術と同じであり、認識結果同期手段１５の機能は図３に示した第１実施形態と同じである。

以下、図３及び図６と異なる、送話特徴量抽出手段２１、受話特徴量抽出手段２２、送話特徴量認識手段２３、及び受話特徴量認識手段２４について説明する。
送話特徴量抽出手段２１は、送話Ａ／Ｄ変換手段１０３から出力されたディジタル送話信号が入力され、送話特徴量を抽出して出力する。受話特徴量抽出手段２２は、受話Ａ／Ｄ変換手段１０４から出力されたディジタル受話信号が入力され、受話特徴量を抽出して出力する。送話特徴量認識手段２３は、上記抽出された送話特徴量が通信ネットワーク４などを介して入力され、特徴量に基づく音声認識処理を行って送話音声認識結果を出力する。受話特徴量認識手段２４は、上記抽出された受話特徴量が通信ネットワーク４などを介して入力され、特徴量に基づく音声認識処理を行って受話音声認識結果を出力する。なお、送話特徴量抽出手段２１及び受話特徴量抽出手段２２における特徴量抽出処理方法と、送話特徴量認識手段２３及び送話特徴量認識手段２４における音声認識処理方法は、それぞれ組み合わせて利用することが可能な方法であれば公知のいかなる技術を用いても構わない。

次に、音声認識・蓄積システム２０による処理フローについて説明する。通話装置１から出力されたアナログ受話信号５が送話信号入力端子１０１から送話Ａ／Ｄ変換手段１０３に、アナログ受話信号６が受話信号入力端子１０２から受話Ａ／Ｄ変換手段１０４にステレオ入力され（Ｓ１）、それぞれディジタル送話信号とディジタル受話信号に変換される（Ｓ２、Ｓ３）。送話特徴量抽出手段２１においてディジタル送話信号から送話特徴量が抽出され（Ｓ４−１）、受話特徴量抽出手段２２においてディジタル受話信号から受話特徴量が抽出される（Ｓ４−２）。Ｓ４での特徴量の抽出処理と並行して、ステレオ／モノラル変換手段１０５にディジタル送話信号とディジタル受話信号とがステレオ入力され、両者のタイミングを合わせた上でモノラル化されて送受話ディジタル信号として出力され（Ｓ５−１）、更に高圧縮音声符号化手段１６に入力され、再生する際に音声が聞ける程度の高圧縮率で圧縮されて、蓄積用音声データとして出力される（Ｓ５−２）。次に、抽出された送話・受話特徴量と、蓄積用音声データとが転送手段１０７から通信ネットワーク４へ転送され（Ｓ６）、受信手段１０８で受信される（Ｓ７）。受信された送話特徴量と受話特徴量については、それぞれ送話特徴量認識手段２３と受話特徴量認識手段２４において音声認識処理が行われ（Ｓ８−１、Ｓ８−２）、認識結果同期手段１５において送話・受話の認識処理結果のタイミングが合わされた上で（Ｓ８−３）、認識結果データメモリ１１３に送話・受話の認識結果が蓄積される（Ｓ８−４）。また、Ｓ８の一連の認識処理と並行して、Ｓ７で受信された蓄積用音声データが音声データメモリ１０９に蓄積される（Ｓ９）。
このように、第２実施形態においては、通信ネットワークには容量の小さい特徴量データと高圧縮率で圧縮された通話音声データとを転送すればよいため、通信ネットワークの負荷を十分に抑え、かつ、ディスク容量を抑えつつ、音声認識性能を劣化させない音声認識・蓄積システムを実現することができる。

〔その他の形態について〕
本発明における音声認識・蓄積システム及びその方法は、上記の実施形態に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、上記に説明した処理は記載の順に従った時系列において実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音声認識・蓄積システムにおける処理機能をコンピュータによって実現する場合、音声認識・蓄積システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより上記音声認識・蓄積システムにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magnet-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、このプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等をすることによって行う。更に、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介してサーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦自己の記録装置に格納する。そして、処理の実行時、このコンピュータは自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータからこのコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって上記の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態ではコンピュータ上で所定のプログラムを実行させることにより、音声認識・蓄積システムを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、通話音声の蓄積とその通話音声の音声認識の双方を行う際に、蓄積データの容量やネットワークの負荷を抑えつつ、音声性能を劣化させずに音声認識を行いたい場合に有用である。

第１実施形態の音声認識・蓄積システムの構成例。第１実施形態の音声認識・蓄積システムの処理フロー図。第２実施形態の音声認識・蓄積システムの構成例。第２実施形態の音声認識・蓄積システムの処理フロー図。通話装置と音声認識・蓄積システムとの関係を示す図。従来の音声認識・蓄積システムの構成例。

Claims

アナログ送話信号が入力され、ディジタル送話信号に変換して出力する送話Ａ／Ｄ変換手段と、
アナログ受話信号が入力され、ディジタル受話信号に変換して出力する受話Ａ／Ｄ変換手段と、
上記ディジタル受話信号が入力され、低圧縮率で圧縮符号化して低圧縮符号化受話信号を出力する低圧縮音声符号化手段と、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する転送手段と、
を有する信号取込部と、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する受信手段と、
上記受信された低圧縮符号化受話信号が入力され、復号化してディジタル受話信号を出力する低圧縮音声復号化手段と、
上記受信されたディジタル送話信号が入力され、音声認識処理による送話音声認識結果を出力する送話音声認識手段と、
上記復号化されたディジタル受話信号が入力され、音声認識処理による受話音声認識結果を出力する受話音声認識手段と、
上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する認識結果同期手段と、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する認識結果データメモリと、
上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とが入力され、モノラル化して送受話ディジタル信号を出力するステレオ／モノラル変換手段と、
上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを出力する高圧縮音声符号化手段と、
上記蓄積用音声データを蓄積する音声データメモリと、
を有する認識・蓄積部と、
を具備する音声認識・蓄積システム。
アナログ送話信号が入力され、ディジタル送話信号に変換して出力する送話Ａ／Ｄ変換手段と、
アナログ受話信号が入力され、ディジタル受話信号に変換して出力する受話Ａ／Ｄ変換手段と、
上記ディジタル送話信号が入力され、送話音声特徴量を抽出して出力する送話特徴量抽出手段と、
上記ディジタル受話信号が入力され、受話音声特徴量を抽出して出力する受話特徴量抽出手段と、
上記ディジタル送話信号と上記ディジタル受話信号とが入力され、モノラル化して送受話ディジタル信号を出力するステレオ／モノラル変換手段と、
上記送受話ディジタル信号が入力され、高圧縮率で圧縮符号化して蓄積用音声データを出力する高圧縮音声符号化手段と、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信ネットワークに転送する転送手段と、
を有する信号取込部と、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信
ネットワークから受信する受信手段と、
上記受信された送話音声特徴量が入力され、特徴量に基づく音声認識処理を行って送話音声認識結果を出力する送話特徴量認識手段と、
上記受信された受話音声特徴量が入力され、特徴量に基づく音声認識処理を行って受話音声認識結果を出力する受話特徴量認識手段と、
上記送話音声認識結果と上記受話音声認識結果とが入力され、両者のタイミングを合わせて出力する認識結果同期手段と、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを蓄積する認識結果データメモリと、
上記受信された蓄積用音声データを蓄積する音声データメモリと、
を有する認識・蓄積部と、
を具備する音声認識・蓄積システム。
アナログ送話信号をディジタル送話信号に変換する送話Ａ／Ｄ変換ステップと、
アナログ受話信号をディジタル受話信号に変換する受話Ａ／Ｄ変換ステップと、
上記ディジタル受話信号を、低圧縮率で圧縮符号化して低圧縮符号化受話信号を生成する低圧縮音声符号化ステップと、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークに転送する転送ステップと、
上記ディジタル送話信号と上記低圧縮符号化受話信号とを通信ネットワークから受信する受信ステップと、
上記受信された低圧縮符号化受話信号を復号化してディジタル受話信号を得る低圧縮音声復号化ステップと、
上記受信されたディジタル送話信号について、音声認識処理を行って送話音声認識結果を得る送話音声認識サブステップと、
上記復号化されたディジタル受話信号について、音声認識処理を行って受話音声認識結果を得る受話音声認識サブステップと、
上記送話音声認識結果と上記受話音声認識結果とのタイミングを合わせる認識結果同期サブステップと、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを認識結果データメモリに蓄積する認識結果データ蓄積サブステップと、
を実行する認識結果蓄積ステップと、
上記受信されたディジタル送話信号と上記復号化されたディジタル受話信号とをモノラル化して、送受話ディジタル信号を生成するステレオ／モノラル変換サブステップと、
上記送受話ディジタル信号を高圧縮率で圧縮符号化して蓄積用音声データを生成する高圧縮音声符号化サブステップと、
上記蓄積用音声データを音声データメモリに蓄積する音声データ蓄積サブステップと、
を実行する音声蓄積ステップと、
を実行する音声認識・蓄積方法。
アナログ送話信号をディジタル送話信号に変換する送話Ａ／Ｄ変換ステップと、
アナログ受話信号をディジタル受話信号に変換する受話Ａ／Ｄ変換ステップと、
上記ディジタル送話信号の送話音声特徴量を抽出する送話特徴量抽出サブステップと、
上記ディジタル受話信号の受話音声特徴量を抽出する受話特徴量抽出サブステップと、
を実行する特徴量抽出ステップと、
上記ディジタル送話信号と上記ディジタル受話信号とをモノラル化して、送受話ディジタル信号を生成するステレオ／モノラル変換サブステップと、
上記送受話ディジタル信号を高圧縮率で圧縮符号化して蓄積用音声データを生成する高圧縮音声符号化サブステップと、
を実行する音声圧縮ステップと、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信ネットワークに転送する転送ステップと、
上記送話音声特徴量と上記受話音声特徴量と上記蓄積用音声データとを通信
ネットワークから受信する受信ステップと、
上記受信された上記送話音声特徴量について、特徴量に基づく音声認識処理を行って送話音声認識結果を得る送話特徴量認識ステップと、
上記受信された上記受話音声特徴量について、特徴量に基づく音声認識処理を行って受話音声認識結果を得る受話特徴量認識ステップと、
上記送話音声認識結果と上記受話音声認識結果とのタイミングを合わせる認識結果同期サブステップと、
上記タイミングを合わせた送話音声認識結果と受話音声認識結果とを認識結果データメモリに蓄積する認識結果データ蓄積サブステップと、
を実行する認識結果蓄積ステップと、
上記受信された蓄積用音声データを蓄積する音声蓄積ステップと、
を実行することを特徴とする音声認識・蓄積方法。