JP2006154567A - 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム - Google Patents
音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム Download PDFInfo
- Publication number
- JP2006154567A JP2006154567A JP2004347769A JP2004347769A JP2006154567A JP 2006154567 A JP2006154567 A JP 2006154567A JP 2004347769 A JP2004347769 A JP 2004347769A JP 2004347769 A JP2004347769 A JP 2004347769A JP 2006154567 A JP2006154567 A JP 2006154567A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- data
- speech
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】 暗号化の有無、音声入力および認識環境等の条件に影響されることなく、単語検索を行う際の利便性の向上をはかる。
【解決手段】 本発明の音声認識機能付きロギングシステムは、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段(16、19)と、送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、受信した音声データの認識を、不特定話者を対象に音声認識エンジンを用いて実行する音声認識手段(13、14、15、17、18)で構成される端末装置12を備える。
【選択図】 図1
【解決手段】 本発明の音声認識機能付きロギングシステムは、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段(16、19)と、送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、受信した音声データの認識を、不特定話者を対象に音声認識エンジンを用いて実行する音声認識手段(13、14、15、17、18)で構成される端末装置12を備える。
【選択図】 図1
Description
本発明は、IP(Internet Protocol)接続環境を用いて交換される音声情報を保存し、活用する用途に用いて好適な、音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラムに関する
通信コスト低減を目的にVoIP(Voice over Internet Protocol)電話が普及し、コンピュータと電話を融合するCTI(Computer Telephony Information)システムへの応用が注目されるようになった。
例えば、コールセンターにおいて、電話機のログを取得するのに、複数の電話機の音声をロギングサーバでまとめてログを取得する音声ロギングシステムがある。これら音声ロギングシステムには、電話機の音声を透過的に保存するものと、ロギングサーバで対象の電話機に音声を中継し、その中継の過程で保存するものがある。また、通話録音装置で録音された音声を認識し利用するシステムとして、認識された音声を機器の操作のために用いるボイスコマンド等がある(例えば、非特許文献1、2参照)。
http://advanced-media.co.jp/prooducts/1502.html<インターネット>2004年11月11日閲覧、「AmiVoiceseries製品情報」 http://www.logit.co.jp/products/nicelog/voip.html<インターネット>2004年11月11日閲覧、ログイット株式会社Products[製品紹介]「VoIP録音を可能にした最新のIPレコーディング」
http://advanced-media.co.jp/prooducts/1502.html<インターネット>2004年11月11日閲覧、「AmiVoiceseries製品情報」 http://www.logit.co.jp/products/nicelog/voip.html<インターネット>2004年11月11日閲覧、ログイット株式会社Products[製品紹介]「VoIP録音を可能にした最新のIPレコーディング」
ところで、上記したIP電話でやり取りされている音声データに、暗号化処理等で第三者による盗聴を防ぐ仕組みは無い。一方でプライバシー保護の観点から暗号化による仕組みが組み込まれる可能性は高い。また、米国では、訴訟などの証拠保全対策としてIP電話音声の保存を法的に義務付ける動きがある。
しかしながら、暗号化を考慮する際、音声を単一サーバで透過的に保存する場合にはサーバで保存されている音声は暗号化済みのデータであるため、利用が容易ではない。また、音声を中継することによるロギングシステムでは、暗号化データを復号化して保存できる可能性は有しているが、プライバシー保護を考慮する場合、復号化したデータを再度暗号化して中継する必要があり、中継処理に要する処理によって円滑なコミュニケーションを阻害する恐れがある。また、サーバに負荷が集中することから、ロギングミス等を引き起こす危険がある。
しかしながら、暗号化を考慮する際、音声を単一サーバで透過的に保存する場合にはサーバで保存されている音声は暗号化済みのデータであるため、利用が容易ではない。また、音声を中継することによるロギングシステムでは、暗号化データを復号化して保存できる可能性は有しているが、プライバシー保護を考慮する場合、復号化したデータを再度暗号化して中継する必要があり、中継処理に要する処理によって円滑なコミュニケーションを阻害する恐れがある。また、サーバに負荷が集中することから、ロギングミス等を引き起こす危険がある。
一方、音声認識について、電話によるコミュニケーションでは対象が一意に決まらないため、不特定多数を対象とする音声認識エンジンを必要とする。不特定話者音声認識エンジンは、発話の個人差を吸収可能な特定話者音声認識エンジンに比べて認識率が低い。
また、電話は、機器の状態、発話者の状態によりやりとりされる音声の品質は変動する。感度が悪いマイクや、マイクと発声器官の距離および発声量などにより、認識結果に悪影響を与える。更に、音声と認識テキストを参照する場合、音声と認識テキストの相関がないため、単語検索を行った場合に単語の発生個所から音声を途中再生することが難しいといった不都合を有していた。
また、電話は、機器の状態、発話者の状態によりやりとりされる音声の品質は変動する。感度が悪いマイクや、マイクと発声器官の距離および発声量などにより、認識結果に悪影響を与える。更に、音声と認識テキストを参照する場合、音声と認識テキストの相関がないため、単語検索を行った場合に単語の発生個所から音声を途中再生することが難しいといった不都合を有していた。
本発明は上記事情に基づいてなされたものであり、暗号化の有無、音声入力および認識環境等の条件に影響されることなく、単語検索を行う際の利便性の向上をはかった、音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラムを提供することを目的とする。
上記した課題を解決するために本発明の音声認識機能付きロギングシステムは、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムであって、前記各端末装置で送受信される、送信音声データ、受信音声データを、特定話者を対象に音声認識を行う特定話者音声認識エンジン、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いてそれぞれ音声認識し、作成された認識テキストを、前記送信音声データ、受信音声データのそれぞれに関連付けて保存するログ取得手段、を具備することを特徴とする。
また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける端末装置であって、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段と、前記送信した音声データの認識を、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する音声認識手段と、を具備することを特徴とする。
また、本発明において、前記記憶手段と、前記音声認識手段を、それぞれ独立した装置に実装することを特徴とする。
また、本発明において、前記音声認識手段は、前記保存された音声データを文節単位に区切り、当該文節に相当するデジタルデータを、前記音声認識エンジンを用いて音声認識することを特徴とする。
また、本発明において、前記音声認識手段は、前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに無音区間を検出し、当該無音区間を前記文節として区切って音声認識することを特徴とする。
また、本発明において、前記音声認識手段は、前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに音声レベルを検出し、ある音声レベルが所定時間連続する区間を文節として区切って音声認識することを特徴とする。
また、本発明において、前記音声認識手段は、前記文節単位の音声認識終了後、当該文節分けした音声データと認識テキストを対にして保存し、音声認識処理中あるいは通話全体の音声認識終了後、シグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキストを関連付けて保存することを特徴とする。
また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける端末装置に用いられるプログラムであって、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する処理と、前記送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する処理と、をコンピュータに実行させることを特徴とする。
本発明によれば、送信する音声データと受信する音声データを一時保存し、送信した音声データの認識を、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて実行し、また、受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行することにより、やりとりされる音声データの暗号化に影響されず、特定の機器に負荷が集中することにより発生するロギングミスがなくなる。また、例えば、コールセンターにおけるオペレータと顧客との間の通話を想定した場合、オペレータは特定話者認識、顧客は不特定話者認識を使って音声認識を行うことになり、少なくとも前者によれば認識率が高く処理速度も速くなる。
また、本発明によれば、音声を文節に区切ってから音声認識処理を行うことにより単語認識を行う以上に認識率の向上がはかれる。さらに、本発明によれば、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。このことにより検索の際の利便性を提供することができる。
また、本発明によれば、音声を文節に区切ってから音声認識処理を行うことにより単語認識を行う以上に認識率の向上がはかれる。さらに、本発明によれば、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。このことにより検索の際の利便性を提供することができる。
以下、本発明の実施形態につき、図1〜図9を参照しながら説明する。図1は、本発明実施形態に係わる音声認識機能付きロギングシステムのシステム構成図である。ここでは、IP電話機11とIP電話機12の通話をロギングする例が示されている。なお、IP電話機12はロギングの機能を備え、具体的には、送信音声データ、受信音声データを、特定話者を対象に音声認識を行う特定話者音声認識エンジン、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いてそれぞれ音声認識し、作成された認識テキストを、送信音声データ、受信音声データのそれぞれに関連付けて保存するログ取得手段として機能する。詳細は以下に述べる。
図1は、本発明実施形態に係る音声機能付きロギングシステムのシステム構成を示す図である。図1を参照しながら、IP電話機12からIP電話機11へ送信するデータの流れについて説明する。
まず、入力音声は、マイクなどの音声入力部13において標本化、量子化処理が行なわれ、音声送信部14にデジタル音声データとして渡される。音声送信部14は、暗号化の必要があればIP電話機11に送出するデータを暗号化し、パケット化して送出する。同時に、音声入力部13からのデジタル音声データを本発明の音声認識手段として機能する特定話者音声認識部15に渡す。ここで、「特定話者」とは、所定期間学習の過程を経て個人の特徴が記憶された話者のことをいい、ここではコールセンタの受付け担当者を想定している。なお、特定話者音声認識部15は、IP電話機12に組み込まれ、あるいは物理的に異なるハードウェアとして用意されても良い。特定話者音声認識部15は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になった時点で認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、本発明の記憶手段として機能する、送信音声、認識テキスト保存領域16に、通話全体のデジタル音声データの認識処理が終了するまで一時的に保持される。
まず、入力音声は、マイクなどの音声入力部13において標本化、量子化処理が行なわれ、音声送信部14にデジタル音声データとして渡される。音声送信部14は、暗号化の必要があればIP電話機11に送出するデータを暗号化し、パケット化して送出する。同時に、音声入力部13からのデジタル音声データを本発明の音声認識手段として機能する特定話者音声認識部15に渡す。ここで、「特定話者」とは、所定期間学習の過程を経て個人の特徴が記憶された話者のことをいい、ここではコールセンタの受付け担当者を想定している。なお、特定話者音声認識部15は、IP電話機12に組み込まれ、あるいは物理的に異なるハードウェアとして用意されても良い。特定話者音声認識部15は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になった時点で認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、本発明の記憶手段として機能する、送信音声、認識テキスト保存領域16に、通話全体のデジタル音声データの認識処理が終了するまで一時的に保持される。
次に、IP電話機11からIP電話機12に対して送信されたデジタル音声データの流れを説明する。
パケット化されているIP電話機11からのデジタル音声データを音声受信部17で受信し、暗号化されている場合は復号化処理を行う。ここで、デジタル音声データは図示せぬスピーカ等の音声出力デバイスを介して出力される。同時に、デジタル音声データは、本発明の音声認識手段として機能する不特定話者音声認識部18に渡される。ここで、「不特定話者」とは、上記した特定話者の対語であり、不特定多数の人間が持つ音声の周波数帯域が記憶されており、利用頻度の高い話者についてのみ補正を加えた不特定多数の者をいう。なお、不特定話者音声認識部18は、IP電話機12に組み込まれているか、物理的に異なるハードウェアで用意されていても良い。
不特定話者音声認識部18は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になれば認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、本発明の記憶手段として機能する、受信音声、認識テキスト保存領域19に、通話全体のデジタル音声データの認識処理が終了するまで一時的に保持される。
パケット化されているIP電話機11からのデジタル音声データを音声受信部17で受信し、暗号化されている場合は復号化処理を行う。ここで、デジタル音声データは図示せぬスピーカ等の音声出力デバイスを介して出力される。同時に、デジタル音声データは、本発明の音声認識手段として機能する不特定話者音声認識部18に渡される。ここで、「不特定話者」とは、上記した特定話者の対語であり、不特定多数の人間が持つ音声の周波数帯域が記憶されており、利用頻度の高い話者についてのみ補正を加えた不特定多数の者をいう。なお、不特定話者音声認識部18は、IP電話機12に組み込まれているか、物理的に異なるハードウェアで用意されていても良い。
不特定話者音声認識部18は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になれば認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、本発明の記憶手段として機能する、受信音声、認識テキスト保存領域19に、通話全体のデジタル音声データの認識処理が終了するまで一時的に保持される。
通話全体の認識処理終了後、送信音声、認識テキスト保存領域16および受信音声、認識テキスト保存領域19に保存されているデジタル音声データと認識テキストは、音声、認識テキスト保存領域110に転送され、ここで一元管理される。この時、一時保存領域である送信音声、認識テキスト保存領域16および受信音声、認識テキスト保存領域19に保存されているデジタル音声データと認識テキストは破棄される。
図1では簡略化のため、上記したロギング機能を持つIP電話機12は、1台のみ示されているが、複数台になった場合でも、送信音声、認識テキスト保存領域16および受信音声、認識テキスト保存領域19に保存されているデジタル音声データと認識テキストを、音声、認識テキスト保存領域110に保存することで一元管理を行う。
図1では簡略化のため、上記したロギング機能を持つIP電話機12は、1台のみ示されているが、複数台になった場合でも、送信音声、認識テキスト保存領域16および受信音声、認識テキスト保存領域19に保存されているデジタル音声データと認識テキストを、音声、認識テキスト保存領域110に保存することで一元管理を行う。
保存内容検索インタフェース111は、音声、認識テキスト保存領域110に保存されている通話内容を、認識テキストを対象とした単語検索を行うために用意されるソフトウェアであり、ここでは検索の利便性を考慮し、PCにインストールされたブラウザが相当する。
図2は、図1に示すIP電話機12の内部構成を機能展開して示したブロック図である。
IP電話機12は、シグナリング受信部22と、シグナリング処理部23と、シグナリング情報保存部24と、音声入力/パケット部25と、暗号化部26と、データ送信部27と、送信データ一時保存29と、文節区切り処理部210と、特定話者音声認識エンジン211と、送信データ/認識テキスト保存部12と、データ受信部214と、復号化部215と、受信データ一時保存部216と、不特定話者音声認識エンジン217と、受信データ/認識テキスト保存部218と、音声、認識テキスト相関作成部219で構成される。
IP電話機12は、シグナリング受信部22と、シグナリング処理部23と、シグナリング情報保存部24と、音声入力/パケット部25と、暗号化部26と、データ送信部27と、送信データ一時保存29と、文節区切り処理部210と、特定話者音声認識エンジン211と、送信データ/認識テキスト保存部12と、データ受信部214と、復号化部215と、受信データ一時保存部216と、不特定話者音声認識エンジン217と、受信データ/認識テキスト保存部218と、音声、認識テキスト相関作成部219で構成される。
IP電話機12は、まず、通話を行うためのシグナリングパケット21をシグナリング受信部22で受信する。次に、シグナリング処理部23で解析処理を行い、通話開始時刻、通話対象の電話番号、通話対象のIPアドレス、デジタル音声データのフォーマット、その他シグナリング方式ごとに必要となる情報を取得し、シグナリング情報保存部24に一時的に保存する。
次に、通話対象にパケットを送出する場合の流れを説明する。音声入力/パケット化部25で生成されたデジタル音声データは、暗号化部26で暗号化され、データ送信部27で送信音声パケット28として、シグナリングパケット21に記載されているデジタル音声データの送出先に対して送出される。同時に、音声入力/パケット化部25で生成されたデジタル音声データは、送信データ一時保存部29において、認識処理が可能になる量が蓄積されるまで保存される。
送信データ一時保存部29に、認識処理に必要な量が蓄積された場合、文節区切り処理部210において文節区切り処理が行われ、文節分けされたデジタル音声データごとに特定話者音声認識エンジン211による認識処理が行われる。認識後は、送信データ/認識テキスト保存部212に、文節分けした音声データおよび認識テキストを対にして、通話全体の認識処理が完了するまで一時的に保存する。
送信データ一時保存部29に、認識処理に必要な量が蓄積された場合、文節区切り処理部210において文節区切り処理が行われ、文節分けされたデジタル音声データごとに特定話者音声認識エンジン211による認識処理が行われる。認識後は、送信データ/認識テキスト保存部212に、文節分けした音声データおよび認識テキストを対にして、通話全体の認識処理が完了するまで一時的に保存する。
次に、相手先からのパケットを受信する場合の流れを説明する。相手先から送出され受信した受信音声パケット213は、データ受信部214で受信され、暗号化されている場合は復号化モジュール215で復号化する。復号化されたデジタル音声データは、受信データ一時保存部216において、認識処理が可能になる量が蓄積されるまで保存される。受信データ一時保存部216に、認識処理に必要な蓄積された場合、文節区切り処理部210で文節区切り処理が行われ、ここで文節分けされたデジタル音声データごとに不特定話者音声認識エンジン217による認識処理が行われる。認識後は、受信データ/認識テキスト保存部218に、文節分けした音声データおよび認識テキストを対にして通話全体の認識処理が完了するまで一時的に保存する。
通話全体の認識処理が終了した場合、シグナリング情報保存部24、送信データ/認識テキスト保存部212、受信データ/認識テキスト保存部218に保存されている情報から、音声、認識テキスト相関作成部219において、参照に適した形式に整形し、上記したシグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキスト、音声−テキスト相関部分のそれぞれがデータベース(DB)220に保存される。
通話全体の認識処理が終了した場合、シグナリング情報保存部24、送信データ/認識テキスト保存部212、受信データ/認識テキスト保存部218に保存されている情報から、音声、認識テキスト相関作成部219において、参照に適した形式に整形し、上記したシグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキスト、音声−テキスト相関部分のそれぞれがデータベース(DB)220に保存される。
図3は、図1、図2に示すIP電話機12が複数存在するコールセンターのようなIP接続環境の音声ロギング処理について音声データの流れを示す図である。
上記したロギング機能を持つIP電話機群31は、処理能力を必要とする、文節区切り、音声認識、音声、テキスト相関作成機能を持たず、送受信した復号化済みのデジタル音声データを、電話機固有の保存領域32に各々の通話を保存する機能のみ有している。IP電話機31がそれぞれ保存したデジタル音声データは、異なるハードウェア、例えばサーバに実装されている、文節区切り・音声認識・音声-テキスト相関作成部33において、音声の文節区切り処理を行い、また、送信音声に対しては特定話者音声認識、受信音声に対しては不特定話者音声認識を行って音声とテキストの相関を作成する。そして作成された音声データ、認識テキスト、相関関係を共通の保存領域34に保存する。
上記したロギング機能を持つIP電話機群31は、処理能力を必要とする、文節区切り、音声認識、音声、テキスト相関作成機能を持たず、送受信した復号化済みのデジタル音声データを、電話機固有の保存領域32に各々の通話を保存する機能のみ有している。IP電話機31がそれぞれ保存したデジタル音声データは、異なるハードウェア、例えばサーバに実装されている、文節区切り・音声認識・音声-テキスト相関作成部33において、音声の文節区切り処理を行い、また、送信音声に対しては特定話者音声認識、受信音声に対しては不特定話者音声認識を行って音声とテキストの相関を作成する。そして作成された音声データ、認識テキスト、相関関係を共通の保存領域34に保存する。
図3に示す実施形態によれば、処理能力を必要とする処理をIP電話機自身が行う必要が無いため、IP電話機31の負荷が軽減され、高い処理能力を必要としない効といった効果がある。
図4は、図3におけるIP電話機31、および文節区切り、音声認識、音声・テキスト相関作成部33のそれぞれを機能展開して示したブロック図である。
IP電話機31には、シグナリング情報保存領域41、送信データ一時保存領域42、受信データ一時保存領域43のそれぞれに、シグナリングの情報、暗号化されていない送信音声データ、復号化済みの受信音声データが保存されている。送信データは、サーバ等、別ハードウェアに実装されている文節区切り処理部44で文節区切り処理され、特定話者音声認識部45で音声認識処理を行う。そして、送信データ/認識テキスト保存領域47に保持される。一方、受信データは、別ハードウェアに実装されている文節区切り処理部44で文節区切り処理され、不特定話者音声認識部46で音声認識処理を行う。そして、受信データ/認識テキスト保存領域48に保持される。
IP電話機31には、シグナリング情報保存領域41、送信データ一時保存領域42、受信データ一時保存領域43のそれぞれに、シグナリングの情報、暗号化されていない送信音声データ、復号化済みの受信音声データが保存されている。送信データは、サーバ等、別ハードウェアに実装されている文節区切り処理部44で文節区切り処理され、特定話者音声認識部45で音声認識処理を行う。そして、送信データ/認識テキスト保存領域47に保持される。一方、受信データは、別ハードウェアに実装されている文節区切り処理部44で文節区切り処理され、不特定話者音声認識部46で音声認識処理を行う。そして、受信データ/認識テキスト保存領域48に保持される。
以上の操作は通話全体の音声の処理が終了するまで行われる。通話全体の処理が終了した場合は、送信データ/認識テキスト保存領域47、受信データ/認識テキスト保存領域48内のデータに対し、音声・テキスト相関作成部49で音声とテキストを関連付ける。最後に、シグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキスト、音声・テキスト相関保存部分は、データベース410に保存される。
図5は、本発明実施形態において用いられる音声認識処理の概念図である。ここでは、データ一時保存領域51(図2に示す送信データ一時保存部29、受信データ一時保存部216に相当)に保存されているデジタル音声データから、文節区切り処理部52(図2における文節区切処理部210に相当)によって文節区切り済み音声データ53を生成する。
次に、文節区切り済み音声データ53を音声認識部54(図2における特定話者音声認識エンジン211、不特定話者音声認識エンジン217に相当)で音声認識処理を行い、認識テキスト55を生成する。そして、認識テキスト55および文節区切り済み音声データ53は、データ/認識テキスト保存領域56(図2における送信データ/認識テキスト保存部212、受信データ/認識テキスト保存部218に相当)に対にして保存する。この操作は、データ一時保存領域51のデジタル音声データがなくなるまで行う。
次に、文節区切り済み音声データ53を音声認識部54(図2における特定話者音声認識エンジン211、不特定話者音声認識エンジン217に相当)で音声認識処理を行い、認識テキスト55を生成する。そして、認識テキスト55および文節区切り済み音声データ53は、データ/認識テキスト保存領域56(図2における送信データ/認識テキスト保存部212、受信データ/認識テキスト保存部218に相当)に対にして保存する。この操作は、データ一時保存領域51のデジタル音声データがなくなるまで行う。
図6、図7は、図5に示す文節区切り処理部52(図2における210)の処理手順を示すフローチャートである。
ここでは、文節区切り処理に、IP電話における標準的なメディアストリーム伝送プロトコルであるRTP(Real-time Transport Protocol)の無音制御を利用する。RTPは、耐障害性に富み、リアルタイムにデータの到着を考慮していないIP網において、ストリーム伝送の制御を行うプロトコルである。具体的には、音声パケットを送出するたびに+1されるシーケンス番号で、伝送路上でのパケットロスを検知し、送出したデータの累計で表現されるタイムスタンプで再生タイミングを制御する。
無音制御とは、マイクなどの音声入力デバイスから一定期間音声入力が無い場合、帯域を節約するためにデータを送出しない制御である。無音制御が生じた場合、シーケンス番号は無音制御発生前のパケット+1になり、タイムスタンプは、無音区間にもデータを送出した場合と同じだけ加算される。従って、パケットロスが生じていない状態でタイムスタンプが大きく増加している場合になる。
ここでは、文節区切り処理に、IP電話における標準的なメディアストリーム伝送プロトコルであるRTP(Real-time Transport Protocol)の無音制御を利用する。RTPは、耐障害性に富み、リアルタイムにデータの到着を考慮していないIP網において、ストリーム伝送の制御を行うプロトコルである。具体的には、音声パケットを送出するたびに+1されるシーケンス番号で、伝送路上でのパケットロスを検知し、送出したデータの累計で表現されるタイムスタンプで再生タイミングを制御する。
無音制御とは、マイクなどの音声入力デバイスから一定期間音声入力が無い場合、帯域を節約するためにデータを送出しない制御である。無音制御が生じた場合、シーケンス番号は無音制御発生前のパケット+1になり、タイムスタンプは、無音区間にもデータを送出した場合と同じだけ加算される。従って、パケットロスが生じていない状態でタイムスタンプが大きく増加している場合になる。
図6に示すフローチャートを参照しながら説明する。まず、ステップS61で、データ一時保存領域51に認識処理に充分なデジタル音声データが保存されているか判別する。ここで、充分な量が保存されていない場合、ステップS62において保存されているデータが通話終了に達しているか否かを判別する。通話終了に達していればステップS66において認識処理を行い、達していない場合はステップS63である一定時間待機後、ステップS61に制御を移す。
ステップS61において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップS64において、RTPタイムスタンプがある閾値以上は離れている部分、つまり、無音制御が生じた部分が存在するか否かを判別する。無音制御が生じていない場合、ステップS62において保存されているデータが通話終了に達しているものであるか否かを判別する。ここで、通話終了に達している場合はステップS66の認識処理に制御を移し、達していない場合は保存されているデータには続きがある可能性が高いため、ステップS63で一定時間待機した後ステップS61に制御を移す。
ステップS61において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップS64において、RTPタイムスタンプがある閾値以上は離れている部分、つまり、無音制御が生じた部分が存在するか否かを判別する。無音制御が生じていない場合、ステップS62において保存されているデータが通話終了に達しているものであるか否かを判別する。ここで、通話終了に達している場合はステップS66の認識処理に制御を移し、達していない場合は保存されているデータには続きがある可能性が高いため、ステップS63で一定時間待機した後ステップS61に制御を移す。
ステップS64で無音制御を検知した場合、ステップS65において、保存データの最初から無音区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップS66において認識エンジン(音声認識部54)により認識処理され、認識結果を保存する領域に保存する。
認識処理後は、ステップS67において保存されているデータが残っているか否かを判別し、残っている場合はステップS63で一定時間待機後ステップS61に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。
認識処理後は、ステップS67において保存されているデータが残っているか否かを判別し、残っている場合はステップS63で一定時間待機後ステップS61に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。
次に、図7に示すフローチャートを参照しながら説明する。図7は、デジタル音声データの音声レベルを調べ、ある一定時間低い音声レベルの連続する部分を文節とみなす手法である。
まず、ステップS71で、データ一時保存領域51に認識処理に充分なデジタル音声データが保存されているか否かを判別する。ここで充分な量が保存されていない場合、ステップS72において保存されているデータが通話終了に達しているものであるか否かを判別する。通話終了に達していればステップS77において認識処理を行い、達していない場合はステップS73である一定時間待機後、ステップS71に制御を移す。
ステップS71において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップS74でノイズ除去フィルタによりノイズを除去し、ホワイトノイズを平滑化する。
まず、ステップS71で、データ一時保存領域51に認識処理に充分なデジタル音声データが保存されているか否かを判別する。ここで充分な量が保存されていない場合、ステップS72において保存されているデータが通話終了に達しているものであるか否かを判別する。通話終了に達していればステップS77において認識処理を行い、達していない場合はステップS73である一定時間待機後、ステップS71に制御を移す。
ステップS71において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップS74でノイズ除去フィルタによりノイズを除去し、ホワイトノイズを平滑化する。
次に、ステップS75で一定時間音声レベルが低い区間が存在するか否かを判別する。音声レベルが低い区間が存在しない場合は、ステップS72でデータが通話終了に達しているか否かを判別し、達している場合はステップS77に制御を移し、達していない場合はステップS73において一定時間待機後ステップS71に制御を移す。
ここで、音声レベルが低い区間が存在する場合は、ステップS76において、保存データの最初から低い音声レベル区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップS77において認識エンジン(音声認識部54)により認識処理され、認識結果を保存する領域に保存する。認識処理後は、ステップS78において保存されているデータが残っているか否かを判別し、残っている場合はステップS73で一定時間待機後ステップS71に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。
ここで、音声レベルが低い区間が存在する場合は、ステップS76において、保存データの最初から低い音声レベル区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップS77において認識エンジン(音声認識部54)により認識処理され、認識結果を保存する領域に保存する。認識処理後は、ステップS78において保存されているデータが残っているか否かを判別し、残っている場合はステップS73で一定時間待機後ステップS71に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。
図8は、検索処理を概念的に示す動作概念図である。ここでは、あいまい検索辞書を用いて音声認識の誤認識結果として考えられるものを検索語として用いる手法について説明する。
まず、ブラウザソフトウェアで作成された検索GUI(グラフィカルユーザインタフェース)81の単語入力欄に単語を入力し、検索ボタンを押下する。このことにより、入力された単語は検索システム82に渡される(S81)。
検索システム82は、あいまい検索辞書83から、入力単語の誤認識結果として考えられる、誤認識可能性単語リストを検索システム82に渡す(S82)。続いて検索システム82はリスト内の単語全てについて、データ/認識テキスト保存領域84内に保存されている音声認識テキストにマッチングするものがあるか否かを検索する(S83)。検索結果は、結果表示インタフェース85に、予め誤認識可能性単語リストに付けられたランクに従ってランク分けを行い表示する(S84)。
まず、ブラウザソフトウェアで作成された検索GUI(グラフィカルユーザインタフェース)81の単語入力欄に単語を入力し、検索ボタンを押下する。このことにより、入力された単語は検索システム82に渡される(S81)。
検索システム82は、あいまい検索辞書83から、入力単語の誤認識結果として考えられる、誤認識可能性単語リストを検索システム82に渡す(S82)。続いて検索システム82はリスト内の単語全てについて、データ/認識テキスト保存領域84内に保存されている音声認識テキストにマッチングするものがあるか否かを検索する(S83)。検索結果は、結果表示インタフェース85に、予め誤認識可能性単語リストに付けられたランクに従ってランク分けを行い表示する(S84)。
図9は、あいまい辞書の作成処理を概念的に示した動作概念図である。ここでは、音声認識が入力音声波形の特徴からパターンマッチングを行っていることに着目し、誤認識の結果はある程度の数に絞られることを利用している。
まず、音声・単語入力部91において、単語入力欄に単語を、マイクなどの音声入力デバイスで単語に対応した音声を入力する。次に、入力された単語は、あいまい辞書作成部92で保持される。次に、音声は、音声認識処理部93において実際に音声認識処理を行い、認識結果をあいまい辞書作成処理部92に渡し、最初に入力された単語と関連付ける。その際、入力欄により入力された単語と音声認識の結果テキストが等しい場合、結果テキストは破棄する。また、検索結果テキストが既に入力単語と関連付けられている場合は、結果テキストの出現数を増加させ、図8における検索処理の結果表示時のランク分けに利用する。
まず、音声・単語入力部91において、単語入力欄に単語を、マイクなどの音声入力デバイスで単語に対応した音声を入力する。次に、入力された単語は、あいまい辞書作成部92で保持される。次に、音声は、音声認識処理部93において実際に音声認識処理を行い、認識結果をあいまい辞書作成処理部92に渡し、最初に入力された単語と関連付ける。その際、入力欄により入力された単語と音声認識の結果テキストが等しい場合、結果テキストは破棄する。また、検索結果テキストが既に入力単語と関連付けられている場合は、結果テキストの出現数を増加させ、図8における検索処理の結果表示時のランク分けに利用する。
次に、音声認識処理を終えた音声は、音声調整処理部94において、音声レベルの調整、ノイズ付与、テンポ調整等のエフェクト処理を実行し、再度音声認識処理部93において音声認識処理を行う。以上の操作を行うことであいまい検索辞書の語認識結果リストを増加させる。
以上説明のように本発明は、送信する音声データと受信する音声データを一時保存し、送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、受信した音声データの認識を、不特定話者を対象に音声認識エンジンを用いて実行するものであり、このことにより、やりとりされる音声データの暗号化に影響されず、また、認識率の向上がはかれ、更に、特定の機器に負荷が集中することによる発生するロギングミスがなくなる。
また、本発明は、音声を文節に区切ってから音声認識処理を行うものであり、このことにより認識率の向上がはかれる。さらに、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。また、あいまい検索辞書を用いた検索を行うことで、音声認識結果が正確なものでなくとも検索処理における検索漏れの発生率を低下させる効果も得られる。更に、あいまい検索辞書作成時に実際の音声認識エンジンを用いて作成したものを利用することで、実際の誤認識パターンに即したものを作成し、用いることでより検索漏れの少ない検索処理を実現することができる。
11…IP電話機、12…IP電話機(ロギング機能付き)、13…音声入力部、14…音声送信部、15…特定話者音声認識部、16…送信音声,認識テキスト保存領域、17…音声受信部、18…不特定話者音声認識部、19…受信音声、認識テキスト保存領域、110…送信音声、認識テキスト保存領域、111…保存内容検索インタフェース
Claims (8)
- ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムであって、
前記各端末装置で送受信される、送信音声データ、受信音声データを、特定話者を対象に音声認識を行う特定話者音声認識エンジン、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いてそれぞれ音声認識し、作成された認識テキストを、前記送信音声データ、受信音声データのそれぞれに関連付けて保存するログ取得手段、
を具備することを特徴とする音声認識機能付きロギングシステム。 - ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける端末装置であって、
送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段と、
前記送信した音声データの認識を、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する音声認識手段と、
を具備することを特徴とする端末装置。 - 前記記憶手段と、前記音声認識手段を、それぞれ独立した装置に実装することを特徴とする請求項2に記載の端末装置。
- 前記音声認識手段は、
前記保存された音声データを文節単位に区切り、当該文節に相当するデジタルデータを、前記音声認識エンジンを用いて音声認識することを特徴とする請求項2に記載の端末装置。 - 前記音声認識手段は
前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに無音区間を検出し、当該無音区間を前記文節として区切って音声認識することを特徴とする請求項4に記載の端末装置。 - 前記音声認識手段は、
前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに音声レベルを検出し、ある音声レベルが所定時間連続する区間を文節として区切って音声認識することを特徴とする請求項4に記載の端末装置。 - 前記音声認識手段は、
前記文節単位の音声認識終了後、当該文節分けした音声データと認識テキストを対にして保存し、音声認識処理中あるいは通話全体の音声認識終了後、シグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキストを関連付けて保存することを特徴とする請求項4〜6のいずれか1項に記載の端末装置。 - ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおいて前記端末装置に用いられるプログラムであって、
送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する処理と、
前記送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する処理と、
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004347769A JP2006154567A (ja) | 2004-11-30 | 2004-11-30 | 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004347769A JP2006154567A (ja) | 2004-11-30 | 2004-11-30 | 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006154567A true JP2006154567A (ja) | 2006-06-15 |
Family
ID=36632929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004347769A Pending JP2006154567A (ja) | 2004-11-30 | 2004-11-30 | 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006154567A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292747A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种电话网络用文本自动语音录入系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198382A (ja) * | 1996-01-23 | 1997-07-31 | Brother Ind Ltd | 音声入力かな漢字変換装置 |
JPH1185456A (ja) * | 1997-09-10 | 1999-03-30 | Matsushita Electric Ind Co Ltd | 会話記録装置 |
JP2003274004A (ja) * | 2002-03-15 | 2003-09-26 | Nec Saitama Ltd | 携帯端末における受信音声情報から文字画像情報への変換方法及び該変換方法を実行する機能を有する携帯端末 |
JP2003316374A (ja) * | 2002-04-26 | 2003-11-07 | Hokkaido Technology Licence Office Co Ltd | 音声データへの注釈付与方法と音声注釈システム |
-
2004
- 2004-11-30 JP JP2004347769A patent/JP2006154567A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198382A (ja) * | 1996-01-23 | 1997-07-31 | Brother Ind Ltd | 音声入力かな漢字変換装置 |
JPH1185456A (ja) * | 1997-09-10 | 1999-03-30 | Matsushita Electric Ind Co Ltd | 会話記録装置 |
JP2003274004A (ja) * | 2002-03-15 | 2003-09-26 | Nec Saitama Ltd | 携帯端末における受信音声情報から文字画像情報への変換方法及び該変換方法を実行する機能を有する携帯端末 |
JP2003316374A (ja) * | 2002-04-26 | 2003-11-07 | Hokkaido Technology Licence Office Co Ltd | 音声データへの注釈付与方法と音声注釈システム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292747A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种电话网络用文本自动语音录入系统 |
CN111292747B (zh) * | 2020-02-07 | 2023-08-15 | 普强时代(珠海横琴)信息技术有限公司 | 一种电话网络用文本自动语音录入系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10276153B2 (en) | Online chat communication analysis via mono-recording system and methods | |
US20220303502A1 (en) | Leveraging a network of microphones for inferring room location and speaker identity for more accurate transcriptions and semantic context across meetings | |
US8588111B1 (en) | System and method for passive communication recording | |
US20150106091A1 (en) | Conference transcription system and method | |
US20100268534A1 (en) | Transcription, archiving and threading of voice communications | |
US20160036969A1 (en) | Computer-based streaming voice data contact information extraction | |
US20220086209A1 (en) | Preventing audio dropout | |
US10204634B2 (en) | Distributed suppression or enhancement of audio features | |
JP4747573B2 (ja) | 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム | |
JP2006154567A (ja) | 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム | |
CN107391498B (zh) | 语音翻译方法和装置 | |
JP4509590B2 (ja) | 音声認識システムおよびそのプログラム | |
JP2006154568A (ja) | 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム | |
KR101952730B1 (ko) | 교신 내용을 보팅으로 선별하여 음성인식하는 무선 교신 시스템 | |
CA2922654C (en) | Methods and apparatus for conducting internet protocol telephony communications | |
US7526072B2 (en) | Audio device, system and method for archiving audio files based on distributed audio phone data received over a data network in encrypted or non-encrypted form | |
US11032092B2 (en) | System and method for recording and reviewing mixed-media communications | |
GB2516208A (en) | Noise reduction in voice communications | |
JP4279169B2 (ja) | パケットロギングシステム | |
CN114648989A (zh) | 在电子设备中实施的语音信息处理方法、装置及存储介质 | |
WO2014085985A1 (zh) | 一种通话转录系统和方法 | |
KR101061723B1 (ko) | 사운드 신호의 실시간 보간 장치 및 방법 | |
CN112908364B (zh) | 一种电话号码状态判断方法及系统 | |
JP3947871B2 (ja) | 音声データ送受信方式 | |
US20020012422A1 (en) | Logger machine and logger equipment using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100105 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100506 |