JP2006154567A

JP2006154567A - 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム

Info

Publication number: JP2006154567A
Application number: JP2004347769A
Authority: JP
Inventors: Matsuaki Terada; 松昭寺田; Kota Oshima; 浩太大島; Masatoshi Oka; 正俊岡; Hiroki Ono; 博樹大野
Original assignee: Toppan Forms Co Ltd; Tokyo University of Agriculture and Technology NUC; Tokyo University of Agriculture
Current assignee: Tokyo University of Agriculture and Technology NUC; Tokyo University of Agriculture; Toppan Edge Inc
Priority date: 2004-11-30
Filing date: 2004-11-30
Publication date: 2006-06-15

Abstract

【課題】暗号化の有無、音声入力および認識環境等の条件に影響されることなく、単語検索を行う際の利便性の向上をはかる。
【解決手段】本発明の音声認識機能付きロギングシステムは、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段（１６、１９）と、送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、受信した音声データの認識を、不特定話者を対象に音声認識エンジンを用いて実行する音声認識手段（１３、１４、１５、１７、１８）で構成される端末装置１２を備える。
【選択図】図１

Description

本発明は、ＩＰ（Internet Protocol）接続環境を用いて交換される音声情報を保存し、活用する用途に用いて好適な、音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラムに関する

通信コスト低減を目的にＶｏＩＰ（Voice over Internet Protocol）電話が普及し、コンピュータと電話を融合するＣＴＩ（Computer Telephony Information）システムへの応用が注目されるようになった。

例えば、コールセンターにおいて、電話機のログを取得するのに、複数の電話機の音声をロギングサーバでまとめてログを取得する音声ロギングシステムがある。これら音声ロギングシステムには、電話機の音声を透過的に保存するものと、ロギングサーバで対象の電話機に音声を中継し、その中継の過程で保存するものがある。また、通話録音装置で録音された音声を認識し利用するシステムとして、認識された音声を機器の操作のために用いるボイスコマンド等がある（例えば、非特許文献１、２参照）。
http://advanced-media.co.jp/prooducts/1502.html＜インターネット＞２００４年１１月１１日閲覧、「ＡｍｉＶｏｉｃｅｓｅｒｉｅｓ製品情報」 http://www.logit.co.jp/products/nicelog/voip.html＜インターネット＞２００４年１１月１１日閲覧、ログイット株式会社Ｐｒｏｄｕｃｔｓ［製品紹介］「ＶｏＩＰ録音を可能にした最新のＩＰレコーディング」

ところで、上記したＩＰ電話でやり取りされている音声データに、暗号化処理等で第三者による盗聴を防ぐ仕組みは無い。一方でプライバシー保護の観点から暗号化による仕組みが組み込まれる可能性は高い。また、米国では、訴訟などの証拠保全対策としてＩＰ電話音声の保存を法的に義務付ける動きがある。
しかしながら、暗号化を考慮する際、音声を単一サーバで透過的に保存する場合にはサーバで保存されている音声は暗号化済みのデータであるため、利用が容易ではない。また、音声を中継することによるロギングシステムでは、暗号化データを復号化して保存できる可能性は有しているが、プライバシー保護を考慮する場合、復号化したデータを再度暗号化して中継する必要があり、中継処理に要する処理によって円滑なコミュニケーションを阻害する恐れがある。また、サーバに負荷が集中することから、ロギングミス等を引き起こす危険がある。

一方、音声認識について、電話によるコミュニケーションでは対象が一意に決まらないため、不特定多数を対象とする音声認識エンジンを必要とする。不特定話者音声認識エンジンは、発話の個人差を吸収可能な特定話者音声認識エンジンに比べて認識率が低い。
また、電話は、機器の状態、発話者の状態によりやりとりされる音声の品質は変動する。感度が悪いマイクや、マイクと発声器官の距離および発声量などにより、認識結果に悪影響を与える。更に、音声と認識テキストを参照する場合、音声と認識テキストの相関がないため、単語検索を行った場合に単語の発生個所から音声を途中再生することが難しいといった不都合を有していた。

本発明は上記事情に基づいてなされたものであり、暗号化の有無、音声入力および認識環境等の条件に影響されることなく、単語検索を行う際の利便性の向上をはかった、音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラムを提供することを目的とする。

上記した課題を解決するために本発明の音声認識機能付きロギングシステムは、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムであって、前記各端末装置で送受信される、送信音声データ、受信音声データを、特定話者を対象に音声認識を行う特定話者音声認識エンジン、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いてそれぞれ音声認識し、作成された認識テキストを、前記送信音声データ、受信音声データのそれぞれに関連付けて保存するログ取得手段、を具備することを特徴とする。

また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける端末装置であって、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段と、前記送信した音声データの認識を、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する音声認識手段と、を具備することを特徴とする。

また、本発明において、前記記憶手段と、前記音声認識手段を、それぞれ独立した装置に実装することを特徴とする。

また、本発明において、前記音声認識手段は、前記保存された音声データを文節単位に区切り、当該文節に相当するデジタルデータを、前記音声認識エンジンを用いて音声認識することを特徴とする。

また、本発明において、前記音声認識手段は、前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに無音区間を検出し、当該無音区間を前記文節として区切って音声認識することを特徴とする。

また、本発明において、前記音声認識手段は、前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに音声レベルを検出し、ある音声レベルが所定時間連続する区間を文節として区切って音声認識することを特徴とする。

また、本発明において、前記音声認識手段は、前記文節単位の音声認識終了後、当該文節分けした音声データと認識テキストを対にして保存し、音声認識処理中あるいは通話全体の音声認識終了後、シグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキストを関連付けて保存することを特徴とする。

また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける端末装置に用いられるプログラムであって、送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する処理と、前記送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する処理と、をコンピュータに実行させることを特徴とする。

本発明によれば、送信する音声データと受信する音声データを一時保存し、送信した音声データの認識を、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて実行し、また、受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行することにより、やりとりされる音声データの暗号化に影響されず、特定の機器に負荷が集中することにより発生するロギングミスがなくなる。また、例えば、コールセンターにおけるオペレータと顧客との間の通話を想定した場合、オペレータは特定話者認識、顧客は不特定話者認識を使って音声認識を行うことになり、少なくとも前者によれば認識率が高く処理速度も速くなる。
また、本発明によれば、音声を文節に区切ってから音声認識処理を行うことにより単語認識を行う以上に認識率の向上がはかれる。さらに、本発明によれば、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。このことにより検索の際の利便性を提供することができる。

以下、本発明の実施形態につき、図１〜図９を参照しながら説明する。図１は、本発明実施形態に係わる音声認識機能付きロギングシステムのシステム構成図である。ここでは、ＩＰ電話機１１とＩＰ電話機１２の通話をロギングする例が示されている。なお、ＩＰ電話機１２はロギングの機能を備え、具体的には、送信音声データ、受信音声データを、特定話者を対象に音声認識を行う特定話者音声認識エンジン、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いてそれぞれ音声認識し、作成された認識テキストを、送信音声データ、受信音声データのそれぞれに関連付けて保存するログ取得手段として機能する。詳細は以下に述べる。

図１は、本発明実施形態に係る音声機能付きロギングシステムのシステム構成を示す図である。図１を参照しながら、ＩＰ電話機１２からＩＰ電話機１１へ送信するデータの流れについて説明する。
まず、入力音声は、マイクなどの音声入力部１３において標本化、量子化処理が行なわれ、音声送信部１４にデジタル音声データとして渡される。音声送信部１４は、暗号化の必要があればＩＰ電話機１１に送出するデータを暗号化し、パケット化して送出する。同時に、音声入力部１３からのデジタル音声データを本発明の音声認識手段として機能する特定話者音声認識部１５に渡す。ここで、「特定話者」とは、所定期間学習の過程を経て個人の特徴が記憶された話者のことをいい、ここではコールセンタの受付け担当者を想定している。なお、特定話者音声認識部１５は、ＩＰ電話機１２に組み込まれ、あるいは物理的に異なるハードウェアとして用意されても良い。特定話者音声認識部１５は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になった時点で認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、本発明の記憶手段として機能する、送信音声、認識テキスト保存領域１６に、通話全体のデジタル音声データの認識処理が終了するまで一時的に保持される。

次に、ＩＰ電話機１１からIP電話機１２に対して送信されたデジタル音声データの流れを説明する。
パケット化されているＩＰ電話機１１からのデジタル音声データを音声受信部１７で受信し、暗号化されている場合は復号化処理を行う。ここで、デジタル音声データは図示せぬスピーカ等の音声出力デバイスを介して出力される。同時に、デジタル音声データは、本発明の音声認識手段として機能する不特定話者音声認識部１８に渡される。ここで、「不特定話者」とは、上記した特定話者の対語であり、不特定多数の人間が持つ音声の周波数帯域が記憶されており、利用頻度の高い話者についてのみ補正を加えた不特定多数の者をいう。なお、不特定話者音声認識部１８は、ＩＰ電話機１２に組み込まれているか、物理的に異なるハードウェアで用意されていても良い。
不特定話者音声認識部１８は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になれば認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、本発明の記憶手段として機能する、受信音声、認識テキスト保存領域１９に、通話全体のデジタル音声データの認識処理が終了するまで一時的に保持される。

通話全体の認識処理終了後、送信音声、認識テキスト保存領域１６および受信音声、認識テキスト保存領域１９に保存されているデジタル音声データと認識テキストは、音声、認識テキスト保存領域１１０に転送され、ここで一元管理される。この時、一時保存領域である送信音声、認識テキスト保存領域１６および受信音声、認識テキスト保存領域１９に保存されているデジタル音声データと認識テキストは破棄される。
図1では簡略化のため、上記したロギング機能を持つＩＰ電話機１２は、1台のみ示されているが、複数台になった場合でも、送信音声、認識テキスト保存領域１６および受信音声、認識テキスト保存領域１９に保存されているデジタル音声データと認識テキストを、音声、認識テキスト保存領域１１０に保存することで一元管理を行う。

保存内容検索インタフェース１１１は、音声、認識テキスト保存領域１１０に保存されている通話内容を、認識テキストを対象とした単語検索を行うために用意されるソフトウェアであり、ここでは検索の利便性を考慮し、ＰＣにインストールされたブラウザが相当する。

図２は、図１に示すＩＰ電話機１２の内部構成を機能展開して示したブロック図である。
ＩＰ電話機１２は、シグナリング受信部２２と、シグナリング処理部２３と、シグナリング情報保存部２４と、音声入力／パケット部２５と、暗号化部２６と、データ送信部２７と、送信データ一時保存２９と、文節区切り処理部２１０と、特定話者音声認識エンジン２１１と、送信データ／認識テキスト保存部１２と、データ受信部２１４と、復号化部２１５と、受信データ一時保存部２１６と、不特定話者音声認識エンジン２１７と、受信データ／認識テキスト保存部２１８と、音声、認識テキスト相関作成部２１９で構成される。

ＩＰ電話機１２は、まず、通話を行うためのシグナリングパケット２１をシグナリング受信部２２で受信する。次に、シグナリング処理部２３で解析処理を行い、通話開始時刻、通話対象の電話番号、通話対象のＩＰアドレス、デジタル音声データのフォーマット、その他シグナリング方式ごとに必要となる情報を取得し、シグナリング情報保存部２４に一時的に保存する。

次に、通話対象にパケットを送出する場合の流れを説明する。音声入力／パケット化部２５で生成されたデジタル音声データは、暗号化部２６で暗号化され、データ送信部２７で送信音声パケット２８として、シグナリングパケット２１に記載されているデジタル音声データの送出先に対して送出される。同時に、音声入力／パケット化部２５で生成されたデジタル音声データは、送信データ一時保存部２９において、認識処理が可能になる量が蓄積されるまで保存される。
送信データ一時保存部２９に、認識処理に必要な量が蓄積された場合、文節区切り処理部２１０において文節区切り処理が行われ、文節分けされたデジタル音声データごとに特定話者音声認識エンジン２１１による認識処理が行われる。認識後は、送信データ／認識テキスト保存部２１２に、文節分けした音声データおよび認識テキストを対にして、通話全体の認識処理が完了するまで一時的に保存する。

次に、相手先からのパケットを受信する場合の流れを説明する。相手先から送出され受信した受信音声パケット２１３は、データ受信部２１４で受信され、暗号化されている場合は復号化モジュール２１５で復号化する。復号化されたデジタル音声データは、受信データ一時保存部２１６において、認識処理が可能になる量が蓄積されるまで保存される。受信データ一時保存部２１６に、認識処理に必要な蓄積された場合、文節区切り処理部２１０で文節区切り処理が行われ、ここで文節分けされたデジタル音声データごとに不特定話者音声認識エンジン２１７による認識処理が行われる。認識後は、受信データ／認識テキスト保存部２１８に、文節分けした音声データおよび認識テキストを対にして通話全体の認識処理が完了するまで一時的に保存する。
通話全体の認識処理が終了した場合、シグナリング情報保存部２４、送信データ／認識テキスト保存部２１２、受信データ／認識テキスト保存部２１８に保存されている情報から、音声、認識テキスト相関作成部２１９において、参照に適した形式に整形し、上記したシグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキスト、音声−テキスト相関部分のそれぞれがデータベース（ＤＢ）２２０に保存される。

図３は、図1、図２に示すＩＰ電話機１２が複数存在するコールセンターのようなＩＰ接続環境の音声ロギング処理について音声データの流れを示す図である。
上記したロギング機能を持つＩＰ電話機群３１は、処理能力を必要とする、文節区切り、音声認識、音声、テキスト相関作成機能を持たず、送受信した復号化済みのデジタル音声データを、電話機固有の保存領域３２に各々の通話を保存する機能のみ有している。ＩＰ電話機３１がそれぞれ保存したデジタル音声データは、異なるハードウェア、例えばサーバに実装されている、文節区切り・音声認識・音声-テキスト相関作成部３３において、音声の文節区切り処理を行い、また、送信音声に対しては特定話者音声認識、受信音声に対しては不特定話者音声認識を行って音声とテキストの相関を作成する。そして作成された音声データ、認識テキスト、相関関係を共通の保存領域３４に保存する。

図３に示す実施形態によれば、処理能力を必要とする処理をＩＰ電話機自身が行う必要が無いため、ＩＰ電話機３１の負荷が軽減され、高い処理能力を必要としない効といった効果がある。

図４は、図３におけるＩＰ電話機３１、および文節区切り、音声認識、音声・テキスト相関作成部３３のそれぞれを機能展開して示したブロック図である。
ＩＰ電話機３１には、シグナリング情報保存領域４１、送信データ一時保存領域４２、受信データ一時保存領域４３のそれぞれに、シグナリングの情報、暗号化されていない送信音声データ、復号化済みの受信音声データが保存されている。送信データは、サーバ等、別ハードウェアに実装されている文節区切り処理部４４で文節区切り処理され、特定話者音声認識部４５で音声認識処理を行う。そして、送信データ／認識テキスト保存領域４７に保持される。一方、受信データは、別ハードウェアに実装されている文節区切り処理部４４で文節区切り処理され、不特定話者音声認識部４６で音声認識処理を行う。そして、受信データ／認識テキスト保存領域４８に保持される。

以上の操作は通話全体の音声の処理が終了するまで行われる。通話全体の処理が終了した場合は、送信データ／認識テキスト保存領域４７、受信データ／認識テキスト保存領域４８内のデータに対し、音声・テキスト相関作成部４９で音声とテキストを関連付ける。最後に、シグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキスト、音声・テキスト相関保存部分は、データベース４１０に保存される。

図５は、本発明実施形態において用いられる音声認識処理の概念図である。ここでは、データ一時保存領域５１（図２に示す送信データ一時保存部２９、受信データ一時保存部２１６に相当）に保存されているデジタル音声データから、文節区切り処理部５２（図２における文節区切処理部２１０に相当）によって文節区切り済み音声データ５３を生成する。
次に、文節区切り済み音声データ５３を音声認識部５４（図２における特定話者音声認識エンジン２１１、不特定話者音声認識エンジン２１７に相当）で音声認識処理を行い、認識テキスト５５を生成する。そして、認識テキスト５５および文節区切り済み音声データ５３は、データ/認識テキスト保存領域５６（図２における送信データ／認識テキスト保存部２１２、受信データ／認識テキスト保存部２１８に相当）に対にして保存する。この操作は、データ一時保存領域５１のデジタル音声データがなくなるまで行う。

図６、図７は、図５に示す文節区切り処理部５２（図２における２１０）の処理手順を示すフローチャートである。
ここでは、文節区切り処理に、ＩＰ電話における標準的なメディアストリーム伝送プロトコルであるＲＴＰ(Real-time Transport Protocol)の無音制御を利用する。ＲＴＰは、耐障害性に富み、リアルタイムにデータの到着を考慮していないＩＰ網において、ストリーム伝送の制御を行うプロトコルである。具体的には、音声パケットを送出するたびに＋１されるシーケンス番号で、伝送路上でのパケットロスを検知し、送出したデータの累計で表現されるタイムスタンプで再生タイミングを制御する。
無音制御とは、マイクなどの音声入力デバイスから一定期間音声入力が無い場合、帯域を節約するためにデータを送出しない制御である。無音制御が生じた場合、シーケンス番号は無音制御発生前のパケット＋１になり、タイムスタンプは、無音区間にもデータを送出した場合と同じだけ加算される。従って、パケットロスが生じていない状態でタイムスタンプが大きく増加している場合になる。

図６に示すフローチャートを参照しながら説明する。まず、ステップＳ６１で、データ一時保存領域５１に認識処理に充分なデジタル音声データが保存されているか判別する。ここで、充分な量が保存されていない場合、ステップＳ６２において保存されているデータが通話終了に達しているか否かを判別する。通話終了に達していればステップＳ６６において認識処理を行い、達していない場合はステップＳ６３である一定時間待機後、ステップＳ６１に制御を移す。
ステップＳ６１において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップＳ６４において、ＲＴＰタイムスタンプがある閾値以上は離れている部分、つまり、無音制御が生じた部分が存在するか否かを判別する。無音制御が生じていない場合、ステップＳ６２において保存されているデータが通話終了に達しているものであるか否かを判別する。ここで、通話終了に達している場合はステップＳ６６の認識処理に制御を移し、達していない場合は保存されているデータには続きがある可能性が高いため、ステップＳ６３で一定時間待機した後ステップＳ６１に制御を移す。

ステップＳ６４で無音制御を検知した場合、ステップＳ６５において、保存データの最初から無音区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップＳ６６において認識エンジン（音声認識部５４）により認識処理され、認識結果を保存する領域に保存する。
認識処理後は、ステップＳ６７において保存されているデータが残っているか否かを判別し、残っている場合はステップＳ６３で一定時間待機後ステップＳ６１に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。

次に、図７に示すフローチャートを参照しながら説明する。図７は、デジタル音声データの音声レベルを調べ、ある一定時間低い音声レベルの連続する部分を文節とみなす手法である。
まず、ステップＳ７１で、データ一時保存領域５１に認識処理に充分なデジタル音声データが保存されているか否かを判別する。ここで充分な量が保存されていない場合、ステップＳ７２において保存されているデータが通話終了に達しているものであるか否かを判別する。通話終了に達していればステップＳ７７において認識処理を行い、達していない場合はステップＳ７３である一定時間待機後、ステップＳ７１に制御を移す。
ステップＳ７１において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップＳ７４でノイズ除去フィルタによりノイズを除去し、ホワイトノイズを平滑化する。

次に、ステップＳ７５で一定時間音声レベルが低い区間が存在するか否かを判別する。音声レベルが低い区間が存在しない場合は、ステップＳ７２でデータが通話終了に達しているか否かを判別し、達している場合はステップＳ７７に制御を移し、達していない場合はステップＳ７３において一定時間待機後ステップＳ７１に制御を移す。
ここで、音声レベルが低い区間が存在する場合は、ステップＳ７６において、保存データの最初から低い音声レベル区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップＳ７７において認識エンジン（音声認識部５４）により認識処理され、認識結果を保存する領域に保存する。認識処理後は、ステップＳ７８において保存されているデータが残っているか否かを判別し、残っている場合はステップＳ７３で一定時間待機後ステップＳ７１に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。

図８は、検索処理を概念的に示す動作概念図である。ここでは、あいまい検索辞書を用いて音声認識の誤認識結果として考えられるものを検索語として用いる手法について説明する。
まず、ブラウザソフトウェアで作成された検索ＧＵＩ(グラフィカルユーザインタフェース)８１の単語入力欄に単語を入力し、検索ボタンを押下する。このことにより、入力された単語は検索システム８２に渡される（Ｓ８１）。
検索システム８２は、あいまい検索辞書８３から、入力単語の誤認識結果として考えられる、誤認識可能性単語リストを検索システム８２に渡す（Ｓ８２）。続いて検索システム８２はリスト内の単語全てについて、データ/認識テキスト保存領域８４内に保存されている音声認識テキストにマッチングするものがあるか否かを検索する（Ｓ８３）。検索結果は、結果表示インタフェース８５に、予め誤認識可能性単語リストに付けられたランクに従ってランク分けを行い表示する（Ｓ８４）。

図９は、あいまい辞書の作成処理を概念的に示した動作概念図である。ここでは、音声認識が入力音声波形の特徴からパターンマッチングを行っていることに着目し、誤認識の結果はある程度の数に絞られることを利用している。
まず、音声・単語入力部９１において、単語入力欄に単語を、マイクなどの音声入力デバイスで単語に対応した音声を入力する。次に、入力された単語は、あいまい辞書作成部９２で保持される。次に、音声は、音声認識処理部９３において実際に音声認識処理を行い、認識結果をあいまい辞書作成処理部９２に渡し、最初に入力された単語と関連付ける。その際、入力欄により入力された単語と音声認識の結果テキストが等しい場合、結果テキストは破棄する。また、検索結果テキストが既に入力単語と関連付けられている場合は、結果テキストの出現数を増加させ、図８における検索処理の結果表示時のランク分けに利用する。

次に、音声認識処理を終えた音声は、音声調整処理部９４において、音声レベルの調整、ノイズ付与、テンポ調整等のエフェクト処理を実行し、再度音声認識処理部９３において音声認識処理を行う。以上の操作を行うことであいまい検索辞書の語認識結果リストを増加させる。

以上説明のように本発明は、送信する音声データと受信する音声データを一時保存し、送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、受信した音声データの認識を、不特定話者を対象に音声認識エンジンを用いて実行するものであり、このことにより、やりとりされる音声データの暗号化に影響されず、また、認識率の向上がはかれ、更に、特定の機器に負荷が集中することによる発生するロギングミスがなくなる。

また、本発明は、音声を文節に区切ってから音声認識処理を行うものであり、このことにより認識率の向上がはかれる。さらに、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。また、あいまい検索辞書を用いた検索を行うことで、音声認識結果が正確なものでなくとも検索処理における検索漏れの発生率を低下させる効果も得られる。更に、あいまい検索辞書作成時に実際の音声認識エンジンを用いて作成したものを利用することで、実際の誤認識パターンに即したものを作成し、用いることでより検索漏れの少ない検索処理を実現することができる。

本発明実施形態に係る音声認識機能付きロギングシステムのシステム構成を示す図である。図１に示すＩＰ電話機の内部構成を機能展開して示したブロック図である。図1に示すＩＰ電話機を複数持つ場合のシステム構成図である。図３に示すＩＰ電話機の内部構成を機能展開して示したブロック図である。本発明実施形態に係る音声の文節区切り処理、音声認識処理の動作概念図である。図５に示す文節区切り処理の処理手順の一例を示すフローチャートである。図５に示す文節区切り処理の処理手順の他の例を示すフローチャートである。あいまい検索を用いた検索システムの動作を概念的に示す動作概念図である。あいまい検索に用いる辞書を作成する際の動作を概念的に示す動作概念図である。

符号の説明

１１…ＩＰ電話機、１２…ＩＰ電話機(ロギング機能付き)、１３…音声入力部、１４…音声送信部、１５…特定話者音声認識部、１６…送信音声,認識テキスト保存領域、１７…音声受信部、１８…不特定話者音声認識部、１９…受信音声、認識テキスト保存領域、１１０…送信音声、認識テキスト保存領域、１１１…保存内容検索インタフェース

Claims

ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムであって、
前記各端末装置で送受信される、送信音声データ、受信音声データを、特定話者を対象に音声認識を行う特定話者音声認識エンジン、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いてそれぞれ音声認識し、作成された認識テキストを、前記送信音声データ、受信音声データのそれぞれに関連付けて保存するログ取得手段、
を具備することを特徴とする音声認識機能付きロギングシステム。
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける端末装置であって、
送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する記憶手段と、
前記送信した音声データの認識を、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する音声認識手段と、
を具備することを特徴とする端末装置。
前記記憶手段と、前記音声認識手段を、それぞれ独立した装置に実装することを特徴とする請求項２に記載の端末装置。
前記音声認識手段は、
前記保存された音声データを文節単位に区切り、当該文節に相当するデジタルデータを、前記音声認識エンジンを用いて音声認識することを特徴とする請求項２に記載の端末装置。
前記音声認識手段は
前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに無音区間を検出し、当該無音区間を前記文節として区切って音声認識することを特徴とする請求項４に記載の端末装置。
前記音声認識手段は、
前記記憶手段に前記音声認識に必要な量のデジタル音声データが保存されているときに音声レベルを検出し、ある音声レベルが所定時間連続する区間を文節として区切って音声認識することを特徴とする請求項４に記載の端末装置。
前記音声認識手段は、
前記文節単位の音声認識終了後、当該文節分けした音声データと認識テキストを対にして保存し、音声認識処理中あるいは通話全体の音声認識終了後、シグナリング情報、送信音声、送信音声認識テキスト、受信音声、受信音声認識テキストを関連付けて保存することを特徴とする請求項４〜６のいずれか１項に記載の端末装置。
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおいて前記端末装置に用いられるプログラムであって、
送信する音声データと受信する音声データ、ならびに認識テキストを一時保存する処理と、
前記送信した音声データの認識を、特定話者を対象に音声認識を行う音声認識エンジンを用いて実行し、前記受信した音声データの認識を、不特定話者を対象に音声認識を行う不特定話者音声認識エンジンを用いて実行する処理と、
をコンピュータに実行させるプログラム。