JP4509590B2 - 音声認識システムおよびそのプログラム - Google Patents

音声認識システムおよびそのプログラム Download PDF

Info

Publication number
JP4509590B2
JP4509590B2 JP2004029346A JP2004029346A JP4509590B2 JP 4509590 B2 JP4509590 B2 JP 4509590B2 JP 2004029346 A JP2004029346 A JP 2004029346A JP 2004029346 A JP2004029346 A JP 2004029346A JP 4509590 B2 JP4509590 B2 JP 4509590B2
Authority
JP
Japan
Prior art keywords
voice
stream packet
unit
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004029346A
Other languages
English (en)
Other versions
JP2005223595A (ja
Inventor
博樹 大野
松昭 寺田
浩太 大島
英二 村松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Forms Co Ltd
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2004029346A priority Critical patent/JP4509590B2/ja
Publication of JP2005223595A publication Critical patent/JP2005223595A/ja
Application granted granted Critical
Publication of JP4509590B2 publication Critical patent/JP4509590B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に保存された音声ストリームパケットをデータベースから抽出して音声認識を行う、音声認識システムおよびそのプログラムに関する
通信コストの低減を目的にVoIP(Voice over Internet Protocol)電話が普及し、コンピュータと電話/音声通信を融合するCTI(Computer Telephony Information)システムへの応用が注目されるようになった。
ところで、例えば、コールセンタにおいて電話のログを取得するシステムの一つに、Advanced Media社の「AmiVoice Call Scriber」が知られている。本システムは、通話録音装置で録音された音声を認識し、認識結果と発話毎に分割された音声を保存するサーバを基本構成とする(例えば、非特許文献1参照)。
また、ログイット社のNiceLog(登録商標)も知られている。当該製品は、VoIP録音を可能にした記録装置であって、IPパケット中のH.323情報をスニファーすることによって音声データを記録する、あるいは、ネットワーク上に多地点会議装置(MCU)を配置しておき、そのMCUからH.323情報を取得することによって音声データを記録する(例えば、非特許文献2参照)。
http://advanced-media.co.jp/prooducts/1502.html<インターネット>2004年1月15日閲覧、「AmiVoiceseries製品情報」 http://www.logit.co.jp/products/nicelog/voip.html<インターネット>2004年1月15日閲覧、ログイット株式会社Products[製品紹介]「VoIP録音を可能にした最新のIPレコーディング」
ところで、音声とテキストの関連付けに関し、従来のアナログ環境下ではテープやWAVEファイルに保存した音声とテキストの関連付けは実現されているが、上記したVoIP環境での実現例はない。すなわち、VoIP環境においては音声データを認識単位に区切る必要があり、音声ストリーム(RTP:Real Time Transport Protocolパケット)をそのまま繋ぎあわせると認識された音声が連続して聞こえ(例えば、「わた」+「あめ」が、「わたあめ」)別の意味になってしまうことがある。このように、音声認識時に間違った語彙に変換され、テキストとの対応が取れない場合がある。
本発明は上記事情に鑑みてなされたものであり、音声データを認識する単位に無音で区切り、認識音声とテキストを関連付けて保存することにより、音声認識時に誤った語意に変換されることを防いだ、音声認識システムおよびそのプログラムを提供することを目的とする。
上記した課題を解決するために本発明は、IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に保存された音声ストリームパケットを第1の記憶装置から抽出して音声認識を行う音声認識システムであって、前記抽出された音声ストリームパケットを無音区間(時間α)で仕切り、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する音声認識前処理部と、当該無音区間(α)を単位に前記音声ストリームパケットの音声認識を行い、テキストデータに変換する音声認識部と、前記変換されたテキストデータを前記変換前の音声ストリームパケットと関連付けて第2の記憶装置に保存する認識音声・テキスト管理部と、を備えたことを特徴とする。
また、本発明において、前記音声認識前処理部は、前記抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を前記仕切りとして判定し、前記音声認識部に対して音声認識の単位として供給することを特徴とする。
また、本発明において、外部から音声検索要求を受信し、前記通話セッション毎に作成されたインデックスデータが示す前記音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生する検索要求・再生応答部、を備えたことを特徴とする。
上記した課題を解決するために本発明は、IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に保存された音声ストリームパケットを第1の記憶装置から抽出して音声認識を行う音声認識システムに用いられるプログラムであって、前記抽出された音声ストリームパケットを無音区間(時間α)で仕切り、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する処理と、当該無音区間(α)を単位に前記音声ストリームパケットの音声認識を行い、テキストデータに変換する処理と、前記変換されたテキストデータを前記変換前の音声ストリームパケットと関連付けて第2の記憶装置に保存する処理と、をコンピュータに実行させることを特徴とする。
本発明によれば、認識前処理部が、抽出した音声ストリームパケットを無音区間(α)で仕切り、当該無音区間の間に含まれる無音区間(β)に無音データを挿入することで、音声認識部が、その無音区間(α)を単位に音声ストリームパケットの音声認識を行ってテキストデータに変換し、認識音声・テキスト管理部を介してそのテキストデータを変換前の音声ストリームパケットと関連付けて保存することにより、両者の関連付けが可能となる。認識前処理部はまた、抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を仕切りとして判定し、音声認識部に対して音声認識の単位として供給することで、音声認識時に誤った語意に変換されることを防ぐことができる。
更に、本発明によれば、検索要求・再生応答部が、音声検索要求を受信して通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生することにより、検索処理の高速化を実現できる。このとき、容量の大きな音声メディアを外部に保存することで内部ストレージの圧迫も回避できる。
図1は、本発明実施形態における音声認識システムの構成を示す図である。ここでは、VoIPを利用したIP電話の接続環境におけるコールセンタのネットワーク構築例が示されている。
図1において、符号1、2は、互いに送信元、送信先となるIP電話であり、両者は、IP/PSTN(Public Switched Telephone Network)網3を介して接続される。符号4は、GW(Gate Way)/ルータであり、IP電話1、2間の通信を中継する。また、GW/ルータ4とIP電話2間にはスイッチングハブ5が接続され、当該スイッチングハブ5は、IP電話1、2間の通信データを取り込み、そしてその通信データはロギングサーバ6によってスニッフィングされ、採取された通信データのログはデータベース(DB8)へ保存される。また、符号7は、音声認識サーバであり、DB8に保存されたログを読み込んで音声認識(音声テキスト変換)を行い、その結果であるテキストデータと音声データとを通話セッション毎に対応づけてDB8に保存する。
なお、符号9は、検索用PCであり、テキストをキーにDB8を参照して必要な音声データを検索して再生することができる。
図2は、図1に示すロギングサーバ6、音声認識サーバ7の内部構成の一例を示すブロック図である。ここでは本発明と関係するブロックのみ抽出して示されている。
ロギングサーバ6は、ログ保存部(VoIP)61と、テンポラリDB81と、パケット抽出部(シグナリング)62と、パケット抽出部(音声ストリーム)63と、セッション識別部64と、ログ保存部65と、パケット補間部(シグナリング/音声ストリーム)66と、ログDB82で構成される。
ログ保存部61は、IP電話1、2の接続を中継するスイッチングハブ5を介して受信されるデータからVoIPパケットを抽出してテンポラリDB81に一時保存する。また、パケット抽出部62は、テンポラリDB81に保存されたVoIPパケットからシグナリングパケットを抽出し、パケット抽出部63は、抽出されたシグナリングパケットから音声ストリーム情報を判別してテンポラリDB81から音声ストリームパケットを抽出する。
セッション識別部64は、通話セッションの識別処理を行いログ保存部65へその識別情報を供給する。ログ保存部65は、パケット抽出部62で抽出されたシグナリングパケットと、パケット抽出部63で抽出された音声ストリームパケットとをセッション識別部で識別された識別情報に基づき関連付け、セッション毎にログDB82に保存する。
図7に、ログDB82に対しセッション毎に保存されるVoIPパケットのデータ構造の一例が示されている。図7に示されるように、セッション(#0〜#n)毎、シグナリングでやりとりしたデータ、およびRTPヘッダ付きの音声ストリームパケットが上り(アップストリーム)、下り(ダウンストリーム)毎タイムスタンプ付きで保存される。
なお、ログ保存部65は、パケット抽出部62により抽出されたシグナリングパケットのスタート、エンドを判別して、ログDB82における記憶領域の確保と閉鎖を行い、パケット抽出部63により抽出された音声ストリームパケットを判別してログDB82に確保された記憶領域へログ保存を開始する。
一方、パケット補間部66は、テンポラリDB81に未抽出の音声ストリームパケットが残存した場合、当該残存する音声ストリームパケットのヘッダ情報を参照し、セッションが同じで複数あるパケットを抽出して同一セッションの音声ストリームパケットとしてログDB82に追加保存する。また、音声ストリームパケットが一部ロストしていた場合、テンポラリDB81に残存する音声ストリームパケットのヘッダ情報を参照し、ロストしたパケットの前後のシーケンス番号に相当する音声ストリームパケットを読み出し、当該前後の音声ストリームパケットをコピーしてロストしたパケットのシーケンス番号を割当て、コピーした音声ストリームパケットをログDB82に追加保存する。
一方、音声認識サーバ7は、認識前処理部71と、音声認識部72と、認識音声・テキスト管理部73と、検索要求・再生応答部74と、音声・テキストDB83で構成される。
認識前処理部71は、後述するように、抽出された音声ストリームパケットを無音区間(α)で仕切り、当該無音区間の間に含まれる無音区間(β)に無音データを挿入して音声認識部72へ供給する。すなわち、音声認識前処理部71は、抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を仕切りとして判定し、音声認識部72に対して音声認識の単位として供給する。
音声認識部72は、当該無音区間(α)を単位に音声ストリームパケットの音声認識を行い、テキストデータに変換して認識音声・テキスト管理部73へ供給する。また、認識音声・テキスト管理部73は、音声認識部72によって変換されたテキストデータを変換前の音声ストリームパケットと関連付けて音声・テキストDB83に保存する。
音声・テキストDB83のデータ構造の一例を図8に示す。図8に示されるように、音声・テキストDB83には、図7に示されるログDB82が保存する内容に、更に、セッション毎の認識テキスト(音声ストリームを音声認識したデータ)、および音声ストリームと当該テキストとの時間関係データが追加保存される。また、インデックス情報が付加され、検索を高速化する配慮もなされている。すなわち、インデックスには、メディアデータ(音声ストリーム)の格納場所が示されている。
検索要求・再生応答部74は、外部から音声検索要求を受信し、通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生する機能を持つ。
図3は、本発明実施形態の基本動作を説明するために引用したフローチャートであり、図4、図5にロギング処理の詳細動作が、図10にログを用いた音声認識処理が示されている。図10は、本発明のフログラムの処理手順も示している。
また、図6〜図8、図9、図11は、いずれも動作概念図であり、図3〜図5、図10に示すフローチャートの理解を助ける意味で引用した。
以下、図3〜図11を参照しながら図1、図2に示す本発明実施形態の動作について詳細に説明する。
まず、図3に示すフローチャートを参照して図1に示す本発明実施形態の音声認識システムの基本動作から説明する。
まず、IP電話1、2間で通話が行われる(S31)。このとき、ログサーバ6によるロギング処理が開始され、採取された通話ログをログDB8に保存する(S32)。ロギング処理の詳細は、図4、図5に示すフローチャートを参照しながら後述する。そして、音声認識サーバ7による音声テキスト変換が行われ(S33)、通話セッション毎、認識されたテキストと音声と対応づけられた音声−テキスト対応テーブルが作成され、DB8に格納される(S34)。
一方、テキストをキーにした検索要求があったときに(S35、Yes)DB8に格納された音声−テキスト対応テーブルを検索して対応する音声を再生する(S36)。
以下、図1、図2に示すロギングサーバ6によるロギング処理の詳細を、図4、図5に示すフローチャート、ならびに図6〜図8に示す動作概念図を参照しながら詳細な動作説明を行う。動作説明に先立ち、図12を用いてVoIPの概略説明を行う。
図12に示されるように、VoIPでは、呼制御、通信情報、RTP(Real Time Transport Protocol)接続のための情報等に関するシグナリングの転送は、TCP(Transmission Control Protocol)を使用するため、IPパケットは完全に相手側に送信される。しかしながら、音声の転送はUDP(User Datagram Protocol)を使用するため、IPパケットを完全に相手側に送信することは保証されず、従って送信途中でIPパケットを失う(ロストする)ことが多々ある。また、IPパケットの取得および保存する処理が遅いとアプリケーションが追随できず、一層、IPパケットをロストする可能性が高くなる。このようにIPパケットがロストしたことによって不足すると音声認識の精度が低下する。このため、以下に説明する処理が実行される。以下に詳細説明を行う。
図4に示すフローチャートにおいて、まず、ログ保存部61は、IP電話1、2の接続を中継するスイッチングハブ5を介して受信されるデータからVoIPパケットを抽出してテンポラリDB81に一時保存する(S51、S52)。
次に、パケット抽出部62は、テンポラリDB81に保存されたVoIPパケットからシグナリングパケットを抽出してパケット抽出部63、およびセッション識別部64へ供給する(S53)。パケット抽出部63は、ログ保存部61により抽出され保存されたシグナリングパケットから音声ストリーム情報を判別し、更にテンポラリDB81から音声ストリームパケットを抽出してログ保存部65へ供給する(S54)。このときログ保存部65は、抽出されたシグナリングパケットと音声ストリームパケットとを、セッション識別部64によって識別された識別情報に基づき関連付け、セッション毎ログDB82に保存する(S55)。
テンポラリDB81に保存されたVoIPパケットの判別処理の詳細を図5に示す。図5に示すフローチャートおいて、まず、パケット抽出部62、63は、テンポラリDB81に保存された全VoIPパケットの判別を開始する(S41)。そして、ログ保存部65は、シグナリングと音声ストリーム、およびその他データの分類を行い(S42)、パケット抽出部62により抽出されたシグナリングパケットのスタート、エンドを判別して(S43)、ログDB82における記憶領域の確保と閉鎖を行い(S44、S45)、また、パケット抽出部63により抽出された音声ストリームパケットを判別して先にログDB82の確保された記憶領域へログ保存を開始する(S47)。
なお、S43の処理において、シグナリングパケットがその他データである場合は適切な処理を行い(S46)、また、S42の処理において、保存データがシグナリングパケットでも音声ストリームパケットにも該当しないその他データである場合は破棄する(S48)。
説明を図4のフローチャートに戻す。以上のようにログDB82に抽出した音声ストリームパケットをセッション毎に保存した後、テンポラリDB81から未だ抽出されていない音声ストリームパケットが残った場合(S56“有り”)、シグナリングパケットがロストしていたことになる(S57“シグナリリング”)。
このとき、パケット補間部66は、音声ストリームのRTPヘッダ中、SSR(Synchronization Source)値が同一で複数あるものを抽出し(S58)、同一セッションのデータとしてログDB82に追加保存する(S59)。また、音声ストリームパケットが一部ロストしていた場合は(S57“音声ストリーム”)、テンポラリDB81に残存する音声ストリームパケットのヘッダ情報を参照し、ロストした前後のシーケンスNo.のデータを取得する(S60)。そして、データに誤差が少ない場合は、前後のデータをコピーし(S61)、ロストしたシーケンスNo.を割当てて追加保存する(S62)。
図6に、上記した本発明のパケットロギングシステムによるログ保存のための処理が概念的に示されている。図6に示されるように、ロギングサーバ6は、受信したデータ(シグナリングパケット、音声ストリームパケット、その他データ)の全てをDB8に一時保存し(a)、更に、上記した手順に従いDB8からセッション毎に必要なパケットを抽出し、同じくDB8に保存する(b)。最後に、音声認識サーバ7によって認識結果であるテキストを付与してDB8に追加保存して終了となる。
このことにより、システム負荷を減らし、採取したIPパケットを高速に保存処理することができ、IPパケットロストが音声認識に与える影響を極力回避できる。また、シグナリングパケットやその他音声ストリームパケットの一部がロストしてもその影響を補正できる。
次に、図9〜図11を参照してログDB82に保存された音声データを読み出して音声認識を行い、認識テキストを追加保存する動作について詳細説明を行う。
図9に(a)として示される波形は、電話で両者が「もしもし。***です。」「ああ!」「はい。それではまたの機会に」と発話したときの波形レベルでの特徴点(図中、楕円で囲まれたハッチング部分)を示す図であり、主に句読点等の特徴点を見出し、文節毎に音声認識を行えば音声と認識テキストとの関連付けを行うことが可能であることがわかる。そこで、本発明では、RTPの無音区間から会話の特徴点を検出し、会話のやりとり毎に音声認識を行うこととした。また、文節単位で音声と認識テキストとの関連付けが可能である。
図10に、RTPの無音区間から会話の特徴点を検出し、会話のやりとり毎に音声認識を行うための処理手順がフローチャートで示され、図11にその動作概念図が示されている。以下、図10、図11を参照しながら、図1、図2に示す本発明実施形態の動作について詳細に説明する。
まず、認識前処理部71は、ログDB82から音声ストリームパケットを抽出してそのヘッダ情報を参照し(S101)、当該ヘッダ情報に含まれるタイムスタンプTから所定時間(t)以上間隔のある個所を、上記した特徴点を示す仕切りとして判定し(S102)、音声認識部72に対して音声認識の単位として供給する。具体的には、図11(a)に示されるように、抽出された音声ストリームパケットを無音区間(α:t<t3s−t2e)で仕切り(S103)、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する(S104)。そしてその単位毎にヘッダ(開始時刻、有音時間、無音時間)を付加して音声認識部72を起動する。
音声認識部72は、上記した無音区間(β)を単位に音声ストリームパケットの音声認識を行い、テキストデータに変換して認識音声・テキスト管理部73へ供給する(S105)。認識音声・テキスト管理部73は、その認識テキストと音声との紐付け作業を行い、音声・テキストDB83に保存する(S106)。すなわち、図11(b)に示されるように、音声認識部72でヘッダと音声から成る認識前音声の音声認識を行い、認識音声・テキスト管理部73で、ヘッダと認識テキストから成る認識後テキストと、無音区間が付加された認識後音声とを関連付ける。
そして、検索要求・再生応答部73が、外部からテキストをキーに音声検索要求を受信したとき、音声・テキストDB83を検索し、図8に示されるように、通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生する。
以上説明のように本発明は、抽出した音声ストリームパケットを無音区間(α)で仕切り、当該無音区間の間に含まれる無音区間(β)に無音データを挿入することで、その無音区間(α)を単位に音声ストリームパケットの音声認識を行ってテキストデータに変換し、認識音声・テキスト管理部を介してそのテキストデータを変換前の音声ストリームパケットと関連付けて保存することで両者の関連付けが可能となり、また、抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を仕切りとして判定し、音声認識の単位として供給することで、音声認識時に誤った語意に変換されることを防ぐものである。
更に、音声検索要求を受信して通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生することにより、検索処理の高速化を実現できる。このとき、容量の大きな音声メディアを外部に保存することで内部ストレージの圧迫も回避できるものである。
なお、上記した本発明実施形態では、VoIPパケットのロギング処理と、認識処理をそれぞれロギングサーバ6、音声認識サーバ9が機能分散して協働して実現する構成についてのみ説明したが、性能さえ許せばDB8を管理する単一のサーバ(図示せず)で実現しても良い。
また、図2に示す、ログ保存部(VoIP)61、パケット抽出部(シグナリング)62、パケット抽出部(音声ストリーム)63、セッション識別部64、ログ保存部65、パケット補間部(シグナリング/音声ストリーム)66、認識前処理部71、音声認識部72、認識音声・テキスト管理部73、検索要求・再生応答部74のそれぞれで実行される手順をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって本発明の音声認識システムを実現することができる。ここでいうコンピュータシステムとは、OS(Operating System)や周辺機器等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明実施形態の構成例を示す図である。 図1に示すロギングサーバの内部構成を示すプロック図である。 本発明実施形態の基本動作を示すフローチャートである。 本発明実施形態によるログ保存処理の流れを示すフローチャートである。 本発明実施形態による保存データの判別処理の流れを示すフローチャートである。 本発明実施形態によるログ保存処理の動作概念図である。 本発明実施形態によりログDBに保存されるデータの構造の一例を示す図である。 本発明実施形態により音声・テキストDBに保存されるデータの構造の一例を示す図である。 音声と認識テキストとの関連付けを説明するために引用した図である。 本発明実施形態による音声認識処理の流れを示すフローチャートである。 本発明実施形態による音声認識処理の動作概念図である。 VoIPの概要を説明するために引用した図である。
符号の説明
1、2…IP電話、3…IP/PSTN網、4…GW/ルータ、5…スイッチングハブ、6…ロギングサーバ、7…音声認識サーバ、8…データベース(DB)、9…検索用PC、71…認識前処理部、72…音声認識部、73…認識音声・テキスト管理部、74…検索要求・再生応答部、82…ログDB、83…音声・テキストDB

Claims (2)

  1. IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に分割して保存された音声ストリームパケットを第1の記憶装置から抽出して音声認識を行う音声認識システムであって、
    前記抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を無音区間(時間α)として仕切り、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する音声認識前処理部と、
    当該無音区間(α)を単位に前記音声ストリームパケットの音声認識を行い、テキストデータに変換する音声認識部と、
    前記変換されたテキストデータを前記変換前の音声ストリームパケットと関連付けて第2の記憶装置に保存する認識音声・テキスト管理部と、
    を備えたことを特徴とする音声認識システム。
  2. IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に分割して保存された音声ストリームパケットを第1の記憶装置から抽出して音声認識を行う音声認識システムに用いられるプログラムであって、
    前記抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を無音区間(時間α)で仕切り、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する処理と、
    当該無音区間(α)を単位に前記音声ストリームパケットの音声認識を行い、テキストデータに変換する処理と、
    前記変換されたテキストデータを前記変換前の音声ストリームパケットと関連付けて第2の記憶装置に保存する処理と、をコンピュータに実行させるプログラム。
JP2004029346A 2004-02-05 2004-02-05 音声認識システムおよびそのプログラム Expired - Fee Related JP4509590B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004029346A JP4509590B2 (ja) 2004-02-05 2004-02-05 音声認識システムおよびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004029346A JP4509590B2 (ja) 2004-02-05 2004-02-05 音声認識システムおよびそのプログラム

Publications (2)

Publication Number Publication Date
JP2005223595A JP2005223595A (ja) 2005-08-18
JP4509590B2 true JP4509590B2 (ja) 2010-07-21

Family

ID=34998900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004029346A Expired - Fee Related JP4509590B2 (ja) 2004-02-05 2004-02-05 音声認識システムおよびそのプログラム

Country Status (1)

Country Link
JP (1) JP4509590B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4631603B2 (ja) * 2005-08-24 2011-02-16 日本電気株式会社 PoCサービスにおける音声データ再生システム、再生方法、サーバ装置、及び、プログラム
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
JP6165619B2 (ja) * 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
KR101952730B1 (ko) * 2018-06-20 2019-05-22 (주)넥타르소프트 교신 내용을 보팅으로 선별하여 음성인식하는 무선 교신 시스템

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635498A (ja) * 1992-07-16 1994-02-10 Clarion Co Ltd 音声認識装置及び方法
JPH11191791A (ja) * 1997-08-01 1999-07-13 Comverse Network Syst Inc パケット通信電話システム
JP2002171350A (ja) * 2000-12-05 2002-06-14 Matsushita Electric Ind Co Ltd 通話録音システム
JP2002271391A (ja) * 2001-03-08 2002-09-20 Nec Eng Ltd ダイナミック・ジッタ・バッファ制御方法
JP2003085682A (ja) * 2001-09-13 2003-03-20 Allied Tereshisu Kk 監視システム、管理装置、ネットワーク装置、中継装置及び監視方法
JP2003114696A (ja) * 2001-10-03 2003-04-18 Denso Corp 音声認識装置、プログラム及びナビゲーションシステム
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2004032022A (ja) * 2002-06-21 2004-01-29 Nec Engineering Ltd 接続情報管理システムおよび通話録音システム
JP2004184535A (ja) * 2002-11-29 2004-07-02 Fujitsu Ltd 音声認識装置及び方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635498A (ja) * 1992-07-16 1994-02-10 Clarion Co Ltd 音声認識装置及び方法
JPH11191791A (ja) * 1997-08-01 1999-07-13 Comverse Network Syst Inc パケット通信電話システム
JP2002171350A (ja) * 2000-12-05 2002-06-14 Matsushita Electric Ind Co Ltd 通話録音システム
JP2002271391A (ja) * 2001-03-08 2002-09-20 Nec Eng Ltd ダイナミック・ジッタ・バッファ制御方法
JP2003085682A (ja) * 2001-09-13 2003-03-20 Allied Tereshisu Kk 監視システム、管理装置、ネットワーク装置、中継装置及び監視方法
JP2003114696A (ja) * 2001-10-03 2003-04-18 Denso Corp 音声認識装置、プログラム及びナビゲーションシステム
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2004032022A (ja) * 2002-06-21 2004-01-29 Nec Engineering Ltd 接続情報管理システムおよび通話録音システム
JP2004184535A (ja) * 2002-11-29 2004-07-02 Fujitsu Ltd 音声認識装置及び方法

Also Published As

Publication number Publication date
JP2005223595A (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
US20220303502A1 (en) Leveraging a network of microphones for inferring room location and speaker identity for more accurate transcriptions and semantic context across meetings
US6226361B1 (en) Communication method, voice transmission apparatus and voice reception apparatus
US7191129B2 (en) System and method for data mining of contextual conversations
US20110231184A1 (en) Correlation of transcribed text with corresponding audio
EP1362341B1 (en) Method and apparatus for encoding and decoding pause information
JP2007189671A (ja) 話し手を示す(who−is−speaking)(wis)信号アプリケーションを可能にするためのシステムおよび方法
US20080059177A1 (en) Enhancement of simultaneous multi-user real-time speech recognition system
US20070041522A1 (en) System and method for integrating and managing E-mail, voicemail, and telephone conversations using speech processing techniques
US9936068B2 (en) Computer-based streaming voice data contact information extraction
JP2005328501A (ja) 音声メッセージを文字メッセージに変換する移動端末機及び方法
KR101904817B1 (ko) 통화 내용 음성-텍스트 변환 녹취록 생성 시스템
CN103856602A (zh) 一种通话转录系统和方法
US6532230B1 (en) Mixed-media communication apparatus and method
CN110349581A (zh) 语音和文字转换传输方法、系统、计算机设备和存储介质
US7453828B1 (en) Devices, methods and software for generating indexing metatags in real time for a stream of digitally stored voice data
JP4509590B2 (ja) 音声認識システムおよびそのプログラム
US7773582B2 (en) Dynamic voice over internet protocol endpoint mapping
US20080316945A1 (en) Ip telephone terminal and telephone conference system
US6501751B1 (en) Voice communication with simulated speech data
CN203278958U (zh) 一种通话转录系统
JP4279169B2 (ja) パケットロギングシステム
CN114648989A (zh) 在电子设备中实施的语音信息处理方法、装置及存储介质
US20080101560A1 (en) Telephone system
WO2001089182A1 (fr) Systeme de stockage vocal, echangeur et appareil de stockage vocal
US20020012422A1 (en) Logger machine and logger equipment using the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060427

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100428

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees