JP4509590B2 - 音声認識システムおよびそのプログラム - Google Patents
音声認識システムおよびそのプログラム Download PDFInfo
- Publication number
- JP4509590B2 JP4509590B2 JP2004029346A JP2004029346A JP4509590B2 JP 4509590 B2 JP4509590 B2 JP 4509590B2 JP 2004029346 A JP2004029346 A JP 2004029346A JP 2004029346 A JP2004029346 A JP 2004029346A JP 4509590 B2 JP4509590 B2 JP 4509590B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- stream packet
- unit
- data
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
また、ログイット社のNiceLog(登録商標)も知られている。当該製品は、VoIP録音を可能にした記録装置であって、IPパケット中のH.323情報をスニファーすることによって音声データを記録する、あるいは、ネットワーク上に多地点会議装置(MCU)を配置しておき、そのMCUからH.323情報を取得することによって音声データを記録する(例えば、非特許文献2参照)。
http://advanced-media.co.jp/prooducts/1502.html<インターネット>2004年1月15日閲覧、「AmiVoiceseries製品情報」 http://www.logit.co.jp/products/nicelog/voip.html<インターネット>2004年1月15日閲覧、ログイット株式会社Products[製品紹介]「VoIP録音を可能にした最新のIPレコーディング」
なお、符号9は、検索用PCであり、テキストをキーにDB8を参照して必要な音声データを検索して再生することができる。
ロギングサーバ6は、ログ保存部(VoIP)61と、テンポラリDB81と、パケット抽出部(シグナリング)62と、パケット抽出部(音声ストリーム)63と、セッション識別部64と、ログ保存部65と、パケット補間部(シグナリング/音声ストリーム)66と、ログDB82で構成される。
セッション識別部64は、通話セッションの識別処理を行いログ保存部65へその識別情報を供給する。ログ保存部65は、パケット抽出部62で抽出されたシグナリングパケットと、パケット抽出部63で抽出された音声ストリームパケットとをセッション識別部で識別された識別情報に基づき関連付け、セッション毎にログDB82に保存する。
図7に、ログDB82に対しセッション毎に保存されるVoIPパケットのデータ構造の一例が示されている。図7に示されるように、セッション(#0〜#n)毎、シグナリングでやりとりしたデータ、およびRTPヘッダ付きの音声ストリームパケットが上り(アップストリーム)、下り(ダウンストリーム)毎タイムスタンプ付きで保存される。
一方、パケット補間部66は、テンポラリDB81に未抽出の音声ストリームパケットが残存した場合、当該残存する音声ストリームパケットのヘッダ情報を参照し、セッションが同じで複数あるパケットを抽出して同一セッションの音声ストリームパケットとしてログDB82に追加保存する。また、音声ストリームパケットが一部ロストしていた場合、テンポラリDB81に残存する音声ストリームパケットのヘッダ情報を参照し、ロストしたパケットの前後のシーケンス番号に相当する音声ストリームパケットを読み出し、当該前後の音声ストリームパケットをコピーしてロストしたパケットのシーケンス番号を割当て、コピーした音声ストリームパケットをログDB82に追加保存する。
認識前処理部71は、後述するように、抽出された音声ストリームパケットを無音区間(α)で仕切り、当該無音区間の間に含まれる無音区間(β)に無音データを挿入して音声認識部72へ供給する。すなわち、音声認識前処理部71は、抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を仕切りとして判定し、音声認識部72に対して音声認識の単位として供給する。
音声認識部72は、当該無音区間(α)を単位に音声ストリームパケットの音声認識を行い、テキストデータに変換して認識音声・テキスト管理部73へ供給する。また、認識音声・テキスト管理部73は、音声認識部72によって変換されたテキストデータを変換前の音声ストリームパケットと関連付けて音声・テキストDB83に保存する。
検索要求・再生応答部74は、外部から音声検索要求を受信し、通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生する機能を持つ。
また、図6〜図8、図9、図11は、いずれも動作概念図であり、図3〜図5、図10に示すフローチャートの理解を助ける意味で引用した。
以下、図3〜図11を参照しながら図1、図2に示す本発明実施形態の動作について詳細に説明する。
まず、IP電話1、2間で通話が行われる(S31)。このとき、ログサーバ6によるロギング処理が開始され、採取された通話ログをログDB8に保存する(S32)。ロギング処理の詳細は、図4、図5に示すフローチャートを参照しながら後述する。そして、音声認識サーバ7による音声テキスト変換が行われ(S33)、通話セッション毎、認識されたテキストと音声と対応づけられた音声−テキスト対応テーブルが作成され、DB8に格納される(S34)。
一方、テキストをキーにした検索要求があったときに(S35、Yes)DB8に格納された音声−テキスト対応テーブルを検索して対応する音声を再生する(S36)。
図12に示されるように、VoIPでは、呼制御、通信情報、RTP(Real Time Transport Protocol)接続のための情報等に関するシグナリングの転送は、TCP(Transmission Control Protocol)を使用するため、IPパケットは完全に相手側に送信される。しかしながら、音声の転送はUDP(User Datagram Protocol)を使用するため、IPパケットを完全に相手側に送信することは保証されず、従って送信途中でIPパケットを失う(ロストする)ことが多々ある。また、IPパケットの取得および保存する処理が遅いとアプリケーションが追随できず、一層、IPパケットをロストする可能性が高くなる。このようにIPパケットがロストしたことによって不足すると音声認識の精度が低下する。このため、以下に説明する処理が実行される。以下に詳細説明を行う。
次に、パケット抽出部62は、テンポラリDB81に保存されたVoIPパケットからシグナリングパケットを抽出してパケット抽出部63、およびセッション識別部64へ供給する(S53)。パケット抽出部63は、ログ保存部61により抽出され保存されたシグナリングパケットから音声ストリーム情報を判別し、更にテンポラリDB81から音声ストリームパケットを抽出してログ保存部65へ供給する(S54)。このときログ保存部65は、抽出されたシグナリングパケットと音声ストリームパケットとを、セッション識別部64によって識別された識別情報に基づき関連付け、セッション毎ログDB82に保存する(S55)。
なお、S43の処理において、シグナリングパケットがその他データである場合は適切な処理を行い(S46)、また、S42の処理において、保存データがシグナリングパケットでも音声ストリームパケットにも該当しないその他データである場合は破棄する(S48)。
このとき、パケット補間部66は、音声ストリームのRTPヘッダ中、SSR(Synchronization Source)値が同一で複数あるものを抽出し(S58)、同一セッションのデータとしてログDB82に追加保存する(S59)。また、音声ストリームパケットが一部ロストしていた場合は(S57“音声ストリーム”)、テンポラリDB81に残存する音声ストリームパケットのヘッダ情報を参照し、ロストした前後のシーケンスNo.のデータを取得する(S60)。そして、データに誤差が少ない場合は、前後のデータをコピーし(S61)、ロストしたシーケンスNo.を割当てて追加保存する(S62)。
図9に(a)として示される波形は、電話で両者が「もしもし。***です。」「ああ!」「はい。それではまたの機会に」と発話したときの波形レベルでの特徴点(図中、楕円で囲まれたハッチング部分)を示す図であり、主に句読点等の特徴点を見出し、文節毎に音声認識を行えば音声と認識テキストとの関連付けを行うことが可能であることがわかる。そこで、本発明では、RTPの無音区間から会話の特徴点を検出し、会話のやりとり毎に音声認識を行うこととした。また、文節単位で音声と認識テキストとの関連付けが可能である。
まず、認識前処理部71は、ログDB82から音声ストリームパケットを抽出してそのヘッダ情報を参照し(S101)、当該ヘッダ情報に含まれるタイムスタンプTから所定時間(t)以上間隔のある個所を、上記した特徴点を示す仕切りとして判定し(S102)、音声認識部72に対して音声認識の単位として供給する。具体的には、図11(a)に示されるように、抽出された音声ストリームパケットを無音区間(α:t<t3s−t2e)で仕切り(S103)、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する(S104)。そしてその単位毎にヘッダ(開始時刻、有音時間、無音時間)を付加して音声認識部72を起動する。
そして、検索要求・再生応答部73が、外部からテキストをキーに音声検索要求を受信したとき、音声・テキストDB83を検索し、図8に示されるように、通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生する。
更に、音声検索要求を受信して通話セッション毎に作成されたインデックスデータが示す音声ストリームパケットの格納場所から該当する音声ストリームパケットを検索して再生することにより、検索処理の高速化を実現できる。このとき、容量の大きな音声メディアを外部に保存することで内部ストレージの圧迫も回避できるものである。
また、図2に示す、ログ保存部(VoIP)61、パケット抽出部(シグナリング)62、パケット抽出部(音声ストリーム)63、セッション識別部64、ログ保存部65、パケット補間部(シグナリング/音声ストリーム)66、認識前処理部71、音声認識部72、認識音声・テキスト管理部73、検索要求・再生応答部74のそれぞれで実行される手順をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって本発明の音声認識システムを実現することができる。ここでいうコンピュータシステムとは、OS(Operating System)や周辺機器等のハードウェアを含む。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (2)
- IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に分割して保存された音声ストリームパケットを第1の記憶装置から抽出して音声認識を行う音声認識システムであって、
前記抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を無音区間(時間α)として仕切り、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する音声認識前処理部と、
当該無音区間(α)を単位に前記音声ストリームパケットの音声認識を行い、テキストデータに変換する音声認識部と、
前記変換されたテキストデータを前記変換前の音声ストリームパケットと関連付けて第2の記憶装置に保存する認識音声・テキスト管理部と、
を備えたことを特徴とする音声認識システム。 - IP接続環境を用いて音声通話を行うIP電話とはスイッチングハブを経由して接続され、通話セッション毎に分割して保存された音声ストリームパケットを第1の記憶装置から抽出して音声認識を行う音声認識システムに用いられるプログラムであって、
前記抽出された音声ストリームパケットのヘッダ情報を参照し、当該ヘッダ情報に含まれるタイムスタンプから所定時間以上間隔のある個所を無音区間(時間α)で仕切り、当該無音区間の間に含まれる無音区間(β、但しα>β)に無音データを挿入する処理と、
当該無音区間(α)を単位に前記音声ストリームパケットの音声認識を行い、テキストデータに変換する処理と、
前記変換されたテキストデータを前記変換前の音声ストリームパケットと関連付けて第2の記憶装置に保存する処理と、をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004029346A JP4509590B2 (ja) | 2004-02-05 | 2004-02-05 | 音声認識システムおよびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004029346A JP4509590B2 (ja) | 2004-02-05 | 2004-02-05 | 音声認識システムおよびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005223595A JP2005223595A (ja) | 2005-08-18 |
JP4509590B2 true JP4509590B2 (ja) | 2010-07-21 |
Family
ID=34998900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004029346A Expired - Fee Related JP4509590B2 (ja) | 2004-02-05 | 2004-02-05 | 音声認識システムおよびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4509590B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4631603B2 (ja) * | 2005-08-24 | 2011-02-16 | 日本電気株式会社 | PoCサービスにおける音声データ再生システム、再生方法、サーバ装置、及び、プログラム |
JP4827721B2 (ja) * | 2006-12-26 | 2011-11-30 | ニュアンス コミュニケーションズ,インコーポレイテッド | 発話分割方法、装置およびプログラム |
JP6165619B2 (ja) * | 2013-12-13 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
KR101952730B1 (ko) * | 2018-06-20 | 2019-05-22 | (주)넥타르소프트 | 교신 내용을 보팅으로 선별하여 음성인식하는 무선 교신 시스템 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635498A (ja) * | 1992-07-16 | 1994-02-10 | Clarion Co Ltd | 音声認識装置及び方法 |
JPH11191791A (ja) * | 1997-08-01 | 1999-07-13 | Comverse Network Syst Inc | パケット通信電話システム |
JP2002171350A (ja) * | 2000-12-05 | 2002-06-14 | Matsushita Electric Ind Co Ltd | 通話録音システム |
JP2002271391A (ja) * | 2001-03-08 | 2002-09-20 | Nec Eng Ltd | ダイナミック・ジッタ・バッファ制御方法 |
JP2003085682A (ja) * | 2001-09-13 | 2003-03-20 | Allied Tereshisu Kk | 監視システム、管理装置、ネットワーク装置、中継装置及び監視方法 |
JP2003114696A (ja) * | 2001-10-03 | 2003-04-18 | Denso Corp | 音声認識装置、プログラム及びナビゲーションシステム |
JP2003255979A (ja) * | 2002-03-06 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | データ編集方法、データ編集装置、データ編集プログラム |
JP2004032022A (ja) * | 2002-06-21 | 2004-01-29 | Nec Engineering Ltd | 接続情報管理システムおよび通話録音システム |
JP2004184535A (ja) * | 2002-11-29 | 2004-07-02 | Fujitsu Ltd | 音声認識装置及び方法 |
-
2004
- 2004-02-05 JP JP2004029346A patent/JP4509590B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635498A (ja) * | 1992-07-16 | 1994-02-10 | Clarion Co Ltd | 音声認識装置及び方法 |
JPH11191791A (ja) * | 1997-08-01 | 1999-07-13 | Comverse Network Syst Inc | パケット通信電話システム |
JP2002171350A (ja) * | 2000-12-05 | 2002-06-14 | Matsushita Electric Ind Co Ltd | 通話録音システム |
JP2002271391A (ja) * | 2001-03-08 | 2002-09-20 | Nec Eng Ltd | ダイナミック・ジッタ・バッファ制御方法 |
JP2003085682A (ja) * | 2001-09-13 | 2003-03-20 | Allied Tereshisu Kk | 監視システム、管理装置、ネットワーク装置、中継装置及び監視方法 |
JP2003114696A (ja) * | 2001-10-03 | 2003-04-18 | Denso Corp | 音声認識装置、プログラム及びナビゲーションシステム |
JP2003255979A (ja) * | 2002-03-06 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | データ編集方法、データ編集装置、データ編集プログラム |
JP2004032022A (ja) * | 2002-06-21 | 2004-01-29 | Nec Engineering Ltd | 接続情報管理システムおよび通話録音システム |
JP2004184535A (ja) * | 2002-11-29 | 2004-07-02 | Fujitsu Ltd | 音声認識装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2005223595A (ja) | 2005-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220303502A1 (en) | Leveraging a network of microphones for inferring room location and speaker identity for more accurate transcriptions and semantic context across meetings | |
US6226361B1 (en) | Communication method, voice transmission apparatus and voice reception apparatus | |
US7191129B2 (en) | System and method for data mining of contextual conversations | |
US20110231184A1 (en) | Correlation of transcribed text with corresponding audio | |
EP1362341B1 (en) | Method and apparatus for encoding and decoding pause information | |
JP2007189671A (ja) | 話し手を示す(who−is−speaking)(wis)信号アプリケーションを可能にするためのシステムおよび方法 | |
US20080059177A1 (en) | Enhancement of simultaneous multi-user real-time speech recognition system | |
US20070041522A1 (en) | System and method for integrating and managing E-mail, voicemail, and telephone conversations using speech processing techniques | |
US9936068B2 (en) | Computer-based streaming voice data contact information extraction | |
JP2005328501A (ja) | 音声メッセージを文字メッセージに変換する移動端末機及び方法 | |
KR101904817B1 (ko) | 통화 내용 음성-텍스트 변환 녹취록 생성 시스템 | |
CN103856602A (zh) | 一种通话转录系统和方法 | |
US6532230B1 (en) | Mixed-media communication apparatus and method | |
CN110349581A (zh) | 语音和文字转换传输方法、系统、计算机设备和存储介质 | |
US7453828B1 (en) | Devices, methods and software for generating indexing metatags in real time for a stream of digitally stored voice data | |
JP4509590B2 (ja) | 音声認識システムおよびそのプログラム | |
US7773582B2 (en) | Dynamic voice over internet protocol endpoint mapping | |
US20080316945A1 (en) | Ip telephone terminal and telephone conference system | |
US6501751B1 (en) | Voice communication with simulated speech data | |
CN203278958U (zh) | 一种通话转录系统 | |
JP4279169B2 (ja) | パケットロギングシステム | |
CN114648989A (zh) | 在电子设备中实施的语音信息处理方法、装置及存储介质 | |
US20080101560A1 (en) | Telephone system | |
WO2001089182A1 (fr) | Systeme de stockage vocal, echangeur et appareil de stockage vocal | |
US20020012422A1 (en) | Logger machine and logger equipment using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060427 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100428 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |