JP4738716B2 - 自動転記を停止する転記サービス - Google Patents

自動転記を停止する転記サービス Download PDF

Info

Publication number
JP4738716B2
JP4738716B2 JP2002574655A JP2002574655A JP4738716B2 JP 4738716 B2 JP4738716 B2 JP 4738716B2 JP 2002574655 A JP2002574655 A JP 2002574655A JP 2002574655 A JP2002574655 A JP 2002574655A JP 4738716 B2 JP4738716 B2 JP 4738716B2
Authority
JP
Japan
Prior art keywords
transcription
data
posting
text data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002574655A
Other languages
English (en)
Other versions
JP2004519729A (ja
Inventor
ヘインリッヒ エフ バートシク
Original Assignee
ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー filed Critical ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Publication of JP2004519729A publication Critical patent/JP2004519729A/ja
Application granted granted Critical
Publication of JP4738716B2 publication Critical patent/JP4738716B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Treatments For Attaching Organic Compounds To Fibrous Goods (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Valves And Accessory Devices For Braking Systems (AREA)
  • Transmitters (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、口述された音声データが供給され、転記装置(transcription device)の音声認識ソフトウェアを用いて自動的にこの音声データと関連付けられるテキストデータを出力する転記装置に関する。
【0002】
本発明はさらに、転記方法にも関する。この方法において、口述された音声データが入力され、この転記方法の実行中に自動的にこの音声データと関連付けられるテキストデータを出力する。
【0003】
本発明はさらに、転記装置によって実行される音声認識ソフトウェア形式のコンピュータソフトウェアにも関する。
【0004】
【従来の技術】
国際公開番号第WO00/46787号の公報は、実質的に口述資料の自動転記を行うための転記サービスを表し、この公報において、最初の段落に記載された転記装置は、第2の段落に従う転記方法を実施する。既知のシステムのユーザーは、ユーザーが口述した音声データをデジタル音声データ形式でデータネットワークを介してサーバーの形式の転記装置へ送る。
【0005】
ユーザーが転記サービスを初めて利用するとき、ユーザーの口述資料は、転記サービスの雇用者(テープ起こし(transcriber))によって手動で転記される。転記装置の他の雇用者(校正者)は、前記テープ起こしによって転記されたテキストをチェックし、それに含まれる誤りも編集する。転記サービスによってユーザーの口述資料から手動で転記されたテキストデータは、送り状(invoice)と一緒にユーザーに送られる。
【0006】
【発明が解決しようとする課題】
既知の転記装置は、ユーザーリファレンス(user reference)が記憶された転記サービスのユーザーに適した音声認識ソフトウェアを動かす。転記装置により自動的に認識されるテキストデータの品質は本質的に、音声認識ソフトウェアがそれまでにどの位ユーザーに訓練されたかに依存している。既知の転記装置は、音声認識ソフトウェアを訓練し、改善されたユーザーリファレンスを記憶するために、手動で転記されたテキストデータと一緒にユーザーの口述資料からの音声データを使用する。
【0007】
ユーザーがこの転記サービスを頻繁に利用する場合、ユーザーの口述した音声データは、自動転記用の転記装置に追加的に供給される。このとき転記装置により自動的に転記されたテキストデータは、次に校正者によって手動で転記されたテキストデータと比較される。相対的に僅かな認識誤りが自動的に転記されたテキストデータに含まれる場合、このユーザーから将来的に入力される口述資料は、初めに、転記装置により自動的に転記され、次に、校正者により手動で校正される。ユーザー設定は、転記サービスで記憶され、この設定は、所与のユーザーの口述資料が転記されるやり方を決める。
【0008】
既知の転記サービスはさらに、自動転記が自動的に転記されたテキストデータにおいて比較的少数の認識誤りを既に達成していたとしても、ユーザーからの口述資料が単に手動で転記されるように制限期間にこれらユーザー設定を変更するシステムアドミニストレータのオプションを提供する。ユーザーが自分は病気である又は歯の治療を受けていることを知らせる場合、ユーザー設定に対するこの変更は、前記システムアドミニストレータによって行われ、現実はユーザーの発音に関する変化のために低認識率の自動転記によって達成される。
【0009】
【課題を解決するための手段】
既知の転記サービスの欠点は、転記装置による自動転記の場合、自動的に認識されたテキストデータは、時々非常に多くの認識誤りを含み、これにより、校正者はこれら認識誤りを校正するのに多くの時間を費やすこととなる。
【0010】
本発明の目的は、上述の欠点を回避した、最初の段落に示される形式の転記装置、第2の段落に示される形式の転記方法及び第3の段落に示される形式のコンピュータソフトウェアを提供することである。
【0011】
上述の目的を達成するために、本発明による特徴は、例えば、転記装置が以下のように特長付けられる転記装置を備える。
【0012】
口述資料を自動転記するための転記装置は、
−口述された音声データを入力する入力手段、
−前記入力された音声データを自動的に転記されたテキストデータに変換する音声認識手段、
−前記自動的に転記されたテキストデータを出力する出力手段、及び
−前記音声認識手段による自動転記がかなり多くの認識誤りを持つ低品質の自動的に転記されたテキストデータを作り出す又は既に作り出されている場合、前記転記装置による口述資料の処理を中止する中止手段、
を有する。
【0013】
上述の目的を達成するために、本発明による特徴は、例えば、転記方法が以下のように特徴付けられるような上記転記方法を備える。
【0014】
口述資料を自動転記するための音声認識方法は、
−口述される音声データを入力するステップ、
−前記入力された音声データを自動的に転記されたテキストデータに変換するステップ、
−前記自動的に転記されたテキストデータを出力するステップ、及び
−自動転記中に作り出される自動的に転記されたテキストデータがかなり多くの認識誤りを持つ低品質である又は既に低品質である場合、前記口述資料の処理を中止するステップ、
を実施する。
【0015】
上述の目的を達成するために、本発明による特徴は、例えば、コンピュータソフトウェアが以下のように特長付けられるようなコンピュータソフトウェアを備える。
【0016】
デジタルコンピュータの内部メモリに直接ロードされてもよく、ソフトウェアコードの一部を有するコンピュータソフトウェアであり、このコンピュータソフトウェアが前記デジタルコンピュータ上で実行される場合、請求項8に記載の転記方法が前記デジタルコンピュータにより実行される。
【0017】
このようにして、転記方法に従い、依然として自動的に転記されたテキストデータ又は既に自動的に転記されたテキストデータが多くの認識誤りを有する又は既に有しているので、テープ起こしが口述資料を最初から手動で転記するのに必要とされる時間よりも、校正者が認識誤りを編集するのに多くの時間を費やさなければならないことが確実である場合、転記装置は、自ら自動的にユーザーの口述資料の処理を中止する。このようにして、最終的に問題のある口述資料の不正常な自動転記ができるだけ早く自動的に中止される。テープ起こし及び校正者の作業時間はこれによって、より効率良く有利に使用され、加えて、コンピュータソフトウェアを実行するサーバーの計算容量も節約される。
【0018】
請求項2に含まれる方法に従い、転記装置は、入力される口述される音声データの品質をチェックして、これによって音声認識手段を用いて実際の自動転記を行う前に、正常な自動転記がともかく前記音声データで可能であるかを決めるという利点が得られる。
【0019】
請求項3、4、9及び10に含まれる方法に従い、後続する音声認識用の口述される音声データの品質の意味のあるインデックスが決められるという利点が得られる。これらインデックスに基づき、転記装置でカウントする又はこの装置で口述資料の処理を中止することに関する確かな決定が行われる。
【0020】
請求項6及び11の方法に従い、前記自動的に転記されたテキストデータにおいて恐らく誤って認識される単語の数は、転記装置により決められる“信頼度(confidence measure)”に基づいて、前記自動的に転記されたテキストデータの全単語数に関連する。この計算が誤りしきい値よりも低い誤り率となる場合、転記装置を用いる処理は中止され、前記自動的に転記されたテキストデータは校正者に与えられない。
【0021】
請求項7及び12の方法に従い、問題のある口述される音声データは、手動の転記を許容するために、転記装置による処理が中止された後、直ちに前記転記装置によって再送信されるという利点が得られる。
【0022】
【発明の実施の形態】
本発明は、図で示される実施例を参照してさらに説明されるが、これら図は、本発明を限定するものではない。
【0023】
図1は転記システムを示す。ユーザーは、口述された音声データをこの転記システムに送り、そしてユーザーは、口述資料から転記されたテキストデータと送り状とを前記転記システムから受け取る。
【0024】
図1はユーザー端末1、2及び3を示し、これら端末は、インターネットNETを介して転記システム5のサーバー4に接続されている。ユーザー端末1は、マイクが接続されたコンピュータの形である。コンピュータのユーザーは、資料をマイクに口述して、次に、これがコンピュータ上で動作する音声記録ソフトウェアによってこのコンピュータのハードディスクにデジタル音声データとして記憶される。このデジタル音声データは、コンピュータによってサーバー4に音声データAIとして送信されてもよい。それぞれの場合における音声データAIは、ユーザーを識別するユーザー情報の他のシーケンスも含んでいる。
【0025】
ユーザー端末2は、電話及びコンピュータの形である。ユーザー端末2のユーザーは、インターネットNETを介してサーバー4を呼び出すために電話を使用し、資料を電話に口述する。これが音声データAIとしてサーバー4へ送信される。
【0026】
ユーザー端末3は、デジタルの口述録音機(digital dictation machine)及びコンピュータの形である。ユーザー端末3のユーザーは、口述資料をデジタル音声データとして記録し、このデータを後でコンピュータのハードディスクにコピーするのにこの口述録音機を使用してもよい。このデジタル音声データは、コンピュータによって前記サーバー4に音声データAIとして送信されてもよい。
【0027】
サーバー4へ送信された口述された音声データAIは、転記システム5を用いて転記される、すなわち、転記されたテキストデータTIに変換される。転記システム5により転記されたテキストデータTIは、次に、サーバー4によって、音声データAIを入力したユーザー端末1、2又は3に関連するコンピュータに送信される。ユーザー端末1、2又は3によって入力された転記されたテキストデータTIは、個々のユーザー端末1、2又は3に関連するコンピュータによって、以下に詳述される特徴を最終的にユーザーに表示する。
【0028】
サーバー4に与えられる音声データAIは、手動及び自動の両方で転記されてもよい。手動の転記は、転記システム5の複数の従業員(いわゆるテープ起こし)によって行われ、これら従業員は、テープ起こし6として象徴的に説明される。手動の転記の場合、テープ起こし6は、口述された音声データAIを聞き、コンピュータによって話されたテキストを手動で転記されたテキストデータMTTIの形で、前から知っていたかのように同時に書き込む。
【0029】
転記システム5の他の従業員(いわゆる、校正者7と象徴的説明される校正者)は、テープ起こし6から手動で転記されたテキストデータMTTIを、関連する口述された音声データAIと一緒に受け取る。校正者7は再びこの口述された音声データAIを聞き、転記誤りに対しこの手動で転記されたテキストデータMTTIをチェックし、見つかったどんな転記誤りも校正する。校正者7によりチェックされた手動で転記されたデータMTTIは、転記されたテキストデータTIとしてサーバー4に与えられ、そこから、個々のユーザー装置1、2又は3へ与えられる。
【0030】
サーバー4は、インタフェース手段8を有し、この手段は、サーバー4によって動作されるソフトウェアモジュール及びモデムの形である。インタフェース手段8は、ユーザー装置1、2及び3から音声データAIを入力し、この入力した音声データAIをテープ起こし6へ送信する。校正者7は、転記されたテキストデータTIをインタフェース手段8へ与え、この転記されたテキストデータTIを正しいユーザー装置1、2又は3に送信する。
【0031】
サーバー4は、転記方法に従って前記口述された音声データAIの自動転記を行うための転記装置9を付加的に有する。このために、転記装置9は、コンピュータソフトウェアを構成する音声認識ソフトウェアを動作する。このような音声認識ソフトウェアの一例は、「Speech Magic」という名前でフィリップス社により販売されているソフトウェアである。
【0032】
転記装置9は、口述された音声データを入力するための入力手段を有し、この入力手段は、インタフェース手段8の形である。転記装置9はさらに、3つの音声認識手段10、11及び12を有し、これらは入力された音声データAIを自動的に転記されたテキストデータATTIに変換する。サーバー4は、3つの音声認識手段10、11及び12を形成する音声認識ソフトウェアを3回並行して動作する。このようにして、口述資料の3つのバッチ(batch)からの音声データAIは、並行して処理され、転記装置3の処理能力が高まる。
【0033】
転記装置9はさらに、出力手段13を有し、自動的に転記されたテキストデータATTIは、音声認識手段10、11及び12によって出力手段13に与えられる。出力手段13は、口述された音声データAIを音声認識手段10、11又は12の何れか一つにより自動的に転記されたテキストデータATTIと一緒に校正者7へ与える。校正者7は再び口述された音声データAIを聞き、転記誤りに対し自動的に転記されたテキストデータATTIをチェックし、これら誤りを校正する。
【0034】
上述されたような転記システム5は、国際公開番号第WO00/46787号公報から既知であり、本システムの開示は、参照することにより、この公報の開示の一部を構成すると考える。インタフェース手段8は、手動転記用のテープ起こし6又は自動転記用の転記装置9のどちらかに転記すべき音声データAIを与える。この点において、国際公開番号第WO00/46787号公報に記載されるように、ユーザーが転記システム5を既に何回使用したかという考察が与えられる。
【0035】
転記装置9は、音声認識装置10、11又は12による自動転記がかなり多くの認識誤りを持つ低品質の自動的に転記されたテキストデータATTIを作る又は既に作った場合、転記装置9による口述された音声データAIの処理を中止させる中止手段を有する。転記装置9の第1の中止手段14は、音声認識手段10、11又は12によって、後続の音声認識用の入力された音声データAIの品質をチェックし、この入力された音声データAIの品質が正常な自動転記を許容しない場合、転記装置9による口述資料の処理を中止させる。
【0036】
この第1の中止手段14は、第1のチェック手段15及びモニタリング手段16を含む。第1のチェック手段15は、アナログ/デジタル変換器を有し、デジタル音声データの形式で入力される音声データAIは、この変換器を用いて、アナログ音声信号に変換される。第1のチェック手段15は、一般に知られるようなアナログ音声信号の信号対雑音比を最初のチェックとしてチェックする。第1のチェック手段15は、一般にも知られるようなアナログ音声信号のレベルを第2のチェックとしてチェックする。
【0037】
この第1のチェック中に、第1のチェック手段15は、アナログ音声信号の信号対雑音比がS/Nしきい値(例えば、S/Nしきい値=20dB)よりも悪いことが分かる場合、第1のチェック手段15は、第1の中止信号ABI1をモニタリング手段16に与える。第2のチェック中に、第1のチェック手段15は、アナログ音声信号のレベルがレベルしきい値(例えば、レベルしきい値=−30dB)よりも悪いことが分かる場合、第1チェック手段15は、第2の中止信号ABI2をモニタリング手段16へ与える。加えて、第1のチェック手段15によりチェックされた音声データAIは、モニタリング手段16に再送信される。
【0038】
これらチェックの結果として、第1のチェック手段15がモニタリング手段16へ第1の中止信号ABI1だけでなく第2の中止信号ABI2も与えない場合、モニタリング手段16は、現在利用可能な音声認識手段10、11又は12の何れか一つに音声データAIを再送信する。
【0039】
このようにして、入力された音声データAIが音声認識手段10、11又は12による後続の音声認識にとって十分良好である場合、転記装置9は、口述された音声データAIの自動転記を行う利点が達成される。従って、サーバー4の計算能力は、音声データAIが良好な品質である口述資料が転記されるだけなので、有利に最適な使用となる。
【0040】
他方では、これらチェックの結果として、第1のチェック手段15は、第1の中止信号ABI1及び/又は第2の中止信号ABI2をモニタリング手段16に与え、モニタリング手段16は、音声データAIをテープ起こし6へ再送信する。この点において、モニタリング手段16は、再送信手段を構成している。
【0041】
このようにして、前記入力される音声データAIの品質が音声認識手段10、11又は12による後続の音声認識に対し不十分な品質である場合、転記装置9は、口述された音声データAIの自動転記を全く行わず、手動の転記を始めるという利点が達成される。この点において、モニタリング手段16は、上記口述される音声データAIを直ちに自動的に手動の転記のためのテープ起こし6に再送信するという利点が特に存在する。
【0042】
万一、音声データAIを自動的に転記されたテキストデータATTIに変換する場合には、音声認識手段10、11及び12は、当業者には前から知られているような、自動的に転記されたテキストデータATTIの各単語に対するいわゆる“信頼度”を決める。単語の“信頼度”は、音声認識手段10、11又は12により正確に認識されたこの単語の見込みを示す見込み値である。音声認識手段10、11及び12は、自動的に音声認識されるテキストデータATTIの各単語に対する“信頼度”を与える信頼度信号ZIを出力手段13へ供給する。
【0043】
転記装置9の出力手段13はさらに、第3のチェックを行う第2のチェック手段を構成する。この第3のチェックにおいて、第2のチェック手段は、自動的に転記されたテキストデータの単語数Kがしきい値の見込み値(例えば、しきい値の見込み値が50%)よりも低い見込み値を幾つ表すかをチェックする。
【0044】
自動的に転記されたテキストデータATTIのN個の単語毎にこの認識誤りの数Kが誤りしきい値(例えば、誤りしきい値が20%)よりも大きい場合、第2のチェック手段は、第3の中止信号ABI3をモニタリング手段16へ与える。この点において、出力手段13の第3のチェック手段は、モニタリング手段16を一緒に第2の中止手段を形成する。前記モニタリング手段16が第3の中止信号ABI3を入力する場合、モニタリング手段16は、この口述された音声データAIをテープ起こし6へ供給する。
【0045】
このようにして、校正者7は、この場合、テープ起こし6が前記口述資料を最初から手動で転記した場合よりも実質的に多くの時間を必要な校正を行うのに必要であるため、多くの認識誤りを含む自動的に転記されたテキストデータATTIは校正者7に出力されないという利点が達成される。
【0046】
本発明による転記装置9の利点は、3つのアプリケーションの例を参照して以下により詳細に説明する。アプリケーションの最初の例に従い、医者は、転記システム5により提供される転記サービスを既に頻繁に使用していると仮定する。これに従い、音声認識手段10、11及び12は、既に転記された口述された音声データAIから決められる医者用の記憶されるユーザーリファレンスを含んでいる。音声認識手段10、11及び12は、既に医者により口述される資料から非常に僅かしか認識誤りを持たない自動的に転記されたテキストデータATTIを既に作成可能である。
【0047】
医者は自分のユーザー端末2を使用し、電話でサーバー4を呼び出し、ユーザー自身を識別した後、資料を電話に口述する。しかしながら、このときに、医者は手術室の窓を閉め忘れてしまう、このために、ストリートノイズが口述された音声データAIに挿入されてしまう。
【0048】
この医者の口述資料は、転記装置9によって既に頻繁に正常に自動的に転記されるので、インタフェース手段8は、入力された音声データAIを第1のチェック手段15へ送る。第1のチェック手段15は、音声データAIを含む音声信号の信号対雑音比が音声認識手段10、11又は12の何れか1つを用いた自動転記で得られるべき認識誤りの許容レベルを持つ自動的に転記されたテキストデータATTIに対し悪すぎることを第1のチェックで立証し、第1の中止信号ABI1をモニタリング手段16に与える。第2のチェックの場合、第1のチェック手段15は、音声データAIを含む音声信号のレベルが十分良好であり、これにより、第2の中止信号ABI2をモニタリング手段16へ与えないことを立証する。
【0049】
第1の中止手段14は、音声認識手段10、11又は12が音声データAIの自動転記を始める前に、転記装置9による口述資料の処理を中止する有利さがある。このときに、モニタリング手段16は、第1の中止信号ABI1を受信した後、入力された音声データAIを手動の転記を行うためのテープ起こし6に再送信する。これにより、このテープ起こし6は、ストリートノイズが挿入され、これにより転記が難しい口述資料を手動で転記し、次にこれを校正者7へ送る。
【0050】
校正者7は、自動的に転記されたテキストデータATTIを編集するのに長い時間を要するため、この口述資料に関してテープ起こし6及び校正者7によって行われる全ての手動作業、よって費用がかかる作業を最小にすることが有利に可能であることが立証される。
【0051】
第2のアプリケーションの例に従い、患者は手術中に眠っているので、医者は、他の項目を比較的静かに口述していると仮定する。この他の口述された項目の音声データAIの第2のチェックにおいて、第1のチェック手段15は、音声データAIを含む音声信号のレベルがレベルしきい値よりも低いことを立証し、第2の中止信号ABI2をモニタリング手段16へ与える。第1の中止手段14は、その後、自動転記の前に前記他の口述された項目の処理を中止して、これにより上記に挙げられた利点が得られる。
【0052】
第3のアプリケーションの例に従い、医者は、他の項目を口述し、それを転記用の転記システム5に送信すると仮定する。この他の口述される項目は、インタフェース手段8によって転記装置9にも再送信される。この口述される音声データAIの品質が十分良好であるので、第1のチェック手段は、第1の中止信号ABI1だけでなく第2の中止信号ABI2もモニタリング手段16へ与えない。
【0053】
第2の音声認識手段11は、その後すぐに、この他の口述される音声データAIを転記する。そこで、第2の音声認識手段11によって自動的に転記されたテキストデータATTIは、誤りしきい値を超過する自動的に転記されたテキストデータの100語毎に多くの認識誤りを示す。これは、口述時に医者がかすれた声であったり、医者の発音が通常とは違っていたりしたからである。
【0054】
出力手段13の第3のチェック手段は、この第3のチェックを実行したときに認識誤りの数が誤りしきい値を超過していることを自動的に観測し、第3の中止信号ABI3をモニタリング手段16に与える。このモニタリング手段16は、この他の口述される音声データAIをテープ起こし6へ再送信を行い、これにより、上記挙げられた利点が得られる。
【0055】
本発明による転記装置は、入力された音声データをチェックし、自動転記の中間結果又は最終結果の品質をチェックする他のチェック手段を有してもよいことを述べている。これらチェックに基づいて、中止手段は、転記装置による口述資料の処理を中止することが利点であるかを決める。
【0056】
本発明による中止手段は、オンライン転記を提供する転記装置に設けられてもよいことを述べている。
【0057】
校正者は、通常、手動で転記されたテキストデータMTTIにおいてスポットチェックだけを行うことを述べている。
【0058】
音声認識手段は、例えばこの入力される音声データの転記を20秒間実行した後、音声データから自動的に転記されたテキストデータの品質を誤りしきい値と比較し、任意に処置を中止する中止手段を同様に有することを述べている。これは、入力された音声データの処理が自動転記中に中止されてもよいという利点を得ることを可能にする。
【0059】
第1の中止手段は、非線形の歪みに対し入力された音声データのチェックも行うことを述べている。このような非線形の歪みは、例えば、音声信号が上書きされたとき又は音声データの圧縮又は伸張中に問題が生じたとき起こる。入力される音声データが非線形の歪みを表す場合、音声認識手段の認識率は悪いので、音声データの中止は、非線形の歪みが大き過ぎる場合に有利となる。
【図面の簡単な説明】
【図1】 図1は転記システムを示す。

Claims (8)

  1. 口述資料を自動転記するための転記装置において、
    −口述された音声データを入力する入力手段、
    −前記入力された音声データを自動的に転記されたテキストデータに変換する音声認識手段、
    −前記自動的に転記されたテキストデータを出力する出力手段、及び
    −前記音声認識手段による自動転記がかなり多くの数の認識誤りを持つ低品質の自動的に転記されたテキストデータを作り出す又は既に作り出している場合、前記転記装置による前記口述資料の処理を中止する中止手段、
    を有し、
    前記中止手段は、前記音声認識手段による後続の音声認識に対する前記入力された音声データの品質をチェックし、前記入力された音声データの前記品質が正常な自動転記を許容しない場合、前記転記装置による前記口述資料の処理を中止するように構成され、
    前記中止手段は、前記自動的に転記されたテキストデータの質をチェックし、該自動的に転記されたテキストデータのN単語毎の認識誤りの数が誤りしきい値を超える場合、前記転記装置による前記口述資料の処理を中止するように構成され
    前記口述資料の手動転記を許容するために、前記転記装置による前記口述資料の処理が中止された後、前記入力された音声データを再送信するように構成される再送信手段が設けられる転記装置。
  2. 請求項1に記載の転記装置において、前記中止手段は、前記入力された音声データを含む音声信号の信号対雑音比をチェックするように構成される転記装置。
  3. 請求項1に記載の転記装置において、前記中止手段は、前記入力された音声データを含む声信号のレベルをチェックするように構成される転記装置。
  4. 請求項1に記載の転記装置において、前記中止手段は、前記入力された音声データを含む声信号が非線形の歪みを持っているかをチェックするように構成される転記装置。
  5. 述資料を自動転記するための転記方法において、
    −口述された音声データを入力するステップ、
    −前記入力された音声データを自動的に転記されたテキストデータに変換するステップ、
    −前記自動的に転記されたテキストデータを出力するステップ、及び
    −自動転記中に作り出された前記自動的に転記されたテキストデータがかなり多くの認識誤りを持つ低品質なデータである又は既になっている場合、前記口述資料の処理を中止するステップ、
    を実行する転記方法であって、
    −前記入力された音声データを含む音声信号の信号対雑音比がチェックされる後続の音声認識に対し、前記入力された音声データの品質をチェックするステップ、及び
    −前記入力された音声データの前記品質が正常な自動転記を許容しない場合、前記口述資料の処理を中止するステップ、
    を更に実行し、
    −前記自動的に転記されたテキストデータの質をチェックするステップ、及び
    −該自動的に転記されたテキストデータのN単語毎の認識誤りの数が誤りしきい値を超える場合、前記口述資料の処理を中止するステップ、
    −前記口述資料の処理が中止された場合、前記口述資料の手動転記を許容するために、前記入力された音声データを再送信するステップ、
    を更に実行する転記方法。
  6. 請求項に記載の転記方法において、
    −前記入力された音声データを含む前記音声信号のレベルがチェックされる後続の音声認識に対し、前記入力された音声データの品質をチェックするステップ、及び
    −前記入力された音声データの前記品質が正常な自動転記を許容しない場合、前記口述資料の処理を中止するステップ、
    をさらに実行する転記方法。
  7. デジタルコンピュータの内部メモリに直接ロードされ、ソフトウェアコードセクションを有するコンピュータプログラムにおいて、請求項に記載の転記方法のステップは、前記コンピュータプログラムが前記デジタルコンピュータにおいて実行される場合に、前記デジタルコンピュータにより実施されるコンピュータプログラム。
  8. 請求項に記載のコンピュータプログラムにおいて、前記コンピュータプログラムは、コンピュータ読み取り可能媒体に記憶されるコンピュータプログラム。
JP2002574655A 2001-03-16 2002-03-13 自動転記を停止する転記サービス Expired - Fee Related JP4738716B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01890084 2001-03-16
EP01890084.5 2001-03-16
PCT/IB2002/000769 WO2002075724A1 (en) 2001-03-16 2002-03-13 Transcription service stopping automatic transcription

Publications (2)

Publication Number Publication Date
JP2004519729A JP2004519729A (ja) 2004-07-02
JP4738716B2 true JP4738716B2 (ja) 2011-08-03

Family

ID=8185096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002574655A Expired - Fee Related JP4738716B2 (ja) 2001-03-16 2002-03-13 自動転記を停止する転記サービス

Country Status (7)

Country Link
US (1) US7174296B2 (ja)
EP (1) EP1374226B1 (ja)
JP (1) JP4738716B2 (ja)
CN (1) CN1223987C (ja)
AT (1) ATE300084T1 (ja)
DE (1) DE60205095T2 (ja)
WO (1) WO2002075724A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7539086B2 (en) 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US7376561B2 (en) * 2004-02-23 2008-05-20 Louis Ralph Rennillo Real-time transcription system
JP2005311330A (ja) * 2004-03-22 2005-11-04 Takiron Co Ltd 電波吸収体
EP1787289B1 (en) * 2004-07-30 2018-01-10 Dictaphone Corporation A system and method for report level confidence
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US20080059197A1 (en) * 2006-08-29 2008-03-06 Chartlogic, Inc. System and method for providing real-time communication of high quality audio
JP4625509B2 (ja) * 2008-02-19 2011-02-02 日本電信電話株式会社 音声認識方法、そのシステム、そのプログラム、その記録媒体
JP5285326B2 (ja) * 2008-05-14 2013-09-11 日本電信電話株式会社 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20100036662A1 (en) * 2008-08-06 2010-02-11 Emmons David J Journaling device and information management system
CN102934160A (zh) * 2010-03-30 2013-02-13 Nvoq股份有限公司 用于提高音频质量的听写客户端反馈
GB2553960A (en) 2015-03-13 2018-03-21 Trint Ltd Media generating and editing system
DE102017206281A1 (de) * 2017-04-12 2018-10-18 Bayerische Motoren Werke Aktiengesellschaft Verarbeitung einer Spracheingabe
US10665231B1 (en) 2019-09-06 2020-05-26 Verbit Software Ltd. Real time machine learning-based indication of whether audio quality is suitable for transcription

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5033088A (en) * 1988-06-06 1991-07-16 Voice Processing Corp. Method and apparatus for effectively receiving voice input to a voice recognition system
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6122614A (en) * 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US7006967B1 (en) * 1999-02-05 2006-02-28 Custom Speech Usa, Inc. System and method for automating transcription services
WO2000046787A2 (en) 1999-02-05 2000-08-10 Custom Speech Usa, Inc. System and method for automating transcription services
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document

Also Published As

Publication number Publication date
EP1374226B1 (en) 2005-07-20
CN1223987C (zh) 2005-10-19
US20030125951A1 (en) 2003-07-03
ATE300084T1 (de) 2005-08-15
EP1374226A1 (en) 2004-01-02
CN1459091A (zh) 2003-11-26
DE60205095D1 (de) 2005-08-25
JP2004519729A (ja) 2004-07-02
DE60205095T2 (de) 2006-05-24
US7174296B2 (en) 2007-02-06
WO2002075724A1 (en) 2002-09-26

Similar Documents

Publication Publication Date Title
JP4738716B2 (ja) 自動転記を停止する転記サービス
JP4917729B2 (ja) 以後のオフライン音声認識のための音声情報を記録する記録装置
US6754631B1 (en) Recording meeting minutes based upon speech recognition
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP3873131B2 (ja) 電話メッセージの転記のために使用される編集システム及び方法
US6101467A (en) Method of and system for recognizing a spoken text
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US7260534B2 (en) Graphical user interface for determining speech recognition accuracy
US20040049385A1 (en) Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US20170256262A1 (en) System and Method for Speech-to-Text Conversion
JP4871491B2 (ja) 課金情報を生成する方法並びに口述トランスクリプション装置
US20040015350A1 (en) Determining speech recognition accuracy
JPH07502834A (ja) 音声制御通信装置および処理方法
US20050102140A1 (en) Method and system for real-time transcription and correction using an electronic communication environment
US7881932B2 (en) VoiceXML language extension for natively supporting voice enrolled grammars
US20070036290A1 (en) Voicemail system and related method
US6725194B1 (en) Speech recognition device with text comparing means
CN113271430A (zh) 网络视频会议中防干扰方法、系统、设备及存储介质
JP2005509906A (ja) 所定ウィンドウにてテキストを編集する装置
US20030072013A1 (en) Document creation through embedded speech recognition
EP1112566B1 (en) Speech recognition device with transfer means
JP2019139280A (ja) テキスト分析装置、テキスト分析方法及びテキスト分析プログラム
US20210280193A1 (en) Electronic Speech to Text Court Reporting System Utilizing Numerous Microphones And Eliminating Bleeding Between the Numerous Microphones
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080925

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090508

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110427

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees