JP2004519729A

JP2004519729A - 自動転記を停止する転記サービス

Info

Publication number: JP2004519729A
Application number: JP2002574655A
Authority: JP
Inventors: ヘインリッヒエフバートシク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-03-16
Filing date: 2002-03-13
Publication date: 2004-07-02
Anticipated expiration: 2022-03-13
Also published as: EP1374226A1; CN1223987C; US20030125951A1; EP1374226B1; ATE300084T1; DE60205095T2; DE60205095D1; CN1459091A; WO2002075724A1; US7174296B2; JP4738716B2

Abstract

転記システム（５）は、口述資料を自動的に転記するための転記装置（９）を有し、前記口述資料の幾つかを手動で転記するテープ起こし（６）を付加的に用いる。転記装置（９）は、口述された音声データ（ＡＩ）の品質又は自動的に転記されたテキストデータ（ＡＴＴＩ）の品質が非常に悪いため、自動的に転記されたテキストデータ（ＡＴＴＩ）における認識誤りの校正は、前記口述資料が初めから手動で転記されるよりも多くの時間を必要とする場合、この転記装置（９）による口述資料の処理を中止し、この口述資料を手動の転記用のテープ起こし（６）の１つに再送信する中止手段（１２、１３、１４）を含む。

Description

【０００１】
【発明の属する技術分野】
本発明は、口述された音声データが供給され、転記装置（ｔｒａｎｓｃｒｉｐｔｉｏｎｄｅｖｉｃｅ）の音声認識ソフトウェアを用いて自動的にこの音声データと関連付けられるテキストデータを出力する転記装置に関する。
【０００２】
本発明はさらに、転記方法にも関する。この方法において、口述された音声データが入力され、この転記方法の実行中に自動的にこの音声データと関連付けられるテキストデータを出力する。
【０００３】
本発明はさらに、転記装置によって実行される音声認識ソフトウェア形式のコンピュータソフトウェアにも関する。
【０００４】
【従来の技術】
国際公開番号第ＷＯ００／４６７８７号の公報は、実質的に口述資料の自動転記を行うための転記サービスを表し、この公報において、最初の段落に記載された転記装置は、第２の段落に従う転記方法を実施する。既知のシステムのユーザーは、ユーザーが口述した音声データをデジタル音声データ形式でデータネットワークを介してサーバーの形式の転記装置へ送る。
【０００５】
ユーザーが転記サービスを初めて利用するとき、ユーザーの口述資料は、転記サービスの雇用者（テープ起こし（ｔｒａｎｓｃｒｉｂｅｒ））によって手動で転記される。転記装置の他の雇用者（校正者）は、前記テープ起こしによって転記されたテキストをチェックし、それに含まれる誤りも編集する。転記サービスによってユーザーの口述資料から手動で転記されたテキストデータは、送り状（ｉｎｖｏｉｃｅ）と一緒にユーザーに送られる。
【０００６】
【発明が解決しようとする課題】
既知の転記装置は、ユーザーリファレンス（ｕｓｅｒｒｅｆｅｒｅｎｃｅ）が記憶された転記サービスのユーザーに適した音声認識ソフトウェアを動かす。転記装置により自動的に認識されるテキストデータの品質は本質的に、音声認識ソフトウェアがそれまでにどの位ユーザーに訓練されたかに依存している。既知の転記装置は、音声認識ソフトウェアを訓練し、改善されたユーザーリファレンスを記憶するために、手動で転記されたテキストデータと一緒にユーザーの口述資料からの音声データを使用する。
【０００７】
ユーザーがこの転記サービスを頻繁に利用する場合、ユーザーの口述した音声データは、自動転記用の転記装置に追加的に供給される。このとき転記装置により自動的に転記されたテキストデータは、次に校正者によって手動で転記されたテキストデータと比較される。相対的に僅かな認識誤りが自動的に転記されたテキストデータに含まれる場合、このユーザーから将来的に入力される口述資料は、初めに、転記装置により自動的に転記され、次に、校正者により手動で校正される。ユーザー設定は、転記サービスで記憶され、この設定は、所与のユーザーの口述資料が転記されるやり方を決める。
【０００８】
既知の転記サービスはさらに、自動転記が自動的に転記されたテキストデータにおいて比較的少数の認識誤りを既に達成していたとしても、ユーザーからの口述資料が単に手動で転記されるように制限期間にこれらユーザー設定を変更するシステムアドミニストレータのオプションを提供する。ユーザーが自分は病気である又は歯の治療を受けていることを知らせる場合、ユーザー設定に対するこの変更は、前記システムアドミニストレータによって行われ、現実はユーザーの発音に関する変化のために低認識率の自動転記によって達成される。
【０００９】
【課題を解決するための手段】
既知の転記サービスの欠点は、転記装置による自動転記の場合、自動的に認識されたテキストデータは、時々非常に多くの認識誤りを含み、これにより、校正者はこれら認識誤りを校正するのに多くの時間を費やすこととなる。
【００１０】
本発明の目的は、上述の欠点を回避した、最初の段落に示される形式の転記装置、第２の段落に示される形式の転記方法及び第３の段落に示される形式のコンピュータソフトウェアを提供することである。
【００１１】
上述の目的を達成するために、本発明による特徴は、例えば、転記装置が以下のように特長付けられる転記装置を備える。
【００１２】
口述資料を自動転記するための転記装置は、
−口述された音声データを入力する入力手段、
−前記入力された音声データを自動的に転記されたテキストデータに変換する音声認識手段、
−前記自動的に転記されたテキストデータを出力する出力手段、及び
−前記音声認識手段による自動転記がかなり多くの認識誤りを持つ低品質の自動的に転記されたテキストデータを作り出す又は既に作り出されている場合、前記転記装置による口述資料の処理を中止する中止手段、
を有する。
【００１３】
上述の目的を達成するために、本発明による特徴は、例えば、転記方法が以下のように特徴付けられるような上記転記方法を備える。
【００１４】
口述資料を自動転記するための音声認識方法は、
−口述される音声データを入力するステップ、
−前記入力された音声データを自動的に転記されたテキストデータに変換するステップ、
−前記自動的に転記されたテキストデータを出力するステップ、及び
−自動転記中に作り出される自動的に転記されたテキストデータがかなり多くの認識誤りを持つ低品質である又は既に低品質である場合、前記口述資料の処理を中止するステップ、
を実施する。
【００１５】
上述の目的を達成するために、本発明による特徴は、例えば、コンピュータソフトウェアが以下のように特長付けられるようなコンピュータソフトウェアを備える。
【００１６】
デジタルコンピュータの内部メモリに直接ロードされてもよく、ソフトウェアコードの一部を有するコンピュータソフトウェアであり、このコンピュータソフトウェアが前記デジタルコンピュータ上で実行される場合、請求項８に記載の転記方法が前記デジタルコンピュータにより実行される。
【００１７】
このようにして、転記方法に従い、依然として自動的に転記されたテキストデータ又は既に自動的に転記されたテキストデータが多くの認識誤りを有する又は既に有しているので、テープ起こしが口述資料を最初から手動で転記するのに必要とされる時間よりも、校正者が認識誤りを編集するのに多くの時間を費やさなければならないことが確実である場合、転記装置は、自ら自動的にユーザーの口述資料の処理を中止する。このようにして、最終的に問題のある口述資料の不正常な自動転記ができるだけ早く自動的に中止される。テープ起こし及び校正者の作業時間はこれによって、より効率良く有利に使用され、加えて、コンピュータソフトウェアを実行するサーバーの計算容量も節約される。
【００１８】
請求項２に含まれる方法に従い、転記装置は、入力される口述される音声データの品質をチェックして、これによって音声認識手段を用いて実際の自動転記を行う前に、正常な自動転記がともかく前記音声データで可能であるかを決めるという利点が得られる。
【００１９】
請求項３、４、９及び１０に含まれる方法に従い、後続する音声認識用の口述される音声データの品質の意味のあるインデックスが決められるという利点が得られる。これらインデックスに基づき、転記装置でカウントする又はこの装置で口述資料の処理を中止することに関する確かな決定が行われる。
【００２０】
請求項６及び１１の方法に従い、前記自動的に転記されたテキストデータにおいて恐らく誤って認識される単語の数は、転記装置により決められる“信頼度（ｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅ）”に基づいて、前記自動的に転記されたテキストデータの全単語数に関連する。この計算が誤りしきい値よりも低い誤り率となる場合、転記装置を用いる処理は中止され、前記自動的に転記されたテキストデータは校正者に与えられない。
【００２１】
請求項７及び１２の方法に従い、問題のある口述される音声データは、手動の転記を許容するために、転記装置による処理が中止された後、直ちに前記転記装置によって再送信されるという利点が得られる。
【００２２】
【発明の実施の形態】
本発明は、図で示される実施例を参照してさらに説明されるが、これら図は、本発明を限定するものではない。
【００２３】
図１は転記システムを示す。ユーザーは、口述された音声データをこの転記システムに送り、そしてユーザーは、口述資料から転記されたテキストデータと送り状とを前記転記システムから受け取る。
【００２４】
図１はユーザー端末１、２及び３を示し、これら端末は、インターネットＮＥＴを介して転記システム５のサーバー４に接続されている。ユーザー端末１は、マイクが接続されたコンピュータの形である。コンピュータのユーザーは、資料をマイクに口述して、次に、これがコンピュータ上で動作する音声記録ソフトウェアによってこのコンピュータのハードディスクにデジタル音声データとして記憶される。このデジタル音声データは、コンピュータによってサーバー４に音声データＡＩとして送信されてもよい。それぞれの場合における音声データＡＩは、ユーザーを識別するユーザー情報の他のシーケンスも含んでいる。
【００２５】
ユーザー端末２は、電話及びコンピュータの形である。ユーザー端末２のユーザーは、インターネットＮＥＴを介してサーバー４を呼び出すために電話を使用し、資料を電話に口述する。これが音声データＡＩとしてサーバー４へ送信される。
【００２６】
ユーザー端末３は、デジタルの口述録音機（ｄｉｇｉｔａｌｄｉｃｔａｔｉｏｎｍａｃｈｉｎｅ）及びコンピュータの形である。ユーザー端末３のユーザーは、口述資料をデジタル音声データとして記録し、このデータを後でコンピュータのハードディスクにコピーするのにこの口述録音機を使用してもよい。このデジタル音声データは、コンピュータによって前記サーバー４に音声データＡＩとして送信されてもよい。
【００２７】
サーバー４へ送信された口述された音声データＡＩは、転記システム５を用いて転記される、すなわち、転記されたテキストデータＴＩに変換される。転記システム５により転記されたテキストデータＴＩは、次に、サーバー４によって、音声データＡＩを入力したユーザー端末１、２又は３に関連するコンピュータに送信される。ユーザー端末１、２又は３によって入力された転記されたテキストデータＴＩは、個々のユーザー端末１、２又は３に関連するコンピュータによって、以下に詳述される特徴を最終的にユーザーに表示する。
【００２８】
サーバー４に与えられる音声データＡＩは、手動及び自動の両方で転記されてもよい。手動の転記は、転記システム５の複数の従業員（いわゆるテープ起こし）によって行われ、これら従業員は、テープ起こし６として象徴的に説明される。手動の転記の場合、テープ起こし６は、口述された音声データＡＩを聞き、コンピュータによって話されたテキストを手動で転記されたテキストデータＭＴＴＩの形で、前から知っていたかのように同時に書き込む。
【００２９】
転記システム５の他の従業員（いわゆる、校正者７と象徴的説明される校正者）は、テープ起こし６から手動で転記されたテキストデータＭＴＴＩを、関連する口述された音声データＡＩと一緒に受け取る。校正者７は再びこの口述された音声データＡＩを聞き、転記誤りに対しこの手動で転記されたテキストデータＭＴＴＩをチェックし、見つかったどんな転記誤りも校正する。校正者７によりチェックされた手動で転記されたデータＭＴＴＩは、転記されたテキストデータＴＩとしてサーバー４に与えられ、そこから、個々のユーザー装置１、２又は３へ与えられる。
【００３０】
サーバー４は、インタフェース手段８を有し、この手段は、サーバー４によって動作されるソフトウェアモジュール及びモデムの形である。インタフェース手段８は、ユーザー装置１、２及び３から音声データＡＩを入力し、この入力した音声データＡＩをテープ起こし６へ送信する。校正者７は、転記されたテキストデータＴＩをインタフェース手段８へ与え、この転記されたテキストデータＴＩを正しいユーザー装置１、２又は３に送信する。
【００３１】
サーバー４は、転記方法に従って前記口述された音声データＡＩの自動転記を行うための転記装置９を付加的に有する。このために、転記装置９は、コンピュータソフトウェアを構成する音声認識ソフトウェアを動作する。このような音声認識ソフトウェアの一例は、「ＳｐｅｅｃｈＭａｇｉｃ」という名前でフィリップス社により販売されているソフトウェアである。
【００３２】
転記装置９は、口述された音声データを入力するための入力手段を有し、この入力手段は、インタフェース手段８の形である。転記装置９はさらに、３つの音声認識手段１０、１１及び１２を有し、これらは入力された音声データＡＩを自動的に転記されたテキストデータＡＴＴＩに変換する。サーバー４は、３つの音声認識手段１０、１１及び１２を形成する音声認識ソフトウェアを３回並行して動作する。このようにして、口述資料の３つのバッチ（ｂａｔｃｈ）からの音声データＡＩは、並行して処理され、転記装置３の処理能力が高まる。
【００３３】
転記装置９はさらに、出力手段１３を有し、自動的に転記されたテキストデータＡＴＴＩは、音声認識手段１０、１１及び１２によって出力手段１３に与えられる。出力手段１３は、口述された音声データＡＩを音声認識手段１０、１１又は１２の何れか一つにより自動的に転記されたテキストデータＡＴＴＩと一緒に校正者７へ与える。校正者７は再び口述された音声データＡＩを聞き、転記誤りに対し自動的に転記されたテキストデータＡＴＴＩをチェックし、これら誤りを校正する。
【００３４】
上述されたような転記システム５は、国際公開番号第ＷＯ００／４６７８７号公報から既知であり、本システムの開示は、参照することにより、この公報の開示の一部を構成すると考える。インタフェース手段８は、手動転記用のテープ起こし６又は自動転記用の転記装置９のどちらかに転記すべき音声データＡＩを与える。この点において、国際公開番号第ＷＯ００／４６７８７号公報に記載されるように、ユーザーが転記システム５を既に何回使用したかという考察が与えられる。
【００３５】
転記装置９は、音声認識装置１０、１１又は１２による自動転記がかなり多くの認識誤りを持つ低品質の自動的に転記されたテキストデータＡＴＴＩを作る又は既に作った場合、転記装置９による口述された音声データＡＩの処理を中止させる中止手段を有する。転記装置９の第１の中止手段１４は、音声認識手段１０、１１又は１２によって、後続の音声認識用の入力された音声データＡＩの品質をチェックし、この入力された音声データＡＩの品質が正常な自動転記を許容しない場合、転記装置９による口述資料の処理を中止させる。
【００３６】
この第１の中止手段１４は、第１のチェック手段１５及びモニタリング手段１６を含む。第１のチェック手段１５は、アナログ／デジタル変換器を有し、デジタル音声データの形式で入力される音声データＡＩは、この変換器を用いて、アナログ音声信号に変換される。第１のチェック手段１５は、一般に知られるようなアナログ音声信号の信号対雑音比を最初のチェックとしてチェックする。第１のチェック手段１５は、一般にも知られるようなアナログ音声信号のレベルを第２のチェックとしてチェックする。
【００３７】
この第１のチェック中に、第１のチェック手段１５は、アナログ音声信号の信号対雑音比がＳ／Ｎしきい値（例えば、Ｓ／Ｎしきい値＝２０ｄＢ）よりも悪いことが分かる場合、第１のチェック手段１５は、第１の中止信号ＡＢＩ１をモニタリング手段１６に与える。第２のチェック中に、第１のチェック手段１５は、アナログ音声信号のレベルがレベルしきい値（例えば、レベルしきい値＝−３０ｄＢ）よりも悪いことが分かる場合、第１チェック手段１５は、第２の中止信号ＡＢＩ２をモニタリング手段１６へ与える。加えて、第１のチェック手段１５によりチェックされた音声データＡＩは、モニタリング手段１６に再送信される。
【００３８】
これらチェックの結果として、第１のチェック手段１５がモニタリング手段１６へ第１の中止信号ＡＢＩ１だけでなく第２の中止信号ＡＢＩ２も与えない場合、モニタリング手段１６は、現在利用可能な音声認識手段１０、１１又は１２の何れか一つに音声データＡＩを再送信する。
【００３９】
このようにして、入力された音声データＡＩが音声認識手段１０、１１又は１２による後続の音声認識にとって十分良好である場合、転記装置９は、口述された音声データＡＩの自動転記を行う利点が達成される。従って、サーバー４の計算能力は、音声データＡＩが良好な品質である口述資料が転記されるだけなので、有利に最適な使用となる。
【００４０】
他方では、これらチェックの結果として、第１のチェック手段１５は、第１の中止信号ＡＢＩ１及び／又は第２の中止信号ＡＢＩ２をモニタリング手段１６に与え、モニタリング手段１６は、音声データＡＩをテープ起こし６へ再送信する。この点において、モニタリング手段１６は、再送信手段を構成している。
【００４１】
このようにして、前記入力される音声データＡＩの品質が音声認識手段１０、１１又は１２による後続の音声認識に対し不十分な品質である場合、転記装置９は、口述された音声データＡＩの自動転記を全く行わず、手動の転記を始めるという利点が達成される。この点において、モニタリング手段１６は、上記口述される音声データＡＩを直ちに自動的に手動の転記のためのテープ起こし６に再送信するという利点が特に存在する。
【００４２】
万一、音声データＡＩを自動的に転記されたテキストデータＡＴＴＩに変換する場合には、音声認識手段１０、１１及び１２は、当業者には前から知られているような、自動的に転記されたテキストデータＡＴＴＩの各単語に対するいわゆる“信頼度”を決める。単語の“信頼度”は、音声認識手段１０、１１又は１２により正確に認識されたこの単語の見込みを示す見込み値である。音声認識手段１０、１１及び１２は、自動的に音声認識されるテキストデータＡＴＴＩの各単語に対する“信頼度”を与える信頼度信号ＺＩを出力手段１３へ供給する。
【００４３】
転記装置９の出力手段１３はさらに、第３のチェックを行う第２のチェック手段を構成する。この第３のチェックにおいて、第２のチェック手段は、自動的に転記されたテキストデータの単語数Ｋがしきい値の見込み値（例えば、しきい値の見込み値が５０％）よりも低い見込み値を幾つ表すかをチェックする。
【００４４】
自動的に転記されたテキストデータＡＴＴＩのＮ個の単語毎にこの認識誤りの数Ｋが誤りしきい値（例えば、誤りしきい値が２０％）よりも大きい場合、第２のチェック手段は、第３の中止信号ＡＢＩ３をモニタリング手段１６へ与える。この点において、出力手段１３の第３のチェック手段は、モニタリング手段１６を一緒に第２の中止手段を形成する。前記モニタリング手段１６が第３の中止信号ＡＢＩ３を入力する場合、モニタリング手段１６は、この口述された音声データＡＩをテープ起こし６へ供給する。
【００４５】
このようにして、校正者７は、この場合、テープ起こし６が前記口述資料を最初から手動で転記した場合よりも実質的に多くの時間を必要な校正を行うのに必要であるため、多くの認識誤りを含む自動的に転記されたテキストデータＡＴＴＩは校正者７に出力されないという利点が達成される。
【００４６】
本発明による転記装置９の利点は、３つのアプリケーションの例を参照して以下により詳細に説明する。アプリケーションの最初の例に従い、医者は、転記システム５により提供される転記サービスを既に頻繁に使用していると仮定する。これに従い、音声認識手段１０、１１及び１２は、既に転記された口述された音声データＡＩから決められる医者用の記憶されるユーザーリファレンスを含んでいる。音声認識手段１０、１１及び１２は、既に医者により口述される資料から非常に僅かしか認識誤りを持たない自動的に転記されたテキストデータＡＴＴＩを既に作成可能である。
【００４７】
医者は自分のユーザー端末２を使用し、電話でサーバー４を呼び出し、ユーザー自身を識別した後、資料を電話に口述する。しかしながら、このときに、医者は手術室の窓を閉め忘れてしまう、このために、ストリートノイズが口述された音声データＡＩに挿入されてしまう。
【００４８】
この医者の口述資料は、転記装置９によって既に頻繁に正常に自動的に転記されるので、インタフェース手段８は、入力された音声データＡＩを第１のチェック手段１５へ送る。第１のチェック手段１５は、音声データＡＩを含む音声信号の信号対雑音比が音声認識手段１０、１１又は１２の何れか１つを用いた自動転記で得られるべき認識誤りの許容レベルを持つ自動的に転記されたテキストデータＡＴＴＩに対し悪すぎることを第１のチェックで立証し、第１の中止信号ＡＢＩ１をモニタリング手段１６に与える。第２のチェックの場合、第１のチェック手段１５は、音声データＡＩを含む音声信号のレベルが十分良好であり、これにより、第２の中止信号ＡＢＩ２をモニタリング手段１６へ与えないことを立証する。
【００４９】
第１の中止手段１４は、音声認識手段１０、１１又は１２が音声データＡＩの自動転記を始める前に、転記装置９による口述資料の処理を中止する有利さがある。このときに、モニタリング手段１６は、第１の中止信号ＡＢＩ１を受信した後、入力された音声データＡＩを手動の転記を行うためのテープ起こし６に再送信する。これにより、このテープ起こし６は、ストリートノイズが挿入され、これにより転記が難しい口述資料を手動で転記し、次にこれを校正者７へ送る。
【００５０】
校正者７は、自動的に転記されたテキストデータＡＴＴＩを編集するのに長い時間を要するため、この口述資料に関してテープ起こし６及び校正者７によって行われる全ての手動作業、よって費用がかかる作業を最小にすることが有利に可能であることが立証される。
【００５１】
第２のアプリケーションの例に従い、患者は手術中に眠っているので、医者は、他の項目を比較的静かに口述していると仮定する。この他の口述された項目の音声データＡＩの第２のチェックにおいて、第１のチェック手段１５は、音声データＡＩを含む音声信号のレベルがレベルしきい値よりも低いことを立証し、第２の中止信号ＡＢＩ２をモニタリング手段１６へ与える。第１の中止手段１４は、その後、自動転記の前に前記他の口述された項目の処理を中止して、これにより上記に挙げられた利点が得られる。
【００５２】
第３のアプリケーションの例に従い、医者は、他の項目を口述し、それを転記用の転記システム５に送信すると仮定する。この他の口述される項目は、インタフェース手段８によって転記装置９にも再送信される。この口述される音声データＡＩの品質が十分良好であるので、第１のチェック手段は、第１の中止信号ＡＢＩ１だけでなく第２の中止信号ＡＢＩ２もモニタリング手段１６へ与えない。
【００５３】
第２の音声認識手段１１は、その後すぐに、この他の口述される音声データＡＩを転記する。そこで、第２の音声認識手段１１によって自動的に転記されたテキストデータＡＴＴＩは、誤りしきい値を超過する自動的に転記されたテキストデータの１００語毎に多くの認識誤りを示す。これは、口述時に医者がかすれた声であったり、医者の発音が通常とは違っていたりしたからである。
【００５４】
出力手段１３の第３のチェック手段は、この第３のチェックを実行したときに認識誤りの数が誤りしきい値を超過していることを自動的に観測し、第３の中止信号ＡＢＩ３をモニタリング手段１６に与える。このモニタリング手段１６は、この他の口述される音声データＡＩをテープ起こし６へ再送信を行い、これにより、上記挙げられた利点が得られる。
【００５５】
本発明による転記装置は、入力された音声データをチェックし、自動転記の中間結果又は最終結果の品質をチェックする他のチェック手段を有してもよいことを述べている。これらチェックに基づいて、中止手段は、転記装置による口述資料の処理を中止することが利点であるかを決める。
【００５６】
本発明による中止手段は、オンライン転記を提供する転記装置に設けられてもよいことを述べている。
【００５７】
校正者は、通常、手動で転記されたテキストデータＭＴＴＩにおいてスポットチェックだけを行うことを述べている。
【００５８】
音声認識手段は、例えばこの入力される音声データの転記を２０秒間実行した後、音声データから自動的に転記されたテキストデータの品質を誤りしきい値と比較し、任意に処置を中止する中止手段を同様に有することを述べている。これは、入力された音声データの処理が自動転記中に中止されてもよいという利点を得ることを可能にする。
【００５９】
第１の中止手段は、非線形の歪みに対し入力された音声データのチェックも行うことを述べている。このような非線形の歪みは、例えば、音声信号が上書きされたとき又は音声データの圧縮又は伸張中に問題が生じたとき起こる。入力される音声データが非線形の歪みを表す場合、音声認識手段の認識率は悪いので、音声データの中止は、非線形の歪みが大き過ぎる場合に有利となる。
【図面の簡単な説明】
【図１】図１は転記システムを示す。

Claims

口述資料を自動転記するための転記装置において、
−口述された音声データを入力する入力手段、
−前記入力された音声データを自動的に転記されたテキストデータに変換する音声認識手段、
−前記自動的に転記されたテキストデータを出力する出力手段、及び
−前記音声認識手段による自動転記がかなり多くの数の認識誤りを持つ低品質の自動的に転記されたテキストデータを作り出す又は既に作り出している場合、前記転記装置による前記口述資料の処理を中止する中止手段、
を有する転記装置。
請求項１に記載の転記装置において、前記中止手段は、前記音声認識手段による後続の音声認識に対する前記入力された音声データの品質をチェックし、前記入力された音声データの前記品質が正常な自動転記を許容しない場合、前記転記装置による前記口述資料の処理を中止するように構成される転記装置。
請求項２に記載の転記装置において、前記中止手段は、前記入力された音声データを含む音声信号の信号対雑音比をチェックするように構成される転記装置。
請求項２に記載の転記装置において、前記中止手段は、前記入力された音声データを含む前記音声信号のレベルをチェックするように構成される転記装置。
請求項２に記載の転記装置において、前記中止手段は、前記入力された音声データを含む前記音声信号が非線形の歪みを持っているかをチェックするように構成される転記装置。
請求項１に記載の転記装置において、前記中止手段は、前記自動的に転記されたテキストデータの前記品質をチェックし、前記自動的に転記されたテキストデータが当該自動的に転記されたテキストデータのＮ個の単語毎に認識誤りの誤りしきい値を超過する数を含む場合、前記転記装置による前記口述資料の処理を中止するように構成される転記装置。
請求項１に記載の転記装置において、前記口述資料の手動転記を許容するために、前記転記装置による前記口述資料の処理が中止された後、前記入力された音声データを再送信するように構成される再送信手段が設けられる転記装置。
前記口述資料を自動転記するための転記方法において、
−口述された音声データを入力するステップ、
−前記入力された音声データを自動的に転記されたテキストデータに変換するステップ、
−前記自動的に転記されたテキストデータを出力するステップ、及び
−自動転記中に作り出された前記自動的に転記されたテキストデータがかなり多くの認識誤りを持つ低品質なデータである又は既になっている場合、前記口述資料の処理を中止するステップ、
を実行する転記方法。
請求項８に記載の転記方法において、
−前記入力された音声データを含む音声信号の信号対雑音比がチェックされる後続の音声認識に対し、前記入力された音声データの品質をチェックするステップ、及び
−前記入力された音声データの前記品質が正常な自動転記を許容しない場合、前記口述資料の処理を中止するステップ、
を更に実行する転記方法。
請求項８に記載の転記方法において、
−前記入力された音声データを含む前記音声信号のレベルがチェックされる後続の音声認識に対し、前記入力された音声データの品質をチェックするステップ、及び
−前記入力された音声データの前記品質が正常な自動転記を許容しない場合、前記口述資料の処理を中止するステップ、
をさらに実行する転記方法。
請求項８に記載の転記方法において、
−前記自動的に転記されたテキストデータの前記品質をチェックするステップ、及び
−前記自動的に転記されたテキストデータが当該自動的に転記されたテキストデータのＮ個の単語毎に認識誤りの誤りしきい値を超過する数を含む場合、前記口述資料の処理を中止するステップ、
を更に実行する転記方法。
請求項８に記載の転記方法において、前記口述資料が中止された場合、前記口述資料の手動転記を許容するために、前記入力された音声データを再送信するステップを更に実行する転記方法。
デジタルコンピュータの内部メモリに直接ロードされ、ソフトウェアコードセクションを有するコンピュータプログラムにおいて、請求項８に記載の転記方法のステップは、前記コンピュータプログラムが前記デジタルコンピュータにおいて実行される場合に、前記デジタルコンピュータにより実施されるコンピュータプログラム。
請求項１３に記載のコンピュータプログラムにおいて、前記コンピュータプログラムは、コンピュータ読み取り可能媒体に記憶されるコンピュータプログラム。