JP4536481B2 - コンピュータシステム、修正作業を支援するための方法、及びプログラム - Google Patents
コンピュータシステム、修正作業を支援するための方法、及びプログラム Download PDFInfo
- Publication number
- JP4536481B2 JP4536481B2 JP2004309768A JP2004309768A JP4536481B2 JP 4536481 B2 JP4536481 B2 JP 4536481B2 JP 2004309768 A JP2004309768 A JP 2004309768A JP 2004309768 A JP2004309768 A JP 2004309768A JP 4536481 B2 JP4536481 B2 JP 4536481B2
- Authority
- JP
- Japan
- Prior art keywords
- computer
- editing
- job
- edited
- subtitle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Studio Circuits (AREA)
- Television Systems (AREA)
Description
このような背景から、放送や動画に対して字幕を付与するための研究が多くなされている。
その1つに、専門家による字幕書き起こし作業を支援するシステムがある(例えば、特許文献1、特許文献2参照)。特許文献1では、特殊な再生操作によって、また、特許文献2では、発話の速度を変更することによって、字幕書き起こし作業を支援している。
ここでは、図示するように、「今までの取り組みがオンデマンドビジネスを実現する上での過程にすぎません。」という音声が流れ、図示するような音声認識結果が得られているものとする。
編集者は、この音声を先頭から聞きながら音声認識結果を確認し、間違いを見つける。例えば、5行目の「オンデアンド」は「オンデマンド」とすべき間違いであることが分かったとする。そうすると、編集者は、まず、音声を停止する。そして、5行目をマウスでポイントしてキーボードフォーカスを移動し、「オンデアンド」を「オンデマンド」に修正する。
ここで、5行目にキーボードフォーカスを移動したものの、「オンデアンド」をどのように修正すべきか忘れてしまった場合は、もう一度再生し、その後、「オンデアンド」を「オンデマンド」に修正する。
第1の問題点は、高いスキルレベルの人材に依存する部分が大きいという点である。
字幕書き起こし作業は、音声を聞きながら一字一句文字に変換していく作業であり、スキルレベルの低い人材では、到底なし得ない。また、音声認識結果を編集することにより字幕を作成する作業も、音声認識結果における間違いの認識及び正しい文字列の決定を音声を聞きながら瞬時に行わなければならないので、スキルレベルの低い人材では困難な作業である。そして、高いスキルレベルの人材を用いた場合には、人件費の上昇という問題が生じてしまう。
画面上の任意の場所をポイントするには、マウスが速やかに操作できて便利である。一方、画面上に文字を打ち込むには、キーボードが便利である。しかしながら、字幕書き起こし作業では、音声の再生及び停止はマウスで行い、字幕の入力はキーボードで行うことになる。また、字幕編集作業では、間違い箇所のポイントはマウスで行い、正しい文字列の入力はキーボードで行う。このようにマウスとキーボードを併用すると、手がマウスからキーボードへ、再びキーボードからマウスへと移動する時間がオーバーヘッドとなってしまうのである。
また、従来は、音声の再生中の箇所と字幕の書き起こし又は編集を行っている箇所とは連動していなかった。更に、キーボードで文字を入力中に音声が流れているとキー入力における集中力に影響を与えてしまう。逆に、修正内容を忘れてしまった場合は、記憶を手繰ったり、明示的に再生コマンドを発行したりする必要があった。従って、決して効率的な操作が行えるものではなかった。
また、本発明の他の目的は、字幕等のデータを作成する効率を向上し、そのような作業に要する時間を短縮することにある。
また、編集が必要な部分を特定する装置を、マウス等のポインティングデバイスによって操作される装置と捉え、編集を実際に行う装置を、キーボードよって操作される装置と捉え、これらの装置を分けたシステムとして本発明を把握することも可能である。この場合、第1のコンピュータは、ポインティングデバイスからの指示に応じて、テキストデータの編集すべき部分を特定し、第2のコンピュータは、キーボードからの指示に応じて、その特定された部分を編集する。
更に、編集作業の効率化のため、音声又は映像とテキストデータとを連動させる構成とすることも可能である。その場合、第2のコンピュータは、編集すべき部分に対応する音声又は映像を、その部分の編集に先立って出力する。
(第1の実施の形態)
図1は、本実施の形態における字幕編集システムの構成を示した図である。この字幕編集システムは、マウス字幕編集装置10と、キーボード字幕編集装置20と、音声認識装置30と、音声データ記憶部40と、字幕データ記憶部50とから構成される。尚、図1では、キーボード字幕編集装置20として、キーボード字幕編集装置Aとキーボード字幕編集装置Bの2台を設けた場合の構成を示している。但し、キーボード字幕編集装置20は、2台に限られるものではなく、1台であってもよいし、3台以上であってもよい。また、マウス字幕編集装置10とキーボード字幕編集装置20は、図1では別個の装置として示しているが、同一装置の上に実装されていても構わない。
マスタエディタは、音声認識装置30による音声認識結果に対し、句読点の位置の決定、キーボード字幕編集装置20への配信、キーボード字幕編集装置20による編集結果に対する最終チェック及び確定を行う。ここで、句読点の位置の決定は、キーボードエディタが複数いる場合の分配や、最終的な字幕表示にも影響を与えるものであるので、極めて重要な作業であると言える。
一方、キーボードエディタは、音声に対応する正しい文字列を入力する作業を行うだけでよい。この作業は極めて単純なものであるので、キーボードエディタは、比較的スキルレベルが低く、責任も低い人でよい。これにより、人件費を節約できるという効果が期待できる。
A) 音声認識により分割された行(以下、「字幕行」という)に誤りがなければ、その字幕行を確定する。
B) 「ほぼ正しい字幕行」に対し、確信度を設定する。
C) 句読点を指定する。
D) 字幕行の連結、分割等の調整を行う。
E) 編集が必要な字幕行をキーボード字幕編集装置20にサブミットする。
F) 最終的な字幕を確定する。
一方、キーボードエディタによる具体的な操作の内容は、以下の通りである。
あ) 字幕行を編集し、正しい字幕行を作成する。
い) 正しい字幕行を確定する。
ここでも、図23と同様、「今までの取り組みがオンデマンドビジネスを実現する上での過程にすぎません。」という音声が流れ、図2に示すような音声認識結果が得られているものとする。
「確信度」欄には、各字幕行の音声認識結果に対する確信度が表示される。確信度は、初期状態においては、音声認識装置30が音声認識処理の段階で得た確信度が表示されるが、これをマスタエディタが変更することも可能である。通常、音声認識装置30は、確信度「100%」を出力することはない。従って、図2における確信度「100%」は、マスタエディタが、音声認識結果を見て間違いがないと判断し設定したものであると考えることができる。尚、確信度の変更は、欄内の上向き矢印及び下向き矢印を用いて行うことができる。
「ブロック」欄には、キーボード字幕編集装置20にて字幕行の編集をブロックするかどうかのマークが表示される。上述したように、「確信度」欄においてマスタエディタが確信度「100%」を設定すると、自動的に「ブロック」欄に「○」が表示されるようになっている。この例では、5行目の「オンデアンド」、11行目の「での家庭」、13行目の「すいません」が正しく認識されてない行(以下、「間違い行」という)と判断され、「ブロック」欄に「○」は表示されていない。
「音声認識結果」欄には、音声認識装置30による音声認識の結果が文字列で表示される。マスタエディタは、この文字列が正しいかどうかを判断することになる。
これにより、キーボード字幕編集装置20の画面には、図2の右側に示す内容が表示される。その後、キーボード字幕編集装置20における間違い行の編集が完了すると、マウス字幕編集装置10に編集結果の確認依頼が返信される。即ち、これらの表示内容の間の矢印は、マウス字幕編集装置10からキーボード字幕編集装置20へ音声認識結果の編集すべき箇所がサブミットされ、その編集結果がマウス字幕編集装置10にサブミットされることを示している。
A.余計な句読点や抜けている句読点があっても、「ほぼ正しい字幕行」として決定する。例えば、「大事です」に対する「正しい字幕行」は「大事です。」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
B.余計な記号や抜けている記号があっても、「ほぼ正しい字幕行」として決定する。例えば、「プロとしてですねー」に対する「正しい字幕行」は「プロとしてですね」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
C.編集者による編集間違いがあっても、「ほぼ正しい字幕行」として決定する。例えば、「そういた」に対する「正しい字幕行」は「そういった」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
D.音声認識装置による間違いがあっても、「ほぼ正しい字幕行」として決定する。例えば、「なってます」に対する「正しい字幕行」は「なっています」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
E.助詞が抜けていても、「ほぼ正しい字幕行」として決定する。例えば、「ベースなって」に対する「正しい字幕行」は「ベースになって」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
G.仮名の種類が違っても、「ほぼ正しい字幕行」として決定する。例えば、「もとに」に対する「正しい字幕行」として「元に」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
H.同じ意味を表す語の文字表記が異なっていても、「ほぼ正しい字幕行」として決定する。例えば、「アイデア」に対する「正しい字幕行」として「アイディア」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
I.全角か半角かの違いがあっても、「ほぼ正しい字幕行」として決定する。例えば、「IBM」に対する「正しい字幕行」として「IBM」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
J.話し言葉であっても、「ほぼ正しい字幕行」として決定する。例えば、「なんですけれども」に対する「正しい字幕行」として「なのですが」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
図3は、本実施の形態におけるマウス字幕編集装置10及びキーボード字幕編集装置20として用いるのに好適なコンピュータのハードウェア構成の例を模式的に示した図である。
図3に示すコンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90b及びCPUバスを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90b及びAGP(Accelerated Graphics Port)を介してCPU90aに接続されたビデオカード90d及びディスプレイ90jとを備える。また、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット90bに接続された磁気ディスク装置(HDD)90eと、ネットワークインターフェイス90gとを備える。更に、このPCIバスからブリッジ回路90f及びISA(Industry Standard Architecture)バス等の低速なバスを介してM/Bチップセット90bに接続されたフレキシブルディスクドライブ90hとキーボード/マウス90iとを備える。
図4は、本実施の形態におけるマウス字幕編集装置10の機能構成を示した図である。このマウス字幕編集装置10は、受信部11aと、コマンド受付部11bと、制御部12と、送信部13と、警告発生部14と、キュー管理部15と、割り当て決定部16と、空き状況管理部17と、処理能力計算部18と、スタベーション管理部19とを備える。また、マスタジョブキュー31と、クライアントジョブキュー32と、クライアント管理データベース(以下、「クライアント管理DB」という)33とを備える。尚、図4では、キーボード字幕編集装置20に送信する文をマスタエディタが切り出すための機能構成については省略してある。
警告発生部14は、キーボード字幕編集装置20が処理すべきジョブが処理されずに溜まってきた場合や作業を行っていないキーボード字幕編集装置20が増えてきた場合に警告を発生する機能を有し、キュー管理部15は、マスタジョブキュー31及びクライアントジョブキュー32にジョブを出し入れしたり、これらのキューに格納されているジョブを管理したりする機能を有する。
割り当て決定部16は、ジョブのキーボード字幕編集装置20に対する割り当てを決定する機能を有し、空き状況管理部17は、クライアント管理DB33における空き状況に関する情報の参照/更新を行う機能を有する。また、処理能力計算部18は、クライアント管理DB33におけるキーボードエディタの処理能力に関する情報の参照/更新を行う機能を有し、スタベーション管理部19は、クライアント管理DB33におけるクライアントの作業状況に関する情報の参照/更新を行う機能を有する。
ここで、クライアントIDとは、個々のキーボード字幕編集装置20を一意に識別するIDである。BusyFlagは、個々のキーボード字幕編集装置20が作業を行っているかどうかを示すフラグであり、作業を行っている状態を「Busy」で表し、作業を行っていない状態を「NotBusy」で表すものとする。また、作業開始時刻は、個々のキーボード字幕編集装置20が現在の作業を開始した時刻を示し、BusyFlagが「Busy」の時のみ有効な情報である。現ジョブサイズは、現在処理しているジョブのデータサイズを示し、BusyFlagが「Busy」の時のみ有効な情報である。作業終了時刻は、個々のキーボード字幕編集装置20から最後にジョブを受信した時刻であり、BusyFlagが「NotBusy」の時のみ有効な情報である。更に、累積作業時間は、個々のキーボード字幕編集装置20における作業時間の累計であり、累積ジョブサイズは、個々のキーボード字幕編集装置20で処理されたジョブのサイズの累計である。
尚、これらの各機能部分は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、マウス字幕編集装置10のCPUが、受信部11a、コマンド受付部11b、制御部12、送信部13、警告発生部14、キュー管理部15、割り当て決定部16、空き状況管理部17、処理能力計算部18、スタベーション管理部19を実現するプログラムを外部記憶装置から主記憶装置に読み込み、外部記憶装置としてのマスタジョブキュー31、クライアントジョブキュー32、クライアント管理DB33を必要に応じて参照しながら処理を行う。
1) 単独のマウス字幕編集装置10及びそのマウス字幕編集装置10を操作するマスタエディタが必ず存在する。
2) キーボード字幕編集装置20が2台以上あり、かつ、キーボード字幕編集装置20を操作するキーボードエディタが対応して存在する。
3) マスタエディタは、成果物に対する責任者であり、スキルレベルも安定している。ここで、マスタエディタの作業は、音声認識結果を確認しながら正しい部分をチェックし、間違っている部分を適当な時点でキーボード字幕編集装置20に送信し、修正を指示することである。更に、マスタエディタの作業には、キーボード字幕編集装置20による処理が完了したことにより送り返されてきたジョブの最終確認も含まれる。
4) キーボードエディタは、マスタエディタの指示に従う立場にあり、そのスキルレベルには大きなばらつきが想定される。スキルレベルが大きくばらつく理由は、障害、年齢、経験等の異なる多種多様な労働力を想定するからである。
6) 各ジョブはキーボードエディタと独立している。例えばジョブ1はキーボードエディタAでなくては処理できない等のキーボードエディタに対する依存性があってはならない。
7) ジョブの発生は不定期で、そのサイズも大きくばらつく。サイズのばらつきの原因は、音声認識による認識率の高い部分と低い部分とが混在することにある。一般に、音声認識の認識率は、音響モデル、言語モデルのいずれか又は双方の理由により、同一環境における発話に対しても認識率が高い部分と低い部分とが混在する。そのため、一定時間や一定サイズ等、特定の範囲内でマスタがジョブを配信したとしても、図5(a),(b)に示すようにその特定の範囲内での(誤認識部分の字幕編集の)ジョブサイズは一様にならない。
8) ジョブの終了を予測することもできない。例えば、字幕を付与したいコンテンツの長さが60分間であったとしても、必ずしも一気に60分間全部に対し字幕を付与するとは限らない。例えば、まず一旦15分間分のコンテンツに対し字幕を付与した上で、専門用語の記述法、数値の記述法等、作業方法の確認のチェックを行い、その後、残りのコンテンツに対する字幕付与を再開するようなことも考えられる。
更に、いくら処理が早くとも誤りが多いようでは処理能力が高いとは言い切れない。よって、マスタエディタがキーボードエディタによる編集結果に対する最終確認を行った際、マスタエディタが修正したデータ量を求めることで、仕事の正確さを求めることができる。これにより、各キーボードエディタの仕事の正確さの累積実績に基づいて、その処理能力を更新することも可能である。
尚、このような処理能力に関する情報は、内部で計算されるだけであり、外部には提示されない。従って、プライバシーに配慮し、処理能力の値は保存せず、システム終了時に自動的に破棄することも既存技術により可能である。一方、特定のキーボードエディタの処理能力を、例えば、裁量労働制のために特別に(プライバシーを保護した上で)保存する必要があれば、それもまた既存技術により実現することは容易である。
図6は、マスタエディタの操作によってジョブが発生する場合のマウス字幕編集装置10の動作を示したフローチャートである。
まず、マスタエディタは、図2のような音声認識結果が表示された状態で、マウス字幕編集装置10に対し、音声の再生を指示する。そして、マスタエディタは、流れてくる音声と表示された音声認識結果を見比べながら、画面上で確信度チェックを行う。ここで、確信度チェックとは、各字幕行を、正しい字幕行、間違い行、不確定のまま表示する字幕行、のいずれかに分類する作業である。具体的には、正しい字幕行については、確信度を「100%」とし、間違い行については、確信度をそのままにしておく。尚、不確定のまま表示する字幕行については、確信度はそのままにしておいてもよいし、変更するようにしてもよい。
その後、マスタエディタは、文の終わりであると判断すると、音声を停止し、キーボード字幕編集装置20に対しサブミットするよう指示する。これにより、マウス字幕編集装置10は、音声認識結果に含まれる字幕行のうち間違い行を特定する(ステップ101)。
尚、このようにしてマスタエディタが切り出した1つの文に対する編集作業が1つのジョブとして発生する。このジョブには、図2に示したキーボード字幕編集装置20の表示を行うために必要な情報が含められる。また、キーボード字幕編集装置20の画面上に直接表示されるわけではないが、間違い行を特定するための情報も含められる。
これにより、制御部12に制御が渡され、制御部12は、キュー管理部15に対し、送信すべきジョブをクライアントジョブキュー32に格納するよう指示する。これに従い、キュー管理部15は、ジョブをクライアントジョブキュー32に格納する(ステップ103)。
また、制御部12は、空き状況管理部17に対し、現在ジョブを処理中ではないクライアント(以下、「空きクライアント」という)が存在するかどうかを判定するよう指示する。これに従い、空き状況管理部17は、クライアント管理DB33で管理される全クライアントのBusyFlagを参照し、空きクライアントが存在するかどうかを判定する(ステップ104)。空き状況管理部17は、空きクライアントが存在しない場合はその旨を、空きクライアントが存在する場合は、空きクライアントのIDを制御部12に返却する。
具体的には、キュー管理部15は、クライアントジョブキュー32に格納される全てのジョブのジョブサイズ及び処理済フラグを求める。そして、そのジョブサイズ及び処理済フラグを制御部12に返却する。
また、処理能力計算部18は、クライアント管理DB33を参照し、各クライアントの処理能力を計算する。具体的には、クライアント管理DB33に管理される累積ジョブサイズを累積作業時間で除して、各オペレータが単位時間あたりにこなせる仕事の量を求める。そして、処理能力計算部18は、各クライアントの処理能力を制御部12に返却する。
更に、スタベーション管理部19は、クライアント管理DB33で管理される作業終了時刻を現在時刻から減ずることにより、空きクライアントの待ち時間を求める。そして、スタベーション管理部19は、この求めた待ち時間を制御部12に返却する。
その結果、ジョブの送信が必要と判定された場合、制御部12は、空き状況管理部17、処理能力計算部18、スタベーション管理部19に対し、クライアント管理DB33で管理される送信先クライアントの情報を更新するよう指示する。これに従い、空き状況管理部17、処理能力計算部18、スタベーション管理部19が、送信先クライアントの情報を更新する(ステップ109)。具体的には、空き状況管理部17が、送信先クライアントのBusyFlagにBusyを設定する。また、処理能力計算部18が、送信するジョブのサイズを現ジョブサイズに設定する。そして、スタベーション管理部19が、作業開始時刻に現在時刻を設定する。
また、クライアント管理DB33の情報の更新が完了すると、制御部12の指示により、キュー管理部15は、クライアントジョブキュー32に格納されたこのジョブの処理済フラグに「処理済」を設定する(ステップ110)。その後、ジョブは、送信部13に渡され、送信部13が、送信先クライアントにジョブを送信する(ステップ111)。
一方、ジョブの送信が必要と判定されなかった場合は、そのまま処理を終了する。
図7は、このようなジョブを受信した際のマウス字幕編集装置10の動作を示したフローチャートである。
まず、受信部11aが、クライアントからジョブを受信する(ステップ121)。
これにより、制御部12に制御が渡され、制御部12が、空き状況管理部17、処理能力計算部18、スタベーション管理部19に対し、クライアント管理DB33で管理される送信元クライアントの情報を更新するよう指示する。これに従い、空き状況管理部17、処理能力計算部18、スタベーション管理部19が、送信元クライアントの情報を更新する(ステップ122)。具体的には、空き状況管理部17が、送信先クライアントのBusyFlagにNotBusyを設定する。また、処理能力計算部18が、現在時刻から作業開始時刻を減じた時間を累積作業時間に加算し、現ジョブサイズを累積ジョブサイズに加算する。そして、スタベーション管理部19が、作業終了時刻に現在時刻を設定する。
また、制御部12は、空き状況管理部17に対し、空きクライアントを特定するよう指示する。これに従い、空き状況管理部17は、クライアント管理DB33で管理される全クライアントのBusyFlagを参照し、空きクライアントを特定する(ステップ124)。具体的には、今回ジョブの送信元となっているクライアントに対しては、ステップ122でNotBusyが設定されているので、必ず空きクライアントとして特定されるが、その他にも空きクライアントがあれば、それもあわせて特定する。そして、空き状況管理部17は、空きクライアントのIDを制御部12に返却する。
次に、制御部12は、キュー管理部15に対し、クライアントジョブキュー32に未処理ジョブが格納されているかを判定するよう指示する。これにより、キュー管理部15は、未処理ジョブがあるかどうかを判定する(ステップ125)。キュー管理部15は、未処理ジョブがない場合はその旨を、未処理ジョブがある場合は、未処理ジョブのIDを制御部12に返却する。
具体的には、キュー管理部15は、クライアントジョブキュー32に格納される全てのジョブのジョブサイズ及び処理済フラグを求める。そして、そのジョブサイズ及び処理済フラグを制御部12に返却する。
また、処理能力計算部18は、クライアント管理DB33を参照し、各クライアントの処理能力を計算する。具体的には、クライアント管理DB33に管理される累積ジョブサイズを累積作業時間で除して、各オペレータが単位時間あたりにこなせる仕事の量を求める。そして、処理能力計算部18は、各クライアントの処理能力を制御部12に返却する。
更に、スタベーション管理部19は、クライアント管理DB33で管理される作業終了時刻を現在時刻から減ずることにより、空きクライアントの待ち時間を求める。そして、スタベーション管理部19は、この求めた待ち時間を制御部12に返却する。
その結果、ジョブの送信が必要と判定された場合、制御部12は、空き状況管理部17、処理能力計算部18、スタベーション管理部19に対し、クライアント管理DB33で管理される送信先クライアントの情報を更新するよう指示する。これに従い、空き状況管理部17、処理能力計算部18、スタベーション管理部19が、送信先クライアントの情報を更新する(ステップ130)。具体的には、空き状況管理部17が、送信先クライアントのBusyFlagにBusyを設定する。また、処理能力計算部18が、送信するジョブのサイズを現ジョブサイズに設定する。そして、スタベーション管理部19が、作業開始時刻に現在時刻を設定する。
また、クライアント管理DB33の情報の更新が完了すると、制御部12の指示により、キュー管理部15は、クライアントジョブキュー32から送信対象のジョブを取り出し、このジョブの処理済フラグに「処理済」を設定する(ステップ131)。その後、ジョブは、送信部13に渡され、送信部13が、送信先クライアントにジョブを送信する(ステップ132)。
一方、ジョブの送信が必要と判定されなかった場合は、そのまま処理を終了する。
割り当て決定部16は、空きクライアントの数が単一か複数かを判定する(ステップ141)と共に、未処理ジョブの数が単一か複数かを判定し(ステップ142)、その結果に基づいて処理を振り分ける。即ち、空きクライアントの数が単一で未処理ジョブの数が複数の場合は、最適ジョブ選定処理を行い、空きクライアントの数が単一で未処理ジョブの数が単一の場合は、ディレイ処理を行い、空きクライアントの数が複数で未処理ジョブの数が単一の場合は、最適クライアント選定処理を行う。尚、空きクライアントの数が複数で未処理ジョブの数も複数というケースは、図6、7のフローチャートに従って処理を行う限り発生しないので、このような場合については考慮していない。
最適ジョブ選定処理では、まず、割り当て決定部16が、図9のようなマッピングを行う。即ち、割り当て決定部16の処理に先立って取得しておいた全クライアントの処理能力Pi(i=1,…,m)をX軸に、全ジョブのサイズSj(j=1,…,n)をY軸に設定する。次に、処理能力の最小値P1をX座標に持ち、ジョブサイズの最小値S1をY座標に持つ点と、処理能力の最大値PmをX座標に持ち、ジョブサイズの最大値SnをY座標に持つ点とを線分で結ぶ。そして、この線分上にあり、かつ、空きクライアントCkの処理能力PkをX座標に持つ点のY座標Sを求める(ステップ143)。本実施の形態では、このSを空きクライアントに対して送信すべき理想的なジョブのサイズとみなし、未処理ジョブの中からそのサイズがSに最も近似するジョブを求める(ステップ144)。割り当て決定部16は、そのジョブを空きクライアントに送信するという割り当てを決定し、そのジョブのIDを制御部12に返却する(ステップ145)。
図10(a)は、ジョブをFIFO(First-In First-Out)に従ってシーケンシャルに処理する場合のタイムチャートであり、図10(b)は、最適ジョブ選定処理を採用した場合のタイムチャートである。尚、タイムチャートの左側の括弧内は、各クライアントを操作するキーボードエディタの処理能力を示している。
図10(a)において、ジョブ1、2、3は、クライアントC、B、Aにこの順に割り当てられる。一方、ジョブ4、5は、その発生時に空きクライアントが存在しないため、すぐには処理されずに待たされる。その後、クライアントA、Cがこの順に空き状態になるので、ジョブ4、5はそれぞれクライアントA、Cに割り当てられる。ところが、図10(a)では、ジョブ5が、クライアントCが処理するにはかなりの時間を要するジョブとなっている。そのため、全体としてのスループットが低下してしまっている。
これに対し、図10(b)のように最適ジョブ選定処理を採用した場合は、各クライアントの処理能力に見合ったジョブを依頼することになるので、スループットの低下は生じない。
ディレイ処理でも、まず、割り当て決定部16が、図11(a)のようなマッピングを行う。即ち、 最適ジョブ選定処理の場合と同様に、空きクライアントCkの処理能力Pkに対する理想的なジョブサイズSを求める(ステップ146)。
次に、割り当て決定部16は、未処理ジョブの最適ジョブサイズ度数Dkを求める(ステップ147)。ここで、最適ジョブサイズ度数Dkは、未処理ジョブのサイズSjと理想的なジョブサイズSとを用いて、「Dk=1/|S−Sj|」と定義される。尚、|S−Sj|は、SとSjとの距離を表し、S=Sjの場合は、DkをMaxとする。
例えば、2秒の待ち時間と4秒の待ち時間とを比較すると、単純には後者は前者の2.0倍である。一方、20分の待ち時間と40分の待ち時間とを比較しても、単純には上述の場合と同様、後者が前者の2.0倍である。しかしながら、人間の直感としては、2つ目の例の方が、1つ目の例よりも、大きな違いとして実感することとなる。よって、本実施の形態では、待ち時間をそのまま用いるのではなく、待ち時間との対応が線形ではない待ち時間重みに変換して用いているのである。その方法としては、例えば、待ち時間を一次関数で変換することにより待ち時間重みを得る場合に、待ち時間が境界値以下の場合の傾きよりも、待ち時間が境界値以上の場合の傾きを大きくすることが挙げられる。また、その他にも、一次関数や二次関数等の既知の関数を組み合わせて、待ち時間から待ち時間重みを導く方法は種々考えられる。
図11(b)に、このようにして得られた待ち時間と待ち時間重みを示す。ディレイ処理においては、空きクライアントは1台のみであるので、クライアントCkに対する待ち時間重みWkのみを図示している。
そして、割り当て決定部16は、ジョブ最適度合いが予め定めた閾値FTHを超えたかどうかを判定する(ステップ150)。図11(c)に、このようにして得られたジョブ最適度合いFk及び閾値FTHとの比較の様子を示している。
その結果、閾値FTHを超えたと判定された場合は、そのジョブのIDを制御部12に返却する(ステップ151)。一方、閾値FTHを超えなかったと判定された場合は、ディレイ処理を行い、制御部12に「送信しない」を返却する(ステップ152)。
尚、Dk=Maxの場合、ジョブ最適度合いFkは、待ち時間や待ち時間重みに関係なく、閾値FTHを超える値になるものとする。
図12(a)は、ジョブをFIFOに従ってシーケンシャルに処理する場合のタイムチャートであり、図12(b)は、ディレイ処理を採用した場合のタイムチャートである。尚、タイムチャートの左側の括弧内は、各クライアントを操作するキーボードエディタの処理能力を示している。
図12(a)において、ジョブ1、2、3は、クライアントC、B、Aにこの順に割り当てられる。一方、ジョブ4は、その発生時に空きクライアントが存在しないため、すぐには処理されずに待たされる。その後、クライアントCが空き状態になるので、ジョブ4は即座にクライアントCに割り当てられている。ところが、図12(a)では、ジョブ4が、クライアントCが処理するにはかなりの時間を要するジョブとなっている。そのため、全体としてのスループットが低下してしまっている。
これに対し、図12(b)のようにディレイ処理を採用した場合は、ジョブ4をクライアントCで処理せずに、その後に発生したクライアントCの処理能力に見合ったジョブ5をクライアントCで処理することになるので、スループットの低下は生じない。
まず、割り当て決定部16は、図13(a)のようなマッピングを行う。即ち、割り当て決定部16の処理に先立って取得しておいた全クライアントの処理能力をX軸に、全ジョブのサイズをY軸に設定する。次に、処理能力の最小値をX座標に持ち、ジョブサイズの最小値をY座標に持つ点と、処理能力の最大値をX座標に持ち、ジョブサイズの最大値をY座標に持つ点とを線分で結ぶ。そして、この線分上にあり、空きクライアントの処理能力Pi(i=1,…,m)をX座標に持つ点のY座標Si(i=1,…,m)を求める(ステップ153)。本実施の形態では、このSi(i=1,…,m)を、処理能力Pi(i=1,…,m)を有する各空きクライアントに対して送信すべき理想的なジョブのサイズとみなし、未処理ジョブのサイズのSi(i=1,…,m)との近似度である最適ジョブサイズ度数Di(i=1,…,m)を求める(ステップ154)。ここで、最適ジョブサイズ度数Di(i=1,…,m)は、未処理ジョブのサイズSと理想的なジョブサイズSi(i=1,…,m)とを用いて、「Di=1/|Si−S|」と定義される。尚、|Si−S|は、SiとSとの距離を表し、Si=Sの場合は、DiをMaxとする。
図13(b)に、このようにして得られた待ち時間と待ち時間重みを示す。最適クライアント選定処理においては、空きクライアントはm台あるので、クライアントCi(i=1,…,m)に対する待ち時間重みWi(i=1,…,m)を図示している。
そして、割り当て決定部16は、ジョブ最適度合いFi(i=1,…,m)が最大となる空きクライアントを特定する(ステップ157)。図13(c)に、このようにして得られたジョブ最適度合いFi(i=1,…,m)の比較の様子を示している。
その結果、割り当て決定部16は、制御部12にそのクライアントのIDを返却する(ステップ158)。
尚、Di=Maxのクライアントのジョブ最適度合いFiは、待ち時間や待ち時間重みに関係なく、他のDi=Maxでない全てのクライアントのジョブ最適度合いFiよりも大きくなるものとする。
まず、第一に、複数の空きクライアントがある場合に、ジョブを個々のクライアントに均等に振り分ける方法がある。しかしながら、この方法だと、処理能力が低いクライアントに仕事がたまるため、全体のスループットは改善されない。
また、第二に、マスタエディタが、その裁量で個々のクライアントにジョブを振り分ける方法もある。しかしながら、この方法だと、マスタエディタ自身のスループットが低下し、結果的にシステム全体のスループットも低下してしまう。
また、第三に、空きクライアントの中から処理能力の高いクライアントに優先的にジョブを配信する方法がある。この場合のジョブ割り当ての例を図14(a)に示す。この場合、ジョブは、処理能力の高いクライアントAにばかり割り当てられ、処理能力の低いクライアントB、Cには割り当てられないいわゆるスタベーションが発生している。
マルチスレッドプログラミングにおいて、プライオリティ設定が高いスレッドが繰り返し実行されるようにプログラムしてしまっている場合、よりプライオリティ設定が低いスレッドはいつまでたっても制御が回らない現象をいう。このような現象を引き起こすようなプログラミングは必ずしも適切でないといわれている。
以上に倣い、本実施の形態では、キーボードエディタにいつまでたってもジョブが回ってこない現象を指すこととする。これは、キーボードエディタが機械であれば特に問題を発生させないが、本実施の形態ではキーボードエディタが人間であるため、ジョブを回さないことは重大な問題となるのである。
これに対し、図14(c)のように最適クライアント選定処理を採用した場合は、各ジョブは、そのジョブを処理するのに相応しい能力を有するクライアントに依頼されることになるので、スループットを最適化できる。
図15は、本実施の形態におけるキーボード字幕編集装置20の機能構成を示した図である。このキーボード字幕編集装置20は、受信部21と、制御部22と、送信部23と、表示制御部24と、音声再生部25と、計時部26とを備える。
受信部21は、マウス字幕編集装置10からジョブを受信する機能を有し、制御部22は、キーボード字幕編集装置20の全体動作を制御する機能を有し、送信部23は、マウス字幕編集装置10へジョブを送信する機能を有する。また、表示制御部24は、キーボード字幕編集装置20の画面上への情報の表示を制御する機能を有し、音声再生部25は、音声データ記憶部40に記憶された音声データの指定された部分を再生する機能を有し、計時部26は、タイマとしての機能を有する。
尚、これらの各機能部分は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、キーボード字幕編集装置20のCPUが、受信部21、制御部22、送信部23、表示制御部24、音声再生部25、計時部26を実現するプログラムを外部記憶装置から主記憶装置に読み込んで処理を行う。
第一に、間違い行へのオートジャンプ機能である。
この機能では、ある間違い行の修正が完了すると、次の間違い行へ自動的にジャンプし、その行に対応する音声を自動的に再生する。図16の例では、5行目の「オンデアンド」の修正が完了すると、11行目の「での家庭」にジャンプし、その行の修正が完了すると、13行目の「すいません。」にジャンプしている。
このような構成により、キーボードエディタは、文字列の入力だけに専念することができるため、高いスキルレベルを要求されない。また、編集の効率も格段に向上される。
この機能では、間違い行に対応する音声のみでなく、その前後の音声も含めて再生する。また、間違い行に対応する音声の前の音声をフェードインさせ、間違い行に対応する音声の後の音声をフェードアウトさせることにより、間違い行に対応する音声を強調する。尚、本明細書では、このフェードイン、フェードアウトさせる音声部分を「のりしろ」に見立て、この機能を「のりしろ付き強調再生機能」と称しているのである。
形態素解析に基づいて決定された字幕文節を、のりしろの範囲(フェードインさせるのりしろからフェードアウトさせるのりしろまでの範囲)とした場合の例を図17に示す。
ここで、字幕文節とは、名詞、動詞語幹、格助詞、助動詞等の品詞に基づいた形態素ではなく、例えば、「本日は晴天なり」という文であれば、「本日は」と「晴天なり」等のそれぞれに独立した意味をなすかたまりを意味するものとする。このような字幕文節の生成については、形態素の個々の品詞に基づいて単純に規則化することが可能である。また、一般的に連続する間違い行について分割されることはないものとする。
尚、のりしろの範囲は、字幕行の分割の方法に応じて、種々の方法で決定することができる。例えば、固定行を用いて決定することも考えられる。
この機能では、図18に示すように、キーボードエディタがキー入力を行っている間はその集中力を奪わないようにするため音声の再生を停止し、キーボードエディタのキー入力が止まったら、音声を再生することによる入力の催促(音声催促)を行う。本手法は、従来の、カーソルによる点滅や、「フィールドに正しく名前を入力して下さい。」等の催促用メッセージ(ポップアップメッセージ又は音声メッセージ)と違い、キー入力を行う際に参照すべき情報を直接かつ動的に再生するものである。従って、これらの従来の手法に比べて高い効果が得られるものである。
尚、本手法と従来の手法を、オーバーヘッド、催促の効果、情報の有益性の3つの観点から比較すると次のようになる。
即ち、カーソル点滅は、オーバーヘッドは少なくてすむが、催促の効果や情報の有益性では劣る。ポップアップメッセージや音声メッセージは、催促の効果はあるが、オーバーヘッドや情報の有益性では劣る。これに対し、本手法は、オーバーヘッドも少なく、催促の効果も期待でき、情報の有益性もある優れた手法である。
図19は、キーボード字幕編集装置20の動作を示すフローチャートである。
まず、受信部21が、ジョブを受信する(ステップ201)。尚、このジョブには、上述したように、表示すべき各字幕行について、音声ファイルにおける開始時間、音声認識結果、間違い行であるかどうか、の情報が含まれている。
これにより、制御部22へ制御が移り、表示制御部24に対し、キーボードフォーカスを間違い行へジャンプさせるよう指示する。これに従い、表示制御部24は、キーボードフォーカスを間違い行へジャンプさせる(ステップ202)。具体的には、ジョブに各字幕行が間違い行であるかどうかの情報が含まれるので、表示制御部24は、制御部22からその情報の通知を受けることにより、そのような間違い行へのジャンプを実現する。
一方で、制御部22は、計時部26に対し、タイマのセットを指示する。これに従い、計時部26は、タイマをセットする(ステップ204)。尚、キー入力がない場合は、ここでセットされた時間が経過すると、再び音声の再生が開始される。従って、ここでセットする時間は、再生される音声の長さに一定の待ち時間を加算した時間とする。
その結果、キー入力がないと判定された場合は、セットされた時間が経過したかどうかを判定し(ステップ210)、経過していなければ、経過するまでステップ205の判定を繰り返す。また、セットされた時間が経過していれば、音声を再び再生する(ステップ203)。
一方、キー入力があったと判定された場合は、音声再生中であるかどうかを判定し(ステップ206)、再生中でなければ何もしないが、再生中であれば、その音声をインタラプトする(ステップ207)。そして、キー入力が確定キーによるものかどうかを判定する(ステップ208)。その結果、確定キーによるキー入力でなければ、計時部26に対し、タイマをリセットするように指示する。これに従い、計時部26は、タイマをリセットする(ステップ209)。即ち、ステップ203の音声再生の開始から一定時間後に再び音声を再生するという設定を、今回のキー入力から一定時間後に再び音声を再生するという設定に変更するのである。
その結果、間違い行があれば、ステップ202に戻り、間違い行がなければ、送信部23に確認依頼のジョブを受け渡し、送信部23がそのジョブをマウス字幕編集装置10に送信する(ステップ212)。
尚、音声を再生させるための時間の長さ、音声を再生/停止するための具体的なキーの一覧については自由に設定できるものとする。
本実施の形態では、間違い行を特定し、編集結果を確定するための装置と、間違い行を編集する装置とを分ける構成を採用した。このような構成により、スキルレベルの高い責任ある人材を前者の装置の操作にのみ従事させ、後者の装置の操作にはスキルレベルの低い人材を従事させることが可能となる。従って、人件費の大幅な削減が期待できる。更に言うと、従来の字幕編集装置では既述のように多くの問題点が存在していたためボランティアの人たちに編集作業に協力してもらうことは難しかった。ところが、本発明によってインターネット等を通じて全国の字幕付けボランティアに協力してもらうことが現実的になる。そういった環境が整備された時の字幕普及への社会的効果は計り知れない。
また、本実施の形態では、間違い行の特定、編集結果の確定といったマウスによる操作部分と、間違い行の修正というキーボードによる操作部分とを分ける構成を採用した。このような構成を採用したことにより、マウスとキーボードを持ち替えて操作する必要がなくなる。従って、操作性の大幅な向上が期待できる。
更に、本実施の形態では、間違い行の修正にあたり、オートジャンプ機能、のりしろ付き強調再生機能、キー入力連動再生機能を実現した。これにより、間違い行を修正する際の操作性は更に向上される。
図20は、本実施の形態における字幕編集システムの構成を示した図である。この字幕編集システムは、マウス字幕編集装置10と、キーボード字幕編集装置20と、音声認識装置30と、音声データ記憶部40と、字幕データ記憶部50とから構成される。尚、第1の実施の形態では、キーボード字幕編集装置20から字幕データ記憶部50への字幕の書き込みは、マウス字幕編集装置10を介して行われるような構成となっていたが、本実施の形態では、キーボード字幕編集装置20から字幕データ記憶部50へ直接字幕が書き込まれるような構成となっている。そして、図示しないが、表示装置が、字幕データ記憶部50に書き込まれた字幕をリアルタイムに取得し、音声データ記憶部40に記憶された音声データに基づく音声の再生と同期させて表示する。
尚、本実施の形態におけるマウス字幕編集装置10及びキーボード字幕編集装置20として用いるのに好適なコンピュータのハードウェア構成は、図3に示したものと同様であるので、詳しい説明は省略する。
また、本実施の形態のマウス字幕編集装置10は、キーボード字幕編集装置20からのジョブを受信しないので、図6及び図8に示した動作を行い、図7に示した動作は行わない。
更に、本実施の形態のキーボード字幕編集装置20は、ほぼ図19に従った動作を行う。但し、ステップ212では、マウス字幕編集装置10にジョブを送信する処理ではなく、編集後の字幕を字幕データ記憶部50に対して書き込む処理を行う。
図21(a)は、字幕の編集が連続して完了している箇所までを表示する場合の例である。この例では、「今までの取り組みが、オンデマンドビジネスを実現する上での過程にすぎません。」という箇所までは全て編集が完了している。仮に、この後に、「現在、私たちは、過去の取り組みを基盤とし、次なる課題に取り組んでいます。」という音声と、「それは、市場のスピードと、従業員のリクエストに即応できるオンデマンド企業への変革です。」という音声とが続き、それぞれ別のキーボードエディタに編集が依頼されたとする。この場合において、後者の編集が完了していたとしても、前者の編集が完了するまでは表示しないようにしている。
尚、未確定のままの表示としては、その箇所に文が存在することのみを示す情報を表示する方法を採用しても良いし、図21(b)のように、正しい文字列と未確定の文字列とを表示形態で区別するようにしてもよい。後者の場合、正しい文字列か未確定の文字列かは、マスタエディタによって設定された確信度の情報を参照することができる。
本実施の形態は、第1の実施の形態における効果に加え、字幕をリアルタイムに表示することができるという効果を有する。
尚、上述した第1及び第2の実施の形態では、マウス字幕編集装置10及びキーボード字幕編集装置20から共通にアクセス可能な音声データ記憶部40を設け、音声データはここに格納するようにした。しかしながら、マウス字幕編集装置10及びキーボード字幕編集装置20から音声データに必ずしも共通にアクセスできるようにする必要はない。例えば、マウス字幕編集装置10が音声データを保持しておき、その音声データの必要な部分のみを切り出してキーボード字幕編集装置20に字幕データと共に送信するような形態でも構わない。
また、第1及び第2の実施の形態では、マウス字幕編集装置10とキーボード字幕編集装置20と間で字幕データ自体を送受信するように構成している。しかしながら、字幕データ自体を送受信しないように構成することも可能である。即ち、字幕データを、マウス字幕編集装置10及びキーボード字幕編集装置20から共通にアクセス可能な記憶領域に記憶し、マウス字幕編集装置10からキーボード字幕編集装置20へは、その記憶領域のアドレス情報や字幕データにおける間違い行の位置情報を送信するようにしてもよい。
1.話速変換
のりしろ付き強調再生機能において、間違い行に対応する音声を更に強調するため、その音声のみを話速変換技術を応用して「ゆっくり」と再生することも考えられる。但し、話速変換自体の処理は一般に重たいので、本技術の導入によって他の処理のパフォーマンスが低下しないように配慮する必要がある。
2.音声コマンド
音声を再生したり停止したりする際に、「再生」、「停止」等の音声コマンドを使用することができる。但し、音声コマンドの処理は一般に重たいので、本技術の導入によって他の処理のパフォーマンスが低下しないように配慮する必要がある。
1) 従来の字幕編集装置は、基本的に、音声フォーカス移動、音声再生、音声停止、キーボードフォーカス移動、行の分割・連結調整の5つの機能しか有していなかった。従って、それ以外の間違い行の特定や修正の操作を編集者が行わなくてはならなかった。しかも、そのような無駄な処理は字幕行ごとに発生するので、その発生回数は膨大となる。
2) 本発明において、マスタエディタは、自動的に再生される音声に応じて各字幕行の確信度をチェックし、必要な文単位でキーボードエディタにサブミットするだけである。音声の停止、再生、再生箇所のポイント等の操作は基本的に必要ない。更に、正しい文字列の記憶も必要ない。最終的に字幕として確定する作業は従来と同様である。
3) 本発明において、キーボードエディタは、間違い行をキーボードで編集し、最後に行確定するだけである。よって、既述のように、人件費が安く、スキルレベルの低い人でも編集が容易であることは明らかである。
図22から、マウス字幕編集装置及びキーボード字幕編集装置共に、従来の字幕編集装置よりも操作性、コストにおいて優れていることが明らかである。
例えば、音楽への応用が考えられる。
所望の音楽素材に対してその譜面や歌詞が入手できないケースは珍しくない。そのような音楽素材に対し、音符や歌詞を付加する作業は字幕付け作業と同様、大変手間がかかる。音声認識装置を音楽認識ソフトと言い換え、字幕を音符や歌詞と言い換えても、本発明の有効性は変わらない。
また、動画に対する注釈付けにも応用することができる。所望の動画素材に対して注釈をタイムスタンプとして埋め込み、それを後々検索システム等によってインデックスとして使用することがしばしば行われる。このような作業もやはりコンテンツの長さによっては膨大な作業となり得る。そこで、音声認識装置を動画認識装置と言い換え、字幕を動画における注釈と言い換え、音声催促を動画による催促や動画に対応した音声による催促と言い換えることができる。
Claims (15)
- 音声又は映像に基づいて作成されたテキストデータを編集するためのコンピュータシステムであって、
前記テキストデータを表示すると共に前記音声又は映像を出力し、外部からの指示に応じて、当該テキストデータの編集すべき部分を特定し、当該テキストデータと、当該部分を特定する情報とを出力する第1のコンピュータと、
前記第1のコンピュータにより出力された前記テキストデータを表示し、前記第1のコンピュータにより出力された前記情報によって特定される前記部分に編集のためのフォーカスを位置付けると共に当該部分に対応する前記音声又は映像を出力した後、当該部分を、外部からの指示に応じて編集する第2のコンピュータと
を備え、
前記第2のコンピュータは、前記編集すべき部分の前後の部分に対応する音声又は映像を、当該編集すべき部分に対応する音声又は映像とは異なる態様で出力する、コンピュータシステム。 - 前記第1のコンピュータは、ポインティングデバイスからの指示に応じて、前記テキストデータの編集すべき部分を特定し、
前記第2のコンピュータは、キーボードからの指示に応じて、前記部分を編集する、請求項1記載のコンピュータシステム。 - 前記第1のコンピュータは、前記第2のコンピュータによる前記部分の編集を確定させるための処理を行う、請求項1記載のコンピュータシステム。
- 前記第2のコンピュータは、一の前記部分の編集が完了した旨の入力があると、他の前記部分へ前記フォーカスを移動する、請求項1記載のコンピュータシステム。
- 前記第2のコンピュータは、前記編集すべき部分に対応する前記音声又は映像を、当該部分に対する編集データの入力に応じて停止する、請求項1記載のコンピュータシステム。
- 前記第2のコンピュータにより編集された前記部分を出力する第3のコンピュータを更に備えた、請求項1記載のコンピュータシステム。
- 前記第3のコンピュータは、前記第2のコンピュータにより編集された前記部分に先行して出力すべき部分の中に、編集が完了していない部分が存在していない場合に、当該編集された部分を出力する、請求項6記載のコンピュータシステム。
- 前記第3のコンピュータは、前記第2のコンピュータにより編集された前記部分に先行して出力すべき部分の中に、編集が完了していない部分が存在している場合に、当該編集された部分と当該編集が完了していない部分とを区別して出力する、請求項6記載のコンピュータシステム。
- 音声又は映像に基づいて作成されたテキストデータを編集するための方法であって、
第1のコンピュータが、前記テキストデータを表示すると共に前記音声又は映像を出力し、外部からの指示に応じて、当該テキストデータの編集すべき部分を特定し、当該テキストデータと、当該部分を特定する情報とを出力するステップと、
第2のコンピュータが、前記第1のコンピュータにより出力された前記テキストデータを表示し、前記第1のコンピュータにより出力された前記情報によって特定される前記部分に編集のためのフォーカスを位置付けると共に当該部分に対応する前記音声又は映像を出力した後、当該部分を、外部からの指示に応じて編集するステップと
を含み、
前記第2のコンピュータは、前記編集すべき部分の前後の部分に対応する音声又は映像を、当該編集すべき部分に対応する音声又は映像とは異なる態様で出力する、方法。 - 前記第1のコンピュータは、ポインティングデバイスからの指示に応じて、前記テキストデータの編集すべき部分を特定し、
前記第2のコンピュータは、キーボードからの指示に応じて、前記部分を編集する、請求項9記載の方法。 - 前記第2のコンピュータは、一の前記部分の編集が完了した旨の入力があると、他の前記部分へ前記フォーカスを移動する、請求項9記載の方法。
- 前記第2のコンピュータは、前記編集すべき部分に対応する前記音声又は映像を、当該部分に対する編集データの入力に応じて停止する、請求項9記載の方法。
- 音声又は映像に基づいて作成されたテキストデータを編集するためのプログラムであって、
クライアントコンピュータに、
前記テキストデータと、前記テキストデータの編集すべき部分を特定する情報とを、サーバコンピュータから受信する機能と、
受信した前記テキストデータを表示する機能と、
受信した前記情報によって特定される前記部分に編集のためのフォーカスを位置付けると共に当該部分に対応する前記音声又は映像を出力する機能と、
その後、前記部分を、外部からの指示に応じて編集する機能と
を実現させ、
前記出力する機能では、前記編集すべき部分の前後の部分に対応する音声又は映像を、当該編集すべき部分に対応する音声又は映像とは異なる態様で出力する、プログラム。 - 前記出力する機能では、一の前記部分の編集が完了した旨の入力があると、他の前記部分へ前記フォーカスを移動する、請求項13記載のプログラム。
- 前記出力する機能では、前記編集すべき部分に対応する前記音声又は映像を、当該部分に対する編集データの入力に応じて停止する、請求項13記載のプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004309768A JP4536481B2 (ja) | 2004-10-25 | 2004-10-25 | コンピュータシステム、修正作業を支援するための方法、及びプログラム |
US11/258,567 US8140966B2 (en) | 2004-10-25 | 2005-10-25 | Computer system, method and program for generating caption based computer data |
US13/409,712 US9460065B2 (en) | 2004-10-25 | 2012-03-01 | Generating caption based computer data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004309768A JP4536481B2 (ja) | 2004-10-25 | 2004-10-25 | コンピュータシステム、修正作業を支援するための方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006119534A JP2006119534A (ja) | 2006-05-11 |
JP4536481B2 true JP4536481B2 (ja) | 2010-09-01 |
Family
ID=36317455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004309768A Expired - Fee Related JP4536481B2 (ja) | 2004-10-25 | 2004-10-25 | コンピュータシステム、修正作業を支援するための方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US8140966B2 (ja) |
JP (1) | JP4536481B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7359979B2 (en) | 2002-09-30 | 2008-04-15 | Avaya Technology Corp. | Packet prioritization and associated bandwidth and buffer management techniques for audio over IP |
US20040073690A1 (en) | 2002-09-30 | 2004-04-15 | Neil Hepworth | Voice over IP endpoint call admission |
US7978827B1 (en) | 2004-06-30 | 2011-07-12 | Avaya Inc. | Automatic configuration of call handling based on end-user needs and characteristics |
US20070126926A1 (en) * | 2005-12-04 | 2007-06-07 | Kohtaroh Miyamoto | Hybrid-captioning system |
JP5336748B2 (ja) * | 2008-03-06 | 2013-11-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンテンツ中のアクセシビリティに関する問題箇所を他人へ効果的に伝達するためのコンピュータ、方法、プログラム |
JP5285326B2 (ja) * | 2008-05-14 | 2013-09-11 | 日本電信電話株式会社 | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 |
US8218751B2 (en) | 2008-09-29 | 2012-07-10 | Avaya Inc. | Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences |
JP2010282083A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 誤認識訂正装置、方法及びプログラム |
US9317531B2 (en) | 2012-10-18 | 2016-04-19 | Microsoft Technology Licensing, Llc | Autocaptioning of images |
US8947596B2 (en) * | 2013-06-27 | 2015-02-03 | Intel Corporation | Alignment of closed captions |
US20150098018A1 (en) * | 2013-10-04 | 2015-04-09 | National Public Radio | Techniques for live-writing and editing closed captions |
US20170132821A1 (en) * | 2015-11-06 | 2017-05-11 | Microsoft Technology Licensing, Llc | Caption generation for visual media |
JP6517718B2 (ja) * | 2016-03-11 | 2019-05-22 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
JP6499228B2 (ja) * | 2017-06-20 | 2019-04-10 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5173854A (en) * | 1984-06-11 | 1992-12-22 | Tandem Computers Incorporated | Distributed text editing system with remote terminal transmits successive audit messages each identifying individual editing operation |
US6453281B1 (en) * | 1996-07-30 | 2002-09-17 | Vxi Corporation | Portable audio database device with icon-based graphical user-interface |
JP3396639B2 (ja) * | 1998-09-30 | 2003-04-14 | 株式会社東芝 | 階層記憶装置及び階層記憶制御方法 |
US6738896B1 (en) * | 1999-02-01 | 2004-05-18 | Hewlett-Packard Development Company, L.P. | Method and apparatus for determining availability of a queue which allows random insertion |
JP3325239B2 (ja) * | 1999-06-09 | 2002-09-17 | 日本テレビ放送網株式会社 | 字幕素材作成システム、字幕素材作成方法及び字幕素材作成プログラムを記憶した記録媒体 |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
JP2001060192A (ja) | 1999-08-20 | 2001-03-06 | Nippon Hoso Kyokai <Nhk> | 文字データ修正装置および記憶媒体 |
US7047191B2 (en) * | 2000-03-06 | 2006-05-16 | Rochester Institute Of Technology | Method and system for providing automated captioning for AV signals |
US6505153B1 (en) * | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
EP1295482B1 (en) * | 2000-06-09 | 2010-09-01 | British Broadcasting Corporation | Generation of subtitles or captions for moving pictures |
US6915258B2 (en) * | 2001-04-02 | 2005-07-05 | Thanassis Vasilios Kontonassios | Method and apparatus for displaying and manipulating account information using the human voice |
US7230920B1 (en) * | 2001-09-14 | 2007-06-12 | Cisco Technology, Inc. | System and method for optimizing throughput using response time as a metric |
US7996223B2 (en) * | 2003-10-01 | 2011-08-09 | Dictaphone Corporation | System and method for post processing speech recognition output |
-
2004
- 2004-10-25 JP JP2004309768A patent/JP4536481B2/ja not_active Expired - Fee Related
-
2005
- 2005-10-25 US US11/258,567 patent/US8140966B2/en not_active Expired - Fee Related
-
2012
- 2012-03-01 US US13/409,712 patent/US9460065B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20060100883A1 (en) | 2006-05-11 |
US9460065B2 (en) | 2016-10-04 |
JP2006119534A (ja) | 2006-05-11 |
US20130061137A1 (en) | 2013-03-07 |
US8140966B2 (en) | 2012-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9460065B2 (en) | Generating caption based computer data | |
US20030046071A1 (en) | Voice recognition apparatus and method | |
US20090204399A1 (en) | Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program | |
US20040266337A1 (en) | Method and apparatus for synchronizing lyrics | |
US20040098533A1 (en) | Use of a media cache for subsequent copying acceleration | |
CN101512656A (zh) | 具有提前渲染队列的gpu时间线 | |
JP2006512007A (ja) | マルチメディア文書における多モード特性に注釈を付けるためのシステムおよび方法 | |
JP2007293277A (ja) | デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理のための方法、システム、およびプログラム(デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理) | |
JP2008507160A (ja) | バックグラウンド・トランスコード | |
JPH09297748A (ja) | メッセージング装置及びメッセージング方法 | |
JP2008219920A (ja) | テレビジョン・ニュース用オーディオビジュアル作業および対応するテキストのための編集システム | |
EP3061001B1 (en) | Speech recognition method and system with simultaneous text editing | |
US20140249813A1 (en) | Methods and Systems for Interfaces Allowing Limited Edits to Transcripts | |
JP4020083B2 (ja) | 書き起こしテキスト作成支援システムおよびプログラム | |
US20060010366A1 (en) | Multimedia content generator | |
US8806342B2 (en) | Creation of a reference point to mark a media presentation | |
CN111930289A (zh) | 一种处理图片和文本的方法和系统 | |
WO2008003229A1 (fr) | Système et méthode d'apprentissage de langue | |
US8185815B1 (en) | Live preview | |
US20020062210A1 (en) | Voice input system for indexed storage of speech | |
US20060200734A1 (en) | System for building and sharing a databank of jokes and/or such humor | |
JP3488020B2 (ja) | マルチメディア情報提示装置 | |
US8014883B2 (en) | Templates and style sheets for audio broadcasts | |
KR19990064823A (ko) | 동영상에 포함된 외국어 대사의 학습을 위한 캡션 제어방법 및 그 기록매체 | |
CN1886726A (zh) | 转录音频信号的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070927 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20071227 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080304 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080919 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081030 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20081121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20100610 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |