JP4536481B2 - コンピュータシステム、修正作業を支援するための方法、及びプログラム - Google Patents

コンピュータシステム、修正作業を支援するための方法、及びプログラム Download PDF

Info

Publication number
JP4536481B2
JP4536481B2 JP2004309768A JP2004309768A JP4536481B2 JP 4536481 B2 JP4536481 B2 JP 4536481B2 JP 2004309768 A JP2004309768 A JP 2004309768A JP 2004309768 A JP2004309768 A JP 2004309768A JP 4536481 B2 JP4536481 B2 JP 4536481B2
Authority
JP
Japan
Prior art keywords
computer
editing
job
edited
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004309768A
Other languages
English (en)
Other versions
JP2006119534A (ja
Inventor
晃太郎 宮本
みどり 東海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004309768A priority Critical patent/JP4536481B2/ja
Priority to US11/258,567 priority patent/US8140966B2/en
Publication of JP2006119534A publication Critical patent/JP2006119534A/ja
Application granted granted Critical
Publication of JP4536481B2 publication Critical patent/JP4536481B2/ja
Priority to US13/409,712 priority patent/US9460065B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Circuits (AREA)
  • Television Systems (AREA)

Description

本発明は、音声等の情報に基づいて字幕等のデータを作成する技術に関し、特に、コンピュータによって作成された字幕等のデータを編集する技術に関する。
放送を通じて発信される情報へのアクセシビリティを確保するため、字幕付与可能な全ての放送番組に2007年までに字幕を付与するという目標が掲げられている。また、インターネット上で配信される動画についても、今後、字幕付与の必要性は高まるであろう。
このような背景から、放送や動画に対して字幕を付与するための研究が多くなされている。
その1つに、専門家による字幕書き起こし作業を支援するシステムがある(例えば、特許文献1、特許文献2参照)。特許文献1では、特殊な再生操作によって、また、特許文献2では、発話の速度を変更することによって、字幕書き起こし作業を支援している。
また、もう1つは、音声認識技術を用いて自動的に字幕を作成する方法である。専門家による字幕書き起こしの作業が不要になることから、この方法に対する期待は高まっている。しかしながら、現状の音声認識技術では、完璧に正しい字幕を作成することは不可能である。従って、結局は、専門家が音声認識結果をチェックして編集する作業を行わなければならず、その作業には膨大な工数がかかることとなってしまう。
このような編集作業の例について、図23を参照して説明する。
ここでは、図示するように、「今までの取り組みがオンデマンドビジネスを実現する上での過程にすぎません。」という音声が流れ、図示するような音声認識結果が得られているものとする。
編集者は、この音声を先頭から聞きながら音声認識結果を確認し、間違いを見つける。例えば、5行目の「オンデアンド」は「オンデマンド」とすべき間違いであることが分かったとする。そうすると、編集者は、まず、音声を停止する。そして、5行目をマウスでポイントしてキーボードフォーカスを移動し、「オンデアンド」を「オンデマンド」に修正する。
ここで、5行目にキーボードフォーカスを移動したものの、「オンデアンド」をどのように修正すべきか忘れてしまった場合は、もう一度再生し、その後、「オンデアンド」を「オンデマンド」に修正する。
特開2003−216200号公報(第9、10頁、第6図) 特開2003−223200号公報(第8頁、第6図)
このように、音声に字幕を付与するための研究は、従来より数多くなされてきた。しかしながら、従来の技術には、以下に述べるような問題点があった。
第1の問題点は、高いスキルレベルの人材に依存する部分が大きいという点である。
字幕書き起こし作業は、音声を聞きながら一字一句文字に変換していく作業であり、スキルレベルの低い人材では、到底なし得ない。また、音声認識結果を編集することにより字幕を作成する作業も、音声認識結果における間違いの認識及び正しい文字列の決定を音声を聞きながら瞬時に行わなければならないので、スキルレベルの低い人材では困難な作業である。そして、高いスキルレベルの人材を用いた場合には、人件費の上昇という問題が生じてしまう。
また、第2の問題点は、作業の操作性が悪く、効率的ではないという点である。
画面上の任意の場所をポイントするには、マウスが速やかに操作できて便利である。一方、画面上に文字を打ち込むには、キーボードが便利である。しかしながら、字幕書き起こし作業では、音声の再生及び停止はマウスで行い、字幕の入力はキーボードで行うことになる。また、字幕編集作業では、間違い箇所のポイントはマウスで行い、正しい文字列の入力はキーボードで行う。このようにマウスとキーボードを併用すると、手がマウスからキーボードへ、再びキーボードからマウスへと移動する時間がオーバーヘッドとなってしまうのである。
また、従来は、音声の再生中の箇所と字幕の書き起こし又は編集を行っている箇所とは連動していなかった。更に、キーボードで文字を入力中に音声が流れているとキー入力における集中力に影響を与えてしまう。逆に、修正内容を忘れてしまった場合は、記憶を手繰ったり、明示的に再生コマンドを発行したりする必要があった。従って、決して効率的な操作が行えるものではなかった。
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、スキルレベルの高い人材のみに頼らずに字幕等のデータを作成し、そのような作業にかかるコストを削減することにある。
また、本発明の他の目的は、字幕等のデータを作成する効率を向上し、そのような作業に要する時間を短縮することにある。
かかる目的のもと、本発明では、音声認識結果において編集が必要な部分を特定する装置と、その部分における編集を実際に行う装置とを分けた。即ち、本発明のコンピュータシステムは、音声又は映像に基づいて作成されたテキストデータを編集するためのものであり、第1のコンピュータと、第2のコンピュータとを備える。そして、第1のコンピュータは、音声又は映像を出力し、外部からの指示に応じて、テキストデータの編集すべき部分を特定し、第2のコンピュータは、音声又は映像を出力し、第1のコンピュータにより特定された部分を、外部からの指示に応じて編集する。
また、編集が必要な部分を特定する装置を、マウス等のポインティングデバイスによって操作される装置と捉え、編集を実際に行う装置を、キーボードよって操作される装置と捉え、これらの装置を分けたシステムとして本発明を把握することも可能である。この場合、第1のコンピュータは、ポインティングデバイスからの指示に応じて、テキストデータの編集すべき部分を特定し、第2のコンピュータは、キーボードからの指示に応じて、その特定された部分を編集する。
更に、編集作業の効率化のため、音声又は映像とテキストデータとを連動させる構成とすることも可能である。その場合、第2のコンピュータは、編集すべき部分に対応する音声又は映像を、その部分の編集に先立って出力する。
更にまた、本発明は、音声又は映像から作成されたテキストを編集する場面だけでなく、一般的に何らかの情報から作成されたデータを修正する様々な場面において適用可能である。その場合、本発明のコンピュータシステムは、所定の情報に基づいて作成されたデータをその情報を参照しながら修正する作業を支援するためのものであり、第1のコンピュータと、第2のコンピュータとを備える。そして、第1のコンピュータは、その情報を出力し、外部からの指示に応じて、データの修正すべき部分を特定し、第2のコンピュータは、第1のコンピュータにより特定された部分に対応する情報を出力し、外部からの指示に応じて、その部分を修正する。
また、本発明は、所定の情報に基づいて作成されたデータをその情報を参照しながら修正する作業をコンピュータが支援する方法として捉えることもできる。その場合、本発明の方法は、その情報を出力することにより、データの修正すべき部分の特定を促し、外部からの指示に応じて、修正すべき部分を特定するステップと、その後、その情報を出力することにより、その部分の修正を促し、外部からの指示に応じて、その部分を修正するステップとを含んでいる。
一方、本発明は、サーバコンピュータに所定の機能を実現させるプログラムとして捉えることもできる。その場合、本発明のプログラムは、所定の情報に基づいて作成されたデータをその情報を参照しながら修正する作業の支援機能をサーバコンピュータに実現させるためのものであり、具体的には、次の機能を実現させる。1つは、外部からの指示に応じて、データの修正すべき部分を特定する機能であり、もう1つは、特定された部分の修正を、複数のクライアントコンピュータのうちの特定のクライアントコンピュータに指示する機能である。
本発明によれば、スキルレベルの高い人材のみに頼らずに字幕等のデータを作成することができ、そのような作業にかかるコストを削減することができる。
以下、添付図面を参照して、本発明を実施するための最良の形態(以下、「実施の形態」という)について詳細に説明する。
(第1の実施の形態)
図1は、本実施の形態における字幕編集システムの構成を示した図である。この字幕編集システムは、マウス字幕編集装置10と、キーボード字幕編集装置20と、音声認識装置30と、音声データ記憶部40と、字幕データ記憶部50とから構成される。尚、図1では、キーボード字幕編集装置20として、キーボード字幕編集装置Aとキーボード字幕編集装置Bの2台を設けた場合の構成を示している。但し、キーボード字幕編集装置20は、2台に限られるものではなく、1台であってもよいし、3台以上であってもよい。また、マウス字幕編集装置10とキーボード字幕編集装置20は、図1では別個の装置として示しているが、同一装置の上に実装されていても構わない。
マウス字幕編集装置10は、生成される字幕に対する責任者(以下、「マスタエディタ」という)によって操作される装置(第1のコンピュータ)であって、例えば、PCによって実現される。キーボード字幕編集装置20は、マウス字幕編集装置10から渡された字幕に対し、キーボードによる編集を行う操作者(以下、「キーボードエディタ」という)によって操作される装置(第2のコンピュータ)であって、例えば、PCによって実現される。音声認識装置30は、音声データをコンピュータで処理することにより、音声データが意味する内容を例えば文字列で出力する装置であり、音声認識の方式としては既存技術を採用することができる。音声データ記憶部40は、音声認識対象の音声データを記憶する領域であり、例えば、磁気ディスク、光ディスク、半導体メモリ等によって実現される。
マスタエディタは、音声認識装置30による音声認識結果に対し、句読点の位置の決定、キーボード字幕編集装置20への配信、キーボード字幕編集装置20による編集結果に対する最終チェック及び確定を行う。ここで、句読点の位置の決定は、キーボードエディタが複数いる場合の分配や、最終的な字幕表示にも影響を与えるものであるので、極めて重要な作業であると言える。
一方、キーボードエディタは、音声に対応する正しい文字列を入力する作業を行うだけでよい。この作業は極めて単純なものであるので、キーボードエディタは、比較的スキルレベルが低く、責任も低い人でよい。これにより、人件費を節約できるという効果が期待できる。
マスタエディタによる具体的な操作の内容は、以下の通りである。
A) 音声認識により分割された行(以下、「字幕行」という)に誤りがなければ、その字幕行を確定する。
B) 「ほぼ正しい字幕行」に対し、確信度を設定する。
C) 句読点を指定する。
D) 字幕行の連結、分割等の調整を行う。
E) 編集が必要な字幕行をキーボード字幕編集装置20にサブミットする。
F) 最終的な字幕を確定する。
一方、キーボードエディタによる具体的な操作の内容は、以下の通りである。
あ) 字幕行を編集し、正しい字幕行を作成する。
い) 正しい字幕行を確定する。
この操作の内容を、図2を参照して具体的に説明する。図2の左側は、マウス字幕編集装置10の画面における表示例であり、右側は、キーボード字幕編集装置20の画面における表示例である。
ここでも、図23と同様、「今までの取り組みがオンデマンドビジネスを実現する上での過程にすぎません。」という音声が流れ、図2に示すような音声認識結果が得られているものとする。
マウス字幕編集装置10の表示例において、「行」欄には、各字幕行がその音声ファイル全体の先頭から何行目に位置するかが表示される。「開始」欄には、各字幕行に対応する音声がその音声ファイル全体の先頭から何秒経過した時に流れるかが表示される。
「確信度」欄には、各字幕行の音声認識結果に対する確信度が表示される。確信度は、初期状態においては、音声認識装置30が音声認識処理の段階で得た確信度が表示されるが、これをマスタエディタが変更することも可能である。通常、音声認識装置30は、確信度「100%」を出力することはない。従って、図2における確信度「100%」は、マスタエディタが、音声認識結果を見て間違いがないと判断し設定したものであると考えることができる。尚、確信度の変更は、欄内の上向き矢印及び下向き矢印を用いて行うことができる。
「ブロック」欄には、キーボード字幕編集装置20にて字幕行の編集をブロックするかどうかのマークが表示される。上述したように、「確信度」欄においてマスタエディタが確信度「100%」を設定すると、自動的に「ブロック」欄に「○」が表示されるようになっている。この例では、5行目の「オンデアンド」、11行目の「での家庭」、13行目の「すいません」が正しく認識されてない行(以下、「間違い行」という)と判断され、「ブロック」欄に「○」は表示されていない。
「音声認識結果」欄には、音声認識装置30による音声認識の結果が文字列で表示される。マスタエディタは、この文字列が正しいかどうかを判断することになる。
ところで、マウス字幕編集装置10の画面には、例えば、表示例の右下に示すようなポップアップメニューが表示される。マスタエディタは、この中から所望の指示内容を選択する。例えば、図示するように、13行目の字幕行にフォーカスを位置付けた状態で「ピリオド確定してサブミット」を選択したとする。その場合、マウス字幕編集装置10は、1行目から13行目の字幕行までをキーボード字幕編集装置20に送信する文として切り出し、この文に関する情報をキーボード字幕編集装置20に送信する。
これにより、キーボード字幕編集装置20の画面には、図2の右側に示す内容が表示される。その後、キーボード字幕編集装置20における間違い行の編集が完了すると、マウス字幕編集装置10に編集結果の確認依頼が返信される。即ち、これらの表示内容の間の矢印は、マウス字幕編集装置10からキーボード字幕編集装置20へ音声認識結果の編集すべき箇所がサブミットされ、その編集結果がマウス字幕編集装置10にサブミットされることを示している。
尚、マスタエディタの具体的な操作内容のB)に挙げた「ほぼ正しい字幕行」の例を以下に示す。表現が多少違っても、内容さえ伝わっていればよいような場合に、「ほぼ正しい字幕行」として決定することが想定される。例えば、会議の音声から議事録を作成する場合等である。
A.余計な句読点や抜けている句読点があっても、「ほぼ正しい字幕行」として決定する。例えば、「大事です」に対する「正しい字幕行」は「大事です。」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
B.余計な記号や抜けている記号があっても、「ほぼ正しい字幕行」として決定する。例えば、「プロとしてですねー」に対する「正しい字幕行」は「プロとしてですね」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
C.編集者による編集間違いがあっても、「ほぼ正しい字幕行」として決定する。例えば、「そういた」に対する「正しい字幕行」は「そういった」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
D.音声認識装置による間違いがあっても、「ほぼ正しい字幕行」として決定する。例えば、「なってます」に対する「正しい字幕行」は「なっています」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
E.助詞が抜けていても、「ほぼ正しい字幕行」として決定する。例えば、「ベースなって」に対する「正しい字幕行」は「ベースになって」であるが、このまま「ほぼ正しい字幕行」として決定することもある。
F.送り仮名が違っても、「ほぼ正しい字幕行」として決定する。例えば、「受け付け」に対する「正しい字幕行」として「受付」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
G.仮名の種類が違っても、「ほぼ正しい字幕行」として決定する。例えば、「もとに」に対する「正しい字幕行」として「元に」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
H.同じ意味を表す語の文字表記が異なっていても、「ほぼ正しい字幕行」として決定する。例えば、「アイデア」に対する「正しい字幕行」として「アイディア」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
I.全角か半角かの違いがあっても、「ほぼ正しい字幕行」として決定する。例えば、「IBM」に対する「正しい字幕行」として「IBM」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
J.話し言葉であっても、「ほぼ正しい字幕行」として決定する。例えば、「なんですけれども」に対する「正しい字幕行」として「なのですが」が意図されていた場合に、このまま「ほぼ正しい字幕行」として決定することもある。
次に、本実施の形態を構成するマウス字幕編集装置10及びキーボード字幕編集装置20について、以下、詳細に説明する。
図3は、本実施の形態におけるマウス字幕編集装置10及びキーボード字幕編集装置20として用いるのに好適なコンピュータのハードウェア構成の例を模式的に示した図である。
図3に示すコンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90b及びCPUバスを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90b及びAGP(Accelerated Graphics Port)を介してCPU90aに接続されたビデオカード90d及びディスプレイ90jとを備える。また、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット90bに接続された磁気ディスク装置(HDD)90eと、ネットワークインターフェイス90gとを備える。更に、このPCIバスからブリッジ回路90f及びISA(Industry Standard Architecture)バス等の低速なバスを介してM/Bチップセット90bに接続されたフレキシブルディスクドライブ90hとキーボード/マウス90iとを備える。
尚、図3は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード90dを設ける代わりに、ビデオメモリのみを搭載し、CPU90aにてイメージデータを処理する構成としてもよいし、外部記憶装置として、ATA(AT Attachment)やSCSI(Small Computer System Interface)等のインターフェイスを介してCD−R(Compact Disc Recordable)やDVD−RAM(Digital Versatile Disc Random Access Memory)のドライブを設けてもよい。
次に、本実施の形態におけるマウス字幕編集装置10について詳細に説明する。尚、このマウス字幕編集装置10の説明においては、必要に応じて、マウス字幕編集装置10を「マスタ」と称し、キーボード字幕編集装置20を「クライアント」と称する。
図4は、本実施の形態におけるマウス字幕編集装置10の機能構成を示した図である。このマウス字幕編集装置10は、受信部11aと、コマンド受付部11bと、制御部12と、送信部13と、警告発生部14と、キュー管理部15と、割り当て決定部16と、空き状況管理部17と、処理能力計算部18と、スタベーション管理部19とを備える。また、マスタジョブキュー31と、クライアントジョブキュー32と、クライアント管理データベース(以下、「クライアント管理DB」という)33とを備える。尚、図4では、キーボード字幕編集装置20に送信する文をマスタエディタが切り出すための機能構成については省略してある。
受信部11aは、キーボード字幕編集装置20からジョブを受信する機能を有し、コマンド受付部11bは、キーボード字幕編集装置20に送信するジョブの発生を示すコマンドを受け付ける機能を有する。また、制御部12は、マウス字幕編集装置10の全体動作を制御する機能を有し、送信部13は、キーボード字幕編集装置20へジョブを送信する機能を有する。
警告発生部14は、キーボード字幕編集装置20が処理すべきジョブが処理されずに溜まってきた場合や作業を行っていないキーボード字幕編集装置20が増えてきた場合に警告を発生する機能を有し、キュー管理部15は、マスタジョブキュー31及びクライアントジョブキュー32にジョブを出し入れしたり、これらのキューに格納されているジョブを管理したりする機能を有する。
割り当て決定部16は、ジョブのキーボード字幕編集装置20に対する割り当てを決定する機能を有し、空き状況管理部17は、クライアント管理DB33における空き状況に関する情報の参照/更新を行う機能を有する。また、処理能力計算部18は、クライアント管理DB33におけるキーボードエディタの処理能力に関する情報の参照/更新を行う機能を有し、スタベーション管理部19は、クライアント管理DB33におけるクライアントの作業状況に関する情報の参照/更新を行う機能を有する。
マスタジョブキュー31は、キーボード字幕編集装置20からマウス字幕編集装置10へ送信されたジョブを格納するためのキューであり、クライアントジョブキュー32は、マウス字幕編集装置10からキーボード字幕編集装置20へ送信するジョブを格納するためのキューである。尚、クライアントジョブキュー32には、ジョブを一意に識別するジョブIDと、ジョブの処理が完了したかどうかを示す処理済フラグと、ジョブ本体とが関連付けられて保持されているものとする。そして、ジョブが処理されても、全ての情報を削除するのではなく、処理済フラグに「処理済」を書き込むようにする。
また、クライアント管理DB33には、図示するように、クライアントIDと、BusyFlagと、作業開始時刻と、現ジョブサイズと、作業終了時刻と、累積作業時刻と、累積ジョブサイズとが管理されている。
ここで、クライアントIDとは、個々のキーボード字幕編集装置20を一意に識別するIDである。BusyFlagは、個々のキーボード字幕編集装置20が作業を行っているかどうかを示すフラグであり、作業を行っている状態を「Busy」で表し、作業を行っていない状態を「NotBusy」で表すものとする。また、作業開始時刻は、個々のキーボード字幕編集装置20が現在の作業を開始した時刻を示し、BusyFlagが「Busy」の時のみ有効な情報である。現ジョブサイズは、現在処理しているジョブのデータサイズを示し、BusyFlagが「Busy」の時のみ有効な情報である。作業終了時刻は、個々のキーボード字幕編集装置20から最後にジョブを受信した時刻であり、BusyFlagが「NotBusy」の時のみ有効な情報である。更に、累積作業時間は、個々のキーボード字幕編集装置20における作業時間の累計であり、累積ジョブサイズは、個々のキーボード字幕編集装置20で処理されたジョブのサイズの累計である。
尚、これらの各機能部分は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、マウス字幕編集装置10のCPUが、受信部11a、コマンド受付部11b、制御部12、送信部13、警告発生部14、キュー管理部15、割り当て決定部16、空き状況管理部17、処理能力計算部18、スタベーション管理部19を実現するプログラムを外部記憶装置から主記憶装置に読み込み、外部記憶装置としてのマスタジョブキュー31、クライアントジョブキュー32、クライアント管理DB33を必要に応じて参照しながら処理を行う。
ところで、本実施の形態において、キーボード字幕編集装置20は、学生、ボランティア、障害者等の多様な労働者によって操作される。即ち、キーボードエディタのスキルレベルのばらつきは大きい。但し、各キーボードエディタの処理能力を事前に正確に予測することは困難である。また、その処理能力は、動的に変動するものでもある。更に、キーボード字幕編集装置20に対し送信されるジョブは、不定期に発生し、そのサイズにはばらつきがあり、ジョブの終了も予測できない。一方、スキルレベルが低いキーボードエディタにジョブがいつまでも回ってこない現象(いわゆるスタベーション)は好ましくない。よって、本実施の形態では、スタベーションやデッドロックを起こさず、かつ、スループットを最大にするジョブの配信方法を採用している。
ここで、本実施の形態における前提条件をまとめておく。
1) 単独のマウス字幕編集装置10及びそのマウス字幕編集装置10を操作するマスタエディタが必ず存在する。
2) キーボード字幕編集装置20が2台以上あり、かつ、キーボード字幕編集装置20を操作するキーボードエディタが対応して存在する。
3) マスタエディタは、成果物に対する責任者であり、スキルレベルも安定している。ここで、マスタエディタの作業は、音声認識結果を確認しながら正しい部分をチェックし、間違っている部分を適当な時点でキーボード字幕編集装置20に送信し、修正を指示することである。更に、マスタエディタの作業には、キーボード字幕編集装置20による処理が完了したことにより送り返されてきたジョブの最終確認も含まれる。
4) キーボードエディタは、マスタエディタの指示に従う立場にあり、そのスキルレベルには大きなばらつきが想定される。スキルレベルが大きくばらつく理由は、障害、年齢、経験等の異なる多種多様な労働力を想定するからである。
5) キーボードエディタとしては、時間の経過に伴ってそれほど処理能力が変化しない人も存在する可能性はある。一方で、若年者のように「慣れ」によって大きく処理能力が向上していく人や、逆に高齢者等、「疲労」によって処理能力が減少していく人の存在も予想される。
6) 各ジョブはキーボードエディタと独立している。例えばジョブ1はキーボードエディタAでなくては処理できない等のキーボードエディタに対する依存性があってはならない。
7) ジョブの発生は不定期で、そのサイズも大きくばらつく。サイズのばらつきの原因は、音声認識による認識率の高い部分と低い部分とが混在することにある。一般に、音声認識の認識率は、音響モデル、言語モデルのいずれか又は双方の理由により、同一環境における発話に対しても認識率が高い部分と低い部分とが混在する。そのため、一定時間や一定サイズ等、特定の範囲内でマスタがジョブを配信したとしても、図5(a),(b)に示すようにその特定の範囲内での(誤認識部分の字幕編集の)ジョブサイズは一様にならない。
8) ジョブの終了を予測することもできない。例えば、字幕を付与したいコンテンツの長さが60分間であったとしても、必ずしも一気に60分間全部に対し字幕を付与するとは限らない。例えば、まず一旦15分間分のコンテンツに対し字幕を付与した上で、専門用語の記述法、数値の記述法等、作業方法の確認のチェックを行い、その後、残りのコンテンツに対する字幕付与を再開するようなことも考えられる。
まず、キーボードエディタの処理能力の計算方法について述べる。ジョブは、マウス字幕編集装置10からキーボード字幕編集装置20へ送信され、キーボード字幕編集装置20が処理終了後、マウス字幕編集装置10へと送信される。このマウス字幕編集装置10がジョブを送信してからジョブを受信する間に要した時間は簡単に求められる。このジョブの実仕事サイズをこの要した時間で割ることにより個々のキーボードエディタの処理能力を求めることができる。この実仕事サイズ及び処理時間を随時累積していくことによって、個々のキーボードエディタの処理能力を動的に計算することが可能となる。尚、ジョブの実仕事サイズとしては、例えば、マスタエディタが間違っていると判断した字幕行の行数や、その字幕行に含まれる文字の総数等、仕事としての負荷を表すいかなる情報をも採用可能である。
更に、いくら処理が早くとも誤りが多いようでは処理能力が高いとは言い切れない。よって、マスタエディタがキーボードエディタによる編集結果に対する最終確認を行った際、マスタエディタが修正したデータ量を求めることで、仕事の正確さを求めることができる。これにより、各キーボードエディタの仕事の正確さの累積実績に基づいて、その処理能力を更新することも可能である。
また、初期状態においては、各キーボードエディタの処理能力を計算するための情報が揃っていない。従って、そのような場合には、年齢等に基づく一定の基準により、処理能力の初期値を計算しておいてもよい。
尚、このような処理能力に関する情報は、内部で計算されるだけであり、外部には提示されない。従って、プライバシーに配慮し、処理能力の値は保存せず、システム終了時に自動的に破棄することも既存技術により可能である。一方、特定のキーボードエディタの処理能力を、例えば、裁量労働制のために特別に(プライバシーを保護した上で)保存する必要があれば、それもまた既存技術により実現することは容易である。
次に、本実施の形態におけるマウス字幕編集装置10の動作について説明する。
図6は、マスタエディタの操作によってジョブが発生する場合のマウス字幕編集装置10の動作を示したフローチャートである。
まず、マスタエディタは、図2のような音声認識結果が表示された状態で、マウス字幕編集装置10に対し、音声の再生を指示する。そして、マスタエディタは、流れてくる音声と表示された音声認識結果を見比べながら、画面上で確信度チェックを行う。ここで、確信度チェックとは、各字幕行を、正しい字幕行、間違い行、不確定のまま表示する字幕行、のいずれかに分類する作業である。具体的には、正しい字幕行については、確信度を「100%」とし、間違い行については、確信度をそのままにしておく。尚、不確定のまま表示する字幕行については、確信度はそのままにしておいてもよいし、変更するようにしてもよい。
その後、マスタエディタは、文の終わりであると判断すると、音声を停止し、キーボード字幕編集装置20に対しサブミットするよう指示する。これにより、マウス字幕編集装置10は、音声認識結果に含まれる字幕行のうち間違い行を特定する(ステップ101)。
尚、このようにしてマスタエディタが切り出した1つの文に対する編集作業が1つのジョブとして発生する。このジョブには、図2に示したキーボード字幕編集装置20の表示を行うために必要な情報が含められる。また、キーボード字幕編集装置20の画面上に直接表示されるわけではないが、間違い行を特定するための情報も含められる。
次に、マウス字幕編集装置10では、コマンド受付部11bが、ジョブが発生した旨のコマンドを受け付ける(ステップ102)。
これにより、制御部12に制御が渡され、制御部12は、キュー管理部15に対し、送信すべきジョブをクライアントジョブキュー32に格納するよう指示する。これに従い、キュー管理部15は、ジョブをクライアントジョブキュー32に格納する(ステップ103)。
また、制御部12は、空き状況管理部17に対し、現在ジョブを処理中ではないクライアント(以下、「空きクライアント」という)が存在するかどうかを判定するよう指示する。これに従い、空き状況管理部17は、クライアント管理DB33で管理される全クライアントのBusyFlagを参照し、空きクライアントが存在するかどうかを判定する(ステップ104)。空き状況管理部17は、空きクライアントが存在しない場合はその旨を、空きクライアントが存在する場合は、空きクライアントのIDを制御部12に返却する。
その結果、空きクライアントが存在しない旨が返却された場合、制御部12は、警告発生部14に対し、警告を発生するよう指示する。これに従い、警告発生部14は、マウス字幕編集装置10の画面上に警告を表示する(ステップ105)。尚、警告発生部14は、クライアントジョブキュー32に格納されている未処理のジョブの数に応じて、警告の強さを変えるようにしてもよい。例えば、未処理のジョブが1つの場合は、弱い警告を発生し、未処理のジョブが2つ以上の場合は、強い警告を発生するようにしてもよい。また、単純に定量化して表示する方法も考えられる。或いは、音の強弱、音色、高さ等によって未処理ジョブの数を表すような方法も考えられる。
一方、空きクライアントのIDが返却された場合、制御部12は、キュー管理部15、処理能力計算部18、スタベーション管理部19に対し、割り当て決定部16の処理に必要な情報を収集するよう指示する。これに従い、キュー管理部15、処理能力計算部18、スタベーション管理部19は、そのような情報を収集する(ステップ106)。
具体的には、キュー管理部15は、クライアントジョブキュー32に格納される全てのジョブのジョブサイズ及び処理済フラグを求める。そして、そのジョブサイズ及び処理済フラグを制御部12に返却する。
また、処理能力計算部18は、クライアント管理DB33を参照し、各クライアントの処理能力を計算する。具体的には、クライアント管理DB33に管理される累積ジョブサイズを累積作業時間で除して、各オペレータが単位時間あたりにこなせる仕事の量を求める。そして、処理能力計算部18は、各クライアントの処理能力を制御部12に返却する。
更に、スタベーション管理部19は、クライアント管理DB33で管理される作業終了時刻を現在時刻から減ずることにより、空きクライアントの待ち時間を求める。そして、スタベーション管理部19は、この求めた待ち時間を制御部12に返却する。
このようにして制御部12は、全てのクライアントの処理能力、全てのジョブのサイズ及び処理済フラグ、空きクライアントのID、今回のジョブのID、空きクライアントの待ち時間の情報を保持する。そして、割り当て決定部16に対し、ジョブのクライアントに対する割り当てを決定するよう指示する。これに従い、割り当て決定部16は、ジョブのクライアントに対する割り当てを決定する(ステップ107)。そして、割り当て決定部16は、割り当ての結果(ジョブの送信を一時保留する場合もある)を制御部12に返却する。尚、この決定処理の詳細については後述する。
制御部12は、割り当て決定部16から返却された情報に基づき、ジョブのクライアントへの送信が必要かどうかを判定する(ステップ108)。
その結果、ジョブの送信が必要と判定された場合、制御部12は、空き状況管理部17、処理能力計算部18、スタベーション管理部19に対し、クライアント管理DB33で管理される送信先クライアントの情報を更新するよう指示する。これに従い、空き状況管理部17、処理能力計算部18、スタベーション管理部19が、送信先クライアントの情報を更新する(ステップ109)。具体的には、空き状況管理部17が、送信先クライアントのBusyFlagにBusyを設定する。また、処理能力計算部18が、送信するジョブのサイズを現ジョブサイズに設定する。そして、スタベーション管理部19が、作業開始時刻に現在時刻を設定する。
また、クライアント管理DB33の情報の更新が完了すると、制御部12の指示により、キュー管理部15は、クライアントジョブキュー32に格納されたこのジョブの処理済フラグに「処理済」を設定する(ステップ110)。その後、ジョブは、送信部13に渡され、送信部13が、送信先クライアントにジョブを送信する(ステップ111)。
一方、ジョブの送信が必要と判定されなかった場合は、そのまま処理を終了する。
このようにして送信されたジョブに対しクライアントで処理がなされ、その応答としてマスタでの確認を依頼するジョブが送信される。
図7は、このようなジョブを受信した際のマウス字幕編集装置10の動作を示したフローチャートである。
まず、受信部11aが、クライアントからジョブを受信する(ステップ121)。
これにより、制御部12に制御が渡され、制御部12が、空き状況管理部17、処理能力計算部18、スタベーション管理部19に対し、クライアント管理DB33で管理される送信元クライアントの情報を更新するよう指示する。これに従い、空き状況管理部17、処理能力計算部18、スタベーション管理部19が、送信元クライアントの情報を更新する(ステップ122)。具体的には、空き状況管理部17が、送信先クライアントのBusyFlagにNotBusyを設定する。また、処理能力計算部18が、現在時刻から作業開始時刻を減じた時間を累積作業時間に加算し、現ジョブサイズを累積ジョブサイズに加算する。そして、スタベーション管理部19が、作業終了時刻に現在時刻を設定する。
次に、制御部12は、キュー管理部15に対し、受信したジョブをマスタジョブキュー31に格納するよう指示する。これに従い、キュー管理部15は、ジョブをマスタジョブキュー31に格納する(ステップ123)。
また、制御部12は、空き状況管理部17に対し、空きクライアントを特定するよう指示する。これに従い、空き状況管理部17は、クライアント管理DB33で管理される全クライアントのBusyFlagを参照し、空きクライアントを特定する(ステップ124)。具体的には、今回ジョブの送信元となっているクライアントに対しては、ステップ122でNotBusyが設定されているので、必ず空きクライアントとして特定されるが、その他にも空きクライアントがあれば、それもあわせて特定する。そして、空き状況管理部17は、空きクライアントのIDを制御部12に返却する。
次に、制御部12は、キュー管理部15に対し、クライアントジョブキュー32に未処理ジョブが格納されているかを判定するよう指示する。これにより、キュー管理部15は、未処理ジョブがあるかどうかを判定する(ステップ125)。キュー管理部15は、未処理ジョブがない場合はその旨を、未処理ジョブがある場合は、未処理ジョブのIDを制御部12に返却する。
その結果、未処理ジョブがないと判定された場合、制御部12は、警告発生部14に対し、警告を発生するよう指示する。これに従い、警告発生部14は、マウス字幕編集装置10の画面上に警告を表示する(ステップ126)。尚、警告発生部14は、空きクライアントの数に応じて、警告の強さを変えるようにしてもよい。例えば、空きクライアントが1つの場合は、弱い警告を発生し、空きクライアントが2つ以上の場合は、強い警告を発生するようにしてもよい。また、単純に定量化して表示する方法も考えられる。或いは、音の強弱、音色、高さ等によって空きクライアントの数を表すような方法も考えられる。
一方、未処理ジョブがあると判定された場合、制御部12は、キュー管理部15、処理能力計算部18、スタベーション管理部19に対し、割り当て決定部16の処理に必要な情報を収集するよう指示する。これに従い、キュー管理部15、処理能力計算部18、スタベーション管理部19は、そのような情報を収集する(ステップ127)。
具体的には、キュー管理部15は、クライアントジョブキュー32に格納される全てのジョブのジョブサイズ及び処理済フラグを求める。そして、そのジョブサイズ及び処理済フラグを制御部12に返却する。
また、処理能力計算部18は、クライアント管理DB33を参照し、各クライアントの処理能力を計算する。具体的には、クライアント管理DB33に管理される累積ジョブサイズを累積作業時間で除して、各オペレータが単位時間あたりにこなせる仕事の量を求める。そして、処理能力計算部18は、各クライアントの処理能力を制御部12に返却する。
更に、スタベーション管理部19は、クライアント管理DB33で管理される作業終了時刻を現在時刻から減ずることにより、空きクライアントの待ち時間を求める。そして、スタベーション管理部19は、この求めた待ち時間を制御部12に返却する。
このようにして制御部12は、全てのクライアントの処理能力、全てのジョブのサイズ及び処理済フラグ、空きクライアントのID、今回のジョブのID、空きクライアントの待ち時間の情報を保持する。そして、割り当て決定部16に対し、ジョブのクライアントに対する割り当てを決定するよう指示する。これに従い、割り当て決定部16は、ジョブのクライアントに対する割り当てを決定する(ステップ128)。そして、割り当て決定部16は、割り当ての結果(ジョブの送信を一時保留する場合もある)を制御部12に返却する。尚、この決定処理の詳細については後述する。
制御部12は、割り当て決定部16から返却された情報に基づき、ジョブのクライアントへの送信が必要かどうかを判定する(ステップ129)。
その結果、ジョブの送信が必要と判定された場合、制御部12は、空き状況管理部17、処理能力計算部18、スタベーション管理部19に対し、クライアント管理DB33で管理される送信先クライアントの情報を更新するよう指示する。これに従い、空き状況管理部17、処理能力計算部18、スタベーション管理部19が、送信先クライアントの情報を更新する(ステップ130)。具体的には、空き状況管理部17が、送信先クライアントのBusyFlagにBusyを設定する。また、処理能力計算部18が、送信するジョブのサイズを現ジョブサイズに設定する。そして、スタベーション管理部19が、作業開始時刻に現在時刻を設定する。
また、クライアント管理DB33の情報の更新が完了すると、制御部12の指示により、キュー管理部15は、クライアントジョブキュー32から送信対象のジョブを取り出し、このジョブの処理済フラグに「処理済」を設定する(ステップ131)。その後、ジョブは、送信部13に渡され、送信部13が、送信先クライアントにジョブを送信する(ステップ132)。
一方、ジョブの送信が必要と判定されなかった場合は、そのまま処理を終了する。
次に、割り当て決定部16の処理内容について図8を参照して詳細に説明する。
割り当て決定部16は、空きクライアントの数が単一か複数かを判定する(ステップ141)と共に、未処理ジョブの数が単一か複数かを判定し(ステップ142)、その結果に基づいて処理を振り分ける。即ち、空きクライアントの数が単一で未処理ジョブの数が複数の場合は、最適ジョブ選定処理を行い、空きクライアントの数が単一で未処理ジョブの数が単一の場合は、ディレイ処理を行い、空きクライアントの数が複数で未処理ジョブの数が単一の場合は、最適クライアント選定処理を行う。尚、空きクライアントの数が複数で未処理ジョブの数も複数というケースは、図6、7のフローチャートに従って処理を行う限り発生しないので、このような場合については考慮していない。
まず、最適ジョブ選定処理について説明する。最適ジョブ選定処理とは、クライアントジョブキュー32の中に複数の未処理ジョブがあり、空きクライアントが1つである場合に、その空きクライアントに送信すべき最適なジョブを選定するものである。
最適ジョブ選定処理では、まず、割り当て決定部16が、図9のようなマッピングを行う。即ち、割り当て決定部16の処理に先立って取得しておいた全クライアントの処理能力Pi(i=1,…,m)をX軸に、全ジョブのサイズSj(j=1,…,n)をY軸に設定する。次に、処理能力の最小値P1をX座標に持ち、ジョブサイズの最小値S1をY座標に持つ点と、処理能力の最大値PmをX座標に持ち、ジョブサイズの最大値SnをY座標に持つ点とを線分で結ぶ。そして、この線分上にあり、かつ、空きクライアントCkの処理能力PkをX座標に持つ点のY座標Sを求める(ステップ143)。本実施の形態では、このSを空きクライアントに対して送信すべき理想的なジョブのサイズとみなし、未処理ジョブの中からそのサイズがSに最も近似するジョブを求める(ステップ144)。割り当て決定部16は、そのジョブを空きクライアントに送信するという割り当てを決定し、そのジョブのIDを制御部12に返却する(ステップ145)。
ここで、最適ジョブ選定処理を採用したことによる効果を述べる。
図10(a)は、ジョブをFIFO(First-In First-Out)に従ってシーケンシャルに処理する場合のタイムチャートであり、図10(b)は、最適ジョブ選定処理を採用した場合のタイムチャートである。尚、タイムチャートの左側の括弧内は、各クライアントを操作するキーボードエディタの処理能力を示している。
図10(a)において、ジョブ1、2、3は、クライアントC、B、Aにこの順に割り当てられる。一方、ジョブ4、5は、その発生時に空きクライアントが存在しないため、すぐには処理されずに待たされる。その後、クライアントA、Cがこの順に空き状態になるので、ジョブ4、5はそれぞれクライアントA、Cに割り当てられる。ところが、図10(a)では、ジョブ5が、クライアントCが処理するにはかなりの時間を要するジョブとなっている。そのため、全体としてのスループットが低下してしまっている。
これに対し、図10(b)のように最適ジョブ選定処理を採用した場合は、各クライアントの処理能力に見合ったジョブを依頼することになるので、スループットの低下は生じない。
次に、ディレイ処理について説明する。ディレイ処理とは、クライアントジョブキュー32に1つの未処理ジョブがあり、空きクライアントが1つである場合に、ただちにそのジョブを空きクライアントに配信すべきか、又は、配信せずに待機すべきか(ディレイすべきか)を判定するものである。
ディレイ処理でも、まず、割り当て決定部16が、図11(a)のようなマッピングを行う。即ち、 最適ジョブ選定処理の場合と同様に、空きクライアントCkの処理能力Pkに対する理想的なジョブサイズSを求める(ステップ146)。
次に、割り当て決定部16は、未処理ジョブの最適ジョブサイズ度数Dkを求める(ステップ147)。ここで、最適ジョブサイズ度数Dkは、未処理ジョブのサイズSjと理想的なジョブサイズSとを用いて、「Dk=1/|S−Sj|」と定義される。尚、|S−Sj|は、SとSjとの距離を表し、S=Sjの場合は、DkをMaxとする。
また、割り当て決定部16は、割り当て決定部16の処理に先立って取得しておいた空きクライアントCkの待ち時間に基づいて、待ち時間重みWkを求める(ステップ148)。尚、本実施の形態では、待ち時間をそのまま用いるのではなく、待ち時間重みに変換して用いている。
例えば、2秒の待ち時間と4秒の待ち時間とを比較すると、単純には後者は前者の2.0倍である。一方、20分の待ち時間と40分の待ち時間とを比較しても、単純には上述の場合と同様、後者が前者の2.0倍である。しかしながら、人間の直感としては、2つ目の例の方が、1つ目の例よりも、大きな違いとして実感することとなる。よって、本実施の形態では、待ち時間をそのまま用いるのではなく、待ち時間との対応が線形ではない待ち時間重みに変換して用いているのである。その方法としては、例えば、待ち時間を一次関数で変換することにより待ち時間重みを得る場合に、待ち時間が境界値以下の場合の傾きよりも、待ち時間が境界値以上の場合の傾きを大きくすることが挙げられる。また、その他にも、一次関数や二次関数等の既知の関数を組み合わせて、待ち時間から待ち時間重みを導く方法は種々考えられる。
図11(b)に、このようにして得られた待ち時間と待ち時間重みを示す。ディレイ処理においては、空きクライアントは1台のみであるので、クライアントCkに対する待ち時間重みWkのみを図示している。
次に、割り当て決定部16は、ジョブ最適度合いFkを求める(ステップ149)。尚、ジョブ最適度合いFkは、待ち時間重みWkと、最適ジョブサイズ度数Dkとを用いて、「Fk=Wk×Dk」によって求めることができる。
そして、割り当て決定部16は、ジョブ最適度合いが予め定めた閾値FTHを超えたかどうかを判定する(ステップ150)。図11(c)に、このようにして得られたジョブ最適度合いFk及び閾値FTHとの比較の様子を示している。
その結果、閾値FTHを超えたと判定された場合は、そのジョブのIDを制御部12に返却する(ステップ151)。一方、閾値FTHを超えなかったと判定された場合は、ディレイ処理を行い、制御部12に「送信しない」を返却する(ステップ152)。
尚、Dk=Maxの場合、ジョブ最適度合いFkは、待ち時間や待ち時間重みに関係なく、閾値FTHを超える値になるものとする。
ここで、ディレイ処理を採用したことによる効果を述べる。
図12(a)は、ジョブをFIFOに従ってシーケンシャルに処理する場合のタイムチャートであり、図12(b)は、ディレイ処理を採用した場合のタイムチャートである。尚、タイムチャートの左側の括弧内は、各クライアントを操作するキーボードエディタの処理能力を示している。
図12(a)において、ジョブ1、2、3は、クライアントC、B、Aにこの順に割り当てられる。一方、ジョブ4は、その発生時に空きクライアントが存在しないため、すぐには処理されずに待たされる。その後、クライアントCが空き状態になるので、ジョブ4は即座にクライアントCに割り当てられている。ところが、図12(a)では、ジョブ4が、クライアントCが処理するにはかなりの時間を要するジョブとなっている。そのため、全体としてのスループットが低下してしまっている。
これに対し、図12(b)のようにディレイ処理を採用した場合は、ジョブ4をクライアントCで処理せずに、その後に発生したクライアントCの処理能力に見合ったジョブ5をクライアントCで処理することになるので、スループットの低下は生じない。
次に、最適クライアント選定処理について説明する。最適クライアント選定処理とは、1つのジョブに対して複数の空きクライアントが存在する場合に最適なクライアントを求めるものである。
まず、割り当て決定部16は、図13(a)のようなマッピングを行う。即ち、割り当て決定部16の処理に先立って取得しておいた全クライアントの処理能力をX軸に、全ジョブのサイズをY軸に設定する。次に、処理能力の最小値をX座標に持ち、ジョブサイズの最小値をY座標に持つ点と、処理能力の最大値をX座標に持ち、ジョブサイズの最大値をY座標に持つ点とを線分で結ぶ。そして、この線分上にあり、空きクライアントの処理能力Pi(i=1,…,m)をX座標に持つ点のY座標Si(i=1,…,m)を求める(ステップ153)。本実施の形態では、このSi(i=1,…,m)を、処理能力Pi(i=1,…,m)を有する各空きクライアントに対して送信すべき理想的なジョブのサイズとみなし、未処理ジョブのサイズのSi(i=1,…,m)との近似度である最適ジョブサイズ度数Di(i=1,…,m)を求める(ステップ154)。ここで、最適ジョブサイズ度数Di(i=1,…,m)は、未処理ジョブのサイズSと理想的なジョブサイズSi(i=1,…,m)とを用いて、「Di=1/|Si−S|」と定義される。尚、|Si−S|は、SiとSとの距離を表し、Si=Sの場合は、DiをMaxとする。
また、割り当て決定部16は、割り当て決定部16の処理に先立って取得しておいた各空きクライアントCi(i=1,…,m)の待ち時間に基づいて、待ち時間重みWi(i=1,…,m)を求める(ステップ155)。尚、待ち時間重みは、ディレイ処理に関して述べたのと同様の方法で算出することができる。
図13(b)に、このようにして得られた待ち時間と待ち時間重みを示す。最適クライアント選定処理においては、空きクライアントはm台あるので、クライアントCi(i=1,…,m)に対する待ち時間重みWi(i=1,…,m)を図示している。
次に、割り当て決定部16は、ジョブ最適度合いFi(i=1,…,m)を求める(ステップ156)。尚、ジョブ最適度合いFi(i=1,…,m)は、待ち時間重みWi(i=1,…,m)と、最適ジョブサイズ度数Di(i=1,…,m)とを用いて、「Fi=Wi×Di」によって求めることができる。
そして、割り当て決定部16は、ジョブ最適度合いFi(i=1,…,m)が最大となる空きクライアントを特定する(ステップ157)。図13(c)に、このようにして得られたジョブ最適度合いFi(i=1,…,m)の比較の様子を示している。
その結果、割り当て決定部16は、制御部12にそのクライアントのIDを返却する(ステップ158)。
尚、Di=Maxのクライアントのジョブ最適度合いFiは、待ち時間や待ち時間重みに関係なく、他のDi=Maxでない全てのクライアントのジョブ最適度合いFiよりも大きくなるものとする。
ここで、最適クライアント選定処理を採用したことによる効果を述べる。
まず、第一に、複数の空きクライアントがある場合に、ジョブを個々のクライアントに均等に振り分ける方法がある。しかしながら、この方法だと、処理能力が低いクライアントに仕事がたまるため、全体のスループットは改善されない。
また、第二に、マスタエディタが、その裁量で個々のクライアントにジョブを振り分ける方法もある。しかしながら、この方法だと、マスタエディタ自身のスループットが低下し、結果的にシステム全体のスループットも低下してしまう。
また、第三に、空きクライアントの中から処理能力の高いクライアントに優先的にジョブを配信する方法がある。この場合のジョブ割り当ての例を図14(a)に示す。この場合、ジョブは、処理能力の高いクライアントAにばかり割り当てられ、処理能力の低いクライアントB、Cには割り当てられないいわゆるスタベーションが発生している。
尚、スタベーションとは、以下の現象を指す。
マルチスレッドプログラミングにおいて、プライオリティ設定が高いスレッドが繰り返し実行されるようにプログラムしてしまっている場合、よりプライオリティ設定が低いスレッドはいつまでたっても制御が回らない現象をいう。このような現象を引き起こすようなプログラミングは必ずしも適切でないといわれている。
以上に倣い、本実施の形態では、キーボードエディタにいつまでたってもジョブが回ってこない現象を指すこととする。これは、キーボードエディタが機械であれば特に問題を発生させないが、本実施の形態ではキーボードエディタが人間であるため、ジョブを回さないことは重大な問題となるのである。
更に、第四に、空きクライアントの中から待ち時間が長いクライアントに優先的にジョブを配信する方法もある。この場合のジョブ割り当ての例を図14(b)に示す。この場合、仕事量の大きいジョブ4が、処理能力の低いクライアントCに割り当てられることもあり得るため、システム全体のスループットは最適化されない。
これに対し、図14(c)のように最適クライアント選定処理を採用した場合は、各ジョブは、そのジョブを処理するのに相応しい能力を有するクライアントに依頼されることになるので、スループットを最適化できる。
次に、本実施の形態におけるキーボード字幕編集装置20について詳細に説明する。
図15は、本実施の形態におけるキーボード字幕編集装置20の機能構成を示した図である。このキーボード字幕編集装置20は、受信部21と、制御部22と、送信部23と、表示制御部24と、音声再生部25と、計時部26とを備える。
受信部21は、マウス字幕編集装置10からジョブを受信する機能を有し、制御部22は、キーボード字幕編集装置20の全体動作を制御する機能を有し、送信部23は、マウス字幕編集装置10へジョブを送信する機能を有する。また、表示制御部24は、キーボード字幕編集装置20の画面上への情報の表示を制御する機能を有し、音声再生部25は、音声データ記憶部40に記憶された音声データの指定された部分を再生する機能を有し、計時部26は、タイマとしての機能を有する。
尚、これらの各機能部分は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、キーボード字幕編集装置20のCPUが、受信部21、制御部22、送信部23、表示制御部24、音声再生部25、計時部26を実現するプログラムを外部記憶装置から主記憶装置に読み込んで処理を行う。
本実施の形態のキーボード字幕編集装置20は、このような構成を備えることにより、以下に述べる機能を実現している。
第一に、間違い行へのオートジャンプ機能である。
この機能では、ある間違い行の修正が完了すると、次の間違い行へ自動的にジャンプし、その行に対応する音声を自動的に再生する。図16の例では、5行目の「オンデアンド」の修正が完了すると、11行目の「での家庭」にジャンプし、その行の修正が完了すると、13行目の「すいません。」にジャンプしている。
このような構成により、キーボードエディタは、文字列の入力だけに専念することができるため、高いスキルレベルを要求されない。また、編集の効率も格段に向上される。
第二に、のりしろ付き強調再生機能である。
この機能では、間違い行に対応する音声のみでなく、その前後の音声も含めて再生する。また、間違い行に対応する音声の前の音声をフェードインさせ、間違い行に対応する音声の後の音声をフェードアウトさせることにより、間違い行に対応する音声を強調する。尚、本明細書では、このフェードイン、フェードアウトさせる音声部分を「のりしろ」に見立て、この機能を「のりしろ付き強調再生機能」と称しているのである。
形態素解析に基づいて決定された字幕文節を、のりしろの範囲(フェードインさせるのりしろからフェードアウトさせるのりしろまでの範囲)とした場合の例を図17に示す。
ここで、字幕文節とは、名詞、動詞語幹、格助詞、助動詞等の品詞に基づいた形態素ではなく、例えば、「本日は晴天なり」という文であれば、「本日は」と「晴天なり」等のそれぞれに独立した意味をなすかたまりを意味するものとする。このような字幕文節の生成については、形態素の個々の品詞に基づいて単純に規則化することが可能である。また、一般的に連続する間違い行について分割されることはないものとする。
尚、のりしろの範囲は、字幕行の分割の方法に応じて、種々の方法で決定することができる。例えば、固定行を用いて決定することも考えられる。
第三に、キー入力連動再生機能である。
この機能では、図18に示すように、キーボードエディタがキー入力を行っている間はその集中力を奪わないようにするため音声の再生を停止し、キーボードエディタのキー入力が止まったら、音声を再生することによる入力の催促(音声催促)を行う。本手法は、従来の、カーソルによる点滅や、「フィールドに正しく名前を入力して下さい。」等の催促用メッセージ(ポップアップメッセージ又は音声メッセージ)と違い、キー入力を行う際に参照すべき情報を直接かつ動的に再生するものである。従って、これらの従来の手法に比べて高い効果が得られるものである。
尚、本手法と従来の手法を、オーバーヘッド、催促の効果、情報の有益性の3つの観点から比較すると次のようになる。
即ち、カーソル点滅は、オーバーヘッドは少なくてすむが、催促の効果や情報の有益性では劣る。ポップアップメッセージや音声メッセージは、催促の効果はあるが、オーバーヘッドや情報の有益性では劣る。これに対し、本手法は、オーバーヘッドも少なく、催促の効果も期待でき、情報の有益性もある優れた手法である。
次に、これらの機能を実現するキーボード字幕編集装置20の動作について詳細に説明する。
図19は、キーボード字幕編集装置20の動作を示すフローチャートである。
まず、受信部21が、ジョブを受信する(ステップ201)。尚、このジョブには、上述したように、表示すべき各字幕行について、音声ファイルにおける開始時間、音声認識結果、間違い行であるかどうか、の情報が含まれている。
これにより、制御部22へ制御が移り、表示制御部24に対し、キーボードフォーカスを間違い行へジャンプさせるよう指示する。これに従い、表示制御部24は、キーボードフォーカスを間違い行へジャンプさせる(ステップ202)。具体的には、ジョブに各字幕行が間違い行であるかどうかの情報が含まれるので、表示制御部24は、制御部22からその情報の通知を受けることにより、そのような間違い行へのジャンプを実現する。
そして、制御部22は、音声再生部25に対し、間違い行に対応する音声を再生するよう指示する。これに従い、音声再生部25が、音声を再生する(ステップ203)。具体的には、ジョブに開始時間の情報が含まれるので、音声再生部25は、制御部22からその情報の通知を受ける。そして、音声データ記憶部40に記憶された音声データを取得し、通知された情報によって指定された部分の再生を行う。また、その際、間違い行に対応する音声の前の音声をフェードインさせ、間違い行に対応する音声の後の音声をフェードアウトさせる制御も行う。
一方で、制御部22は、計時部26に対し、タイマのセットを指示する。これに従い、計時部26は、タイマをセットする(ステップ204)。尚、キー入力がない場合は、ここでセットされた時間が経過すると、再び音声の再生が開始される。従って、ここでセットする時間は、再生される音声の長さに一定の待ち時間を加算した時間とする。
次に、制御部22は、キーボードからキー入力があったかどうかを判定する(ステップ205)。
その結果、キー入力がないと判定された場合は、セットされた時間が経過したかどうかを判定し(ステップ210)、経過していなければ、経過するまでステップ205の判定を繰り返す。また、セットされた時間が経過していれば、音声を再び再生する(ステップ203)。
一方、キー入力があったと判定された場合は、音声再生中であるかどうかを判定し(ステップ206)、再生中でなければ何もしないが、再生中であれば、その音声をインタラプトする(ステップ207)。そして、キー入力が確定キーによるものかどうかを判定する(ステップ208)。その結果、確定キーによるキー入力でなければ、計時部26に対し、タイマをリセットするように指示する。これに従い、計時部26は、タイマをリセットする(ステップ209)。即ち、ステップ203の音声再生の開始から一定時間後に再び音声を再生するという設定を、今回のキー入力から一定時間後に再び音声を再生するという設定に変更するのである。
その後、制御部22は、セットされた時間を経過したかどうかを判定し(ステップ210)、経過していなければ、経過するまでステップ205の判定を繰り返す。また、セットされた時間が経過していれば、音声を再び再生する(ステップ203)。一方、ステップ208でキー入力が確定キーによるものであると判定された場合は、次の間違い行があるかどうかを判定する(ステップ211)。具体的には、ジョブに各字幕行が間違い行であるかどうかの情報が含まれるので、制御部22は、その情報に基づいて間違い行の有無を判定する。
その結果、間違い行があれば、ステップ202に戻り、間違い行がなければ、送信部23に確認依頼のジョブを受け渡し、送信部23がそのジョブをマウス字幕編集装置10に送信する(ステップ212)。
尚、音声を再生させるための時間の長さ、音声を再生/停止するための具体的なキーの一覧については自由に設定できるものとする。
以上により、本実施の形態の説明を終了する。
本実施の形態では、間違い行を特定し、編集結果を確定するための装置と、間違い行を編集する装置とを分ける構成を採用した。このような構成により、スキルレベルの高い責任ある人材を前者の装置の操作にのみ従事させ、後者の装置の操作にはスキルレベルの低い人材を従事させることが可能となる。従って、人件費の大幅な削減が期待できる。更に言うと、従来の字幕編集装置では既述のように多くの問題点が存在していたためボランティアの人たちに編集作業に協力してもらうことは難しかった。ところが、本発明によってインターネット等を通じて全国の字幕付けボランティアに協力してもらうことが現実的になる。そういった環境が整備された時の字幕普及への社会的効果は計り知れない。
また、本実施の形態では、間違い行の特定、編集結果の確定といったマウスによる操作部分と、間違い行の修正というキーボードによる操作部分とを分ける構成を採用した。このような構成を採用したことにより、マウスとキーボードを持ち替えて操作する必要がなくなる。従って、操作性の大幅な向上が期待できる。
更に、本実施の形態では、間違い行の修正にあたり、オートジャンプ機能、のりしろ付き強調再生機能、キー入力連動再生機能を実現した。これにより、間違い行を修正する際の操作性は更に向上される。
更にまた、本実施の形態では、各キーボードエディタの処理能力がばらつき、かつ、動的に変動することを想定している。また、各ジョブは、その発生のタイミング、終了のタイミングが不定期であり、かつ、そのサイズも不定であることを想定する。そのような状況において、ジョブのキーボード字幕編集装置への割当てを最適化することにより、スタベーション、デッドロック、スループット低下を引き起こすことがないようにしている。これにより、多様な労働力の確保が可能になり、その労働時間も短縮されるため、大幅な人件費の節約が期待できる。
(第2の実施の形態)
図20は、本実施の形態における字幕編集システムの構成を示した図である。この字幕編集システムは、マウス字幕編集装置10と、キーボード字幕編集装置20と、音声認識装置30と、音声データ記憶部40と、字幕データ記憶部50とから構成される。尚、第1の実施の形態では、キーボード字幕編集装置20から字幕データ記憶部50への字幕の書き込みは、マウス字幕編集装置10を介して行われるような構成となっていたが、本実施の形態では、キーボード字幕編集装置20から字幕データ記憶部50へ直接字幕が書き込まれるような構成となっている。そして、図示しないが、表示装置が、字幕データ記憶部50に書き込まれた字幕をリアルタイムに取得し、音声データ記憶部40に記憶された音声データに基づく音声の再生と同期させて表示する。
尚、本実施の形態におけるマウス字幕編集装置10及びキーボード字幕編集装置20として用いるのに好適なコンピュータのハードウェア構成は、図3に示したものと同様であるので、詳しい説明は省略する。
また、本実施の形態のマウス字幕編集装置10は、キーボード字幕編集装置20からのジョブを受信しないので、図6及び図8に示した動作を行い、図7に示した動作は行わない。
更に、本実施の形態のキーボード字幕編集装置20は、ほぼ図19に従った動作を行う。但し、ステップ212では、マウス字幕編集装置10にジョブを送信する処理ではなく、編集後の字幕を字幕データ記憶部50に対して書き込む処理を行う。
ここで、本実施の形態による表示の例を図21に示す。
図21(a)は、字幕の編集が連続して完了している箇所までを表示する場合の例である。この例では、「今までの取り組みが、オンデマンドビジネスを実現する上での過程にすぎません。」という箇所までは全て編集が完了している。仮に、この後に、「現在、私たちは、過去の取り組みを基盤とし、次なる課題に取り組んでいます。」という音声と、「それは、市場のスピードと、従業員のリクエストに即応できるオンデマンド企業への変革です。」という音声とが続き、それぞれ別のキーボードエディタに編集が依頼されたとする。この場合において、後者の編集が完了していたとしても、前者の編集が完了するまでは表示しないようにしている。
また、図21(b)は、字幕の編集が完了している箇所は全て表示する場合の例である。この例では、「現在、私たちは、過去の取り組みを基盤とし、次なる課題に取り組んでいます。」については、字幕の編集が完了している。しかし、「今までの取り組みが、オンデマンドビジネスを実現する上での過程にすぎません。」、及び、「それは、市場のスピードと、従業員のリクエストに即応できるオンデマンド企業への変革です。」については、字幕の編集が完了しておらず、未確定のまま表示されている。
尚、未確定のままの表示としては、その箇所に文が存在することのみを示す情報を表示する方法を採用しても良いし、図21(b)のように、正しい文字列と未確定の文字列とを表示形態で区別するようにしてもよい。後者の場合、正しい文字列か未確定の文字列かは、マスタエディタによって設定された確信度の情報を参照することができる。
以上により、本実施の形態の説明を終了する。
本実施の形態は、第1の実施の形態における効果に加え、字幕をリアルタイムに表示することができるという効果を有する。
尚、上述した第1及び第2の実施の形態では、マウス字幕編集装置10及びキーボード字幕編集装置20から共通にアクセス可能な音声データ記憶部40を設け、音声データはここに格納するようにした。しかしながら、マウス字幕編集装置10及びキーボード字幕編集装置20から音声データに必ずしも共通にアクセスできるようにする必要はない。例えば、マウス字幕編集装置10が音声データを保持しておき、その音声データの必要な部分のみを切り出してキーボード字幕編集装置20に字幕データと共に送信するような形態でも構わない。
また、第1及び第2の実施の形態では、マウス字幕編集装置10とキーボード字幕編集装置20と間で字幕データ自体を送受信するように構成している。しかしながら、字幕データ自体を送受信しないように構成することも可能である。即ち、字幕データを、マウス字幕編集装置10及びキーボード字幕編集装置20から共通にアクセス可能な記憶領域に記憶し、マウス字幕編集装置10からキーボード字幕編集装置20へは、その記憶領域のアドレス情報や字幕データにおける間違い行の位置情報を送信するようにしてもよい。
更に、本実施の形態に対しては、次のような技術を有機的に組み込むことも可能である。
1.話速変換
のりしろ付き強調再生機能において、間違い行に対応する音声を更に強調するため、その音声のみを話速変換技術を応用して「ゆっくり」と再生することも考えられる。但し、話速変換自体の処理は一般に重たいので、本技術の導入によって他の処理のパフォーマンスが低下しないように配慮する必要がある。
2.音声コマンド
音声を再生したり停止したりする際に、「再生」、「停止」等の音声コマンドを使用することができる。但し、音声コマンドの処理は一般に重たいので、本技術の導入によって他の処理のパフォーマンスが低下しないように配慮する必要がある。
また、第1の実施の形態で述べた「ほぼ正しい字幕行」の表示についても検討を加えることが可能である。例えば、図21(b)に示した表示例は、「ほぼ正しい字幕」の表示例と捉えることもできる。即ち、「ほぼ正しい字幕行」に対しては、その確信度に応じて、「正しい字幕行」と異なる形態で表示することが可能である。図21(b)では、「正しい字幕行」は通常の字体で表示し、「ほぼ正しい字幕行」は斜体字で表示している。
以下、本発明の従来技術に比べた優位性をまとめる。
1) 従来の字幕編集装置は、基本的に、音声フォーカス移動、音声再生、音声停止、キーボードフォーカス移動、行の分割・連結調整の5つの機能しか有していなかった。従って、それ以外の間違い行の特定や修正の操作を編集者が行わなくてはならなかった。しかも、そのような無駄な処理は字幕行ごとに発生するので、その発生回数は膨大となる。
2) 本発明において、マスタエディタは、自動的に再生される音声に応じて各字幕行の確信度をチェックし、必要な文単位でキーボードエディタにサブミットするだけである。音声の停止、再生、再生箇所のポイント等の操作は基本的に必要ない。更に、正しい文字列の記憶も必要ない。最終的に字幕として確定する作業は従来と同様である。
3) 本発明において、キーボードエディタは、間違い行をキーボードで編集し、最後に行確定するだけである。よって、既述のように、人件費が安く、スキルレベルの低い人でも編集が容易であることは明らかである。
ここで、具体的に、1つの間違い行の編集手順について、従来技術と本発明とを比較する。図22は、人間の手、目、耳に関係する操作及び動作をステップごとに示したものである。尚、ここでは、典型的な例として、3回音声を聞いた場合を想定する。
図22から、マウス字幕編集装置及びキーボード字幕編集装置共に、従来の字幕編集装置よりも操作性、コストにおいて優れていることが明らかである。
最後に、本発明の応用例について述べる。
例えば、音楽への応用が考えられる。
所望の音楽素材に対してその譜面や歌詞が入手できないケースは珍しくない。そのような音楽素材に対し、音符や歌詞を付加する作業は字幕付け作業と同様、大変手間がかかる。音声認識装置を音楽認識ソフトと言い換え、字幕を音符や歌詞と言い換えても、本発明の有効性は変わらない。
また、動画に対する注釈付けにも応用することができる。所望の動画素材に対して注釈をタイムスタンプとして埋め込み、それを後々検索システム等によってインデックスとして使用することがしばしば行われる。このような作業もやはりコンテンツの長さによっては膨大な作業となり得る。そこで、音声認識装置を動画認識装置と言い換え、字幕を動画における注釈と言い換え、音声催促を動画による催促や動画に対応した音声による催促と言い換えることができる。
更に、文章やリッチコンテンツ等の自動コンテンツ生成も想定される。近年、コンピュータによって自動的にコンテンツが生成されることは珍しくなくなった。もちろん人間の手によってコンテンツが生成される場合もある。しかし、コンテンツには、多少の誤りや変更点が含まれていることを想定しなくてはならない。本発明における音声認識装置をコンテンツ生成装置と言い換え、字幕をコンテンツと言い換え、音声催促をコンテンツ表示による催促又はそのコンテンツから音声合成によって得られた音声による催促と言い換えることが可能である。
本発明の第1の実施の形態におけるシステム構成を示したブロック図である。 本発明の実施の形態のマウス字幕編集装置及びキーボード字幕編集装置における表示例を示した図である。 本発明の実施の形態におけるマウス字幕編集装置及びキーボード字幕編集装置のハードウェア構成を示したブロック図である。 本発明の実施の形態におけるマウス字幕編集装置の機能構成を示したブロック図である。 本発明の実施の形態におけるジョブサイズの大小について説明するための図である。 本発明の実施の形態におけるマウス字幕編集装置の動作を示したフローチャートである。 本発明の第1の実施の形態におけるマウス字幕編集装置の動作を示したフローチャートである。 本発明の実施の形態におけるマウス字幕編集装置の動作を示したフローチャートである。 本発明の実施の形態における最適ジョブ選定処理の説明に用いる図である。 本発明の実施の形態における最適ジョブ選定処理の効果を示す図である。 本発明の実施の形態におけるディレイ処理の説明に用いる図である。 本発明の実施の形態におけるディレイ処理の効果を示す図である。 本発明の実施の形態における最適クライアント選定処理の説明に用いる図である。 本発明の実施の形態における最適クライアント選定処理の効果を示す図である。 本発明の実施の形態におけるキーボード字幕編集装置の機能構成を示したブロック図である。 本発明の実施の形態のキーボード字幕編集装置におけるオートジャンプ機能について説明するための図である。 本発明の実施の形態のキーボード字幕編集装置におけるのりしろ付き音声強調再生機能について説明するための図である。 本発明の実施の形態のキーボード字幕編集装置におけるキー入力連動再生機能について説明するための図である。 本発明の実施の形態におけるキーボード字幕編集装置の動作を示したフローチャートである。 本発明の第2の実施の形態におけるシステム構成を示したブロック図である。 本発明の第2の実施の形態におけるリアルタイム字幕表示の例を示した図である。 本発明における操作手順と従来技術における操作手順とを比較するための図である。 従来技術について説明するための図である。
符号の説明
10…マウス字幕編集装置、11a…受信部、11b…コマンド受付部、12…制御部、13…送信部、14…警告発生部、15…キュー管理部、16…割り当て決定部、17…空き状況管理部、18…処理能力計算部、19…スタベーション管理部、20…キーボード字幕編集装置、21…受信部、22…制御部、23…送信部、24…表示制御部、25…音声再生部、26…計時部、30…音声認識装置、40…音声データ記憶部、50…字幕データ記憶部

Claims (15)

  1. 音声又は映像に基づいて作成されたテキストデータを編集するためのコンピュータシステムであって、
    前記テキストデータを表示すると共に前記音声又は映像を出力し、外部からの指示に応じて、当該テキストデータの編集すべき部分を特定し、当該テキストデータと、当該部分を特定する情報とを出力する第1のコンピュータと、
    前記第1のコンピュータにより出力された前記テキストデータを表示し、前記第1のコンピュータにより出力された前記情報によって特定される前記部分に編集のためのフォーカスを位置付けると共に当該部分に対応する前記音声又は映像を出力した後、当該部分を、外部からの指示に応じて編集する第2のコンピュータと
    を備え
    前記第2のコンピュータは、前記編集すべき部分の前後の部分に対応する音声又は映像を、当該編集すべき部分に対応する音声又は映像とは異なる態様で出力する、コンピュータシステム。
  2. 前記第1のコンピュータは、ポインティングデバイスからの指示に応じて、前記テキストデータの編集すべき部分を特定し、
    前記第2のコンピュータは、キーボードからの指示に応じて、前記部分を編集する、請求項1記載のコンピュータシステム。
  3. 前記第1のコンピュータは、前記第2のコンピュータによる前記部分の編集を確定させるための処理を行う、請求項1記載のコンピュータシステム。
  4. 前記第2のコンピュータは、一の前記部分の編集が完了した旨の入力があると、他の前記部分へ前記フォーカスを移動する、請求項1記載のコンピュータシステム。
  5. 前記第2のコンピュータは、前記編集すべき部分に対応する前記音声又は映像を、当該部分に対する編集データの入力に応じて停止する、請求項1記載のコンピュータシステム。
  6. 前記第2のコンピュータにより編集された前記部分を出力する第3のコンピュータを更に備えた、請求項1記載のコンピュータシステム。
  7. 前記第3のコンピュータは、前記第2のコンピュータにより編集された前記部分に先行して出力すべき部分の中に、編集が完了していない部分が存在していない場合に、当該編集された部分を出力する、請求項6記載のコンピュータシステム。
  8. 前記第3のコンピュータは、前記第2のコンピュータにより編集された前記部分に先行して出力すべき部分の中に、編集が完了していない部分が存在している場合に、当該編集された部分と当該編集が完了していない部分とを区別して出力する、請求項6記載のコンピュータシステム。
  9. 音声又は映像に基づいて作成されたテキストデータを編集するための方法であって、
    第1のコンピュータが、前記テキストデータを表示すると共に前記音声又は映像を出力し、外部からの指示に応じて、当該テキストデータの編集すべき部分を特定し、当該テキストデータと、当該部分を特定する情報とを出力するステップと、
    第2のコンピュータが、前記第1のコンピュータにより出力された前記テキストデータを表示し、前記第1のコンピュータにより出力された前記情報によって特定される前記部分に編集のためのフォーカスを位置付けると共に当該部分に対応する前記音声又は映像を出力した後、当該部分を、外部からの指示に応じて編集するステップと
    を含み、
    前記第2のコンピュータは、前記編集すべき部分の前後の部分に対応する音声又は映像を、当該編集すべき部分に対応する音声又は映像とは異なる態様で出力する、方法。
  10. 前記第1のコンピュータは、ポインティングデバイスからの指示に応じて、前記テキストデータの編集すべき部分を特定し、
    前記第2のコンピュータは、キーボードからの指示に応じて、前記部分を編集する、請求項9記載の方法。
  11. 前記第2のコンピュータは、一の前記部分の編集が完了した旨の入力があると、他の前記部分へ前記フォーカスを移動する、請求項9記載の方法。
  12. 前記第2のコンピュータは、前記編集すべき部分に対応する前記音声又は映像を、当該部分に対する編集データの入力に応じて停止する、請求項9記載の方法。
  13. 音声又は映像に基づいて作成されたテキストデータを編集するためのプログラムであって、
    クライアントコンピュータに、
    前記テキストデータと、前記テキストデータの編集すべき部分を特定する情報とを、サーバコンピュータから受信する機能と、
    受信した前記テキストデータを表示する機能と、
    受信した前記情報によって特定される前記部分に編集のためのフォーカスを位置付けると共に当該部分に対応する前記音声又は映像を出力する機能と、
    その後、前記部分を、外部からの指示に応じて編集する機能と
    を実現させ
    前記出力する機能では、前記編集すべき部分の前後の部分に対応する音声又は映像を、当該編集すべき部分に対応する音声又は映像とは異なる態様で出力する、プログラム。
  14. 前記出力する機能では、一の前記部分の編集が完了した旨の入力があると、他の前記部分へ前記フォーカスを移動する、請求項13記載のプログラム。
  15. 前記出力する機能では、前記編集すべき部分に対応する前記音声又は映像を、当該部分に対する編集データの入力に応じて停止する、請求項13記載のプログラム。
JP2004309768A 2004-10-25 2004-10-25 コンピュータシステム、修正作業を支援するための方法、及びプログラム Expired - Fee Related JP4536481B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004309768A JP4536481B2 (ja) 2004-10-25 2004-10-25 コンピュータシステム、修正作業を支援するための方法、及びプログラム
US11/258,567 US8140966B2 (en) 2004-10-25 2005-10-25 Computer system, method and program for generating caption based computer data
US13/409,712 US9460065B2 (en) 2004-10-25 2012-03-01 Generating caption based computer data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004309768A JP4536481B2 (ja) 2004-10-25 2004-10-25 コンピュータシステム、修正作業を支援するための方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2006119534A JP2006119534A (ja) 2006-05-11
JP4536481B2 true JP4536481B2 (ja) 2010-09-01

Family

ID=36317455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004309768A Expired - Fee Related JP4536481B2 (ja) 2004-10-25 2004-10-25 コンピュータシステム、修正作業を支援するための方法、及びプログラム

Country Status (2)

Country Link
US (2) US8140966B2 (ja)
JP (1) JP4536481B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
JP5336748B2 (ja) * 2008-03-06 2013-11-06 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツ中のアクセシビリティに関する問題箇所を他人へ効果的に伝達するためのコンピュータ、方法、プログラム
JP5285326B2 (ja) * 2008-05-14 2013-09-11 日本電信電話株式会社 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
JP2010282083A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 誤認識訂正装置、方法及びプログラム
US9317531B2 (en) 2012-10-18 2016-04-19 Microsoft Technology Licensing, Llc Autocaptioning of images
US8947596B2 (en) * 2013-06-27 2015-02-03 Intel Corporation Alignment of closed captions
US20150098018A1 (en) * 2013-10-04 2015-04-09 National Public Radio Techniques for live-writing and editing closed captions
US20170132821A1 (en) * 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Caption generation for visual media
JP6517718B2 (ja) * 2016-03-11 2019-05-22 株式会社東芝 会議支援装置、会議支援方法、及び会議支援プログラム
JP6499228B2 (ja) * 2017-06-20 2019-04-10 株式会社東芝 テキスト生成装置、方法、及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173854A (en) * 1984-06-11 1992-12-22 Tandem Computers Incorporated Distributed text editing system with remote terminal transmits successive audit messages each identifying individual editing operation
US6453281B1 (en) * 1996-07-30 2002-09-17 Vxi Corporation Portable audio database device with icon-based graphical user-interface
JP3396639B2 (ja) * 1998-09-30 2003-04-14 株式会社東芝 階層記憶装置及び階層記憶制御方法
US6738896B1 (en) * 1999-02-01 2004-05-18 Hewlett-Packard Development Company, L.P. Method and apparatus for determining availability of a queue which allows random insertion
JP3325239B2 (ja) * 1999-06-09 2002-09-17 日本テレビ放送網株式会社 字幕素材作成システム、字幕素材作成方法及び字幕素材作成プログラムを記憶した記録媒体
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
JP2001060192A (ja) 1999-08-20 2001-03-06 Nippon Hoso Kyokai <Nhk> 文字データ修正装置および記憶媒体
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
EP1295482B1 (en) * 2000-06-09 2010-09-01 British Broadcasting Corporation Generation of subtitles or captions for moving pictures
US6915258B2 (en) * 2001-04-02 2005-07-05 Thanassis Vasilios Kontonassios Method and apparatus for displaying and manipulating account information using the human voice
US7230920B1 (en) * 2001-09-14 2007-06-12 Cisco Technology, Inc. System and method for optimizing throughput using response time as a metric
US7996223B2 (en) * 2003-10-01 2011-08-09 Dictaphone Corporation System and method for post processing speech recognition output

Also Published As

Publication number Publication date
US20060100883A1 (en) 2006-05-11
US9460065B2 (en) 2016-10-04
JP2006119534A (ja) 2006-05-11
US20130061137A1 (en) 2013-03-07
US8140966B2 (en) 2012-03-20

Similar Documents

Publication Publication Date Title
US9460065B2 (en) Generating caption based computer data
US20030046071A1 (en) Voice recognition apparatus and method
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US20040266337A1 (en) Method and apparatus for synchronizing lyrics
US20040098533A1 (en) Use of a media cache for subsequent copying acceleration
CN101512656A (zh) 具有提前渲染队列的gpu时间线
JP2006512007A (ja) マルチメディア文書における多モード特性に注釈を付けるためのシステムおよび方法
JP2007293277A (ja) デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理のための方法、システム、およびプログラム(デジタル・オーディオ・プレーヤ上でrssコンテンツをレンダリングするためのrssコンテンツ管理)
JP2008507160A (ja) バックグラウンド・トランスコード
JPH09297748A (ja) メッセージング装置及びメッセージング方法
JP2008219920A (ja) テレビジョン・ニュース用オーディオビジュアル作業および対応するテキストのための編集システム
EP3061001B1 (en) Speech recognition method and system with simultaneous text editing
US20140249813A1 (en) Methods and Systems for Interfaces Allowing Limited Edits to Transcripts
JP4020083B2 (ja) 書き起こしテキスト作成支援システムおよびプログラム
US20060010366A1 (en) Multimedia content generator
US8806342B2 (en) Creation of a reference point to mark a media presentation
CN111930289A (zh) 一种处理图片和文本的方法和系统
WO2008003229A1 (fr) Système et méthode d&#39;apprentissage de langue
US8185815B1 (en) Live preview
US20020062210A1 (en) Voice input system for indexed storage of speech
US20060200734A1 (en) System for building and sharing a databank of jokes and/or such humor
JP3488020B2 (ja) マルチメディア情報提示装置
US8014883B2 (en) Templates and style sheets for audio broadcasts
KR19990064823A (ko) 동영상에 포함된 외국어 대사의 학습을 위한 캡션 제어방법 및 그 기록매체
CN1886726A (zh) 转录音频信号的方法和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070927

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080919

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081030

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20081121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20100610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees