JP2022188622A - 台本へのメタデータ付与装置、方法、およびプログラム - Google Patents

台本へのメタデータ付与装置、方法、およびプログラム Download PDF

Info

Publication number
JP2022188622A
JP2022188622A JP2021096807A JP2021096807A JP2022188622A JP 2022188622 A JP2022188622 A JP 2022188622A JP 2021096807 A JP2021096807 A JP 2021096807A JP 2021096807 A JP2021096807 A JP 2021096807A JP 2022188622 A JP2022188622 A JP 2022188622A
Authority
JP
Japan
Prior art keywords
text
script
metadata
speech recognition
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021096807A
Other languages
English (en)
Other versions
JP7216771B2 (ja
Inventor
友香 駒井
Yuka Komai
喜美子 川嶋
Kimiko Kawashima
沙希 安楽
Saki Anraku
晋一 洞井
Shinichi Doi
紀英 谷知
Norihide Yachi
慎一郎 松田
Shinichiro Matsuda
拓登 浅井
Takuto Asai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Yomiuri Telecasting Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Yomiuri Telecasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp, Yomiuri Telecasting Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2021096807A priority Critical patent/JP7216771B2/ja
Publication of JP2022188622A publication Critical patent/JP2022188622A/ja
Application granted granted Critical
Publication of JP7216771B2 publication Critical patent/JP7216771B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】台本のある放送の字幕に用いるテキストを、機械的に効率よく高い精度で生成する。【解決手段】放送の少なくとも一部分を音声認識した音声認識テキストと、当該放送の前記一部分を含む台本のテキストである台本テキストとを形態素分割するステップS01と、音声認識テキストと、台本テキストのそれぞれについて、形態素分割されたテキストを連結させた連結パターン同士を比較し、連結パターンができるだけ長い連結数となる連続して照合できた箇所にタイムスタンプを付与するステップS03と、前記タイムスタンプを付与した前記台本テキストの各行について、前記タイムスタンプの整合性を確認するステップS04と、整合性が満たされなかった行に対して、前後の整合性が満たされた行の前記タイムスタンプに基づいた補正タイムスタンプを付与するステップS05とを実行する。【選択図】図7

Description

この発明は、放送用の字幕に関する。
テレビ放送に表示する字幕は、番組内容を人が聞き、トーク部分を正しく認識して、パソコンへテキストで入力する完全手作業で生成する方法が一般的である。ただし、手作業に依存する部分が大きすぎるため、完成までに時間がかかり、ミスを防止するために二重以上の確認作業を行わなければならないといった問題があった。
これに対して、字幕を効率的に生成する手段として、音声認識技術の利用が考えられている。ただし、本出願時点の音声認識技術では音声認識の精度に限界があり、字幕を生成したい番組に例えば話者が複数に及ぶ箇所がある場合や、BGM等の効果音が挿入されている箇所などは、正しくトーク部分をテキストへ変換できないという問題があった。正しく変換できなかった部分は手作業で修正を行わなければならず、音声認識技術を利用して
も効率の面で十分ではなかった。
それをさらに解決するために、台本のテキストを読み込み、音声認識された音声テキストと比較して相違点を検出する字幕番組データ制作システムが特許文献1に記載されている。台本のテキストを用いることでテキストの正確性が向上する。台本だけではタイミングを得ることができないが、音声認識によって文字列が出現するタイミングは正確に知ることができる。このため、タイミングを音声認識から取得し、テキストのミスを台本を参照して補正することで相互補完的な効果を発揮できる。
また、特許文献2には、場面に登場する人物などを画像認識し、場面の特徴と台本情報とを対応付けて正確性を向上させる手法が提案されている。
特開2004-334133号公報 特開2005-25413号公報
しかしながら、特許文献1に記載の技術では、相違点を検出することができても、検出された相違データに基づいてオペレータが手作業で修正するので(段落[0045]等)、手作業をある程度軽減することはできてもその効果は不十分なものであった。
また、特許文献2に記載の技術では、実際の場面の画像と台本内容とを比較して対応させるものの、用いる音声認識結果は認識間違いになり不完全な文字列となってしまう場合がある。音声認識による不完全な文字列では、場面の画像を認識されたテキストと一致しなくなり、機械的な対応づけは難しくなることがあった。
そこでこの発明は、放送用の字幕を作成するにあたって、台本のテキストと音声認識を併用する際の、音声認識の不完全さによる対応付けのために手作業が必要な部分を減らし、機械的に効率よく精度の高い字幕を生成できるようにすることを目的とする。
この発明は、
放送に表示する字幕に用いるテキストにメタデータを付与するメタデータ付与装置であって、
前記放送の少なくとも一部分を音声認識した音声認識テキストと、当該放送の前記一部分を含む発言内容である台本のテキストである台本テキストとをそれぞれ形態素分割する形態素分割手段と、
前記音声認識テキストと、前記台本テキストのそれぞれについて、形態素分割されたテキスト同士を比較し、一致度が高い箇所に、前記音声認識テキスト由来のタイムスタンプを含むメタデータを付与するメタデータ付与手段と、
を有するメタデータ付与装置によって、上記の課題を解決したのである。
音声認識の一部が不正確であっても、音声認識テキストと台本テキストとのそれぞれを形態素分割した上で比較することで、一致度が高い箇所を捜索することが可能となる。形態素分割したテキスト同士の一致度は、オペレータを必要とする手作業ではなくコンピュータにおけるソフトウェア処理によって、所定の一致度の算定方式に従って自動的に行うことができる。タイムスタンプは音声認識から得られる時刻情報を割り当てることができ、話者識別は台本由来でも音声認識由来でもどちらでもよい。
上記の一致度の算定方式としては、前記メタデータ付与手段での一致度が高い箇所を、前記音声認識テキストと、前記台本テキストのそれぞれについて、形態素分割されたテキストを連続的に複数個連結させた連結パターン同士を比較し、前記台本テキストの連結パターンができるだけ長い連結数となる連続して照合できた箇所とする方式を採用することができる。分割された形態素を連続的に複数個連結させた連結パターンを作成すると、形態素が複数個繋がった連結パターン同士でならば一致する部分がある程度は出現する。その一致する部分ができるだけ長く連続して照合できた部分は、音声認識の一部が不正確であっても十分に一致する可能性が高い部分であると言える。文字列同士である連結パターン同士が一致するか否かを照合する作業は、オペレータを必要とする手作業ではなくコンピュータにおけるソフトウェア処理によって実行できる。
この発明にかかるメタデータ付与装置は、上記の手段に加えてさらに、前記メタデータ付与手段により前記タイムスタンプを付与した前記台本テキストの各行について、前記タイムスタンプの整合性を確認する整合性確認手段と、整合性が満たされなかった行に対して、前後の整合性が満たされた行の前記タイムスタンプに基づいた補正タイムスタンプを付与する補正手段と、を実行する実施形態を採用することができる。特に音声認識による正確性の高いタイムスタンプを自動的に台本と照合したテキストに付与し、そのタイムスタンプの整合性を確認して整合性を満たすように補正するという作業を自動的に行うことで、字幕に用いるために必要なメタデータ付テキストを自動化して生成することができる。連結パターン同士で照合したものに自動的に付与したタイムスタンプは、タイミングが同時になってしまったりして、タイムスタンプの時刻が単調増加にならなくなってしまうことがある。また、順番が前後してしまうこともある。さらに、話者識別の整合性がとれない場合もある。そのような前記連結パターンについてはタイムスタンプや話者識別のメタデータを自動的に補正する工程を設けることで、字幕に用いるメタデータに高い正確性を確保することができる。
この発明にかかるメタデータ付与装置は、
前記メタデータ付与手段が、前記照合を行う際に、前記台本内における位置と、前記放送の時間中における位置とを元に探索する範囲を限定する構成を採用することができる。番組が長くテキストが長大になる場合に、番組のテキスト全てを検索して照合すると処理負荷が大きく、本来の箇所とは違う箇所で照合できてしまう可能性も高くなる。探索範囲を予め絞り込んでおくことで、照合の負荷が軽減され、正確性も向上する。
また、この発明にかかるメタデータ付与装置は、
前記メタデータ付与手段が比較する連結パターンに用いる形態素分割されたテキストが、仮名化されたものである構成を採用することができる。音声認識の際に漢字変換が間違っている場合があり、そのままでは正しく分割されていても照合できなくなる場合がある。テキストを仮名化しておくことで、照合できる可能性を向上することができる。
この発明にかかるメタデータ付与方法は、台本を有する放送に表示する字幕に用いるテキストにメタデータを付与する字幕付与方法であって、
前記放送の少なくとも一部分を音声認識した音声認識テキストと、当該放送の前記一部分を含む台本のテキストである台本テキストとを形態素分割するステップと、
前記音声認識テキストと、前記台本テキストのそれぞれについて、形態素分割されたテキストを連結させた連結パターン同士を比較し、前記台本テキストの連結パターンができるだけ長い連結数となる連続して照合できた箇所に、前記音声認識テキストに由来するタイムスタンプを付与するステップと、
前記タイムスタンプを付与した前記台本テキストの各行について、前記タイムスタンプの整合性を確認するステップと、
整合性が満たされなかった行に対して、前後の整合性が満たされた行のタイムスタンプに基づいた補正タイムスタンプを付与するステップと、
を実行する。
この発明にかかるメタデータ付与プログラムは、コンピュータをメタデータ付与装置として機能させるためのプログラムである。
この発明にかかるメタデータ付与装置により、タイムスタンプや話者識別などのメタデータを付与した字幕用テキストが、オペレータの手作業を必要とすることなく高い精度で作成できる。
この発明の第一の実施形態にかかるメタデータ付与装置が処理するフローの例 台本の例を示す図 メタデータ付与テキストの例を示す図 トークデータの例を示すテーブル 台本テキストの例を示すテーブル (a)FS=1のときのテキスト照合部における出力フォーマットの例を示すテーブル、(b)FS=2のときのテキスト照合部における出力フォーマットの例を示すテーブル、(c)FS=3のときのテキスト照合部における出力フォーマットの例を示すテーブル 図1のメタデータ付与装置のテキスト照合部における処理フローの例図 音声認識テキストを形態素分割した出力フォーマットの例を示すテーブル 台本テキストを形態素分割した出力フォーマットの例を示すテーブル 図7のテキスト照合部のメタデータ付与ステップにおける処理フローの例図 音声認識テキストを形態素分割した結果のフォーマットの例を示すテーブル 音声認識テキストの形態素分割結果にメタデータを付与したフォーマットの例を示すテーブル 音声認識テキストの形態素分割結果から生成させた連結パターンの例を示すテーブル 台本テキストを形態素分割した結果のフォーマットの例を示すテーブル 台本テキストの形態素分割結果から生成させた連結パターンの例を示すテーブル 台本テキストの形態素分割した連結パターンに照合させたタイムスタンプを付与させた結果の例を示すテーブル 図16の例における各々の形態素の最大連結数の例を示すテーブル 図17の各々の形態素にタイムスタンプ及び話者識別を付与した例を示すテーブル 図18に示す各形態素のタイムスタンプを台本テキストの各行に付与し、台本テキストに代表するタイムスタンプを付与したフォーマットの例を示すテーブル 整合性確認ステップを行う台本テキストのフォーマットの例を示すテーブル 整合性フラグを付与した台本テキストのフォーマットの例を示すテーブル
以下、この発明について具体的な実施形態とともに詳細に説明する。この発明は、台本を有する放送に表示する字幕に用いるテキストにメタデータを付与するメタデータ付与装置、メタデータ付与方法、およびそのプログラムである。
図1に、この発明の第一の実施形態にかかるメタデータ付与装置1が処理するフローの例を示す。音声ファイル2と、台本3とが入力され、これらから得たデータをもとに、メタデータが付与された字幕用のテキストを生成する。台本3の中身の例を、テキストファイルとしたものを図2に示す。この発明において台本とは、放送の少なくとも一部分を含む発言内容をいう。この台本は具体的には、いわゆる脚本と呼ばれる撮影開始前に予め作られた複数の発言者とセリフとの組み合わせに限らず、一人の人間が読み上げ続けるニュースなどの原稿を含む。また、撮影開始前に作られたものに限られず、即興劇や街頭インタビューなどを含む放送内容を撮影してから速記して作成したテキストも含まれる。図2に示す台本3の例では一人の人間が読み上げる原稿を示している。また、この発明にかかるメタデータ付与装置によって得られるメタデータ付与テキストの例を図3に示す。
メタデータ付与装置1は、一台のコンピュータであってもよく、複数台のコンピュータによって形成されてもよい。ネットワーク上に存在するサーバであってもよく、仮想的なサーバであってもよい。以下に説明する各部、各手段は、コンピュータやサーバ、又はそれらの一部として実装される専用のハードウェアであってもよく、コンピュータ上や仮想サーバ上でソフトウェアとして実行可能な機能群であってもよい。
メタデータ付与装置1は、音声認識部11を有すると好ましい。音声認識部11は、字幕を付そうとする放送の一部又は全部を録音した音声ファイル2を取り込んで、音声認識により時刻データ付の音声認識テキストであるトークデータ4に変換する。ここで用いる音声ファイル2は、前記放送の内容を録音した音声ファイル2である。放送を録音して音声ファイル2を生成するにあたっては、マイクとオーディオインターフェースを有する別途の装置(図示せず)で予め行っておくとよい。音声ファイル2の形式はWAV形式、AIFF形式、mp3形式など、特に種類は限定されない。
音声認識部11のために用いるソフトウェアとしては、メタデータ付与装置1全体における話者識別フラグFSが、音声認識により話者識別を取得する設定(以下「FS=1」)となっている場合は、話者識別結果の出力が可能な音声認識エンジンを採用する。例えば、IBM社が提供する音声認識エンジンがこれにあたる。一方、メタデータ付与装置1全体における話者識別フラグFSが、文字認識により話者識別を取得する設定(以下「FS=2」)か又は話者識別を取得しない設定(以下「FS=3」)である場合には、特に種類を限定されず、Google社、Microsoft社、IBM社などが提供する音声認識エンジンを適宜選択して用いることができる。ただし、単にテキストを生成するだけでなく、音声ファイル2における時刻データ付のテキストを生じるものである必要がある。
なお、メタデータ付与装置1が音声認識部11を有さない場合は、音声認識部11と同様の機能を有する別の装置(図示せず)が音声ファイル2からトークデータ4を生成する(図1中O1)。その別の装置から出力されたトークデータ4を、記憶媒体やネットワークを介してメタデータ付与装置1に入力する。処理としては、図1中O1の代わりに後述するテキスト照合部13への入力とする。
トークデータ4は、音声認識テキストとそのテキストに該当する音声が話された時刻についての時刻データとを有する。この時刻データは標準時基準での時分秒まで含めたものでもよいし、音声ファイル2の開始の時点、または音声ファイル2の開始の時点に所定の値を足した時点からの経過時間であってもよい。これは例えば番組開始からそのセリフの出現時刻までの経過時間にあたる。例として図3に示すメタデータ付与テキストに付与されているのは、音声ファイル2の開始の時点からの経過時間である。
また、トークデータ4は、FS=1である場合には、音声認識部11が判別した話者の識別フラグを有する。音声ファイル2に複数の人間の声が含まれている場合、どの人間が喋った内容であるかを識別するものである。ただし、一人の話者の声のみが録音されている場合でも、当該話者の声である識別フラグが付されている形式としてよい。
このようなトークデータ4のフォーマットの例を図4に示す。行番号Nvoiceごとに区切られた音声認識テキストTextvoiceが羅列される。音声認識テキストTextvoiceは文節ごとではなく、ある程度の長さを持った文章の塊である。区切られる箇所は音声認識エンジンの設定により、特に限定されない。例えばセリフなどが所定の時間途切れた無声部分で区切られることが挙げられる。また、その文章の塊の開始時間Tvoice_startと終了時間Tvoice_stopとが各行に記録されている。時刻のフォーマットは、その音声ファイル2の開始時からの経過時間でもよいし、標準時基準でもよい。さらにFS=1であるトークデータ4では、各行の音声認識テキストTextvoiceの話者を識別する話者識別Svoiceを有する。話者識別Svoiceのフォーマットは自動的に付される番号などの識別符号であってもよいし、音声認識の際に各話者について入力した名前のテキスト情報であってもよい。なお、FS=2,3である場合は、話者識別Svoiceが無いフォーマットとなる。
この実施形態にかかるメタデータ付与装置1は、文字認識部12を有する。台本3が画像ファイルである場合に、画像ファイルを読み込んで文字認識(OCR)により台本のテキストである台本テキスト5を出力する。文字認識を行う文字認識エンジンとしては、Google社、Microsoft社、IBM社など一般的に提供されているエンジンを適宜用いることができる。また、FS=2のとき、画像ファイルにかかれている各セリフの話者を識別した話者識別を含めて出力される。一方、FS=1,3のときは話者識別を含まないで出力される。
台本3が紙の状態である場合には、カメラやスキャナなどの光学機器を用いて画像ファイルにしてから上記の文字認識部12に用いる。
このような台本テキスト5のフォーマットの例を図5に示す。ここではFS=2の場合を示す。例えば台本3を文字認識する場合は、元の台本3における各行の台本テキストが、それぞれの行番号Nocrを付されて台本テキストTextocrの各行となる。台本に書かれてある話者の欄も同様に文字認識して読み取り、各行のセリフの話者を識別できるように話者識別Socrとして出力する。ここで話者識別Socrはテキスト情報のままであってもよいし、その台本テキストに登場する話者をまとめて区別した識別情報であってもよい。
メタデータ付与装置1は、台本3がテキストデータである場合には、文字認識部12を有していなくてもよい。セリフが識別できるテキストであれば、そのまま後述するテキスト照合部13に台本テキスト5として入力してもよい。それぞれのセリフの話者が記録されたテーブル形式やXML形式その他の形式のテキストであれば、FS=2の条件の台本テキストとしてそのまま用いることができる。そうでない場合には、例えば上記図5に示すようなフォーマットに整形した上でテキスト照合部13に入力する。
メタデータ付与装置1は、上記の音声認識テキストを含むトークデータ4と上記の台本テキスト5とを入力(O1,O2)として、台本テキストにタイムスタンプを付与したメタデータを出力(O3)するテキスト照合部13を有する。テキスト照合部13における出力フォーマットの例を図6に示す。図6(a)はFS=1のときの出力フォーマット例であり、図6(b)はFS=2のときの出力フォーマット例であり、図6(c)はFS=3のときの出力フォーマット例である。各行の台本テキスト由来の台本テキストTextocrに、音声認識テキスト由来のタイムスタンプToutが付されるものとなる。FS=1とFS=2では話者識別Svoice又は話者識別Socrを有するが、その情報の参照元がFS=1では音声認識テキストであり、FS=2では台本テキストとなる。また、FS=3では話者識別を有さない。
このテキスト照合部13における処理フローの例を図7に示す。記載のように、形態素分割ステップS01、探索範囲設定ステップS02、メタデータ付与ステップS03、整合性確認ステップS04、補正ステップS05を行う。以降のステップにおいて使用する変数は次の通りである。
<音声認識側>
・nvoice:処理中行の番号。
・Nvoice:nvoiceに与えられたラベル名。
・Lvoice:全行数。
・Mvoice:処理中行の形態素。Mvoice(nvoice,i)としてアクセスする。
・NMvoice:処理中行の形態素数つまりiの最大値。
<OCR側>
・nocr:処理中行の番号。
・Nocr:nocrに与えられたラベル名。
・Locr:全行数。
・Mocr:処理中行の形態素。Mocr(nocr,i)としてアクセスする。
・NMocr:処理中行の形態素数つまりiの最大値。
まず、上記の音声認識テキストの入力(O1)と上記の台本テキストの入力に対して、それぞれを形態素分割する形態素分割手段を実行する形態素分割ステップ(S01)を行う。形態素分割するエンジンとしては、例えば、mecab、Juman等のツールが挙げられる。それぞれのテキストを形態素ごとに区切ることができるのであれば、特に種類は問わない。
また、形態素分割ステップ(S01)では、形態素に分割したテキストについて、さらに仮名化しておくと好ましい。仮名としてはひらがなでもカタカナでもよい。仮名化ツールとしては例えばひらがな化ツールであるkakasiが挙げられるが、特に限定されない。
上記の音声認識テキストを形態素分割した出力結果(O11)のフォーマット例を図8に示す。ここではFS=1の例を示す。FS=2,3の時は、話者識別Svoiceの項が存在しないフォーマットとなる。元の音声認識テキストに含まれていた音声認識テキストTextvoiceのそれぞれの行について、形態素分割結果として出力されるMvoice(nvoice、i)と、音声認識テキストTextvoice(nvoice)の形態素数NMvoice(nvoice)の項が付与される。Mvoice(nvoice、i)のiは1以上NMvoice(nvoice)以下の整数となる。例えば、元の音声認識テキストTextvoice(X1)が「音をそれぞれに分割して」であった場合、形態素分割してひらがな化したものは「おと、を、それぞれ、に、ぶんかつ、して」となる。このときNMvoice(X1)の値は形態素数である「6」であり、Mvoice(X1,1)が「おと」、Mvoice(X1,2)が「を」、Mvoice(X1,3)が「それぞれ」、Mvoice(X1,4)が「に」、Mvoice(X1,5)が「ぶんかつ」、Mvoice(X1,6)が「して」となる。この出力結果を、メタデータ付与ステップS03で用いる。
一方、上記の台本テキストを形態素分割した出力結果(O21)のフォーマット例を図9に示す。ここではFS=2の例を示す。FS=1,3の時は、話者識別Socrの項が存在しないフォーマットとなる。元の台本テキストに含まれていた台本テキストTextocrのそれぞれの行について、形態素分割結果として出力されるMocr(nocr,i)と、台本テキスト(nocr)の形態素数NMocr(nocr)の項が付与される。NMocr(nocr,i)のiは1以上NMocr(nocr)以下の整数となる。台本テキストの形態素分割結果Mocrの形式は、上記の音声認識テキストの形態素分割結果Mvoiceと同様となる。
この台本テキストを形態素分割した出力結果(O21)の各行に対して、0行目から最終行まで順次(図7中B1におけるnocr<LocrのYes/No分岐による)、音声認識テキストを形態素分割した出力結果(O11)と照合してメタデータ付与ステップ(S03)を行う。ただし、番組が長い場合に、両方のテーブルの全域について照合するのは時間がかかりすぎる場合がある。また、番組が短くてもテーブル全体に対して照合を行うと処理負荷が無駄に大きくなる。このため、番組が長い場合や、処理時間を短縮したい場合は、台本テキストの各行に対応する可能性が高く照合のために捜索する範囲を音声認識ファイルの一部に絞り込むように設定する探索範囲設定手段を実行する探索範囲設定ステップ(S02)を間に挟むと好ましい。
この探索範囲設定ステップとしては、例えば番組を前半と後半とに分けて、台本テキストの前半に該当する台本テキストTextocrに対応するテキストを捜索する箇所は、音声認識テキストの前半のみに絞る、という方法が挙げられる。前半と後半とは実時間で分割してもよいが、行番号の前半と後半とで分割してもよい。ただし、前半と後半とを分けるタイミングは音声認識テキストと台本テキストとのどちらも共通させておくとよい。または、タイミングを合わせて前半と後半とを一点で分割するのではなく、前半として捜索する箇所と後半として捜索する箇所との一部が重複するようにしてもよい。例えば、番組の前半にセリフが多く後半にセリフが少ない場合に台本テキストでは後半に入っていても時間経過上は前半のままというケースが想定され、またその逆も想定される。このため、半分の1.x倍(1.01倍~1.5倍程度)の範囲を捜索する箇所として、適宜倍率を選択できるようにしてもよいし、音声認識や文字認識の総テキスト量などから自動的に倍率を設定するようにしてもよい。
処理フローの例を挙げる。番組の時間長をTprogramとする。台本テキストTextocrの行番号nocrが、nocr<Locr/2のときすなわち行番号上の前半部分のとき、探索範囲R(nocr)は、Tvoice_start(nvoice)<(1.x/2)×Tprogramとなるnvoiceの最小と最大を探索範囲の開始と終了としてR(nocr)に設定する。nocr>Locr/2のときすなわち台本テキストTextocrの行番号nocrが行番号上の後半部分のとき、探索範囲R(nocr)は、Tvoice_start(nvoice)≧((1-0.x)/2)×Tprogramとなるnvoiceの最小と最大を探索範囲の開始と終了としてR(nocr)に設定する。
上記はあくまで探索範囲設定ステップS02の一例である。上記例では行数を元に前半後半で2分割しているが、例えば文字数を元に2分割してもよい。また、台本の中の分けられたセクションごとにわけてもよいし、数十秒単位にまで細かく分割してもよい。また、一旦探索して照合することができた台本データの末尾を記憶しておき、その箇所から例えば100~300文字程度のn文字後までを次の探索範囲とすれば、探索範囲を最小限に絞り込んで処理速度を速めることができる。この場合、その探索範囲で見つからなければ、次のn文字後までを次の探索範囲として同様に探索する。また、探索して照合が既にされた台本テキスト部分は、それ以降の探索範囲から除外すると、探索範囲をさらに好適に絞り込んで処理速度を速めることができる。細かく分割するほど照合の負荷は小さくなり、本来の箇所と異なる部分に照合させてしまうエラーは発生しにくくなる。一方で、単純分割でない場合には、各セクションが映像のどの部分であるかを対応させる必要があり、細かく分割するほどその対応させる処理のためにかえって処理負荷が増加する場合がある。単純に行数や時間で分割する場合は、対応関係を一致させる分の処理は容易になる。
次に、形態素分割した音声認識テキストの入力(O11)と形態素分割した文字テキストの入力(O21)の入力に対して、文字テキストにタイムスタンプを含むメタデータを付与して出力させるメタデータ付与手段を実行するメタデータ付与ステップ(S03)を行う。メタデータはタイムスタンプだけでなく、話者識別を含んでいてもよい。また、探索範囲設定ステップ(S02)を経ている場合には、文字テキストの入力O21が、探索範囲R(nocr)の指定とともに入力される。
メタデータ付与ステップ(S03)の具体的実施形態を図10に示すフロー例とともに説明する。まず音声認識テキスト側の第一の処理S031として、音声認識テキストの形態素分割結果Mvoiceについて、それぞれの分割された形態素ごとにタイムスタンプTMvoice、話者識別Svoiceを付与する。この処理は音声認識テキストTextvoiceの1行ごとに行う。処理対象の音声認識テキストTextvoiceのイメージ各変数は図11の通り定義する。ここでの内容は入力される図8に示すデータに対応する。すなわち、それぞれの音声認識テキストの形態素分割結果Mvoice(nvoice,i)の分割されたそれぞれの形態素についてタイムスタンプを付与する。処理中の行番号がnvoiceのとき、各形態素Mvoice(nvoice,i)へのタイムスタンプTMvoice(nvoice,i)、話者識別Svoiceを付与した出力フォーマット(O111)の例を図12に示す。タイムスタンプTMvoice(nvoice,i)は、音声認識結果の行内での話し方のスピードは一定であると仮定し、下式(1)により求める。
TMvoice(nvoice,i) = Tvoice_start(nvoice) + (Tvoice_stop(nvoice) - Tvoice_start(nvoice))*(i-1)/NMvoice(nvoice) ……(1)
また、文節の文字数が1の場合でも対応できるようにした対応式として、下記式(2)を用いてタイムスタンプTMVoice(nvoice,i)を求めることもできる。
TMvoice(nvoice,i) = Tvoice_start(nvoice) + (Tvoice_stop(nvoice) - Tvoice_start(nvoice))*num(i)/NUM ……(2)
なお、
・num(i):Mvoice(nvoice,i)の先頭文字について文頭からの文字数。
・NUM:Mvoice(nvoice,i)・・(i<=NMvoice(nvoice))に含まれる文字総数。
である。
次に、音声認識テキスト側の第二の処理S032として、「探索範囲設定ステップ」で設定した探索範囲R(nocr)に出現する処理対象の「音声認識テキストの形態素分割結果Mvoice」を連続的に複数個連結させた連結パターンを生成する。この生成と併せて、各連結パターンのタイムスタンプTMvoiceと話者識別Svoiceをまとめて出力する(O112)。その連結パターンの例を図13に示す。ここでは、「探索範囲設定ステップ」で設定した探索範囲に出現する「音声認識テキストの形態素分割結果Mvoice」をABCXとして例示している。元の音声認識テキストの該当行が「音をそれぞれに分割して」であった場合、連結パターンとしては「音」「を」「それぞれ」「に」「分割」「して」が連結数1のパターンである。「音を」「をそれぞれ」「それぞれに」「に分割」「分割して」が連結数2のパターンである。「音をそれぞれ」「をそれぞれに」「それぞれに分割」「に分割して」が連結数3のパターンである。「音をそれぞれに」「をそれぞれに分割」「それぞれに分割して」が連結数4のパターンである。
一方、台本テキスト側の第一の処理S033として、処理対象の「台本テキストの形態素分割結果Mocr」を連続的に複数個連結させた連結パターンを生成する。処理対象の台本テキストTextocr(nocr)のイメージを図14に示す。ここでの内容は入力される図9に示すデータに対応する。ここでは、「台本テキストの形態素分割結果Mocr」をABCDとして例示している。その生成される「台本テキストの形態素分割結果Mocr」の連結パターンの例を図15に示す。これがO211の出力となる。
なお、上記のS032とS033では、照合するテキストとして、それぞれ形態素の文字列を格納しているが、格納する情報はテキストから形態素分割した形態素の文字列に限定されない。例えば、それぞれの形態素を分類した品詞の情報などの、形態素そのものに関する情報を追加したり、文字列の代わりにそれらの情報に置き換えた上で照合してもよい。例えば、台本テキストで「富士山へ登山した」という文章を形態素分割すると、「富士山(名詞)」+「へ(助詞)」+「登山(名詞)」+「し(助動詞)」+「た(助動詞)」となる。この例において品詞の情報で照合するとは、形態素ではなく「名詞+助詞+名詞+助動詞+助動詞」の組み合わせで、音声テキストの複数行から検索し同一を判断する。また、形態素の文字列だけ見ると同一のパターンが複数ある場合は、形態素だけではなく品詞の情報を比較することで更に同一性を判断することで、照合の正確性を向上させることができる。
上記のS032とS033とを受けた次の処理S034として、S032の出力(O112)と、S033の出力(O211)とを照合する。すなわち、これらは音声認識テキストを形態素分割した結果を連続的に複数個連結させた連結パターンと、台本テキストを形態素分割した結果を連続的に複数個連結させた連結パターンとを、探索範囲で一致する範囲で照合する。照合できた箇所には、台本テキスト由来の連結パターン(例:図15)のそれぞれについて、それと照合できた音声認識テキストの連結パターン(例:図13)が有するタイムスタンプTMvoiceを、タイムスタンプTMocrとして付与する。照合できなかった部分については空欄のままとする。またFS=1の場合、台本テキスト由来のそれぞれの連結パターンに、それと照合できた連結パターンの音声認識テキスト由来の話者識別Svoiceも併せて付与する。このFS=1の場合の照合させた出力結果(O212)の例を図16に示す。「ABC」までは一致する連結パターンが互いに存在するが、「D」は台本テキスト由来の形態素分割に現れるものの、音声認識テキスト由来の形態素分割には現れない。このため、「D」が含まれる連結パターンは照合することができず、タイムスタンプTMocrと話者識別Svoiceが空欄となっている。一方、照合できた連結パターンについては、その連結パターンの冒頭部の開始時刻に対応するタイムスタンプが付される。
上記のS034を受けた次の処理S035として、処理対象の台本テキストの形態素への最大連結数を付与する。最大連結数とは、その形態素が含まれる連結パターンのうち、照合ができたものの中から連結した形態素の数が最も多くなった数である。上記の図16の例であると、形態素分割結果「A」「B」「C」は、様々に組み合わせた連結パターンのうち、「ABC」とした連結パターンが、照合できた中では最も多い個数の形態素が連結されたものである。したがって、これらの形態素分割結果Mocr(nocr,i)の最大連結数Nconnect(i)としては3を付与する。一方、「D」を含む連結パターンはいずれも照合できなかった。このため、「D」の最大連結数Nconnect(i)としては0を付与する。このように出力されるフォーマットの例を図17に示す。このように最大連結数が付されたものが、最大連結数付与結果O213として出力される。
上記のS035を受けた次の処理S036として、台本テキストを形態素分割した形態素のうち、最大連結数が2以上の形態素に、タイムスタンプを付与する。また、FS=1,2の場合は話者識別も付与する。そのフォーマットの例を図18に示す。さらに、台本テキストの行番号単位(図9参照)で、各行を代表するタイムスタンプTout(nocr)と、話者識別Sout(nocr)を設定して出力する。このように出力されるフォーマットの例を図19に示す。ここで、各行を代表するタイムスタンプTout(nocr)は、TMocr(nocr,i)の最小値を設定することや、i=1の値を設定することが挙げられる。代表として有用な選択手法であれば特にこれらに限定されない。この代表するタイムスタンプは後述する整合性確認手段と補正手段で補正されるため厳密なものではないが、補正が少なくなるほど負荷も小さくなる。また、話者識別Sout(nocr)は、Svoice(i)の中で最頻の話者識別を採用することが考えられる。これは、自動的な話者識別が低い確率で誤っていたとしても、最頻の話者識別を採用するようにすることで、一部が誤っていても訂正しやすい。こうして暫定的なタイムスタンプToutと、FS次第では話者識別Soutとがメタデータとして付与された台本テキスト(O214)が出力される。
ここまでがメタデータ付与ステップS03で行われるメタデータ付与手段の実施形態例である。探索範囲を設定している場合(S02)、一つの探索範囲についてメタデータの付与を行ったら(O214)、最後の探索範囲に到達するまで(B1→Yes)、順次次の探索範囲について同様の処理を行う(S02,S03)。最後の探索範囲に到達したら、又は最初から探索範囲が全体であった場合には、次の整合性確認ステップS04へ移る。
上記のメタデータが付与された台本テキスト(O214→O215)に対して、次の処理により整合性を確認して整合性フラグFcを追加する整合性確認手段を実行する整合性確認ステップS04を行う。整合性確認手段を適用する前のフォーマットの例を図20に示す。各行の内容は図19と同様の構成であり、それが台本テキストにおける行番号の全てについて揃ったものである。
整合性確認ステップS04としてはまず前段として、この各行に対して、行内のタイムスタンプTMocrが単調増加になっているか否かを判定する。この判定に従い、各行の暫定的なタイムスタンプのうち、問題があるものに対して、第一補正を行う。一つの行を構成する複数の形態素のタイムスタンプが、前の形態素のタイムスタンプに対して次の形態素のタイムスタンプが単調増加になっていない、すなわちタイムスタンプが同一又は減少になっているタイムスタンプとなった行に対して、最大連結数が最大となる形態素のタイムスタンプTMocr(nocr,i)のみを残し、それ以外を除外する。さらに、タイムスタンプTout(nocr)は、最大連結数が最大となる形態素に付与されたタイムスタンプTMocr(nocr,i)のうちの最小値に変更する。これはすなわち、その行のタイムスタンプとして最も信頼性の高いことが見込まれる数値に修正している。このような前段の処理により、予備的な補正がされ、S04内の後段の処理の精度を上げる効果がある。S04の前段としてこの各行への処理を全行に亘って行った後、次の処理へ移る。
なお、上記の整合性確認ステップS04の前段の処理をこの段階で行うのではなく、メタデータ付与ステップS03の中で行ってもよい。その場合、整合性確認ステップS04としては前段の処理を省略し、次の後段の処理のみを行うようにする。
整合性確認ステップS04の後段としては次に、整合性の確認結果を付与する。具体的には、上記の判定と第一補正を行った後、各行について前後の行のタイムスタンプToutを比較し、行間のタイムスタンプToutが単調増加になっているか否かを判定する。前の行に対して単調増加になっている場合には、整合性が満たされたものとして、その行の整合性フラグFc=0とする。前の行に対して単調増加になっていない場合には、整合性が満たされなかったものとして、その行の整合性フラグFc=1とする。この整合性フラグを付したフォーマットの例を図21に示す。このような整合性確認結果を付与したデータを出力する(O216)。
整合性を確認し、整合性が満たされなかったフラグを付された台本テキスト(O216)に対して、補正手段を実行する補正ステップS05を行う。整合性が満たされなかった行であるFc=1の行に対して、Fc=0である前後の行のタイムスタンプToutから補正タイムスタンプToutを求める。なお、Fc=1の行が複数行連続している場合はそれらの複数行をまとめて、Fc=0である前後の行から補正タイムスタンプToutを求める。Fc=1である行には、求められた補正タイムスタンプToutを付与する。すなわち、Fc(nocr-1)=0、Fc(nocr+p-1)=1,Fc(nocr+p)=0(p>0)の場合には、それらのFc=1である行の補正タイムスタンプToutを次式(3)により求める。
Tout(nocr+q) = Tout(nocr -1) + (Tout(nocr +p) - Tout(nocr -1))/(p+1) * q (0 =< q < p) ・・(3)
また、上記の補正ステップでは合わせて、話者識別を補正した補正話者識別を付与すると好ましい。補正話者識別Socr(nocr+q)は、Fc=0となる連続するp行において最頻の話者識別Soutに置換する。
この発明にかかるメタデータ付与装置、メタデータ付与方法を用い、以上の補正ステップにより補正された補正タイムスタンプを付与された台本テキストは、音声認識テキストとの照合を連結パターン同士の比較によって行うことで照合の精度を高めて暫定的なタイムスタンプを付与された上で、さらに前後関係を踏まえて補正された補正タイムスタンプに修正されているため、人の判断が入らない機械的な処理ながら、正確性の高いタイムスタンプを有する台本テキストが得られる。これにより、台本のある放送において正確性の高い字幕の表示が自動的に行える。
特に、日本語を音声認識した場合、誤変換ではないが人名や同音異義語など当該番組で適切な漢字に変換できない場合が多い。台本テキストを元にした字幕では人名や同音異義語の変換の誤りが極めて少ないことから、単純な音声認識テキストを用いるよりも、固有名詞の正確性が高くなる。また、完成した字幕について、音声認識テキストと台本テキストとの変換の規則性を学習することで、音声認識テキストを得るための音声認識エンジンの精度を向上させることができる。
1 メタデータ付与装置
2 音声ファイル
3 台本
4 トークデータ
5 台本テキスト
11 音声認識部
12 文字認識部
13 テキスト照合部

Claims (7)

  1. 放送に表示する字幕に用いるテキストにメタデータを付与するメタデータ付与装置であって、
    前記放送の少なくとも一部分を音声認識した音声認識テキストと、当該放送の前記一部分を含む発言内容である台本のテキストである台本テキストとをそれぞれ形態素分割する形態素分割手段と、
    前記音声認識テキストと、前記台本テキストのそれぞれについて、形態素分割されたテキスト同士を比較し、一致度が高い箇所に、前記音声認識テキストに由来するタイムスタンプを含むメタデータを付与するメタデータ付与手段と、
    を実行するメタデータ付与装置。
  2. 上記メタデータ付与手段における、一致度が高い箇所が、
    前記音声認識テキストと、前記台本テキストのそれぞれについて、形態素分割されたテキストを連続的に複数個連結させた連結パターン同士を比較し、前記台本テキストの連結パターンができるだけ長い連結数となる連続して照合できた箇所である
    請求項1に記載のメタデータ付与装置。
  3. 前記メタデータ付与手段により前記タイムスタンプを付与した前記台本テキストの各行について、前記タイムスタンプの整合性を確認する整合性確認手段と、
    整合性が満たされなかった行に対して、前後の整合性が満たされた行の前記タイムスタンプに基づいた補正タイムスタンプを付与する補正手段と、
    を有する請求項1又は2に記載のメタデータ付与装置。
  4. 前記メタデータ付与手段が、前記照合を行う際に、前記台本内における位置と、前記放送の時間中における位置とを元に探索する範囲を限定する
    請求項2又は3に記載のメタデータ付与装置。
  5. 前記メタデータ付与手段が比較する連結パターンに用いる形態素分割されたテキストが、仮名化されたものである、請求項1乃至4のいずれかに記載のメタデータ付与装置。
  6. 台本を有する放送に表示する字幕に用いるテキストにメタデータを付与する字幕付与方法であって、
    前記放送の少なくとも一部分を音声認識した音声認識テキストと、当該放送の前記一部分を含む台本のテキストである台本テキストとをそれぞれ形態素分割するステップと、
    前記音声認識テキストと、前記台本テキストのそれぞれについて、形態素分割されたテキストを連続的に複数個連結させた連結パターン同士を比較し、前記台本テキストの連結パターンができるだけ長い連結数となる連続して照合できた箇所に、前記音声認識テキストに由来するタイムスタンプを付与するステップと、
    を実行するメタデータ付与方法。
  7. コンピュータを、請求項1乃至5のいずれか1項に記載のメタデータ付与装置として機能させるためのプログラム。
JP2021096807A 2021-06-09 2021-06-09 台本へのメタデータ付与装置、方法、およびプログラム Active JP7216771B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021096807A JP7216771B2 (ja) 2021-06-09 2021-06-09 台本へのメタデータ付与装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021096807A JP7216771B2 (ja) 2021-06-09 2021-06-09 台本へのメタデータ付与装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2022188622A true JP2022188622A (ja) 2022-12-21
JP7216771B2 JP7216771B2 (ja) 2023-02-01

Family

ID=84532304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021096807A Active JP7216771B2 (ja) 2021-06-09 2021-06-09 台本へのメタデータ付与装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7216771B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000270263A (ja) * 1999-03-17 2000-09-29 Telecommunication Advancement Organization Of Japan 自動字幕番組制作システム
JP2003186491A (ja) * 2001-12-13 2003-07-04 Telecommunication Advancement Organization Of Japan 電子化テキスト作成支援システム
JP2003244539A (ja) * 2002-02-18 2003-08-29 Telecommunication Advancement Organization Of Japan 逐次自動字幕制作処理システム
JP2005258198A (ja) * 2004-03-12 2005-09-22 Internatl Business Mach Corp <Ibm> 設定装置、プログラム、記録媒体、及び設定方法
JP2009182859A (ja) * 2008-01-31 2009-08-13 Ntt Communications Kk 字幕出力装置、字幕出力方法、及びプログラム
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000270263A (ja) * 1999-03-17 2000-09-29 Telecommunication Advancement Organization Of Japan 自動字幕番組制作システム
JP2003186491A (ja) * 2001-12-13 2003-07-04 Telecommunication Advancement Organization Of Japan 電子化テキスト作成支援システム
JP2003244539A (ja) * 2002-02-18 2003-08-29 Telecommunication Advancement Organization Of Japan 逐次自動字幕制作処理システム
JP2005258198A (ja) * 2004-03-12 2005-09-22 Internatl Business Mach Corp <Ibm> 設定装置、プログラム、記録媒体、及び設定方法
JP2009182859A (ja) * 2008-01-31 2009-08-13 Ntt Communications Kk 字幕出力装置、字幕出力方法、及びプログラム
JP2010233019A (ja) * 2009-03-27 2010-10-14 Kddi Corp 字幕ずれ補正装置、再生装置および放送装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丸山一郎、外3名: "ワードスポッティングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法", 電子情報通信学会論文誌, vol. 第85巻、第2号, JPN6022030077, February 2002 (2002-02-01), JP, pages 184 - 192, ISSN: 0004835111 *
西沢容子、外1名: "字幕表示のための音声とテキストの自動対応付け手法とその評価", 電子情報通信学会技術研究報告, vol. 第103巻、第633号, JPN6022030079, 30 January 2004 (2004-01-30), JP, pages 7 - 12, ISSN: 0004835112 *
谷村正剛、外1名: "テレビドラマのシナリオと音声トラックの自動対応付け", 情報処理学会研究報告, vol. 第99巻、第49号, JPN6022030076, 28 May 1999 (1999-05-28), JP, pages 23 - 29, ISSN: 0004835110 *

Also Published As

Publication number Publication date
JP7216771B2 (ja) 2023-02-01

Similar Documents

Publication Publication Date Title
US8515755B2 (en) Replacing text representing a concept with an alternate written form of the concept
US9066049B2 (en) Method and apparatus for processing scripts
US6442518B1 (en) Method for refining time alignments of closed captions
US7676373B2 (en) Displaying text of speech in synchronization with the speech
US8041565B1 (en) Precision speech to text conversion
US7881930B2 (en) ASR-aided transcription with segmented feedback training
US20160133251A1 (en) Processing of audio data
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US20030083885A1 (en) Method of and system for transcribing dictations in text files and for revising the text
WO2007022058A9 (en) Processing of synchronized pattern recognition data for creation of shared speaker-dependent profile
US9635219B2 (en) Supplementary media validation system
CN105931641B (zh) 字幕数据生成方法和装置
US20190221213A1 (en) Method for reducing turn around time in transcription
WO2004093078A1 (en) Process for adding subtitles to video content
WO2014033855A1 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP7216771B2 (ja) 台本へのメタデータ付与装置、方法、およびプログラム
JP5243886B2 (ja) 字幕出力装置、字幕出力方法及びプログラム
JP2001282779A (ja) 電子化テキスト作成システム
JP2003186491A (ja) 電子化テキスト作成支援システム
CN116153293A (zh) 基于动态规划的长音频和文本对齐方法
JP2002091967A (ja) 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP7481894B2 (ja) 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法
JP2004334133A (ja) 字幕番組データ制作システム
Ahmer et al. Automatic speech recognition for closed captioning of television: data and issues
WO2004100164A1 (en) Voice script system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230120

R150 Certificate of patent or registration of utility model

Ref document number: 7216771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150