JP2000324394A - Method for automatically dividing title character text - Google Patents

Method for automatically dividing title character text

Info

Publication number
JP2000324394A
JP2000324394A JP11127591A JP12759199A JP2000324394A JP 2000324394 A JP2000324394 A JP 2000324394A JP 11127591 A JP11127591 A JP 11127591A JP 12759199 A JP12759199 A JP 12759199A JP 2000324394 A JP2000324394 A JP 2000324394A
Authority
JP
Japan
Prior art keywords
sentence
subtitle
line
characters
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11127591A
Other languages
Japanese (ja)
Other versions
JP4140744B2 (en
Inventor
Eiji Sawamura
英治 沢村
Takao Monma
隆雄 門馬
Takahiro Fukushima
孝博 福島
Ichiro Maruyama
一郎 丸山
Terumasa Ebara
暉将 江原
Katsuhiko Shirai
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
NEC Corp
Telecommunications Advancement Organization
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Mitsubishi Electric Corp
NEC Corp
Nippon Hoso Kyokai NHK
Telecommunications Advancement Organization
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, NEC Corp, Nippon Hoso Kyokai NHK, Telecommunications Advancement Organization, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Mitsubishi Electric Corp
Priority to JP12759199A priority Critical patent/JP4140744B2/en
Publication of JP2000324394A publication Critical patent/JP2000324394A/en
Application granted granted Critical
Publication of JP4140744B2 publication Critical patent/JP4140744B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To automatically divide a title text being the base of a title into presentation unit titles following a prescribed title presentation format by inserting a blank line into the appropriate space of an extracted unit title sentence when the number of characters in a final line is small, and extending the length of a presentation continuing time related with the final line. SOLUTION: When the final presentation unit title of a unit title sentence extracted from a title sentence text as necessary is a signal line, and the number of characters in the final line is small, a blank line is inserted into the appropriate space of the extracted unit title sentence. Thus, the length of a presentation continuing time related with the final line can be extended. For example, in an automatic title program production system 11, a presentation unit title preparing part 35 is provided with a function for converting the unit title sentence extracted by a unit title sentence extracting part 33 into at least one presentation unit title following a desired presentation format based on the unit title sentence extracted by the unit title sentence extracting part 33, dividable part information added to the unit title sentence, and information from a synchronization detecting device 15 or the like.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ほぼ共通の電子化
原稿をアナウンス用と字幕用の双方に利用する形態を想
定して字幕番組を制作する字幕番組制作システムに適用
される字幕文テキストの分割方法に係り、特に、本発明
で提案するアナウンス音声と字幕文テキスト間の同期検
出技術、及び日本語の特徴解析手法を用いたテキスト分
割技術等を適用することにより、字幕の基となる字幕文
テキストを、所定の字幕提示形式に従う提示単位字幕へ
自動的に分割し得る字幕文テキストの自動分割方法に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a closed caption text production system applied to a closed caption program production system for producing a closed caption program on the assumption that a substantially common digitized original is used for both announcement and subtitle. Regarding the division method, in particular, by applying the synchronization detection technology between the announcement voice and the subtitle sentence text proposed in the present invention, and the text division technology using Japanese feature analysis method, etc. The present invention relates to an automatic subtitle sentence text division method that can automatically divide sentence text into presentation unit subtitles according to a predetermined subtitle presentation format.

【0002】[0002]

【従来の技術】現代は高度情報化社会と一般に言われて
いるが、聴覚障害者は健常者と比較して情報の入手が困
難な状況下におかれている。
2. Description of the Related Art Today, it is generally referred to as an advanced information society, but hearing impaired persons are in a situation where it is difficult to obtain information as compared with healthy persons.

【0003】すなわち、例えば、情報メディアとして広
く普及しているTV放送番組を例示して、日本国内の全
TV放送番組に対する字幕番組の割合に言及すると、欧
米では33〜70%に達しているのに対し、わずか10
%程度ときわめて低くおかれているのが現状である。
That is, for example, a TV broadcast program which is widely used as an information medium is exemplified, and when the ratio of a subtitle program to all TV broadcast programs in Japan is referred to, it reaches 33 to 70% in Europe and the United States. Only 10
At present, it is extremely low at about%.

【0004】[0004]

【発明が解決しようとする課題】さて、日本国内の全T
V放送番組に対する字幕番組の割合が欧米と比較して低
くおかれている要因としては、主として字幕番組制作技
術の未整備を挙げることができる。具体的には、日本語
特有の問題も有り、字幕番組制作工程のほとんどが手作
業によっており、多大な労力・時間・費用を要するため
である。
Now, all T in Japan
The reason why the ratio of subtitle programs to V broadcast programs is lower than in Europe and the United States is mainly due to the lack of subtitle program production technology. Specifically, there is also a problem unique to Japanese, and most of the subtitle program production processes are manually performed, requiring a great deal of labor, time, and cost.

【0005】そこで、本発明者らは、字幕番組制作技術
の整備を妨げている原因究明を企図して、現行の字幕番
組制作の実体調査を行った。
[0005] Therefore, the present inventors conducted a substantive investigation on the current production of subtitled programs in an attempt to investigate the cause of hindrance to the development of subtitled program production technology.

【0006】図8の左側には、現在一般に行われている
字幕番組制作フローを示してある。ステップS101に
おいて、字幕番組制作者は、タイムコードを映像にスー
パーした番組データと、タイムコードを音声チャンネル
に記録した番組テープと、番組台本との3つの字幕原稿
作成素材を放送局から受け取る。なお、図中において
「タイムコード」を「TC」と略記する場合があること
を付言しておく。
[0008] The left side of FIG. 8 shows a subtitle program production flow that is currently generally performed. In step S101, the subtitle program creator receives three subtitle manuscript creation materials, that is, program data in which the time code is superimposed on video, a program tape in which the time code is recorded on an audio channel, and a program script. Note that in the drawings, “time code” may be abbreviated as “TC”.

【0007】ステップS103において、放送関係経験
者等の専門家は、ステップS101で受け取った字幕原
稿作成素材を基に、(1)番組アナウンスの要約書き起
こし、(2)別途規定された字幕提示の基準となる原稿
作成要領に従う字幕提示イメージ化、(3)その開始・
終了タイムコード記入、の各作業を順次行ない、字幕原
稿を作成する。
In step S103, the expert, such as a person who has broadcast experience, based on the subtitle manuscript preparation material received in step S101, (1) transcribes the summary of the program announcement, and (2) prepares the separately specified subtitle presentation. Caption presentation image according to the standard manuscript preparation procedure, (3) Start
The work of inputting the end time code is sequentially performed to create a subtitle manuscript.

【0008】ステップS105において、入力オペレー
タは、ステップS103で作成された字幕原稿をもとに
電子化字幕を作成する。
In step S105, the input operator creates digitized subtitles based on the subtitle manuscript created in step S103.

【0009】ステップS107において、ステップS1
05で作成された電子化字幕を、担当の字幕制作責任
者、原稿作成者、及び入力オペレータの三者立ち会いの
もとで試写・修正を行い、完成字幕とする。
In step S107, step S1
The digitized subtitles created in step 05 are previewed and corrected in the presence of the caption production manager in charge, the manuscript creator, and the input operator to make the completed subtitles.

【0010】ところで、最近では、番組アナウンスの要
約書き起こしと字幕の電子化双方に通じたキャプション
オペレータと呼ばれる人材を養成することで、図8の右
側に示す改良された現行字幕制作フローも一部実施され
ている。
[0010] Recently, by training a human resource called a caption operator who has been involved in both the summary transcription of program announcements and the digitization of subtitles, the improved current subtitle production flow shown on the right side of FIG. It has been implemented.

【0011】すなわち、ステップS111において、字
幕番組制作者は、タイムコードを音声チャンネルに記録
した番組テープと、番組台本との2つの字幕原稿作成素
材を放送局から受け取る。
That is, in step S111, the subtitle program maker receives two subtitle manuscript creation materials, a program tape in which a time code is recorded on an audio channel, and a program script.

【0012】ステップS113において、キャプション
オペレータは、タイムコードを音声チャンネルに記録し
た番組テープを再生し、セリフの開始点でマウスのボタ
ンをクリックすることでその点の音声チャンネルから始
点タイムコードを取り出して記録する。さらに、セリフ
を聴取して要約電子データとして入力するとともに、字
幕原稿作成要領に基づく区切り箇所に対応するセリフ点
で再びマウスのボタンをクリックすることでその点の音
声チャンネルから終点タイムコードを取り出して記録す
る。これらの操作を番組終了まで繰り返して、番組全体
の字幕を電子化する。
In step S113, the caption operator reproduces the program tape having the time code recorded on the audio channel, and clicks the mouse button at the start point of the dialog to extract the start time code from the audio channel at that point. Record. Furthermore, while listening to the dialogue and inputting it as summary electronic data, clicking the mouse button again at the dialogue point corresponding to the break point based on the subtitle manuscript creation procedure, extracting the end point time code from the audio channel at that point Record. These operations are repeated until the end of the program, and the subtitles of the entire program are digitized.

【0013】ステップS117において、ステップS1
05で作成された電子化字幕を、担当の字幕制作責任
者、及びキャプションオペレータの二者立ち会いのもと
で試写・修正を行い、完成字幕とする。
In step S117, step S1
The digitized subtitles created in step 05 are previewed and modified under the attendance of the caption production manager in charge and the caption operator to obtain completed subtitles.

【0014】後者の改良された現行字幕制作フローで
は、キャプションオペレータは、タイムコードを音声チ
ャンネルに記録した番組テープのみを使用して、セリフ
の要約と電子データ化を行うとともに、提示単位に分割
した字幕の始点/終点にそれぞれ対応するセリフのタイ
ミングでマウスボタンをクリックすることにより、音声
チャンネルの各タイムコードを取り出して記録するもの
であり、かなり省力化された効果的な字幕制作フローと
いえる。
In the latter improved current subtitle production flow, the caption operator uses only a program tape in which a time code is recorded on an audio channel to summarize and convert the dialogue into words and to divide it into presentation units. By clicking the mouse button at the timing of the dialog corresponding to the start point / end point of the subtitle, each time code of the audio channel is taken out and recorded, which can be said to be an effective subtitle production flow with considerably reduced labor.

【0015】さて、上述した現行字幕制作フローにおけ
る一連の処理の流れの中で特に多大な工数を要するの
は、ステップS103乃至S105又はステップS11
3の、(1)番組アナウンスの要約書き起こし、(2)
字幕提示イメージ化、(3)その開始・終了タイムコー
ド記入、の各作業工程であり、これらの作業工程は熟練
者の知識・経験に負うところが大きい。
The reason why a particularly large number of man-hours are required in a series of processing flows in the above-described current subtitle production flow is that steps S103 to S105 or step S11.
3. (1) Transcript of summary of program announcement, (2)
These are the work processes of subtitle presentation imaging and (3) entry of the start / end time code, and these work processes largely depend on the knowledge and experience of the skilled person.

【0016】しかし、現在放送中の字幕番組のなかで、
予めアナウンス原稿が作成され、その原稿がほとんど修
正されることなく実際の放送字幕となっていると推測さ
れる番組がいくつかある。例えば、「生きもの地球紀
行」という字幕付き情報番組を実際に調べて見ると、ア
ナウンス音声と字幕内容はほとんど共通であり、共通の
原稿をアナウンス用と字幕用の双方に利用しているもの
と推測出来る。
However, among the subtitle programs currently being broadcast,
There are some programs in which an announcement manuscript is created in advance, and the manuscript is assumed to be actual broadcast subtitles with little modification. For example, when actually examining an information program with subtitles called "The Life of the Earth", it is assumed that the announcement sound and subtitle content are almost the same, and that a common manuscript is used for both the announcement and subtitles I can do it.

【0017】このようにアナウンス音声と字幕内容が極
めて類似し、アナウンス用と字幕用の双方にほぼ共通の
原稿を利用しており、その原稿が電子化されている番組
を想定した場合、(1)の番組アナウンスの要約書き起
こし作業はほとんど必要ないことになる。この場合、残
る作業は、(2)の字幕提示イメージ化、及び(3)の
開始・終了タイムコード記入、の各作業工程である。そ
こで、本発明者らは、これら各作業工程の簡略化を企図
して鋭意研究を進めた結果、(2)の字幕提示イメージ
化を、人手を介することなく自動化できる新規な技術を
想到するに至ったのである。
As described above, the announcement sound and the subtitle contents are very similar, and a substantially common manuscript is used for both the announcement and the subtitle, and when a program in which the manuscript is digitized is assumed, (1) ) Will hardly need to be transcribed. In this case, the remaining operations are (2) subtitle presentation imaging and (3) start / end time code entry. The inventors of the present invention have intensively studied to simplify each of the work steps, and as a result, have come up with a novel technology that can automate the subtitle presentation image of (2) without human intervention. It has been reached.

【0018】本発明は、上述した実情に鑑みてなされた
ものであり、本発明で提案する音声と字幕文テキストの
同期検出技術、及び日本語の特徴解析手法を用いたテキ
スト分割技術等を適用することにより、字幕の基となる
字幕文テキストを、所定の字幕提示形式に従う提示単位
字幕へ自動的に分割し得る字幕文テキストの自動分割方
法を提供することを課題とする。
The present invention has been made in view of the above-mentioned circumstances, and employs a technique for detecting synchronization between speech and caption sentence text proposed in the present invention, a text segmentation technique using a Japanese character analysis technique, and the like. Accordingly, an object of the present invention is to provide an automatic subtitle text division method that can automatically divide a subtitle text serving as a base of a subtitle into presentation unit subtitles according to a predetermined subtitle presentation format.

【0019】[0019]

【課題を解決するための手段】上記課題を解決するため
に、請求項1の発明は、字幕番組を制作するにあたり、
少なくとも字幕の基となる字幕文テキストを、所定の字
幕提示形式に従う提示単位字幕へ分割する際に用いられ
る字幕文テキストの分割方法であって、前記字幕文テキ
ストのうち、文頭を起点とした所要文字数範囲を対象と
して、第1の所定時間を越える長さの第1の文末ポーズ
点、及び句点を全て抽出し、この抽出された第1の文末
ポーズ点のうち、特に、第1の所定時間と比較して長い
時間の第2の所定時間を越える長さの第2の文末ポーズ
点の存在有無を調査判定し、この調査判定の結果、第2
の文末ポーズ点が存在する旨の判定が下されたとき、前
記所要文字数範囲において文頭から起算して最初に現れ
た第2の文末ポーズ点までの範囲を単位字幕文として抽
出し、この抽出した単位字幕文を、第1の文末ポーズ点
の箇所で順次改行していくことにより、当該単位字幕文
の仮分割を行うとともに、この仮分割された複数の各行
について、一行当たりの文字数が、所定の字幕提示形式
で定義される一行当たりの制限文字数より少ない第1の
所定文字数以上か否かに係る各行文字数判定を順次行
い、この各行文字数判定の結果、一行当たりの文字数が
前記第1の所定文字数以上の条件に合致する該当行が存
在する旨の判定が下されたとき、この該当行の各々につ
いて、先頭からの文字数が第1の所定文字数に到達した
直後の箇所で再改行することにより、当該単位字幕文の
仮分割を行い、前記複数行に仮分割された単位字幕文の
総行数が奇数か又は偶数かに係る奇偶判定を行い、この
奇偶判定の結果、総行数が奇数である旨の判定が下され
たとき、前記仮分割された単位字幕文のうち、最終行の
文字数が、前記制限文字数より少ない第2の所定文字数
以上か否かに係る最終行文字数判定を行い、この最終行
文字数判定の結果、最終行の文字数が前記第2の所定文
字数以上の条件に合致しない旨の判定が下されたとき、
当該単位字幕文の文末から、第1の文末ポーズ点、句
点、又は再改行点の存在有無をこの優先順位に従って調
査し、これら各点のうち、奇偶行間に最初に現れた点を
含む行と、これの後続行間に空白行を挿入し、前記再改
行点の箇所を対象として、当該単位字幕文に関する改行
・改頁推奨箇所に係る分割ルールを適用することで再改
行箇所の最適化を実行することにより、前記字幕文テキ
ストを、所定の字幕提示形式に従う提示単位字幕へ自動
的に分割することを要旨とする。
Means for Solving the Problems In order to solve the above-mentioned problems, the invention of claim 1 relates to a method for producing a subtitle program.
A subtitle sentence text division method used to divide at least a subtitle sentence text serving as a base of a subtitle into presentation unit subtitles according to a predetermined subtitle presentation format, wherein the subtitle sentence text requires a start from the beginning of the sentence. All of the first sentence-ending pause points and the punctuation marks having a length exceeding the first predetermined time are extracted from the character number range, and among the extracted first sentence-ending pause points, in particular, the first predetermined time The presence / absence of a second sentence end pause point having a length exceeding a second predetermined time longer than the second time is investigated and determined.
When it is determined that the sentence end pause point exists, the range from the beginning of the sentence to the second sentence end pause point that appears first from the beginning of the sentence in the required character range is extracted as a unit subtitle sentence, and this extracted The unit subtitle sentence is tentatively divided at the position of the first sentence end pause point to temporarily divide the unit subtitle sentence, and the number of characters per line is determined by a predetermined number for each of the plurality of tentatively divided lines. The number of characters in each line is sequentially determined based on whether or not the number of characters is equal to or more than a first predetermined number of characters that is smaller than the limited number of characters per line defined in the closed caption presentation format. When it is determined that there is a corresponding line that satisfies the condition of the number of characters or more, a line feed is restarted at a position immediately after the number of characters from the beginning reaches the first predetermined number of characters for each of the corresponding lines. By performing the provisional division of the unit subtitle sentence, an odd / even judgment is performed as to whether the total number of lines of the unit subtitle sentence temporarily divided into the plurality of lines is odd or even. As a result of the odd / even judgment, When it is determined that the number is an odd number, the number of characters on the last line of the provisionally divided unit subtitle sentence according to whether or not the number of characters on the last line is equal to or greater than a second predetermined number of characters less than the limited number of characters When a determination is made that the number of characters in the last line does not meet the condition of the second predetermined number of characters or more,
From the end of the sentence of the unit subtitle sentence, the presence or absence of the first sentence end pause point, punctuation point, or line feed point is checked according to this priority, and among these points, a line including a point that appears first between odd and even lines is determined. After that, a blank line is inserted between continuation lines, and the line break point is optimized by applying the division rule related to the recommended line break / page break point for the unit subtitle sentence at the line break point. By doing so, the gist is to automatically divide the subtitle sentence text into presentation subtitles in accordance with a predetermined subtitle presentation format.

【0020】請求項1の発明によれば、まず、字幕の基
となる字幕文テキストのうち、文頭を起点とした所要文
字数範囲を対象として、第1の所定時間を越える長さの
第1の文末ポーズ点、及び句点を全て抽出し、この抽出
された第1の文末ポーズ点のうち、特に、第1の所定時
間と比較して長い時間の第2の所定時間を越える長さの
第2の文末ポーズ点の存在有無を調査判定する。この調
査判定の結果、第2の文末ポーズ点が存在する旨の判定
が下されたとき、前記所要文字数範囲において文頭から
起算して最初に現れた第2の文末ポーズ点までの範囲を
単位字幕文として抽出する。
According to the first aspect of the present invention, first, in the subtitle sentence text as the basis of the subtitle, the first character having a length exceeding the first predetermined time is set for the required character range starting from the beginning of the text. All the sentence-end pause points and the punctuation points are extracted, and among the extracted first sentence-end pause points, in particular, the second sentence that exceeds the second predetermined time which is longer than the first predetermined time. The presence or absence of a sentence end pause point is checked and determined. As a result of this investigation, when it is determined that the second sentence end pause point exists, the range from the beginning of the sentence to the second sentence end pause point that appears first from the beginning of the sentence in the required number of characters is unit subtitled. Extract as a sentence.

【0021】上述した処理が、第2の文末ポーズ点が存
在する場合における単位字幕文の抽出処理であり、本発
明では、抽出処理で抽出された単位字幕文を一つの処理
単位として取り扱い、以下に述べる各処理を順次実行す
る。この抽出処理において、字幕文テキストのなかか
ら、所要文字数範囲を限度とした単位字幕文を抽出する
にあたり、ある提示単位字幕中に相互に異なる内容に関
わる字幕が混在する事態を回避する等の趣旨から、抽出
された単位字幕文が共通したひとかたまりの意味をもつ
字幕文の集合体であることが好ましい。そこで、この抽
出処理では、相互に異なる内容に関わる単位字幕文間に
挿入される傾向がある、改頁推奨箇所とみなすことがで
きる比較的長い間隔をもったポーズである第2の文末ポ
ーズ点に着目し、字幕文テキストのうち、文頭から起算
して第2の文末ポーズ点までの範囲を単位字幕文として
抽出することにより、ひとかたまりの内容に関わる単位
字幕文を意図的に抽出するようにしている。
The above-described processing is the processing of extracting a unit subtitle sentence when the second sentence end pause point exists. In the present invention, the unit subtitle sentence extracted by the extraction processing is treated as one processing unit. Are sequentially executed. In this extraction processing, in extracting unit caption sentences within the required character range from caption sentence texts, the purpose is to avoid a situation where captions related to mutually different contents are mixed in a certain presentation unit caption. Therefore, it is preferable that the extracted unit subtitle sentences are a set of subtitle sentences having a common lump meaning. Therefore, in this extraction processing, the second sentence end pause point, which is a pause having a relatively long interval that can be regarded as a recommended page break, which tends to be inserted between unit subtitle sentences related to mutually different contents. By extracting the range from the beginning of the sentence to the second sentence pause point in the subtitle sentence text as a unit subtitle sentence, the unit subtitle sentence relating to the content of the block is intentionally extracted. ing.

【0022】次に、この抽出した単位字幕文を、第1の
文末ポーズ点の箇所で順次改行していくことにより、当
該単位字幕文の仮分割を行うとともに、この仮分割され
た複数の各行について、一行当たりの文字数が、所定の
字幕提示形式で定義される一行当たりの制限文字数より
少ない第1の所定文字数以上か否かに係る各行文字数判
定を順次行い、この各行文字数判定の結果、一行当たり
の文字数が前記第1の所定文字数以上の条件に合致する
該当行が存在する旨の判定が下されたとき、この該当行
の各々について、先頭からの文字数が第1の所定文字数
に到達した直後の箇所で再改行することにより、当該単
位字幕文の仮分割を行う。
Next, the extracted unit subtitle sentence is sequentially line-feeded at the position of the first sentence end pause point, so that the unit subtitle sentence is provisionally divided and the plurality of provisionally divided lines The number of characters per line is sequentially determined based on whether or not the number of characters per line is equal to or greater than a first predetermined number of characters that is less than the limited number of characters per line defined in a predetermined subtitle presentation format, and as a result of each line character number determination, When it is determined that there is a corresponding line whose number of hits is equal to or greater than the first predetermined number of characters, the number of characters from the beginning reaches the first predetermined number of characters for each of the corresponding lines. The unit subtitle sentence is provisionally divided by starting a new line at the position immediately after.

【0023】上述した処理が単位字幕文の仮分割処理で
あり、この仮分割処理を行う際に考慮すべき重要な点
は、適切箇所で改行を施すこと、及び一行当たりの文字
数が、所定の字幕提示形式で定義される一行当たりの制
限文字数内に収束すること、の2点である。そこで、前
者の適切箇所での改行については、文章の切れ目に挿入
される傾向がある、改行推奨箇所とみなすことができる
ある長さ間隔をもったポーズである第1の文末ポーズ点
に着目し、ひとかたまりの単位字幕文を、第1の文末ポ
ーズ点の箇所で順次改行していく一方で、後者の制限文
字数収束については、一行当たりの文字数が第1の所定
文字数以上の条件に合致する該当行の各々について、先
頭からの文字数が第1の所定文字数に到達した直後の箇
所で機械的に再改行することにより、一行当たりの文字
数が、制限文字数を越えない適切な文字数に収束するこ
とを考慮しながら、単位字幕文を適切箇所で仮分割する
ようにしている。
The above processing is the provisional division processing of unit subtitle sentences. Important points to be considered when performing the provisional division processing are that a line feed is performed at an appropriate place and that the number of characters per line is a predetermined number. Converge within the limited number of characters per line defined in the caption presentation format. Therefore, regarding the former line feed at an appropriate point, attention is paid to the first sentence end pause point, which is a pause with a certain length interval that can be regarded as a recommended line feed point, which tends to be inserted into a break in the text. While a group of unit subtitle sentences is sequentially line-feeded at the position of the first end-of-sentence pause point, the latter character convergence is limited to the case where the number of characters per line satisfies the condition of the first predetermined number of characters or more. For each line, the number of characters per line converges to an appropriate number of characters that does not exceed the limit by mechanically performing a line feed immediately after the number of characters from the beginning reaches the first predetermined number of characters. Considering this, the unit caption sentence is provisionally divided at an appropriate place.

【0024】次に、前記複数行に仮分割された単位字幕
文の総行数が奇数か又は偶数かに係る奇偶判定を行う。
この奇偶判定を行う趣旨は、例えば、所定の字幕提示形
式として、2行の提示単位字幕を一括総入れ換えする字
幕提示形式を採用した場合において、最終の提示単位字
幕が単独行になるか否かを振り分ける趣旨である。
Next, an odd / even judgment is made as to whether the total number of lines of the unit subtitle text provisionally divided into a plurality of lines is odd or even.
The purpose of performing the odd / even judgment is, for example, when a predetermined subtitle presentation format adopts a subtitle presentation format in which two lines of presentation unit subtitles are totally replaced, whether or not the final presentation unit subtitle is a single line This is the purpose of sorting.

【0025】上述した奇偶判定の結果、総行数が奇数で
ある旨の判定が下されたとき、前記仮分割された単位字
幕文のうち、最終行の文字数が、前記制限文字数より少
ない第2の所定文字数以上か否かに係る最終行文字数判
定を行い、この最終行文字数判定の結果、最終行の文字
数が前記第2の所定文字数以上の条件に合致しない旨の
判定が下されたとき、当該単位字幕文の文末から、第1
の文末ポーズ点、句点、又は再改行点の存在有無をこの
優先順位に従って調査し、これら各点のうち、奇偶行間
に最初に現れた点を含む行と、これの後続行間に空白行
を挿入する。
When it is determined that the total number of lines is an odd number as a result of the odd / even determination, a second line in which the number of characters in the last line of the provisionally divided unit subtitle sentences is smaller than the limited number of characters is determined. The final line number of characters is determined based on whether or not the number of characters is equal to or more than the predetermined number of characters.As a result of the final line number of characters determination, when it is determined that the number of characters of the last line does not meet the condition of the second predetermined number of characters or more, From the end of the unit subtitle sentence, the first
Check for the presence of a pause point, a punctuation mark, or a line break at the end of the sentence according to this priority. Of these points, insert a line that includes the first point between odd and even lines, and insert a blank line between subsequent lines. I do.

【0026】上述した処理が空白行挿入処理であり、こ
の空白行挿入処理を行う趣旨は、正確かつ確実な字幕提
示内容の読みとり把握を促進する趣旨である。これにつ
いて詳述すると、当該単位字幕文の総行数が奇数であ
り、かつ、最終行の文字数が第2の所定文字数以上の条
件に合致しない場合とは、最終の提示単位字幕が単独行
であり、しかも、この最終行の文字数が比較的少ない場
合を意味しており、この場合には、ある提示単位字幕の
提示継続時間長は、それに含まれる字幕文字数の多少に
依存するといった原則から、この最終行に関わる提示継
続時間長は必然的に短くなるため、最終行の字幕提示内
容を見逃してしまうおそれがある。特に、否定文では否
定語が文末におかれるといった日本語の特質上、例えば
この否定語部分を見逃してしまった場合には、本来の意
味を誤解してしまうことにもなりかねない。そこで、こ
のような場合には、当該単位字幕文の文末から、第1の
文末ポーズ点、句点、又は再改行点の存在有無をこの優
先順位に従って調査し、これら各点のうち、奇偶行間に
最初に現れた点を含む行と、これの後続行間に空白行を
挿入することにより、最終行に関わる提示継続時間長を
本来のものより意図的に長く引き延ばすことで、最終行
の字幕提示内容をうっかり見逃してしまうといった事態
を可及的に回避し、これをもって、正確かつ確実な字幕
提示内容の読みとり把握を促進するようにしている。
The process described above is a blank line insertion process, and the purpose of performing the blank line insertion process is to promote accurate and reliable reading and understanding of subtitle presentation contents. More specifically, the case where the total number of lines in the unit subtitle sentence is an odd number and the number of characters in the last line does not meet the condition of the second predetermined number of characters or more means that the final presentation unit subtitle is a single line. Yes, and this means that the number of characters in the last line is relatively small. In this case, the presentation duration of a certain presentation unit subtitle depends on the number of subtitle characters included in it. Since the presentation duration time related to the last line is inevitably shortened, there is a possibility that the subtitle presentation content of the last line may be overlooked. In particular, in the case of a negative sentence, if the negation part is overlooked due to the characteristic of Japanese such that the negation word is placed at the end of the sentence, the original meaning may be misunderstood. Therefore, in such a case, from the end of the sentence of the unit subtitle sentence, the presence or absence of a first sentence end pause point, a period, or a line feed point is checked according to this priority, and among these points, between the odd and even lines. By inserting a blank line between the line containing the first occurrence of the point and the subsequent line, the presentation duration of the last line is intentionally lengthened to be longer than the original, so that the subtitle presentation contents of the last line As a result, it is possible to avoid inadvertently overlooking the subtitles as much as possible, thereby promoting accurate and reliable reading and comprehension of the subtitle presentation contents.

【0027】そして、前記再改行点の箇所を対象とし
て、当該単位字幕文に関する改行・改頁推奨箇所に係る
分割ルールを適用することで再改行箇所の最適化を実行
することにより、前記字幕文テキストを、所定の字幕提
示形式に従う提示単位字幕へ自動的に分割する。
[0027] Then, by applying a division rule relating to a recommended line feed / page break for the unit subtitle sentence at the position of the line feed point, optimization of the line feed point is performed, whereby the subtitle sentence is obtained. The text is automatically divided into presentation unit subtitles according to a predetermined subtitle presentation format.

【0028】ここで、分割ルールを適用した再改行箇所
の最適化を実行する趣旨は、本来の改行箇所である第1
の文末ポーズ点では、分割ルールのうち「句点の後ろ」
の適格条件を既に満たしており、これを適用した最適化
の余地がないのに対し、先頭からの文字数が第1の所定
文字数に到達した直後の箇所で機械的に施される再改行
点では、分割ルールの適格条件を必ずしも満たしている
とは言えず、これを適用した最適化の余地があり、した
がって、この再改行箇所の最適化を実行することによ
り、単位字幕文の適切箇所における改行を保証する結果
として、字幕文テキストの、所定の字幕提示形式に従う
提示単位字幕への自動的な分割を担保する趣旨である。
Here, the purpose of executing the optimization of the line feed point applying the division rule is that the first line feed point, which is the original line feed point, is used.
At the end of the sentence at the end of the sentence
Although the eligibility condition has already been satisfied and there is no room for optimization using this, the re-feeding point that is mechanically performed at the point immediately after the number of characters from the beginning reaches the first predetermined number of characters is However, it cannot be said that the eligibility condition of the division rule is always satisfied, and there is room for optimization by applying the rule. As a result, the automatic division of the subtitle sentence text into presentation subtitles according to a predetermined subtitle presentation format is ensured.

【0029】このように、請求項1の発明によれば、本
発明で提案する日本語の特徴解析手法を用いたテキスト
分割技術を適用することにより、字幕の基となる字幕文
テキストを、所定の字幕提示形式に従う提示単位字幕へ
自動的に分割可能な字幕文テキストの自動分割方法を得
ることができる。
As described above, according to the first aspect of the present invention, by applying the text segmentation technique using the Japanese feature analysis technique proposed in the present invention, the caption sentence text serving as the , A method of automatically dividing subtitle sentence text that can be automatically divided into presentation unit subtitles according to the subtitle presentation format.

【0030】また、請求項1の発明によれば、字幕文テ
キストのなかから適宜抽出した単位字幕文のうち、最終
の提示単位字幕が単独行であり、しかも、この最終行の
文字数が比較的少ない場合には、抽出した単位字幕文の
うち、適宜の行間に空白行を挿入することにより、最終
行に関わる提示継続時間長を、本来のものより意図的に
長く引き延ばすようにしたので、したがって、最終行の
字幕提示内容をうっかり見逃してしまうといった事態を
可及的に回避することができる結果として、正確かつ確
実な字幕提示内容の読みとり把握を促進することができ
る。
According to the first aspect of the present invention, among the unit caption sentences appropriately extracted from the caption sentence text, the final presentation unit caption is a single line, and the number of characters in the last line is relatively small. In the case of a small number, in the extracted unit subtitle sentences, the blanking line was inserted between the appropriate lines, so that the presentation duration time related to the last line was intentionally extended to be longer than the original one. As a result, it is possible to avoid inadvertently overlooking the subtitle presentation content of the last line as a result, thereby promoting accurate and reliable reading and understanding of the subtitle presentation content.

【0031】また、請求項2の発明は、請求項1に記載
の字幕文テキストの自動分割方法であって、前記調査判
定の結果、第2の文末ポーズ点が存在しない旨の判定が
下されたとき、前記所要文字数範囲において文頭から起
算して最後に現れた第1の文末ポーズ点までの範囲を単
位字幕文として抽出し、この抽出した単位字幕文を対象
として、当該単位字幕文の仮分割を含む以下の処理を実
行することを要旨とする。
According to a second aspect of the present invention, there is provided the automatic subtitle sentence text dividing method according to the first aspect, wherein as a result of the investigation, it is determined that the second sentence end pause point does not exist. Then, in the required character range, the range from the beginning of the sentence to the last appearing first sentence pause point is extracted as a unit subtitle sentence, and the extracted unit subtitle sentence is targeted, and the temporary The gist is that the following processing including division is executed.

【0032】請求項2の発明によれば、前記調査判定の
結果、改頁推奨箇所とみなすことができる比較的長い間
隔をもったポーズである第2の文末ポーズ点が存在しな
い旨の判定が下されたとき、第2の文末ポーズ点に代え
て、改行推奨箇所とみなすことができるある長さ間隔を
もったポーズである第1の文末ポーズ点に着目し、前記
所要文字数範囲において文頭から起算して最後に現れた
第1の文末ポーズ点までの範囲を単位字幕文として抽出
し、この抽出した単位字幕文を対象として、当該単位字
幕文の仮分割を含む以下の処理を実行するので、したが
って、第2の文末ポーズ点が存在しない場合であって
も、可及的にひとかたまりの内容に関わる単位字幕文を
意図的に抽出することができる。
According to the second aspect of the present invention, as a result of the investigation, it is determined that there is no second sentence end pause point which is a pause having a relatively long interval which can be regarded as a recommended page break. When dropped, instead of the second sentence-pause point, attention is paid to the first sentence-end pause point, which is a pose having a certain length interval, which can be regarded as a recommended line feed point. Since the range up to the first sentence end pause point appearing last is extracted as a unit caption sentence, the following processing including the temporary division of the unit caption sentence is performed on the extracted unit caption sentence. Therefore, even when the second sentence end pause point does not exist, it is possible to intentionally extract a unit caption sentence related to a set of contents as much as possible.

【0033】さらに、請求項3の発明は、請求項1又は
2のうちいずれか一項に記載の字幕文テキストの自動分
割方法であって、前記第1の文末ポーズ点、句点、又は
再改行点を含む各点のうち、奇偶行間に最初に現れた点
を含む行と、これの後続行間に空白行を挿入した後に、
さらに、この挿入した空白行の直前行の文字数が、所定
の字幕提示形式で定義される一行当たりの制限文字数よ
り少ない第2の所定文字数以上か否かに係る直前行文字
数判定を行い、この直前行文字数判定の結果、直前行の
文字数が前記第2の所定文字数以上の条件に合致しない
旨の判定が下されたとき、当該単位字幕文の文末から、
第1の文末ポーズ点、句点、又は再改行点の存在有無を
この優先順位に従って調査し、これら各点のうち、前記
奇偶行間に現れた点の次に奇偶行間に現れた点を含む行
と、これの後続行間に空白行を挿入し、この空白行を挿
入した後に、前記直前行文字数判定以下の処理を、直前
行文字数判定の結果が、直前行の文字数が前記第2の所
定文字数以上の条件に合致するに至るまで繰り返し実行
することを要旨とする。
Further, the invention according to claim 3 is the method for automatically dividing caption text according to any one of claims 1 and 2, wherein the first sentence end pause point, punctuation mark, or line feed. After inserting the point containing the first point between the odd and even lines and the blank line between subsequent points,
Further, the number of characters in the immediately preceding line of the inserted blank line is determined based on whether or not the number of characters in the immediately preceding line is equal to or greater than a second predetermined number of characters smaller than the limited number of characters per line defined in the predetermined subtitle presentation format. As a result of the line character number determination, when it is determined that the number of characters in the immediately preceding line does not meet the condition of the second predetermined number of characters or more, from the end of the unit subtitle sentence,
The presence or absence of the first sentence end pause point, punctuation mark, or line feed point is checked according to this priority, and among these points, a line containing a point that appears between the odd-even lines after the point that appears between the odd-even lines, and After this, a blank line is inserted during the subsequent continuation, and after the blank line is inserted, the processing of the immediately preceding line character number determination or lower is performed, and the result of the immediately preceding line character number determination indicates that the number of characters of the immediately preceding line is equal to or greater than the second predetermined number of characters. The point is to repeatedly execute until the condition is satisfied.

【0034】請求項3の発明によれば、前記した空白行
挿入処理後に、さらに、この挿入した空白行の直前行の
文字数が、前記第2の所定文字数以上の条件に合致しな
い旨の判定が下されたとき、この直前行の提示継続時間
長を、本来のものより意図的に長く引き延ばすようにし
たので、したがって、直前行の字幕提示内容をうっかり
見逃してしまうといった事態を可及的に回避することが
できる結果として、正確かつ確実な字幕提示内容の読み
とり把握を促進することができる。
According to the third aspect of the present invention, after the blank line insertion processing, it is further determined that the number of characters in the line immediately before the inserted blank line does not satisfy the condition of the second predetermined number of characters or more. When it is dropped, the presentation duration of the previous line is intentionally lengthened to be longer than the original one, so that it is possible to avoid inadvertently overlooking the subtitle presentation contents of the previous line as much as possible. As a result, it is possible to promote accurate and reliable reading and comprehension of subtitle presentation contents.

【0035】さらにまた、請求項4の発明は、請求項1
乃至3のうちいずれか一項に記載の字幕文テキストの自
動分割方法であって、前記再改行点の箇所を対象とし
て、当該単位字幕文に関する改行・改頁推奨箇所に係る
分割ルールを適用することで再改行箇所の最適化を実行
した後に、前記抽出した単位字幕文に後続する字幕文の
存在有無に係る後続有無判定を行い、この後続有無判定
の結果、後続する字幕文が存在する旨の判定が下された
とき、当初の処理工程へと戻り、後続する字幕文につい
て以下の処理を繰り返す一方、後続する字幕文が存在し
ない旨の判定が下されたとき、字幕文テキストの自動分
割処理を終了することを要旨とする。
Further, the invention according to claim 4 is based on claim 1
4. The method for automatically dividing caption text according to any one of (3) to (3), wherein a division rule regarding a recommended line break / page break related to the unit caption text is applied to the re-break point. After performing the optimization of the line feed portion, a determination is made as to whether or not there is a subtitle sentence following the extracted unit subtitle sentence. When the determination is made, the process returns to the initial processing step, and the following processing is repeated for the subsequent subtitle sentence. When it is determined that there is no subsequent subtitle sentence, the automatic division of the subtitle sentence text is performed. The point is to end the processing.

【0036】請求項4の発明によれば、前記再改行点の
箇所を対象として、当該単位字幕文に関する改行・改頁
推奨箇所に係る分割ルールを適用することで再改行箇所
の最適化を実行した後に、前記抽出した単位字幕文に後
続する字幕文が存在する旨の判定が下されたとき、当初
の処理工程へと戻り、後続する字幕文について以下の処
理を繰り返す一方、後続する字幕文が存在しない旨の判
定が下されたとき、字幕文テキストの自動分割処理を終
了するので、したがって、字幕文テキスト中に含まれる
全ての字幕文を対象とした自動分割処理を実行すること
ができる。
According to the fourth aspect of the present invention, the line break point is optimized by applying a division rule regarding a line break / recommended line break point regarding the unit subtitle sentence at the line break point. After that, when it is determined that there is a subtitle sentence subsequent to the extracted unit subtitle sentence, the process returns to the initial processing step, and the following processing is repeated for the subsequent subtitle sentence, while the subsequent subtitle sentence is When it is determined that the subtitle does not exist, the automatic division processing of the subtitle text is terminated. Therefore, the automatic division processing for all the subtitle sentences included in the subtitle text can be performed. .

【0037】しかも、請求項5の発明は、請求項1乃至
4のうちいずれか一項に記載の字幕文テキストの自動分
割方法であって、前記再改行点の箇所を対象として、当
該単位字幕文に関する改行・改頁推奨箇所に係る分割ル
ールを適用することで再改行箇所の最適化を実行するに
あたり、当該分割ルールで定義される改行・改頁推奨箇
所は、句点の後ろ、読点の後ろ、文節と文節の間、形態
素品詞の間、のうちいずれか1又は複数の組み合わせを
含んでおり、当該分割ルールを適用するにあたっては、
前記記述順の先頭から優先的に適用することを要旨とす
る。
Further, the invention according to claim 5 is the method for automatically dividing caption text according to any one of claims 1 to 4, wherein the unit caption text is targeted for the line feed point. In optimizing the line feed breaks by applying the division rules related to the recommended line breaks and page breaks in the sentence, the recommended line breaks and page breaks defined in the division rules are placed after the punctuation marks and after the punctuation marks. , Between phrases, and between morpheme parts of speech, one or more of the following combinations are included.
The gist is that the application is preferentially performed from the head of the description order.

【0038】請求項5の発明によれば、前記再改行点の
箇所を対象として、当該単位字幕文に関する改行・改頁
推奨箇所に係る分割ルールを適用することで再改行箇所
の最適化を実行するにあたり、当該分割ルールで定義さ
れる改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、
文節と文節の間、形態素品詞の間、のうちいずれか1又
は複数の組み合わせを含んでおり、当該分割ルールを適
用するにあたっては、前記記述順の先頭から優先的に適
用するので、したがって、実情に即して高精度に最適化
された字幕文テキストの自動分割を実現することができ
る。
According to the fifth aspect of the present invention, the line break point is optimized by applying a division rule relating to a recommended line break / page break point for the unit subtitle sentence at the line break point. In doing so, the recommended line breaks and page breaks defined by the division rule are after the period, after the punctuation,
One or more combinations between clauses and between morphemes and part-of-speech are included. In applying the division rule, the division rule is applied preferentially from the head of the description order. Thus, the automatic division of the subtitle sentence text optimized with high accuracy can be realized.

【0039】さらに、請求項6の発明は、請求項1乃至
5のうちいずれか一項に記載の字幕文テキストの自動分
割方法であって、前記所定の字幕提示形式で定義される
一行当たりの制限文字数Nは15文字であり、このと
き、前記第1の所定文字数は12(=N−3)文字であ
ることを要旨とする。
Further, the invention according to claim 6 is the method for automatically dividing caption text according to any one of claims 1 to 5, wherein the caption text is defined by the predetermined caption presentation format. The gist is that the limited number of characters N is 15 characters, and the first predetermined number of characters is 12 (= N−3) characters.

【0040】請求項6の発明によれば、前記所定の字幕
提示形式で定義される一行当たりの制限文字数Nは15
文字であり、このとき、前記第1の所定文字数は12
(=N−3)文字とされるので、したがって、例えば、
1行当たりの制限文字数が15文字となる標準的な字幕
提示形式を採用した場合、各提示単位字幕行に含まれる
1行当たりの字幕文字数は、12乃至15文字の範囲に
収束する結果として、字幕提示時における見栄えが良好
な字幕文テキストの自動分割を実現することができる。
According to the sixth aspect of the present invention, the limited number of characters N per line defined in the predetermined subtitle presentation format is 15
Characters, and the first predetermined number of characters is 12
(= N-3) characters, so, for example,
When a standard caption presentation format in which the limit number of characters per line is 15 characters is adopted, the number of caption characters per line included in each presentation unit subtitle line converges to a range of 12 to 15 characters. It is possible to realize automatic division of a caption sentence text having a good appearance at the time of caption presentation.

【0041】そして、請求項7の発明は、請求項1乃至
6のうちいずれか一項に記載の字幕文テキストの自動分
割方法であって、前記所定の字幕提示形式で定義される
一行当たりの制限文字数Nは15文字であり、このと
き、前記第2の所定文字数は8(=N/2;ただし小数
点以下切り上げ)文字であることを要旨とする。
According to a seventh aspect of the present invention, there is provided the automatic subtitle sentence text dividing method according to any one of the first to sixth aspects, wherein the method comprises the steps of: The limited number of characters N is 15 characters, and at this time, the gist is that the second predetermined number of characters is 8 (= N / 2; rounded up to the decimal point).

【0042】請求項7の発明によれば、前記所定の字幕
提示形式で定義される一行当たりの制限文字数Nは15
文字であり、このとき、前記第2の所定文字数は8(=
N/2;ただし小数点以下切り上げ)文字とされるの
で、したがって、例えば、1行当たりの制限文字数が1
5文字となる標準的な字幕提示形式を採用した場合、1
行当たりの字幕文字数が少ないとみなされる文字数は7
文字となり、このしきい値文字数は、例えば、字幕から
目を離している見逃し動作時間の1回当たりの長さを
0.5〜2秒間程度と想定し、字幕の提示速度を200
字/分と想定したとき、その見逃し動作時間の最大値で
ある2秒間は約7文字に相当し、このことから、1回の
見逃し動作で7文字分の字幕文字を見逃すおそれがある
との検証結果からみて、きわめて妥当な文字数であると
言うことができ、該当行の字幕提示内容をうっかり見逃
してしまうといった事態を可及的に回避する効果を高い
水準で期待できる結果として、正確かつ確実な字幕提示
内容の読みとり把握を飛躍的に促進することができる。
According to the seventh aspect of the present invention, the limited number of characters N per line defined in the predetermined subtitle presentation format is 15
Characters, and the second predetermined number of characters is 8 (=
N / 2; however, rounded up after the decimal point), so, for example, the limit number of characters per line is 1
If the standard subtitle presentation format of 5 characters is adopted, 1
The number of characters that are considered to have a small number of subtitle characters per line is 7
The threshold number of characters is set, for example, assuming that the length of one oversight operation time in which the user is looking away from the subtitle is about 0.5 to 2 seconds, and the presentation speed of the subtitle is 200
When it is assumed that characters / minute, the maximum value of 2 seconds, which is the maximum value of the oversight operation time, corresponds to about 7 characters, and from this, there is a possibility that a single oversight operation may miss 7 subtitle characters. From the verification results, it can be said that the number of characters is extremely reasonable, and as a result that can be expected at a high level as effective as possible to avoid inadvertently overlooking the subtitle presentation content of the relevant line, accurate and reliable It is possible to drastically promote reading and comprehension of the contents of the subtitle presentation.

【0043】[0043]

【発明の実施の形態】以下に、本発明に係る字幕文テキ
ストの自動分割方法の一実施形態について、図に基づい
て詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, an embodiment of a method for automatically dividing caption text according to the present invention will be described in detail with reference to the drawings.

【0044】図1は、本発明に係る字幕文テキストの自
動分割方法を具現化する自動字幕番組制作システムの機
能ブロック構成図、図2は、字幕文テキストの分割手順
を表すフローチャート図、図3は、単位字幕文を適切箇
所で仮分割した状態を表す図、図4は、単位字幕文のう
ち、適切箇所に空白行を挿入した状態を表す図、図5
は、単位字幕文における仮分割箇所に適用される分割ル
ールの説明に供する図、図6乃至図7は、アナウンス音
声に対する字幕送出タイミングの同期検出技術に係る説
明に供する図である。
FIG. 1 is a functional block diagram of an automatic subtitle program production system embodying the automatic subtitle text division method according to the present invention. FIG. 2 is a flowchart showing a subtitle text division procedure. FIG. 4 is a diagram showing a state where a unit caption sentence is provisionally divided at an appropriate place, FIG. 4 is a view showing a state where a blank line is inserted at an appropriate place in the unit caption sentence, and FIG.
6 is a diagram for explaining a division rule applied to a temporary division portion in a unit subtitle sentence, and FIGS. 6 and 7 are diagrams for explaining a technique for detecting a synchronization of subtitle transmission timing for an announcement sound.

【0045】なお、本発明の実施形態で採用する所定の
字幕提示形式として、1行当たりの制限文字数Nを15
文字とし、2行からなる提示単位字幕を一括総入れ換え
する字幕提示形式を例示して、以下の説明を進めること
にする。
As the predetermined caption presentation format used in the embodiment of the present invention, the limit number of characters N per line is 15
The following description will proceed with an example of a subtitle presentation format in which presentation subtitles composed of two lines are collectively replaced with characters.

【0046】既述したように、現在放送中の字幕番組の
なかで、予めアナウンス原稿が作成され、その原稿がほ
とんど修正されることなく実際の放送字幕となっている
と推測される番組がいくつかある。例えば、「生きもの
地球紀行」という字幕付き情報番組を実際に調べて見る
と、アナウンス音声と字幕内容はほぼ共通であり、ほぼ
共通の原稿をアナウンス用と字幕用の両方に利用してい
ると推測出来る。
As described above, among subtitle programs currently being broadcast, an announcement manuscript is created in advance, and there are a number of programs that are presumed to have actual subtitles without any substantial modification of the manuscript. There is. For example, when actually examining an information program with subtitles called "Travel of the Earth", the announcement sound and subtitle content are almost the same, and it is estimated that almost the same manuscript is used for both the announcement and subtitle I can do it.

【0047】そこで、本発明者らは、このようにアナウ
ンス音声と字幕の内容が極めて類似し、アナウンス用と
字幕用の両方に共通の原稿を利用しており、その原稿が
電子化されている番組を想定したとき、本発明で提案す
るアナウンス音声と字幕文テキストの同期検出技術、及
び日本語の特徴解析手法を用いたテキスト分割技術等を
適用することにより、字幕の基となる字幕文テキスト
を、所定の字幕提示形式に従う提示単位字幕へ自動的に
分割し得る字幕文テキストの自動分割方法を想到するに
至ったのである。
Therefore, the present inventors use the same manuscript for both the announcement and subtitles because the announcement sound and the contents of the subtitles are very similar, and the manuscript is digitized. Assuming a program, the proposed caption sentence text based on the caption by applying the technology for detecting the synchronization between the announcement sound and the caption text and the text segmentation technique using the Japanese feature analysis method proposed in the present invention. Has been conceived of a method for automatically dividing caption text, which can be automatically divided into presentation unit captions according to a predetermined caption presentation format.

【0048】ここで、本発明を想到するに至った背景に
ついて述べると、より読みやすく、理解しやすい字幕の
観点から字幕文テキストの分割問題を考える場合、当然
ながら読みやすく、理解しやすい字幕とはどのようなも
のかが問題となる。この問題に対する定量的に明確な回
答は未だ見出せていないが、しかし、実験字幕番組の制
作や字幕評価実験などの貴重な経験を通して、定性的な
がら考慮すべき要素が明らかになりつつある。
Here, the background that led to the present invention will be described. When considering the problem of subtitle sentence text division from the viewpoint of subtitles that are easier to read and understand, it is obvious that subtitles are easier to read and understand. The question is what kind of thing is. We have not yet found a quantitatively clear answer to this question, but through valuable experience in producing experimental subtitle programs and subtitle evaluation experiments, qualitative but important factors are becoming clearer.

【0049】字幕の読み易さ、理解し易さの観点から
は、一般にある程度以上の文字数が同時的に提示され、
この提示が所要時間継続しているのが良いといわれる
が、文字数や提示継続時間は、提示する字幕がどのよう
に読まれるかと大きく関わる。
From the viewpoint of readability and comprehension of subtitles, in general, a certain number of characters or more is presented simultaneously,
It is said that it is good that the presentation lasts for the required time, but the number of characters and the presentation duration greatly affect how the presented subtitles are read.

【0050】例えば聴覚障害者が字幕付テレビ番組を見
る場合を想定すると、視覚を介して、映像情報と音声情
報とを交互に見ることになるので、本来字幕は間欠的に
しか見ることが出来ない。そのため、音声情報をより読
みやすく、理解しやすい字幕として提示することで、字
幕を見ている割合を出来るだけ少なくして、その分だけ
映像を多く見られるようにするのが望ましい。
For example, assuming that a hearing-impaired person watches a television program with subtitles, video information and audio information are alternately viewed through the sight, so that subtitles can be viewed only intermittently. Absent. For this reason, it is desirable to present the audio information as subtitles that are easier to read and understand, so that the ratio of viewing subtitles is reduced as much as possible, so that more video can be viewed accordingly.

【0051】この場合の字幕の見方は、字幕の提示形式
にも依存するが、例えば2行の提示単位字幕を一括入れ
換えする字幕提示形式を例示し、提示される全字幕の捕
捉を試みた場合、一般的には、基準となる字幕文字(例
えば、音声アナウンスの進行に対応する文字)を中心と
して、先読み、後読みもしくはその両方を行うことにな
る。
The way of viewing subtitles in this case depends on the presentation format of the subtitles. For example, a case is shown in which a subtitle presentation format in which two-line presentation unit subtitles are exchanged at a time is attempted, and capture of all presented subtitles is attempted. Generally, pre-reading, post-reading, or both are performed centering on a reference subtitle character (for example, a character corresponding to the progress of a voice announcement).

【0052】先読み、後読みもしくはその両方を行うこ
とになる要因としては、映像の注視又はまばたきや脇見
などを含む字幕から目を離している見逃し動作時間が存
在するからであり、1回当たりの見逃し動作時間の長さ
は、経験的には0.5〜2秒間程度であると思われる。
The reason why the pre-reading, the post-reading, or both are performed is because there is an overlooking operation time in which the user is looking away from the subtitles including watching the video or blinking or looking aside. The length of the missed operation time is empirically considered to be about 0.5 to 2 seconds.

【0053】ここで、字幕の提示速度を200字/分と
想定すると、その最大時間である2秒間は約7文字に相
当し、このことから、1回の見逃し動作で7文字分の字
幕文字を見逃すおそれがあることがわかる。
Here, assuming that the subtitle presentation speed is 200 characters / minute, the maximum time of 2 seconds is equivalent to about 7 characters. It can be seen that there is a risk of overlooking.

【0054】このことから、基準となる字幕文字を中心
に連続した14文字が最低限の提示単位として必要であ
り、再び字幕に注視点が戻って字幕を読み取り、認識す
る分を前後各5〜7文字とすると、内容の連続した24
〜29文字程度の字幕を同時に画面提示するのが望まし
いことがわかる。ちなみに現行の字幕放送では一行15
文字で二行提示が多く、最大30文字程度まで提示され
ている。
From the above, it is necessary that 14 characters continuous around the reference subtitle character be the minimum presentation unit, and the point of sight returns to the subtitle again, and the subtitle is read and recognized. Assuming 7 characters, 24
It can be seen that it is desirable to simultaneously present subtitles of about 29 characters on the screen. By the way, in the current subtitle broadcasting, one line is 15
Many characters are presented in two lines, and up to about 30 characters are presented.

【0055】また、上記の分析結果に従い、字幕が提示
されてから実際に読まれるまで最悪2秒間程度必要なも
のと仮定すると、文字数が7文字以下の字幕を文字数相
当の時間のみ提示した場合には、この提示字幕が全く読
まれないおそれがある。例えば日本語の特質上、否定文
では否定語が文末におかれるので、この否定語部分が上
記の状態に該当するような分割はきわめて悪い影響をも
たらす可能性があり、このような分割は可及的に回避す
る必要がある。
According to the above analysis result, it is assumed that it takes about 2 seconds at the worst from the presentation of the subtitle to the actual reading, and if the subtitle having the number of characters of 7 or less is presented only for the time corresponding to the number of characters, May not be able to read this subtitle at all. For example, due to the characteristics of Japanese, negative words are placed at the end of sentences in negative sentences, so divisions in which this negative word part corresponds to the above state may have a very bad effect, and such divisions are possible. It must be avoided as much as possible.

【0056】その対策として、少ない文字数への分割を
しない、又は少ない文字数では提示時間を長くする、な
どの手法を適用するのが望ましい。
As a countermeasure, it is desirable to apply a technique such as not dividing the number of characters into a small number or increasing the presentation time with a small number of characters.

【0057】次の問題は、例えば文間の無音区間、つま
りポーズの取り扱いである。字幕文中に長いポーズが存
在する場合には、このポーズの前後は相互に異なる内容
に関わる字幕文である可能性が高いことから、そのポー
ズにまたがるような字幕提示は好ましくない。逆に極め
て短いポーズが存在する場合には、このポーズの前後は
相互に共通の内容に関わる字幕文である可能性が高いこ
とから、むしろ連続した字幕文として取り扱う方が好ま
しい。このことから、ポーズ時間の長さを考慮した字幕
文の分割手法を適用するのが望ましい。
The next problem is, for example, the handling of a silent section between sentences, that is, a pause. If there is a long pause in the caption text, it is highly likely that before and after the pause are caption texts related to mutually different contents, so it is not preferable to present a caption spanning the pose. Conversely, when there is a very short pause, it is more preferable to treat it as a continuous subtitle sentence before and after this pause, since there is a high possibility that the sentence is a subtitle sentence related to mutually common contents. For this reason, it is desirable to apply a caption sentence division method that takes into account the length of the pause time.

【0058】さらに、ひとかたまりの文字群は可能な限
り分割せず、同一行に提示するのが望ましい。この例と
して、通常の単語のみならず、連続する漢字、カタカ
ナ、アラビア数字、英字などがあり、(xxx)や「xxx」
などと表わさるルビ、略称に対する正式呼称、注釈など
もこの範疇として取り扱う。
Further, it is desirable that a group of characters be presented on the same line without being divided as much as possible. Examples of this include not only ordinary words, but also continuous kanji, katakana, Arabic numerals, and alphabetic characters, such as (xxx) or "xxx"
Ruby, abbreviations for formal names, annotations, etc. are also included in this category.

【0059】字幕文テキストの分割にあたっては、上述
の要素を充分考慮する必要があり、本発明では、これら
の各要素を取り込むとともに、日本語の特徴を統計的に
設定した分割ルール(改行・改頁ルール)を適用するこ
とで、理想的とも言える字幕文テキストの分割を実現す
るようにしている。
In the division of the caption text, it is necessary to sufficiently consider the above-described elements. In the present invention, these elements are taken in and the division rules (line feed / line feed) in which the characteristics of Japanese are statistically set. By applying the page rule), it is possible to realize the division of the caption sentence text which can be said to be ideal.

【0060】さて、本実施形態の説明に先立って、以下
の説明で使用する用語の定義付けを行うと、本実施形態
の説明において、提示対象となる字幕文の全体集合を
「字幕文テキスト」と言い、字幕文テキストのうち、適
宜の句点で区切られたひとかたまりの字幕文の部分集合
を「単位字幕文」と言い、ディスプレイの表示画面上に
おいて提示単位となる字幕を「提示単位字幕」と言い、
提示単位字幕に含まれる各行の個々の字幕を「提示単位
字幕行」と言い、提示単位字幕行のうちの任意の文字を
表現するとき、これを「字幕文字」と言うことにする。
なお、表示画面上に単独の提示単位字幕行を提示すると
き、「提示単位字幕」と「提示単位字幕行」とは同義と
なるため、この場合、「提示単位字幕行」の表現はあえ
て使用しないことととする。
Before the description of the present embodiment, terms used in the following description are defined. In the description of the present embodiment, the entire set of subtitle sentences to be presented is referred to as “subtitle text”. In the caption text, a subset of the caption text separated by appropriate punctuation is referred to as “unit subtitle text”, and the subtitle that is the presentation unit on the display screen of the display is referred to as “presentation subtitle”. say,
The individual subtitles of each line included in the presentation unit subtitle are referred to as “presentation unit subtitle line”, and when expressing any character in the presentation unit subtitle line, this is referred to as “subtitle character”.
Note that when a single presentation unit subtitle line is presented on the display screen, “presentation unit subtitle line” and “presentation unit subtitle line” are synonymous. In this case, the expression “presentation unit subtitle line” is used I will not do it.

【0061】まず、本発明に係る字幕文テキストの自動
分割方法を具現化する自動字幕番組制作システム11の
概略構成について、図1を参照して説明する。
First, a schematic configuration of an automatic subtitle program production system 11 that embodies the automatic subtitle text division method according to the present invention will be described with reference to FIG.

【0062】同図に示すように、自動字幕番組制作シス
テム11は、電子化原稿記録媒体13と、同期検出装置
15と、統合化装置17と、形態素解析部19と、分割
ルール記憶部21と、番組素材VTR例えばディジタル
・ビデオ・テープ・レコーダ(以下、「D−VTR」と
言う)23と、を含んで構成されている。
As shown in the figure, the automatic subtitle program production system 11 includes an electronic document recording medium 13, a synchronization detection device 15, an integration device 17, a morphological analysis unit 19, a division rule storage unit 21, , A program material VTR, for example, a digital video tape recorder (hereinafter, referred to as “D-VTR”) 23.

【0063】電子化原稿記録媒体13は、例えばハード
ディスク記憶装置やフロッピーディスク装置等より構成
され、提示対象となる字幕の全体集合を表す字幕文テキ
ストを記憶している。なお、本実施形態では、ほぼ共通
の電子化原稿をアナウンス用と字幕用の双方に利用する
形態を想定しているので、電子化原稿記録媒体13に記
憶される字幕文テキストの内容は、提示対象字幕と一致
するばかりでなく、素材VTRに収録されたアナウンス
音声とも一致しているものとする。
The digitized original recording medium 13 is composed of, for example, a hard disk storage device, a floppy disk device, or the like, and stores subtitle sentence text representing the entire set of subtitles to be presented. In this embodiment, since it is assumed that a substantially common digitized manuscript is used for both the announcement and the subtitle, the contents of the subtitle sentence text stored in the digitized manuscript recording medium 13 are presented. It is assumed that not only does it match the target subtitle, but also matches the announcement sound recorded on the material VTR.

【0064】同期検出装置15は、提示単位字幕文と、
これを読み上げたアナウンス音声との間における時間同
期を検出する機能等を有している。さらに詳しく述べる
と、同期検出装置15は、統合化装置17で一応確定さ
れた提示単位字幕が送られてくる毎に、この提示単位字
幕の妥当性を検証する妥当性検証機能と、妥当性検証機
能を発揮することで得られた検証結果が不当であると
き、この検証結果を統合化装置17宛に返答する検証結
果返答機能と、妥当性検証機能を発揮することで得られ
た検証結果が妥当であるとき、番組素材VTRから取り
込んだこの提示単位字幕に対応するアナウンス音声及び
そのタイムコードを参照して、該当する提示単位字幕毎
のタイミング情報、すなわち始点/終点タイムコードを
検出し、検出した各始点/終点タイムコードを統合化装
置17宛に送出するタイミング情報検出機能と、を有し
ている。
The synchronization detecting device 15 provides a presentation unit subtitle sentence,
It has a function of detecting time synchronization with the announcement voice read out. More specifically, each time the presentation unit subtitle determined by the integration unit 17 is transmitted, the synchronization detection device 15 includes a validity verification function for verifying the validity of the presentation unit subtitle, and a validity verification function. When the verification result obtained by performing the function is invalid, the verification result reply function that returns the verification result to the integrating device 17 and the verification result obtained by performing the validity verification function are When it is appropriate, by referring to the announcement sound and the time code corresponding to the presentation unit subtitle fetched from the program material VTR, the timing information for each corresponding presentation unit subtitle, that is, the start point / end point time code is detected and detected. And a timing information detecting function of sending the start / end time codes to the integrating device 17.

【0065】なお、上述したタイミング情報検出機能に
おける提示単位字幕毎に付与する始点/終点タイムコー
ドの同期検出は、本発明者らが研究開発したアナウンス
音声を対象とした音声認識処理を含むアナウンス音声と
字幕文テキスト間の同期検出技術を適用することで高精
度に実現可能である。
Note that the synchronous detection of the start / end point time code assigned to each presentation subtitle in the above-described timing information detection function is performed by an announcement sound including a speech recognition process for an announcement sound developed and developed by the present inventors. It can be realized with high accuracy by applying the synchronization detection technology between the subtitle text and the subtitle text.

【0066】すなわち、字幕送出タイミング検出の流れ
は、図6に示すように、まず、かな漢字交じり文で表記
されている字幕文テキストを、音声合成などで用いられ
ている読み付け技術を用いて発音記号列に変換する。こ
の変換には、「日本語読み付けシステム」を用いる。次
に、あらかじめ学習しておいた音響モデル(HMM:隠
れマルコフモデル)を参照し、「音声モデル合成システ
ム」によりこれらの発音記号列をワード列ペアモデルと
呼ぶ音声モデル(HMM)に変換する。そして、「最尤
照合システム」を用いてワード列ペアモデルにアナウン
ス音声を通して比較照合を行うことにより、字幕送出タ
イミングの同期検出を行う。
That is, as shown in FIG. 6, the flow of subtitle transmission timing detection is as follows. First, a subtitle sentence text described in a kana-kanji mixed sentence is generated using a reading technique used in speech synthesis or the like. Convert to a symbol string. The "Japanese reading system" is used for this conversion. Next, with reference to an acoustic model (HMM: Hidden Markov Model) that has been learned in advance, these phonetic symbol strings are converted into a speech model (HMM) called a word string pair model by a “speech model synthesis system”. Then, by performing the comparison and collation through the announcement sound to the word string pair model using the “maximum likelihood collation system”, the synchronization detection of the caption transmission timing is performed.

【0067】字幕送出タイミング検出の用途に用いるア
ルゴリズム(ワード列ペアモデル)は、キーワードスポッ
ティングの手法を採用している。キーワードスポッティ
ングの手法として、フォワード・バックワードアルゴリ
ズムにより単語の事後確率を求め、その単語尤度のロー
カルピークを検出する方法が提案されている。ワード列
ペアモデルは、図7に示すように、これを応用して字幕
と音声を同期させたい点、すなわち同期点の前後でワー
ド列1 (Keywords1)とワード列2 (Keywords2)とを連結
したモデルになっており、ワード列の中点(B)で尤度
を観測してそのローカルピークを検出し、ワード列2の
発話開始時間を高精度に求めることを目的としている。
ワード列は、音素HMMの連結により構成され、ガーベ
ジ (Garbage)部分は全音素HMMの並列な枝として構成
されている。また、アナウンサが原稿を読む場合、内容
が理解しやすいように息継ぎの位置を任意に定めること
から、ワード列1,2間にポーズ (Pause)を挿入してい
る。なお、ポーズ時間の検出に関しては、素材VTRか
ら音声とそのタイムコードが供給され、その音声レベル
が指定レベル以下で連続する開始、終了タイムコードか
ら、周知の技術で容易に達成できる。
The algorithm (word string pair model) used for detecting the caption sending timing employs a keyword spotting technique. As a keyword spotting technique, a method has been proposed in which a posterior probability of a word is obtained by a forward / backward algorithm, and a local peak of the word likelihood is detected. As shown in FIG. 7, the word string pair model is applied to the point where it is desired to synchronize subtitles and audio, that is, word string 1 (Keywords1) and word string 2 (Keywords2) are connected before and after the synchronization point. The model is designed to observe the likelihood at the middle point (B) of the word string, detect its local peak, and obtain the utterance start time of the word string 2 with high accuracy.
The word sequence is formed by connecting phoneme HMMs, and the garbage (Garbage) portion is formed as parallel branches of all phoneme HMMs. When the announcer reads the manuscript, a pause is inserted between the word strings 1 and 2 because the position of the breath is arbitrarily determined so that the contents can be easily understood. The detection of the pause time can be easily achieved by a well-known technique from the start and end time codes in which a sound and its time code are supplied from the material VTR and the sound level is continuous below a specified level.

【0068】統合化装置17は、電子化原稿記録媒体1
3から読み出した字幕文テキストのうち、文頭を起点と
した所要文字数範囲を目安とした単位字幕文を順次抽出
する単位字幕文抽出機能と、単位字幕文抽出機能を発揮
することで抽出した単位字幕文を、所望の提示形式に従
う提示単位字幕に変換する提示単位字幕化機能と、提示
単位字幕化機能を発揮することで変換された提示単位字
幕に対し、同期検出装置15から送出されてきた提示単
位字幕毎のタイミング情報である始点/終点の各タイム
コードを付与するタイミング情報付与機能と、を有して
いる。なお、文頭を起点とした所要文字数範囲とは、一
行当たりの制限文字数Nを15文字と想定したとき、例
えば6N文字を上限とした70〜90字幕文字程度の範
囲など、テキスト文のまとまりや処理データ量等を考慮
した適宜の文字数範囲を選択することができる。
The unifying device 17 stores the digitized original recording medium 1
3. A unit subtitle sentence extraction function for sequentially extracting unit subtitle sentences based on the required number of characters starting from the beginning of the subtitle sentence text read from unit 3, and a unit subtitle extracted by using the unit subtitle sentence extraction function A presentation unit subtitle conversion function of converting a sentence into a presentation unit subtitle according to a desired presentation format, and a presentation sent from the synchronization detection device 15 for the presentation unit subtitle converted by exhibiting the presentation unit subtitle function. A timing information adding function of adding each time code of a start point / end point, which is timing information for each unit subtitle. Note that the required number of characters starting from the beginning of the sentence means that when the number of characters N per line is assumed to be 15 characters, for example, a range of about 70 to 90 subtitle characters with an upper limit of 6N characters is a unit of text sentence or processing. An appropriate character number range can be selected in consideration of the data amount and the like.

【0069】形態素解析部19は、漢字かな交じり文で
表記されている単位字幕文を対象として、形態素毎に分
割する分割機能と、分割機能を発揮することで分割され
た各形態素毎に、表現形、品詞、読み、標準表現などの
付加情報を付与する付加情報付与機能と、各形態素を文
節や節単位にグループ化し、いくつかの情報素列を得る
情報素列取得機能と、を有している。これにより、単位
字幕文は、表面素列、記号素列(品詞列)、標準素列、
及び情報素列として表現される。
The morphological analysis unit 19 divides a unit subtitle sentence described in a kanji kana mixed sentence into morphemes, and expresses a morpheme for each morpheme divided by performing the dividing function. It has an additional information addition function to add additional information such as shape, part of speech, reading, and standard expression, and an information element sequence acquisition function to group each morpheme into clauses and clauses and obtain some information element strings. ing. As a result, the unit caption sentence is composed of a surface sequence, a symbol sequence (part of speech), a standard sequence,
And an information element sequence.

【0070】分割ルール記憶部21は、図5に示すよう
に、単位字幕文を対象とした改行・改頁箇所の最適化を
行う際に参照される分割ルールを記憶する機能を有して
いる。
As shown in FIG. 5, the division rule storage unit 21 has a function of storing a division rule which is referred to when optimizing a line feed / page break position for a unit caption sentence. .

【0071】D−VTR23は、番組素材が収録されて
いる番組素材VTRテープから、映像、音声、及びそれ
らのタイムコードを再生出力する機能を有している。
The D-VTR 23 has a function of reproducing and outputting video, audio, and their time codes from a program material VTR tape in which the program material is recorded.

【0072】次に、自動字幕番組制作システム11にお
いて主要な役割を果たす統合化装置17の内部構成につ
いて説明していく。
Next, the internal configuration of the integrating device 17 which plays a major role in the automatic subtitle program production system 11 will be described.

【0073】統合化装置17は、単位字幕文抽出部33
と、提示単位字幕化部35と、タイミング情報付与部3
7と、を含んで構成されている。
The integrating device 17 includes a unit subtitle sentence extracting unit 33
, Presentation unit subtitle conversion unit 35, timing information addition unit 3
7 are included.

【0074】単位字幕文抽出部33は、電子化原稿記録
媒体13から読み出した、単位字幕文が提示時間順に配
列された字幕文テキストのなかから、例えば70〜90
字幕文字程度を目安として、少なくとも提示単位字幕行
に含まれる文字数よりも多い文字数を呈する提示対象と
なる単位字幕文を、付加した区切り可能箇所情報等を活
用するなどして処理単位とするテキスト文を順次抽出す
る機能を有している。なお、区切り可能箇所情報として
は、形態素解析部19で得られた文節データ付き形態素
解析データ、及び分割ルール記憶部21に記憶されてい
る分割ルール(改行・改頁データ)を利用することもで
きる。
The unit subtitle sentence extracting unit 33 reads, for example, 70 to 90 units of subtitle sentence text read from the digitized original recording medium 13 and arranged in the order of presentation time.
A text sentence that is a unit of subtitle sentence to be presented that has at least the number of characters included in the presentation unit subtitle line with the subtitle character level as a guide, and that uses the added delimitable part information etc. as a processing unit Are sequentially extracted. Note that, as the delimitable portion information, morphological analysis data with phrase data obtained by the morphological analysis unit 19 and division rules (line feed / page break data) stored in the division rule storage unit 21 can also be used. .

【0075】提示単位字幕化部35は、単位字幕文抽出
部33で抽出した単位字幕文、単位字幕文に付加した区
切り可能箇所情報、及び同期検出装置15からの情報等
に基づいて、単位字幕文抽出部33で抽出した単位字幕
文を、所望の提示形式に従う少なくとも1以上の提示単
位字幕に変換する提示単位字幕化機能を有している。
The presentation unit captioning unit 35 generates a unit caption based on the unit caption sentence extracted by the unit caption sentence extraction unit 33, delimitable portion information added to the unit caption sentence, information from the synchronization detection device 15, and the like. It has a presentation unit subtitle conversion function of converting the unit subtitle sentences extracted by the sentence extraction unit 33 into at least one or more presentation unit subtitles according to a desired presentation format.

【0076】タイミング情報付与部37は、提示単位字
幕化部35で変換された提示単位字幕に対し、同期検出
装置15から送出されてきた提示単位字幕毎のタイミン
グ情報である始点/終点の各タイムコードを付与するタ
イミング情報付与機能を有している。
The timing information adding unit 37 compares the presentation unit subtitles converted by the presentation unit subtitle conversion unit 35 with the start point / end point time, which is the timing information for each presentation unit subtitle sent from the synchronization detection device 15. It has a timing information adding function for giving a code.

【0077】次に、本発明に係る字幕文テキストの分割
手順について、図2に示す動作フローチャート図を参照
しつつ説明する。
Next, a subtitle sentence text dividing procedure according to the present invention will be described with reference to the operation flowchart shown in FIG.

【0078】ステップS1において、字幕文テキストの
うち、文頭を起点とした例えば6N文字(=90文字)
程度の所要文字数範囲を対象として、例えば1秒間など
の第1の所定時間t1を越える長さを呈する文末に存在
する無音区間、つまり第1の文末ポーズ点Pt1、及び
句点を全て抽出する。ここで抽出した第1の文末ポーズ
点Pt1のうち、特に、第1の所定時間t1と比較して
長い時間の例えば2秒間などの第2の所定時間t2を越
える長さの文末ポーズ点を第2の文末ポーズ点Pt2と
呼び、これらの文末ポーズ点Pt1,Pt2を除く句点
をPkと呼ぶことにする。
In step S1, for example, 6N characters (= 90 characters) starting from the beginning of the subtitle sentence text
For the required number of characters range, the silent section existing at the end of the sentence having a length exceeding the first predetermined time t1 such as one second, that is, the first sentence end pause point Pt1 and all the punctuation points are extracted. Among the extracted first sentence end pause points Pt1, in particular, the sentence end pause point having a longer time than the first predetermined time t1 and exceeding the second predetermined time t2 such as 2 seconds, for example, is set as the first sentence end pause point. The second sentence pause point Pt2 will be referred to as Pt2, and the punctuation marks excluding these last sentence pause points Pt1 and Pt2 will be referred to as Pk.

【0079】ステップS2において、所要文字数範囲内
における第2の文末ポーズ点Pt2の存在有無を調査判
定する。この調査判定の結果、第2の文末ポーズ点Pt
2が存在する旨の判定が下されたときにはステップS3
へ進む一方、第2の文末ポーズ点Pt2が存在しない旨
の判定が下されたときにはステップS4へ進む。
In step S2, it is determined whether or not the second sentence end pause point Pt2 exists within the required number of characters range. As a result of this investigation judgment, the second sentence end pause point Pt
Step S3 when it is determined that No. 2 exists.
On the other hand, when it is determined that the second sentence end pause point Pt2 does not exist, the process proceeds to step S4.

【0080】ステップS2における調査判定の結果、第
2の文末ポーズ点Pt2が存在する旨の判定が下された
とき、ステップS3において、前記所要文字数範囲にお
いて文頭から起算して最初に現れた第2の文末ポーズ点
Pt2までの範囲を単位字幕文として抽出する。
As a result of the investigation in step S2, when it is determined that the second sentence end pause point Pt2 exists, in step S3, the second character that appears first from the beginning of the sentence in the required character number range is calculated. The range up to the sentence end pause point Pt2 is extracted as a unit caption sentence.

【0081】一方、ステップS2における調査判定の結
果、第2の文末ポーズ点Pt2が存在しない旨の判定が
下されたとき、ステップS4において、前記所要文字数
範囲において文頭から起算して最後に現れた第1の文末
ポーズ点Pt1までの範囲を単位字幕文として抽出す
る。
On the other hand, as a result of the investigation in step S2, when it is determined that the second sentence end pause point Pt2 does not exist, in step S4, the last character number appears from the beginning of the sentence in the required character number range. The range up to the first sentence end pause point Pt1 is extracted as a unit caption sentence.

【0082】上述したステップS1乃至S4の処理が単
位字幕文の抽出処理であり、本発明での提示単位字幕化
は、抽出処理で抽出された単位字幕文を一つの処理単位
として取り扱い、以下に述べる各処理を順次実行する。
この抽出処理において、字幕文テキストのなかから、所
要文字数範囲を限度とした単位字幕文を抽出するにあた
り、ある提示単位字幕中に相互に異なる内容に関わる字
幕が混在する事態を回避する等の趣旨から、抽出された
単位字幕文が共通したひとかたまりの内容に関わる字幕
文の集合体であることが好ましい。
The processing in steps S1 to S4 described above is processing for extracting unit subtitle sentences. In the present invention, the unit subtitle conversion is performed by treating the unit subtitle sentences extracted in the extraction process as one processing unit. The processes described below are sequentially executed.
In this extraction processing, in extracting unit caption sentences within the required character range from caption sentence texts, the purpose is to avoid the situation where subtitles related to mutually different contents are mixed in a certain presentation unit caption. Therefore, it is preferable that the extracted unit caption text is an aggregate of caption texts related to the contents of a common block.

【0083】そこで、この抽出処理では、相互に異なる
内容に関わる単位字幕文間に挿入される傾向がある、改
頁推奨箇所とみなすことができる比較的長い間隔をもっ
たポーズである第2の文末ポーズ点Pt2に着目し、字
幕文テキストのうち、文頭から起算して第2の文末ポー
ズ点Pt2までの範囲を単位字幕文として抽出すること
により、ひとかたまりの内容に関わる単位字幕文を意図
的に抽出するようにしている。
Therefore, in this extraction processing, the second pause, which has a relatively long interval which can be regarded as a recommended page break, which tends to be inserted between unit subtitle sentences relating to mutually different contents. Focusing on the end-of-sentence pause point Pt2 and extracting the range from the beginning of the sentence to the second end-of-sentence pause point Pt2 as a unit subtitle sentence, the unit subtitle sentence relating to the contents of the block is intentionally extracted. To be extracted.

【0084】また、ステップS2の調査判定の結果、改
頁推奨箇所とみなすことができる比較的長い間隔をもっ
たポーズである第2の文末ポーズ点Pt2が存在しない
旨の判定が下されたときには、第2の文末ポーズ点Pt
2に代えて、改行推奨箇所とみなすことができるある長
さ間隔をもったポーズである第1の文末ポーズ点Pt1
に着目し、前記所要文字数範囲において文頭から起算し
て最後に現れた第1の文末ポーズ点Pt1までの範囲を
単位字幕文として抽出することにより、第2の文末ポー
ズ点Pt2が存在しない場合であっても、可及的にひと
かたまりの内容に関わる単位字幕文を意図的に抽出する
ようにしている。
Also, if the result of the investigation determination in step S2 is that there is no second sentence end pause point Pt2 that is a pose with a relatively long interval that can be regarded as a recommended page break, , The second sentence end pause point Pt
1st sentence end pause point Pt1 which is a pose having a certain length interval that can be regarded as a recommended line feed instead of 2
By extracting the range from the beginning of the sentence to the first sentence end pause point Pt1 appearing last from the beginning of the sentence as a unit subtitle sentence in the required number of characters range, the case where the second sentence end pause point Pt2 does not exist is obtained. Even if there is, a unit caption sentence related to the contents of a group is intentionally extracted as much as possible.

【0085】ステップS5において、ステップS3又は
S4で抽出した単位字幕文を、第1の文末ポーズ点Pt
1の箇所で順次改行していくことにより、単位字幕文の
仮分割を行う。
In step S5, the unit caption sentence extracted in step S3 or S4 is replaced with the first sentence end pause point Pt.
By sequentially performing line feeds at the position of No. 1, a temporary division of the unit subtitle sentence is performed.

【0086】ステップS6において、ステップS5で仮
分割された複数の各行について、一行当たりの文字数
が、所定の字幕提示形式で定義される一行当たりの制限
文字数Nより少ない例えばN−3文字(=12文字)な
どの第1の所定文字数以上か否かに係る各行文字数判定
を順次行い、この各行文字数判定の結果、一行当たりの
文字数が第1の所定文字数以上の条件に合致する該当行
が存在する旨の判定が下されたときにはステップS7へ
進む一方、該当行が存在しない旨の判定が下されたとき
にはステップS8へ進む。ステップS6の各行文字数判
定は、ステップS5で仮分割された複数の各行に含まれ
る文字数が、一行当たりの制限文字数Nを考慮したとき
に適正文字数に収束しているか否かを振り分ける趣旨で
ある。
In step S6, for each of the plurality of lines provisionally divided in step S5, the number of characters per line is, for example, N-3 characters (= 12 characters) smaller than the limited number of characters N per line defined in a predetermined subtitle presentation format. The number of characters in each line is sequentially determined based on whether or not the number of characters is equal to or more than a first predetermined number of characters. As a result of the determination of the number of characters in each line, there is a corresponding line in which the number of characters per line satisfies the condition of the first predetermined number of characters or more. If it is determined that the line does not exist, the process proceeds to step S8. The determination of the number of characters in each line in step S6 is to determine whether or not the number of characters included in each of the plurality of lines provisionally divided in step S5 converges to an appropriate number of characters when considering the limited number of characters N per line.

【0087】ステップS6の各行文字数判定の結果、該
当行が存在する旨の判定が下されたとき、この該当行の
各々について、先頭からの文字数が第1の所定文字数N
−3文字(=12文字)に到達した直後の箇所で再改行
することにより、当該単位字幕文の仮分割を行い、この
再改行処理後にステップS6へ戻り、該当行が存在しな
くなるまでステップS6乃至S7の各処理を繰り返し行
う。なお、ステップS7での再改行箇所を再改行点Pp
と呼ぶことにする。
As a result of the determination of the number of characters in each line in step S6, when it is determined that the corresponding line exists, the number of characters from the head of each of the corresponding lines is set to the first predetermined number of characters N
By performing a line feed immediately after reaching −3 characters (= 12 characters), the unit subtitle sentence is provisionally divided. After this re-line feed processing, the process returns to step S6 until the line no longer exists. Steps S7 to S7 are repeated. Note that the line feed point at step S7 is replaced with the line feed point Pp.
I will call it.

【0088】上述したステップS5乃至S7の処理が単
位字幕文の仮分割処理であり、この仮分割処理を行う際
に考慮すべき重要な点は、適切箇所で改行を施すこと、
及び一行当たりの文字数が、所定の字幕提示形式で定義
される一行当たりの制限文字数N内に収束すること、の
2点である。
The processing of steps S5 to S7 described above is the provisional division processing of the unit caption sentence. An important point to be considered in performing the provisional division processing is that a line feed is performed at an appropriate place.
And that the number of characters per line converges within the limited number of characters N per line defined in a predetermined subtitle presentation format.

【0089】そこで、例えば図3に示すように、前者の
適切箇所での改行については、文章の切れ目に挿入され
る傾向がある、改行推奨箇所とみなすことができるある
長さ間隔をもったポーズである第1の文末ポーズ点Pt
1に着目し、ひとかたまりの単位字幕文を、第1の文末
ポーズ点Pt1の箇所で順次改行していく一方で、後者
の制限文字数収束については、一行当たりの文字数が第
1の所定文字数N−3文字(=12文字)以上の条件に
合致する該当行の各々について、先頭からの文字数が第
1の所定文字数に到達した直後の箇所で機械的に再改行
することにより、一行当たりの文字数が、制限文字数N
を越えない適切な文字数に収束することを考慮しなが
ら、単位字幕文を適切箇所で仮分割するようにしてい
る。
Therefore, as shown in FIG. 3, for example, as for the former line feed at a suitable position, a pause having a certain length interval which can be regarded as a recommended line feed position, which tends to be inserted at a break in the text. Is the first sentence end pause point Pt
Focusing on 1, the unitary subtitle sentences are sequentially line-feeded at the position of the first sentence end pause point Pt1. On the other hand, with regard to the latter convergence of the limited number of characters, the number of characters per line is equal to the first predetermined number of characters N-. For each line that meets the condition of 3 or more characters (= 12 characters), the number of characters per line is mechanically re-lined immediately after the number of characters from the top reaches the first predetermined number of characters. , Limit number of characters N
In consideration of convergence to an appropriate number of characters that does not exceed, the unit caption sentence is provisionally divided at an appropriate place.

【0090】ステップS8において、ステップS5乃至
S7で複数行に仮分割された単位字幕文の総行数が奇数
か又は偶数かに係る奇偶判定を行い、この奇偶判定の結
果、総行数が奇数のときにはステップS9へ進む一方、
総行数が偶数のときにはステップS12へ進む。この奇
偶判定は、例えば、所定の字幕提示形式として、2行の
提示単位字幕を一括総入れ換えする字幕提示形式を採用
した場合において、最終の提示単位字幕が単独行になる
か否かを振り分ける趣旨である。
In step S8, an odd / even judgment is made as to whether the total number of lines of the unit caption sentence provisionally divided into a plurality of lines in steps S5 to S7 is odd or even. As a result of the odd / even judgment, the total number of lines is odd. In the case of, the process proceeds to step S9,
If the total number of rows is even, the process proceeds to step S12. The odd / even judgment is performed, for example, in a case where a subtitle presentation format in which two-line presentation unit subtitles are totally exchanged is adopted as a predetermined subtitle presentation format, in order to determine whether the final presentation unit subtitle is a single line. It is.

【0091】ステップS8における奇偶判定の結果、総
行数が奇数である旨の判定が下されたとき、ステップS
9において、仮分割された単位字幕文のうち、最終行の
文字数が、制限文字数Nより少ない例えばN/2文字
(=8文字、ただし、端数は繰り上げ)などの第2の所
定文字数以上か否かに係る最終行文字数判定を行い、こ
の最終行文字数判定の結果、最終行の文字数が第2の所
定文字数(N/2文字)以上の条件に合致しない旨の判
定が下されたときにはステップS10へ進む一方、この
条件に合致する旨の判定が下されたときにはステップS
12へ進む。
As a result of the odd / even determination in step S8, when it is determined that the total number of rows is odd, the process proceeds to step S8.
9, whether the number of characters in the last line of the provisionally divided unit caption text is equal to or greater than a second predetermined number of characters such as N / 2 characters (= 8 characters, but the fraction is rounded up), which is smaller than the limited number of characters N If the result of the final line character number determination is that the number of characters in the final line does not meet the condition of the second predetermined number of characters (N / 2 characters) or more, step S10 is performed. On the other hand, when it is determined that the condition is satisfied, the process proceeds to step S
Proceed to 12.

【0092】ステップS9の最終行文字数判定の結果、
最終行の文字数が第2の所定文字数(N/2文字)以上
の条件に合致しない旨の判定が下されたとき、ステップ
S10において、当該単位字幕文の文末から、第1の文
末ポーズ点Pt1、句点Pk、又は再改行点Ppの存在
有無をこの優先順位に従って調査し、これら各点のう
ち、奇偶行間に最初に現れた点を含む行と、これの後続
行間に空白行を挿入することで、この後続行を次頁に送
って、最終行を二行化する。
As a result of determining the number of characters on the last line in step S9,
When it is determined that the number of characters in the last line does not meet the condition of the second predetermined number of characters (N / 2 characters) or more, in step S10, the first sentence end pause point Pt1 is calculated from the end of the unit subtitle sentence. , Check for the presence or absence of a period Pk or a line feed Pp according to this priority, and insert a blank line between the line including the first point between odd and even lines and the subsequent line. Then, the continuation is sent to the next page, and the last line is divided into two lines.

【0093】ステップS11において、ステップS10
で挿入した空白行の直前行の文字数が、第2の所定文字
数(N/2文字)以上か否かに係る直前行文字数判定を
行い、この直前行文字数判定の結果、直前行の文字数が
前記第2の所定文字数以上の条件に合致しない旨の判定
が下されたときにはステップS10へ戻るとともに直前
の空白行挿入を取り消し、ステップS10乃至S11の
処理を、ステップS11における直前行文字数判定の結
果が、直前行の文字数が第2の所定文字数(N/2文
字)以上の条件に合致するに至るまで繰り返し実行す
る。
In step S11, step S10
The number of characters in the immediately preceding line of the blank line inserted in is determined to be greater than or equal to the second predetermined number of characters (N / 2 characters), and the number of characters in the immediately preceding line is determined as the result of the immediately preceding line character number determination. When it is determined that the condition does not satisfy the condition of the second predetermined number of characters or more, the process returns to step S10 and cancels the immediately preceding blank line insertion, and the processing of steps S10 to S11 is repeated. Are repeatedly executed until the number of characters in the immediately preceding line reaches a condition equal to or greater than a second predetermined number of characters (N / 2 characters).

【0094】上述したステップS9乃至S11の処理が
空白行挿入処理であり、この空白行挿入処理は、正確か
つ確実な字幕提示内容の読みとり把握を促進する趣旨で
ある。これについて詳述すると、当該単位字幕文の総行
数が奇数であり、かつ、最終行の文字数が第2の所定文
字数(N/2文字)以上の条件に合致しない場合とは、
最終の提示単位字幕が単独行であり、しかも、この最終
行の文字数が比較的少ない場合を意味しており、この場
合には、ある提示単位字幕の提示継続時間長は、それに
含まれる字幕文字数の多少に依存するといった原則か
ら、この最終行に関わる提示継続時間長は必然的に短く
なるため、最終行の字幕提示内容を見逃してしまうおそ
れがある。特に、否定文では否定語が文末におかれると
いった日本語の特質上、例えばこの否定語部分を見逃し
てしまった場合には、本来の意味を誤解してしまうこと
にもなりかねない。
The processing in steps S9 to S11 is blank line insertion processing, and this blank line insertion processing is intended to promote accurate and reliable reading and grasping of subtitle presentation contents. More specifically, the case where the total number of lines in the unit subtitle sentence is an odd number and the number of characters in the last line does not meet the condition of the second predetermined number of characters (N / 2 characters) or more is as follows.
This means that the final presentation unit subtitle is a single line and the number of characters in this last line is relatively small. In this case, the presentation duration time of a certain presentation unit subtitle is determined by the number of subtitle characters included in it. Because of the principle that the subtitle depends on the size of the subtitles, the presentation duration of the last line is inevitably shortened. In particular, in the case of a negative sentence, if the negation part is overlooked due to the characteristic of Japanese such that the negation word is placed at the end of the sentence, the original meaning may be misunderstood.

【0095】そこで、このような場合には、当該単位字
幕文の文末から、第1の文末ポーズ点Pt1、句点P
k、又は再改行点Ppの存在有無をこの優先順位に従っ
て調査し、これら各点のうち、例えば図4に示すよう
に、奇偶行間に最初に現れた点を含む行と、これの後続
行間に空白行を挿入することにより、最終行に関わる提
示継続時間長を本来のものより意図的に長く引き延ばす
ことで、最終行の字幕提示内容をうっかり見逃してしま
うといった事態を可及的に回避し、これをもって、正確
かつ確実な字幕提示内容の読みとり把握を促進するよう
にしている。
Therefore, in such a case, the first sentence end pause point Pt1 and the period P
k or the presence or absence of a line feed point Pp is checked in accordance with this priority order. Of these points, for example, as shown in FIG. By inserting blank lines, the presentation duration of the last line is intentionally lengthened to be longer than originally intended, thereby avoiding the possibility of inadvertently overlooking the caption presentation content of the last line, This facilitates accurate and reliable reading and comprehension of the subtitle presentation contents.

【0096】ステップS12において、再改行点Ppの
箇所を対象として、当該単位字幕文に関する改行・改頁
推奨箇所に係る分割ルールを適用することで再改行箇所
の最適化を実行することにより、字幕文テキストを、所
定の字幕提示形式に従う提示単位字幕へ自動的に分割す
る。ここで、上述した分割ルール(改行・改頁データ)
について述べると、図5の図表には、自然感のある改行
・改頁を行った際における、直前の形態素品詞とその頻
度例が示されている。同図に示すように、分割ルール
(改行・改頁データ)で定義される改行・改頁推奨箇所
は、第1に句点の後ろ、第2に読点の後ろ、第3に文節
と文節の間、第4に形態素品詞の間、を含んでおり、分
割ルール(改行・改頁データ)を適用するにあたって
は、上述した記述順の先頭から優先的に適用するのが好
ましい。このようにすれば、実情に即して高精度に最適
化された字幕文テキストの自動分割を実現することがで
きる。
In step S12, the sub-line break point is optimized by applying the division rule relating to the recommended line break and page break point for the unit subtitle sentence, with respect to the line break point Pp. The sentence text is automatically divided into presentation unit subtitles according to a predetermined subtitle presentation format. Here, the above-described division rule (line feed / page break data)
5, the morpheme part of speech immediately before a line break or page break with a natural feeling and an example of its frequency are shown. As shown in the figure, the recommended line break / page break defined by the division rule (line feed / page break data) is first after the punctuation mark, secondly after the reading point, and thirdly between clauses. And fourthly, between morpheme parts of speech, and when applying the division rule (line feed / page break data), it is preferable to apply the priority from the top of the above-mentioned description order with priority. In this way, it is possible to realize automatic division of the caption sentence text that is optimized with high accuracy in accordance with the actual situation.

【0097】ステップS12において、分割ルールを適
用した再改行箇所の最適化を実行する趣旨は、本来の改
行箇所である第1の文末ポーズ点Pt1では、分割ルー
ルのうち「句点の後ろ」の適格条件を既に満たしてお
り、これを適用した最適化の余地がないのに対し、先頭
からの文字数が第1の所定文字数(N−3文字)に到達
した直後の箇所で機械的に施される再改行点Ppでは、
分割ルールの適格条件を必ずしも満たしているとは言え
ず、これを適用した最適化の余地があり、したがって、
この再改行箇所Ppの最適化を実行することにより、単
位字幕文の適切箇所における改行を保証する結果とし
て、字幕文テキストの、所定の字幕提示形式に従う提示
単位字幕への自動的な分割を担保するようにしている。
In step S12, the purpose of optimizing the line feed point applying the division rule is that the first sentence end pause point Pt1, which is the original line feed point, qualifies as "after the period" in the division rule. Although the condition is already satisfied and there is no room for optimization to which the condition is applied, the condition is mechanically applied immediately after the number of characters from the head reaches the first predetermined number of characters (N-3 characters). At the line feed point Pp,
It doesn't necessarily meet the eligibility criteria for the split rule, and there is room for optimization to apply,
By executing the optimization of the re-line feed part Pp, as a result of guaranteeing a line feed at an appropriate part of the unit sub-title text, automatic division of the sub-title text into presentation sub-titles according to a predetermined sub-title presentation format is ensured. I am trying to do it.

【0098】ステップS13において、ステップS3又
はS4で抽出した単位字幕文に後続する字幕文の存在有
無に係る後続有無判定を行い、この後続有無判定の結
果、後続する字幕文が存在する旨の判定が下されたと
き、ステップS1へと戻り、後続する字幕文について以
下の処理を繰り返す一方、後続する字幕文が存在しない
旨の判定が下されたとき、字幕文テキストの自動分割処
理を終了するのである。
In step S13, a subsequent presence / absence determination is performed on the presence / absence of a subtitle sentence subsequent to the unit subtitle sentence extracted in step S3 or S4, and as a result of the subsequent presence / absence determination, it is determined that a subsequent subtitle sentence exists. Is returned to step S1, and the following processing is repeated for the subsequent subtitle sentence. On the other hand, when it is determined that there is no subsequent subtitle sentence, the automatic subtitle sentence text division processing ends. It is.

【0099】これにより、字幕文テキスト中に含まれる
全ての字幕文を対象とした自動分割処理を実行すること
ができる。
Thus, it is possible to execute automatic division processing for all subtitle sentences included in the subtitle sentence text.

【0100】このように、本発明に係る字幕文テキスト
の自動分割方法によれば、本発明で提案する日本語の特
徴解析手法を用いたテキスト分割技術を適用することに
より、字幕の基となる字幕文テキストを、所定の字幕提
示形式に従う提示単位字幕へ自動的に分割することがで
きる。
As described above, according to the automatic subtitle sentence text division method according to the present invention, the subtitle base is obtained by applying the text division technique using the Japanese feature analysis method proposed in the present invention. The caption text can be automatically divided into presentation unit captions according to a predetermined caption presentation format.

【0101】また、本発明に係る字幕文テキストの自動
分割方法によれば、字幕文テキストのなかから適宜抽出
した単位字幕文のうち、最終の提示単位字幕が単独行で
あり、しかも、この最終行の文字数が比較的少ない場合
には、抽出した単位字幕文のうち、適宜の行間に空白行
を挿入することにより、最終行に関わる提示継続時間長
を、本来のものより意図的に長く引き延ばすようにした
ので、したがって、最終行の字幕提示内容をうっかり見
逃してしまうといった事態を可及的に回避することがで
きる結果として、正確かつ確実な字幕提示内容の読みと
り把握を促進することができる。
Further, according to the automatic subtitle text division method according to the present invention, among the unit subtitle texts appropriately extracted from the subtitle text, the final presentation unit subtitle is a single line. If the number of characters in the line is relatively small, the presentation duration time related to the last line is intentionally lengthened to be longer than the original one by inserting a blank line between appropriate lines in the extracted unit subtitle sentences. As a result, a situation in which the caption presentation content of the last line is inadvertently overlooked can be avoided as much as possible. As a result, accurate and reliable reading and comprehension of the caption presentation content can be promoted.

【0102】なお、本発明は、上述した実施形態の例に
限定されることなく、請求の範囲内において適宜の変更
を加えることにより、その他の態様で実施可能であるこ
とは言うまでもない。
It is needless to say that the present invention is not limited to the example of the above-described embodiment, but can be embodied in other forms by making appropriate changes within the scope of the claims.

【0103】[0103]

【発明の効果】以上詳細に説明したように、請求項1の
発明によれば、本発明で提案する日本語の特徴解析手法
を用いたテキスト分割技術を適用することにより、字幕
の基となる字幕文テキストを、所定の字幕提示形式に従
う提示単位字幕へ自動的に分割可能な字幕文テキストの
自動分割方法を得ることができる。
As described in detail above, according to the first aspect of the present invention, the subtitles are formed by applying the text segmentation technique using the Japanese feature analysis technique proposed in the present invention. It is possible to obtain an automatic division method of caption text that can automatically divide caption text into presentation subtitles according to a predetermined caption presentation format.

【0104】また、請求項1の発明によれば、最終行の
字幕提示内容をうっかり見逃してしまうといった事態を
可及的に回避することができる結果として、正確かつ確
実な字幕提示内容の読みとり把握を促進することができ
る。
According to the first aspect of the present invention, it is possible to avoid inadvertently overlooking the subtitle presentation content of the last line as much as possible. Can be promoted.

【0105】また、請求項2の発明によれば、文頭から
起算して所要文字数範囲に第2の文末ポーズ点が存在し
ない場合であっても、可及的にひとかたまりの内容に関
わる単位字幕文を意図的に抽出することができる。
According to the second aspect of the present invention, even if the second sentence end pause point does not exist in the required number of characters range from the beginning of the sentence, the unit caption sentence relating to the contents of a group as much as possible. Can be intentionally extracted.

【0106】さらに、請求項3の発明によれば、直前行
の字幕提示内容をうっかり見逃してしまうといった事態
を可及的に回避することができる結果として、正確かつ
確実な字幕提示内容の読みとり把握を促進することがで
きる。
Further, according to the third aspect of the present invention, it is possible to avoid as much as possible the inadvertent overlooking of the subtitle presentation contents of the immediately preceding line. Can be promoted.

【0107】さらにまた、請求項4の発明によれば、字
幕文テキスト中に含まれる全ての字幕文を対象とした自
動分割処理を実行することができる。
Further, according to the fourth aspect of the present invention, it is possible to execute automatic division processing for all subtitle sentences included in the subtitle text.

【0108】しかも、請求項5の発明によれば、実情に
即して高精度に最適化された字幕文テキストの自動分割
を実現することができる。
Further, according to the fifth aspect of the present invention, it is possible to realize automatic division of caption sentence text that is optimized with high precision in accordance with the actual situation.

【0109】さらに、請求項6の発明によれば、例え
ば、1行当たりの制限文字数が15文字となる標準的な
字幕提示形式を採用した場合、各提示単位字幕行に含ま
れる1行当たりの字幕文字数は、12乃至15文字の範
囲に収束する結果として、字幕提示時における見栄えが
良好な字幕文テキストの自動分割を実現することができ
る。
Further, according to the invention of claim 6, for example, when a standard caption presentation format in which the limit number of characters per line is 15 characters is adopted, one line per presentation unit subtitle line is included. As a result that the number of subtitle characters converges in the range of 12 to 15 characters, it is possible to realize automatic division of subtitle sentence text having a good appearance when presenting subtitles.

【0110】そして、請求項7の発明によれば、例え
ば、1行当たりの制限文字数が15文字となる標準的な
字幕提示形式を採用した場合、1行当たりの字幕文字数
が少ないとみなされる文字数は7文字となり、このしき
い値文字数は、例えば、字幕から目を離している1回当
たりの見逃し動作時間長を0.5〜2秒間程度と想定
し、字幕の提示速度を200字/分と想定したとき、そ
の見逃し動作時間の最大値である2秒間は約7文字に相
当し、このことから、1回の見逃し動作で7文字分の字
幕文字を見逃すおそれがあるとの検証結果からみて、き
わめて妥当な文字数であると言うことができ、該当行の
字幕提示内容をうっかり見逃してしまうといった事態を
可及的に回避する効果を高い水準で期待できる結果とし
て、正確かつ確実な字幕提示内容の読みとり把握を飛躍
的に促進することができるというきわめて優れた効果を
奏する。
According to the seventh aspect of the present invention, for example, when a standard caption presentation format in which the number of characters per line is limited to 15 is adopted, the number of characters for which the number of subtitle characters per line is considered to be small Is 7 characters, and the threshold number of characters is, for example, assuming that the overlooking operation time length per one look away from the subtitle is about 0.5 to 2 seconds and the subtitle presentation speed is 200 characters / min. As a result, the maximum value of the oversight operation time of 2 seconds is equivalent to about 7 characters, and from this result, it has been verified that there is a possibility that a single oversight operation may miss 7 subtitle characters. As a result, it can be said that the number of characters is extremely reasonable, and as a result that it is possible to expect at a high level the effect of avoiding inadvertently overlooking the subtitle presentation content of the relevant line as a result, accurate and reliable character It exhibits an extremely excellent effect that the reading understanding of the presentation content can be dramatically accelerated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】図1は、本発明に係る字幕文テキストの自動分
割方法を具現化する自動字幕番組制作システムの機能ブ
ロック構成図である。
FIG. 1 is a functional block configuration diagram of an automatic subtitle program production system that embodies an automatic subtitle text division method according to the present invention.

【図2】図2は、字幕文テキストの分割手順を表すフロ
ーチャート図である。
FIG. 2 is a flowchart illustrating a subtitle sentence text division procedure;

【図3】図3は、単位字幕文を適切箇所で仮分割した状
態を表す図である。
FIG. 3 is a diagram illustrating a state where a unit caption sentence is provisionally divided at an appropriate position.

【図4】図4は、単位字幕文のうち、適切箇所に空白行
を挿入した状態を表す図である。
FIG. 4 is a diagram illustrating a state where a blank line is inserted at an appropriate position in a unit caption sentence.

【図5】図5は、単位字幕文における仮分割箇所に適用
される分割ルールの説明に供する図である。
FIG. 5 is a diagram for explaining a division rule applied to a temporary division position in a unit caption sentence;

【図6】図6は、アナウンス音声に対する字幕送出タイ
ミングの同期検出技術に係る説明に供する図である。
FIG. 6 is a diagram provided for describing a technique for detecting a synchronization of subtitle transmission timing for an announcement sound;

【図7】図7は、アナウンス音声に対する字幕送出タイ
ミングの同期検出技術に係る説明に供する図である。
FIG. 7 is a diagram provided for describing a technique for detecting a synchronization of subtitle transmission timing with respect to an announcement sound;

【図8】図8は、現行字幕制作フロー、及び改良された
現行字幕制作フローに係る説明図である。
FIG. 8 is an explanatory diagram relating to a current subtitle production flow and an improved current subtitle production flow.

【符号の説明】 11 自動字幕番組制作システム 13 電子化原稿記録媒体 15 同期検出装置 17 統合化装置 19 形態素解析部 21 分割ルール記憶部 23 ディジタル・ビデオ・テープ・レコーダ(D−V
TR) 33 単位字幕文抽出部 35 提示単位字幕化部 37 タイミング情報付与部
[Description of Signs] 11 Automatic closed-caption program production system 13 Electronic document recording medium 15 Synchronization detection device 17 Integration device 19 Morphological analysis unit 21 Division rule storage unit 23 Digital video tape recorder (D-V)
TR) 33 unit subtitle sentence extraction unit 35 presentation unit subtitle conversion unit 37 timing information addition unit

───────────────────────────────────────────────────── フロントページの続き (71)出願人 000006013 三菱電機株式会社 東京都千代田区丸の内二丁目2番3号 (71)出願人 000004352 日本放送協会 東京都渋谷区神南2丁目2番1号 (72)発明者 沢村 英治 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 門馬 隆雄 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 福島 孝博 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 丸山 一郎 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 江原 暉将 東京都港区芝2−31−19 通信・放送機構 内 (72)発明者 白井 克彦 東京都港区芝2−31−19 通信・放送機構 内 Fターム(参考) 5C023 AA18 AA38 BA11 BA16 CA01 CA05 5C025 CA09 CB10 DA10  ──────────────────────────────────────────────────続 き Continued on the front page (71) Applicant 000006013 Mitsubishi Electric Corporation 2-3-2 Marunouchi, Chiyoda-ku, Tokyo (71) Applicant 000004352 Japan Broadcasting Corporation 2-2-1 Jinnan, Shibuya-ku, Tokyo (72 Inventor Eiji Sawamura 2-31-19 Shiba, Minato-ku, Tokyo Communication and Broadcasting Corporation (72) Inventor Takao Kadoma 2-31-19 Shiba in Minato-ku Tokyo, Japan Communication and Broadcasting Corporation (72) Inventor Takahiro Fukushima Tokyo 2-31-19 Shiba, Minato-ku, Tokyo Communication and Broadcasting Organization (72) Inventor Ichiro Maruyama 2-31-19 Shiba, Minato-ku, Tokyo Inside (72) Inventor Terumasa Ehara 2 Shiba, Minato-ku, Tokyo −31−19 Communications and Broadcasting Corporation (72) Inventor Katsuhiko Shirai 2-31-19, Shiba, Minato-ku, Tokyo Communications and Broadcasting Corporation F-term (reference) 5C023 AA18 AA38 BA11 BA16 CA01 CA05 5C025 CA09 CB10 DA10

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 字幕番組を制作するにあたり、少なくと
も字幕の基となる字幕文テキストを、所定の字幕提示形
式に従う提示単位字幕へ分割する際に用いられる字幕文
テキストの分割方法であって、 前記字幕文テキストのうち、文頭を起点とした所要文字
数範囲を対象として、第1の所定時間を越える長さの第
1の文末ポーズ点、及び句点を全て抽出し、 この抽出された第1の文末ポーズ点のうち、特に、第1
の所定時間と比較して長い時間の第2の所定時間を越え
る長さの第2の文末ポーズ点の存在有無を調査判定し、 この調査判定の結果、第2の文末ポーズ点が存在する旨
の判定が下されたとき、前記所要文字数範囲において文
頭から起算して最初に現れた第2の文末ポーズ点までの
範囲を単位字幕文として抽出し、 この抽出した単位字幕文を、第1の文末ポーズ点の箇所
で順次改行していくことにより、当該単位字幕文の仮分
割を行うとともに、この仮分割された複数の各行につい
て、一行当たりの文字数が、所定の字幕提示形式で定義
される一行当たりの制限文字数より少ない第1の所定文
字数以上か否かに係る各行文字数判定を順次行い、 この各行文字数判定の結果、一行当たりの文字数が前記
第1の所定文字数以上の条件に合致する該当行が存在す
る旨の判定が下されたとき、この該当行の各々につい
て、先頭からの文字数が第1の所定文字数に到達した直
後の箇所で再改行することにより、当該単位字幕文の仮
分割を行い、 前記複数行に仮分割された単位字幕文の総行数が奇数か
又は偶数かに係る奇偶判定を行い、 この奇偶判定の結果、総行数が奇数である旨の判定が下
されたとき、前記仮分割された単位字幕文のうち、最終
行の文字数が、前記制限文字数より少ない第2の所定文
字数以上か否かに係る最終行文字数判定を行い、 この最終行文字数判定の結果、最終行の文字数が前記第
2の所定文字数以上の条件に合致しない旨の判定が下さ
れたとき、当該単位字幕文の文末から、第1の文末ポー
ズ点、句点、又は再改行点の存在有無をこの優先順位に
従って調査し、 これら各点のうち、奇偶行間に最初に現れた点を含む行
と、これの後続行間に空白行を挿入し、 前記再改行点の箇所を対象として、当該単位字幕文に関
する改行・改頁推奨箇所に係る分割ルールを適用するこ
とで再改行箇所の最適化を実行することにより、前記字
幕文テキストを、所定の字幕提示形式に従う提示単位字
幕へ自動的に分割することを特徴とする字幕文テキスト
の自動分割方法。
1. A method of dividing a subtitle text used to produce at least a subtitle text that is a basis of a subtitle when producing a subtitle program, into a presentation unit subtitle according to a predetermined subtitle presentation format, In the subtitle sentence text, all of the first sentence end pause point and the period which exceed the first predetermined time are extracted for the required number of characters starting from the beginning of the sentence, and the extracted first sentence end is extracted. Of the pose points,
The presence / absence of a second sentence end pause point having a length longer than the second given time which is longer than the given time is examined and determined. As a result of this examination, the second sentence pause point is present. Is determined, the range from the beginning of the sentence to the second sentence end pause point that appears first from the beginning of the sentence is extracted as a unit subtitle sentence, and the extracted unit subtitle sentence is The unit subtitle sentence is provisionally divided by sequentially performing line feed at the end of the sentence pause point, and the number of characters per line is defined in a predetermined subtitle presentation format for each of the plurality of provisionally divided lines. Each line character number determination is sequentially performed according to whether or not the number of characters is equal to or more than a first predetermined number of characters less than the limit number of characters per line. As a result of the determination of each line character number, the number of characters per line meets the condition of the first predetermined number of characters or more. When it is determined that a line exists, a line break is performed again at a position immediately after the number of characters from the head reaches the first predetermined number of characters for each of the lines, thereby temporarily dividing the unit subtitle sentence. The odd / even judgment is performed as to whether the total number of lines of the unit subtitle text provisionally divided into the plurality of lines is odd or even. As a result of the odd / even judgment, it is determined that the total number of lines is odd. In the temporary subtitle sentence, a final line character number determination is performed as to whether or not the number of characters in the last line is equal to or greater than a second predetermined number of characters that is smaller than the limited number of characters. When it is determined that the number of characters in the last line does not meet the condition of the second predetermined number of characters or more, the presence of the first sentence end pause point, the period, or the line feed point from the end of the unit subtitle sentence. Investigate the presence or absence according to this priority, and For each point, insert a line containing the first point between odd and even lines and a blank line between subsequent lines, and recommend line breaks and page breaks for the unit subtitle sentence at the line break point. Optimizing a line feed portion by applying a division rule pertaining to a portion, thereby automatically dividing the subtitle text into presentation unit subtitles according to a predetermined subtitle presentation format; Automatic text division method.
【請求項2】 請求項1に記載の字幕文テキストの自動
分割方法であって、 前記調査判定の結果、第2の文末ポーズ点が存在しない
旨の判定が下されたとき、前記所要文字数範囲において
文頭から起算して最後に現れた第1の文末ポーズ点まで
の範囲を単位字幕文として抽出し、この抽出した単位字
幕文を対象として、当該単位字幕文の仮分割を含む以下
の処理を実行することを特徴とする字幕文テキストの自
動分割方法。
2. The method for automatically dividing caption text according to claim 1, wherein the required character number range is set when it is determined that the second sentence end pause point does not exist as a result of the investigation determination. In the above, the range from the beginning of the sentence to the first sentence end pause point that appears last is extracted as a unit subtitle sentence, and the following processing including provisional division of the unit subtitle sentence is performed on the extracted unit subtitle sentence. A method for automatically dividing caption text, which is performed.
【請求項3】 請求項1又は2のうちいずれか一項に記
載の字幕文テキストの自動分割方法であって、 前記第1の文末ポーズ点、句点、又は再改行点を含む各
点のうち、奇偶行間に最初に現れた点を含む行と、これ
の後続行間に空白行を挿入した後に、さらに、 この挿入した空白行の直前行の文字数が、所定の字幕提
示形式で定義される一行当たりの制限文字数より少ない
第2の所定文字数以上か否かに係る直前行文字数判定を
行い、 この直前行文字数判定の結果、直前行の文字数が前記第
2の所定文字数以上の条件に合致しない旨の判定が下さ
れたとき、当該単位字幕文の文末から、第1の文末ポー
ズ点、句点、又は再改行点の存在有無をこの優先順位に
従って調査し、 これら各点のうち、前記奇偶行間に現れた点の次に奇偶
行間に現れた点を含む行と、これの後続行間に空白行を
挿入し、 この空白行を挿入した後に、前記直前行文字数判定以下
の処理を、直前行文字数判定の結果が、直前行の文字数
が前記第2の所定文字数以上の条件に合致するに至るま
で繰り返し実行することを特徴とする字幕文テキストの
自動分割方法。
3. The method for automatically dividing caption text according to claim 1, wherein the first sentence end pause point, the punctuation mark, or the point including a line feed point is included. After inserting a blank line between the line that includes the first point between the odd and even lines and the subsequent line, the number of characters in the line immediately before the inserted blank line is further defined as a line defined by the prescribed subtitle presentation format. A determination is made as to whether or not the number of characters in the immediately preceding line is equal to or greater than a second predetermined number of characters, which is smaller than the hit limit character number. Is determined from the end of the sentence of the unit subtitle sentence, the presence or absence of a first sentence end pause point, a punctuation point, or a line feed point is checked in accordance with this priority order. After the point that appeared, A blank line is inserted between the line containing the dot and the subsequent line, and after this blank line is inserted, the processing of the preceding line character number determination and the subsequent steps are performed. 2. A method for automatically dividing a caption sentence text, wherein the method is repeatedly executed until a condition equal to or more than a predetermined number of characters is met.
【請求項4】 請求項1乃至3のうちいずれか一項に記
載の字幕文テキストの自動分割方法であって、 前記再改行点の箇所を対象として、当該単位字幕文に関
する改行・改頁推奨箇所に係る分割ルールを適用するこ
とで再改行箇所の最適化を実行した後に、前記抽出した
単位字幕文に後続する字幕文の存在有無に係る後続有無
判定を行い、 この後続有無判定の結果、後続する字幕文が存在する旨
の判定が下されたとき、当初の処理工程へと戻り、後続
する字幕文について以下の処理を繰り返す一方、後続す
る字幕文が存在しない旨の判定が下されたとき、字幕文
テキストの自動分割処理を終了することを特徴とする字
幕文テキストの自動分割方法。
4. The method for automatically dividing caption text according to claim 1, wherein a line feed / page break recommendation for the unit caption text is made for the re-feed point. After executing the optimization of the line feed point by applying the division rule pertaining to the location, the subsequent presence / absence determination is performed according to the presence / absence of the subtitle text following the extracted unit subtitle text. As a result of the subsequent presence / absence determination, When it is determined that a subsequent subtitle sentence exists, the process returns to the initial processing step, and the following processing is repeated for the subsequent subtitle sentence, while it is determined that the subsequent subtitle sentence does not exist. And automatically ending the subtitle sentence text dividing process.
【請求項5】 請求項1乃至4のうちいずれか一項に記
載の字幕文テキストの自動分割方法であって、 前記再改行点の箇所を対象として、当該単位字幕文に関
する改行・改頁推奨箇所に係る分割ルールを適用するこ
とで再改行箇所の最適化を実行するにあたり、 当該分割ルールで定義される改行・改頁推奨箇所は、 句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞
の間、のうちいずれか1又は複数の組み合わせを含んで
おり、 当該分割ルールを適用するにあたっては、前記記述順の
先頭から優先的に適用することを特徴とする字幕文テキ
ストの自動分割方法。
5. The method for automatically dividing caption text according to claim 1, wherein a line feed / page break recommendation for the unit caption text is performed at the re-feed point. In optimizing the line breaks by applying the division rules for the sections, the recommended line breaks and page breaks defined by the division rules are after the punctuation marks, after the punctuation marks, between the phrases, Automatic division of subtitle sentence text characterized by including any one or more combinations among morpheme parts of speech, and applying the division rule preferentially from the beginning of the description order. Method.
【請求項6】 請求項1乃至5のうちいずれか一項に記
載の字幕文テキストの自動分割方法であって、 前記所定の字幕提示形式で定義される一行当たりの制限
文字数Nは15文字であり、このとき、前記第1の所定
文字数は12(=N−3)文字であることを特徴とする
字幕文テキストの自動分割方法。
6. The method for automatically dividing caption text according to claim 1, wherein a limit number of characters N per line defined in the predetermined caption presentation format is 15 characters. In this case, the first predetermined number of characters is 12 (= N−3) characters, wherein the caption text is automatically divided.
【請求項7】 請求項1乃至6のうちいずれか一項に記
載の字幕文テキストの自動分割方法であって、 前記所定の字幕提示形式で定義される一行当たりの制限
文字数Nは15文字であり、このとき、前記第2の所定
文字数は8(=N/2;ただし小数点以下切り上げ)文
字であることを特徴とする字幕文テキストの自動分割方
法。
7. The method for automatically dividing caption text according to claim 1, wherein the limited number of characters N per line defined in the predetermined caption presentation format is 15 characters. In this case, the second predetermined number of characters is 8 (= N / 2; however, rounded up to the nearest decimal place).
JP12759199A 1999-05-07 1999-05-07 How to automatically split caption text Expired - Fee Related JP4140744B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12759199A JP4140744B2 (en) 1999-05-07 1999-05-07 How to automatically split caption text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12759199A JP4140744B2 (en) 1999-05-07 1999-05-07 How to automatically split caption text

Publications (2)

Publication Number Publication Date
JP2000324394A true JP2000324394A (en) 2000-11-24
JP4140744B2 JP4140744B2 (en) 2008-08-27

Family

ID=14963877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12759199A Expired - Fee Related JP4140744B2 (en) 1999-05-07 1999-05-07 How to automatically split caption text

Country Status (1)

Country Link
JP (1) JP4140744B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342311A (en) * 2001-05-17 2002-11-29 Telecommunication Advancement Organization Of Japan Method for automatically generating display unit caption sentence for caption program production
JP2002351490A (en) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan Method of imparting timing information to subtitles
JP2005269205A (en) * 2004-03-18 2005-09-29 National Institute Of Information & Communication Technology Sequential high speed caption creation system
JP2008199444A (en) * 2007-02-15 2008-08-28 Funai Electric Co Ltd Caption broadcast display system and broadcast receiver
CN110765889A (en) * 2019-09-29 2020-02-07 平安直通咨询有限公司上海分公司 Legal document feature extraction method, related device and storage medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082924A (en) * 2009-11-30 2011-06-01 新奥特(北京)视频技术有限公司 Method and apparatus for replacing subtitle with subtitle template
CN102082923A (en) * 2009-11-30 2011-06-01 新奥特(北京)视频技术有限公司 Subtitle replacing method and device adopting subtitle templates

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342311A (en) * 2001-05-17 2002-11-29 Telecommunication Advancement Organization Of Japan Method for automatically generating display unit caption sentence for caption program production
JP4538618B2 (en) * 2001-05-17 2010-09-08 独立行政法人情報通信研究機構 Automatic generation method of display unit caption text in caption program production system
JP2002351490A (en) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan Method of imparting timing information to subtitles
JP2005269205A (en) * 2004-03-18 2005-09-29 National Institute Of Information & Communication Technology Sequential high speed caption creation system
JP2008199444A (en) * 2007-02-15 2008-08-28 Funai Electric Co Ltd Caption broadcast display system and broadcast receiver
CN110765889A (en) * 2019-09-29 2020-02-07 平安直通咨询有限公司上海分公司 Legal document feature extraction method, related device and storage medium

Also Published As

Publication number Publication date
JP4140744B2 (en) 2008-08-27

Similar Documents

Publication Publication Date Title
US6442518B1 (en) Method for refining time alignments of closed captions
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
CN103559214B (en) Method and device for automatically generating video
Furui et al. Speech-to-text and speech-to-speech summarization of spontaneous speech
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
EP1295482B1 (en) Generation of subtitles or captions for moving pictures
JP6824399B2 (en) Voice guide generator, voice guide generation method and broadcasting system
CN104038804B (en) Captioning synchronization apparatus and method based on speech recognition
US20070126926A1 (en) Hybrid-captioning system
JP5787780B2 (en) Transcription support system and transcription support method
JP4140745B2 (en) How to add timing information to subtitles
JP2010233019A (en) Caption shift correction device, reproduction device, and broadcast device
JP3873926B2 (en) Subtitle insertion method, subtitle insertion system and subtitle insertion program
CN110781649A (en) Subtitle editing method and device, computer storage medium and electronic equipment
JP2018033048A (en) Metadata generation system
CN112004145A (en) Program advertisement skipping processing method and device, television and system
JP2000324394A (en) Method for automatically dividing title character text
JP4210723B2 (en) Automatic caption program production system
JP4538618B2 (en) Automatic generation method of display unit caption text in caption program production system
JP4496358B2 (en) Subtitle display control method for open captions
US20210005204A1 (en) Recording medium recording program, information processing apparatus, and information processing method for transcription
JP2009246813A (en) Caption deviation estimating device, caption deviation correcting device, playback device, and broadcasting device
JP5243886B2 (en) Subtitle output device, subtitle output method and program
JP2002351490A (en) Method of imparting timing information to subtitles
JP4359069B2 (en) Summary generating apparatus and program thereof

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080509

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080604

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees