JP5243886B2 - Subtitle output device, subtitle output method and program - Google Patents
Subtitle output device, subtitle output method and program Download PDFInfo
- Publication number
- JP5243886B2 JP5243886B2 JP2008207407A JP2008207407A JP5243886B2 JP 5243886 B2 JP5243886 B2 JP 5243886B2 JP 2008207407 A JP2008207407 A JP 2008207407A JP 2008207407 A JP2008207407 A JP 2008207407A JP 5243886 B2 JP5243886 B2 JP 5243886B2
- Authority
- JP
- Japan
- Prior art keywords
- subtitle
- network
- recognition
- unit
- caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、共通の原稿をアナウンス用と字幕用との双方に利用してリアルタイム放送を行う場合に、アナウンスの音声に合わせて字幕を出力する字幕出力装置、字幕出力方法及びプログラムに関する。 The present invention relates to a caption output device, a caption output method, and a program for outputting captions in accordance with the sound of an announcement when a common document is used for both announcements and captions for real-time broadcasting.
近年、放送業界ではデジタル放送番組に字幕を表示することが推奨されていることもあり、字幕放送番組が増えつつある。字幕放送番組が録画番組の場合には、予め字幕を付加した放送番組データを作成して記録媒体に記録しておくことができるが、ニュース番組等のリアルタイム放送(生放送)番組である場合には、アナウンサーの発声するタイミングに合わせて字幕をリアルタイムで送出する必要がある。
図12は、ニュース等のリアルタイム放送番組において従来一般的に行われている字幕送出の仕組みを示す図である。同図に示すように、アナウンサーがマイクロホンに向かってニュース原稿を読み上げている時に、字幕担当者がアナウンサーの音声を聞いて字幕の表示タイミングを判断し、表示タイミングとなった時に字幕切替装置のボタンを押す等の操作を行う。これにより、カメラで撮影された映像と、マイクロホンで収集された音声と、字幕切替装置において予め用意されている字幕とが、多重化機で多重化され、通信回線を介して受信機に送出される。
In recent years, it has been recommended in the broadcasting industry to display subtitles on digital broadcast programs, and subtitle broadcast programs are increasing. When the subtitle broadcast program is a recorded program, it is possible to create broadcast program data with subtitles added in advance and record it on a recording medium, but in the case of a real-time broadcast (live broadcast) program such as a news program Therefore, it is necessary to send subtitles in real time according to the timing of the announcer's utterance.
FIG. 12 is a diagram illustrating a subtitle transmission mechanism that is generally performed in a conventional real-time broadcast program such as news. As shown in the figure, when the announcer is reading the news manuscript into the microphone, the subtitle person listens to the announcer's voice to determine the display timing of the subtitle, and when the display timing is reached, the button on the subtitle switching device Perform operations such as pressing. As a result, video captured by the camera, audio collected by the microphone, and subtitles prepared in advance in the subtitle switching device are multiplexed by the multiplexer and sent to the receiver via the communication line. The
このような字幕送出の仕組みでは、字幕担当者の技量に応じて、音声に対する字幕表示タイミングの遅延が少なくとも3〜5秒程度発生する。このため、視聴者は音声を聴いてからかなりの間をおいた後に対応する字幕を見ることとなり、違和感を覚えてしまう。また、人手で字幕表示を行うため、操作ミスにより字幕が誤表示される危険性がある。
これに対して、ドラマなどの録画番組の場合には、音声と字幕との同期をとったデータを予め作成しておくことができるため、放送時に字幕表示の遅延や誤表示を防ぐことができる(例えば、特許文献1参照)。特許文献1に記載の自動字幕番組制作システムは、テキスト文から提示単位字幕文を生成し、提示単位字幕文毎にアナウンス音声との音声認識を行い、始点/終点タイミング情報を同期点として検出し、当該検出した始点/終点タイミング情報を提示単位字幕文毎に付与しておく。これにより、放送時には、付与したタイミング情報に基づいて音声と字幕との同期をとることが可能となる。
On the other hand, in the case of a recorded program such as a drama, data synchronized with audio and subtitles can be created in advance, so that subtitle display delays and erroneous display during broadcasting can be prevented. (For example, refer to Patent Document 1). The automatic caption program production system described in Patent Literature 1 generates a presentation unit caption sentence from a text sentence, performs speech recognition with the announcement voice for each presentation unit caption sentence, and detects start / end timing information as a synchronization point. The detected start / end timing information is assigned to each presentation unit subtitle sentence. Thereby, at the time of broadcasting, it becomes possible to synchronize audio and subtitles based on the given timing information.
特許文献1に記載の録画番組の技術をリアルタイム放送番組に適用した場合には、提示単位字幕文全体とアナウンス音声との音声認識を行い、始点/終点タイミング情報を同期点として検出した後に、提示単位字幕文を送出することとなる。つまり、提示単位字幕文に対応する音声アナウンスが終了してから当該提示単位字幕文が表示されることとなり、原理上、提示単位字幕文単位での大幅な遅延が生じることとなる。
また、特許文献1に記載の技術では、アナウンサーの息継ぎ等の無音区間(ポーズ、間)が想定通りに発生しなかった場合、アナウンサーが原稿を読み間違えた場合、読み飛ばした場合、雑音がはいった場合等を想定していないため、音声に対応する提示単位字幕文が正しく認識されない場合が発生する。この場合、録画放送の場合には、放送前に修正することができるが、リアルタイム放送の場合には、修正する間もなく誤った提示単位字幕文が表示されてしまうという不具合が発生する。
When the technology of the recorded program described in Patent Document 1 is applied to a real-time broadcast program, speech recognition is performed between the entire presentation unit subtitle sentence and the announcement voice, and the start point / end point timing information is detected as a synchronization point, and then presented. Unit subtitle text will be sent out. That is, the presentation unit subtitle sentence is displayed after the audio announcement corresponding to the presentation unit subtitle sentence ends, and in principle, a significant delay occurs in the presentation unit subtitle sentence unit.
In addition, in the technique described in Patent Document 1, when silence sections (pauses, etc.) such as a breather of an announcer do not occur as expected, when an announcer mistakes reading a manuscript, or skips reading, noise is generated. In other words, the presentation unit subtitle sentence corresponding to the voice may not be correctly recognized. In this case, in the case of a recorded broadcast, it can be corrected before the broadcast, but in the case of a real-time broadcast, there is a problem that an erroneous presentation unit subtitle sentence is displayed soon after the correction.
本発明は、上述した従来の問題点に鑑みてなされたものであり、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することができる字幕出力装置、字幕出力方法及びプログラムを提供する。
また、音声に対応した字幕を誤りなく正確に出力することを可能とする字幕出力装置、字幕出力方法及びプログラムを提供する。
The present invention has been made in view of the above-described conventional problems, and provides a caption output device, a caption output method, and a program capable of outputting captions with a small delay with respect to audio in real-time broadcasting.
Also provided are a caption output device, a caption output method, and a program capable of accurately outputting captions corresponding to audio without error.
上記目的を解決するために、請求項1に記載の発明は、音声に合わせて字幕を出力する字幕出力装置であって、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、前記テキスト文が発声された音声と、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識手段と、所定のタイミングで前記字幕単位文を出力する字幕単位文出力手段とを備え、前記音声認識処理手段は、前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行い、かつ前記音声認識ネットワーク生成手段は、前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成手段を備え、前記字幕先頭検出用ネットワーク生成手段は、前記字幕先頭検出用ネットワークと、当該字幕先頭検出用ネットワークと音声認識処理を並列に行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるまで、前記字幕単位文の先頭の文節に対応する認識候補単位に対して、前記字幕単位文の先頭の文節に後続する文節に対応する認識候補単位を順に連結し、当該認識候補単位の連結数が最小となる1または複数の認識候補単位を前記字幕先頭検出用ネットワークとし、前記字幕単位文出力手段は、前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする字幕出力装置を提供する。
本発明によれば、字幕出力装置は、前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することが可能となる。
In order to solve the above-mentioned object, the invention described in claim 1 is a caption output device that outputs captions in accordance with audio, and divides an input text sentence into caption output units, thereby subtitle units. Generated by a caption unit sentence generating means for generating a sentence, a speech recognition unit sentence generating means for generating a speech recognition unit sentence by dividing the text sentence into speech recognition processing units, and the speech recognition unit sentence generating means A speech recognition network is generated by concatenating recognition candidate units, which are a set of recognition candidates for speech recognition of the phrases of the recognized speech recognition unit sentences, in order from the one corresponding to the first phrase of the speech recognition unit sentences. A speech recognition network generating means, a voice uttered by the text sentence, and a voice recognition network generated by the voice recognition network generating means That by performing sequential matching recognition candidate units from the beginning, comprising a speech recognition means for performing speech recognition processing, the caption unit text output means for outputting the caption unit statement at a predetermined timing, the voice recognition processing means Performs the voice recognition processing in parallel using two or more voice recognition networks generated by the voice recognition network generation means, and the voice recognition network generation means corresponds to the first phrase of the subtitle unit sentence. Subtitle head detection network generating means for generating a subtitle head detection network including at least a recognition candidate unit to be detected, wherein the subtitle head detection network generation means includes the subtitle head detection network, the subtitle head detection network, Distance between networks with the voice recognition network for which voice recognition processing is performed in parallel Until the recognition candidate unit corresponding to the first phrase of the subtitle unit sentence is sequentially connected to the recognition candidate unit corresponding to the phrase subsequent to the first phrase of the subtitle unit sentence until is equal to or greater than a predetermined threshold, One or a plurality of recognition candidate units with the smallest number of connected recognition candidate units is used as the caption head detection network, and the caption unit sentence output means includes all recognition candidate units constituting the caption head detection network. The subtitle output apparatus outputs the subtitle unit sentence when the collation is completed .
According to the present invention, the subtitle output device outputs the subtitle unit sentence when the collation with all recognition candidate units constituting the subtitle head detection network is completed. Subtitles can be output with a small delay.
また、前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行うため、発話者の読み飛ばし等による誤認識を防ぎ、精度の高い音声認識結果に基づいて、音声に対応した字幕を少ない遅延で正確に出力することができる。 Further, the voice recognition processing, in order to perform in parallel using two or more speech recognition networks generated by the speech recognition network generation means, preventing false recognition by such skipping utterance's high speech recognition accuracy Based on the result, subtitles corresponding to audio can be accurately output with a small delay.
また、字幕の先頭文節が発声されたことを正確に検出するための字幕先頭検出用ネットワークを生成して音声認識を行うことで、字幕の出力タイミングの判定を正確かつ容易に行うことができる。
請求項2に記載の発明は、請求項1に記載の字幕出力装置において、前記音声認識処理手段は、前記音声認識処理を、前記字幕先頭検出用ネットワーク生成手段により生成された前記字幕先頭検出用ネットワークに対応する第1の字幕単位文を含む第1の音声認識単位文に対応する第1の音声認識ネットワークと、該第1の音声認識単位文に後続する第2の音声認識単位文に対応する第2の音声認識ネットワークとを用いて並列に行うことを特徴とする。
請求項3に記載の発明は、請求項2に記載の字幕出力装置において、前記音声認識処理手段は、前記第1の音声認識ネットワークと前記第2の音声認識ネットワークと前記字幕先頭検出用ネットワークのそれぞれによって表わされる事象の発生の有無を検出する事象発生判定手段をさらに備えることを特徴とする。
請求項4に記載の発明は、請求項2または請求項3に記載の字幕出力装置において、前記字幕先頭検出用ネットワーク生成手段は、前記第1の字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む音声認識ネットワークを仮の字幕先頭検出用ネットワークとして設定し、該仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離を算出し、前記ネットワーク間距離が前記所定の閾値以上の場合は、前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする。
請求項5に記載の発明は、請求項4に記載の字幕出力装置において、前記字幕先頭検出用ネットワーク生成手段は、前記ネットワーク間距離が前記所定の閾値未満の場合は、前記仮の字幕先頭検出用ネットワークに対して、前記第1の字幕単位文の先頭文節に後続する文節に対応する認識候補単位を連結することで前記仮の字幕先頭検出用ネットワークを更新し、該更新された仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離が前記所定の閾値以上となるまで前記仮の字幕先頭検出用ネットワークの更新処理を繰り返し行い、該更新処理が終了した時点での前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする。
Further, by generating a subtitle head detection network for accurately detecting that the head phrase of the subtitle is uttered and performing voice recognition, it is possible to accurately and easily determine the output timing of the subtitle.
According to a second aspect of the present invention, in the caption output device according to the first aspect, the voice recognition processing unit performs the voice recognition processing for the caption head detection generated by the caption head detection network generation unit. Corresponding to the first speech recognition network corresponding to the first speech recognition unit sentence including the first caption unit sentence corresponding to the network, and the second speech recognition unit sentence subsequent to the first speech recognition unit sentence. The second voice recognition network is used in parallel.
According to a third aspect of the present invention, in the caption output device according to the second aspect, the voice recognition processing means includes the first voice recognition network, the second voice recognition network, and the caption head detection network. It further comprises event occurrence determination means for detecting whether or not an event represented by each occurrence has occurred.
According to a fourth aspect of the present invention, in the subtitle output device according to the second or third aspect, the subtitle head detection network generating means recognizes a recognition candidate corresponding to a head phrase of the first subtitle unit sentence. A speech recognition network including at least a unit is set as a temporary caption head detection network, a network distance between the temporary caption head detection network and the second speech recognition network is calculated, and the network distance Is equal to or greater than the predetermined threshold, the temporary caption head detection network is the caption caption detection network.
According to a fifth aspect of the present invention, in the subtitle output apparatus according to the fourth aspect, the subtitle head detection network generation means detects the temporary subtitle head detection when the inter-network distance is less than the predetermined threshold. The temporary subtitle head detection network is updated by linking the recognition candidate unit corresponding to the phrase subsequent to the first phrase of the first subtitle unit sentence to the network, and the updated temporary subtitle is updated. When the temporary caption head detection network update process is repeated until the network distance between the head detection network and the second voice recognition network is equal to or greater than the predetermined threshold, and the update process is completed The provisional subtitle head detection network in is used as the subtitle head detection network.
請求項6に記載の発明は、請求項1から5の何れか1項に記載の字幕出力装置において、前記音声認識ネットワーク生成手段は、前記連結された各認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入した上で、前記音声認識ネットワークを生成することを特徴とする。
本発明によれば、各認識候補文節間に、誤認識を防ぐための特殊認識候補を挿入することで、発話者の息継ぎの違い、読み間違い、言い直し、咳払い、雑音等に影響されずに、正確に音声認識を行うことができる。
According to a sixth aspect of the present invention, in the caption output device according to any one of the first to fifth aspects, the voice recognition network generating means prevents erroneous recognition between the connected recognition candidate units. The voice recognition network is generated after inserting a special recognition candidate for use.
According to the present invention, by inserting a special recognition candidate for preventing misrecognition between each recognition candidate clause, it is not affected by differences in breathing of the speaker, misreading, rephrasing, coughing, noise, etc. , Voice recognition can be performed accurately.
請求項7に記載の発明は、請求項1から6の何れか1項に記載の字幕出力装置において、前記音声認識ネットワーク生成手段は、前記認識候補単位に、誤認識を防ぐための特殊認識候補を含めた上で、前記音声認識ネットワークを生成することを特徴とする。
本発明によれば、認識候補単位に特殊認識候補が含まれることにより、発話者の読み間違い、雑音等に影響されずに、音声認識の誤認識を防ぐことができる。
請求項8に記載の発明は、請求項6又は7に記載の字幕出力装置において、前記特殊認識候補には、ポーズがないことを表すNULLと、無音のポーズがあることを表すSILと、任意の音を表すGarbageと、の少なくとも1つが含まれることを特徴とする。
The invention described in
According to the present invention, by including special recognition candidates in the recognition candidate unit, it is possible to prevent erroneous recognition of speech recognition without being affected by misreading of a speaker, noise, and the like.
The invention according to claim 8 is the caption output device according to
請求項9に記載の発明は、音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、所定のタイミングで前記字幕単位文を出力する字幕単位文出力ステップと、を備え、前記音声認識ステップは、前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行い、かつ前記音声認識ネットワーク生成ステップは、前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成ステップを備え、前記字幕先頭検出用ネットワーク生成ステップは、前記字幕先頭検出用ネットワークと、当該字幕先頭検出用ネットワークと音声認識処理を並列に行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるまで、前記字幕単位文の先頭の文節に対応する認識候補単位に対して、前記字幕単位文の先頭の文節に後続する文節に対応する認識候補単位を順に連結し、当該認識候補単位の連結数が最小となる1または複数の認識候補単位を前記字幕先頭検出用ネットワークとし、前記字幕単位文出力ステップは、前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする字幕出力方法を提供する。 The invention according to claim 9 is a subtitle output method executed by a subtitle output apparatus that outputs subtitles in accordance with audio, and divides the input text sentence into subtitle output units, thereby subtitle unit sentences being Generated in the subtitle unit sentence generation step, the speech recognition unit sentence generation step for generating the speech recognition unit sentence by dividing the text sentence into the speech recognition processing units, and the speech recognition unit sentence generation step. Speech that generates a speech recognition network by concatenating recognition candidate units, which are a set of recognition candidates for speech recognition of phrases of speech recognition unit sentences, in order from the one corresponding to the first phrase of the speech recognition unit sentences A recognition network generation step; a voice in which the text sentence is uttered; and a voice recognition generated in the voice recognition network generation step. By performing sequential collated with the recognition candidates units constituting the network from the beginning, e Bei a speech recognition step of performing speech recognition processing, the caption unit sentence output step of outputting the caption unit statement at a predetermined timing, and In the voice recognition step, the voice recognition processing is performed in parallel using two or more voice recognition networks generated by the voice recognition network generation means, and the voice recognition network generation step includes a head of the caption unit sentence. A subtitle head detection network generating step for generating a subtitle head detection network including at least a recognition candidate unit corresponding to the phrase of the subtitle, wherein the subtitle head detection network generation step includes the subtitle head detection network, the subtitle head detection network, Sound for which detection network and speech recognition processing are performed in parallel Corresponds to the phrase that follows the first phrase of the caption unit sentence for the recognition candidate unit that corresponds to the first phrase of the caption unit sentence until the network distance to the recognition network is equal to or greater than a predetermined threshold. Recognition candidate units are sequentially connected, and one or a plurality of recognition candidate units with the smallest number of connected recognition candidate units is used as the caption head detection network, and the caption unit sentence output step includes the caption head detection network. The subtitle output method is characterized in that the subtitle unit sentence is output at the time when the collation with all recognition candidate units constituting the subtitle is completed .
請求項10に記載の発明は、請求項9に記載の字幕出力方法において、前記音声認識処理ステップは、前記音声認識処理を、前記字幕先頭検出用ネットワーク生成手段により生成された前記字幕先頭検出用ネットワークに対応する第1の字幕単位文を含む第1の音声認識単位文に対応する第1の音声認識ネットワークと、該第1の音声認識単位文に後続する第2の音声認識単位文に対応する第2の音声認識ネットワークとを用いて並列に行うことを特徴とする。
請求項11に記載の発明は、請求項10に記載の字幕出力方法において、前記音声認識処理ステップは、前記第1の音声認識ネットワークと前記第2の音声認識ネットワークと前記字幕先頭検出用ネットワークのそれぞれによって表わされる事象の発生の有無を検出する事象発生判定ステップをさらに備えることを特徴とする。
請求項12に記載の発明は、請求項10または請求項11に記載の字幕出力方法において、前記字幕先頭検出用ネットワーク生成ステップは、前記第1の字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む音声認識ネットワークを仮の字幕先頭検出用ネットワークとして設定し、該仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離を算出し、前記ネットワーク間距離が前記所定の閾値以上の場合は、前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする。
請求項13に記載の発明は、請求項12に記載の字幕出力方法において、前記字幕先頭検出用ネットワーク生成ステップは、前記ネットワーク間距離が前記所定の閾値未満の場合は、前記仮の字幕先頭検出用ネットワークに対して、前記第1の字幕単位文の先頭文節に後続する文節に対応する認識候補単位を連結することで前記仮の字幕先頭検出用ネットワークを更新し、該更新された仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離が前記所定の閾値以上となるまで前記仮の字幕先頭検出用ネットワークの更新処理を繰り返し行い、該更新処理が終了した時点での前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする。
According to a tenth aspect of the present invention, in the subtitle output method according to the ninth aspect, in the speech recognition processing step, the speech recognition processing is performed for the caption head detection generated by the caption head detection network generating means. Corresponding to the first speech recognition network corresponding to the first speech recognition unit sentence including the first caption unit sentence corresponding to the network, and the second speech recognition unit sentence subsequent to the first speech recognition unit sentence. The second voice recognition network is used in parallel.
The invention described in claim 11 is the caption output method according to
According to a twelfth aspect of the present invention, in the caption output method according to the tenth or eleventh aspect, the subtitle head detection network generation step includes a recognition candidate corresponding to a head phrase of the first subtitle unit sentence. A speech recognition network including at least a unit is set as a temporary caption head detection network, a network distance between the temporary caption head detection network and the second speech recognition network is calculated, and the network distance Is equal to or greater than the predetermined threshold, the temporary caption head detection network is the caption caption detection network.
According to a thirteenth aspect of the present invention, in the subtitle output method according to the twelfth aspect, the subtitle head detection network generating step detects the temporary subtitle head detection when the inter-network distance is less than the predetermined threshold. The temporary subtitle head detection network is updated by linking the recognition candidate unit corresponding to the phrase subsequent to the first phrase of the first subtitle unit sentence to the network, and the updated temporary subtitle is updated. When the temporary caption head detection network update process is repeated until the network distance between the head detection network and the second voice recognition network is equal to or greater than the predetermined threshold, and the update process is completed The provisional subtitle head detection network in is used as the subtitle head detection network.
請求項14に記載の発明は、コンピュータに、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、所定のタイミングで前記字幕単位文を出力する字幕単位文出力ステップとを実行させるためのプログラムであって、前記音声認識ステップは、前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行い、かつ前記音声認識ネットワーク生成ステップは、前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成ステップを備え、前記字幕先頭検出用ネットワーク生成ステップは、前記字幕先頭検出用ネットワークと、当該字幕先頭検出用ネットワークと音声認識処理を並列に行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるまで、前記字幕単位文の先頭の文節に対応する認識候補単位に対して、前記字幕単位文の先頭の文節に後続する文節に対応する認識候補単位を順に連結し、当該認識候補単位の連結数が最小となる1または複数の認識候補単位を前記字幕先頭検出用ネットワークとし、前記字幕単位文出力ステップは、前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とするプログラムを提供する。 According to the fourteenth aspect of the present invention, a subtitle unit sentence generating step for generating a subtitle unit sentence by dividing a text sentence input to a computer into output units of subtitles, and a processing unit for speech recognition of the text sentence. A speech recognition unit sentence generation step for generating a speech recognition unit sentence by dividing the speech recognition unit sentence, and a set of recognition candidates for speech recognition of the phrases of the speech recognition unit sentence generated in the speech recognition unit sentence generation step. A speech recognition network generating step of generating a speech recognition network by connecting recognition candidate units in order from the one corresponding to the first phrase of the speech recognition unit sentence, the speech from which the text sentence is uttered, and the speech Matching with the recognition candidate units making up the speech recognition network generated in the recognition network generation step from the top By performing the following, a program for executing the caption unit sentence output step of outputting the caption unit statement at a predetermined timing, the speech recognition step, the voice recognition processing, the speech recognition network generation means The speech recognition network generation step generates a subtitle head detection network including at least a recognition candidate unit corresponding to a head phrase of the subtitle unit sentence. A subtitle head detection network generation step, wherein the subtitle head detection network generation step includes: the subtitle head detection network; and a voice recognition network to be subjected to speech recognition processing in parallel with the subtitle head detection network. The network distance between Up to the recognition candidate unit corresponding to the first phrase of the caption unit sentence, the recognition candidate units corresponding to the phrase following the first phrase of the caption unit sentence are sequentially connected, and the number of connected recognition candidate units. One or a plurality of recognition candidate units that minimizes the caption head detection network, and the caption unit sentence output step is performed when the collation with all recognition candidate units constituting the caption head detection network is completed. And providing a program characterized by outputting the caption unit sentence .
本発明によれば、字幕出力装置は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との照合が完了した時点で前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することが可能となる。
また、字幕出力装置は、テキスト文が発声された音声の音声認識処理を、2以上の音声認識ネットワークを用いて並列に行うため、発話者の読み飛ばし等による音声の誤認識を防ぐことができ、音声に対応した字幕を正確に出力することができる。
According to the present invention, the subtitle output device outputs the subtitle unit sentence when the collation with the recognition candidate unit corresponding to at least the first clause of the subtitle unit sentence is completed. Subtitles can be output with a small delay.
In addition, since the caption output device performs speech recognition processing of the voice in which the text sentence is uttered in parallel using two or more speech recognition networks, it is possible to prevent erroneous recognition of speech due to skipping of a speaker or the like. , Subtitles corresponding to audio can be output accurately.
以下、本発明の実施形態について、図面を参照しつつ説明する。
図1は、本発明の実施形態に係る字幕出力装置10の機能構成を示すブロック図である。本実施形態では、ニュース等のリアルタイム放送番組の原稿が電子化された連続テキスト文と、当該原稿がアナウンサーにより読み上げられた音声とが、字幕出力装置10に入力されるものとする。これにより、字幕出力装置10から字幕単位文が出力され、当該字幕単位文は、図12に示す従来の方法で音声や映像と多重化された後に、受信機に送出されて表示されるものとする。
図1に示すように、本実施形態に係る字幕出力装置10は、形態素解析部11、文節推定部12、音声認識単位文生成部13、字幕単位文生成部14、ビタビネットワーク生成部15、音声認識部16、及び、字幕単位文出力部17を含んで構成される。これらの機能は、字幕出力装置10が備える図示せぬCPU(Central Processing Unit)が、ハードディスクやROM(Read Only Memory)等の記憶装置に記憶されたプログラムやデータ等のソフトウェアを読み出して実行することにより実現される機能である。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of a
As shown in FIG. 1, the
(形態素解析部)
形態素解析部11は、光ディスク等の記録媒体や通信回線を介して字幕出力装置10に入力された連続テキスト文を、予め記憶装置に記憶されている文法のルールや品詞、読み仮名等の辞書データベースを用いて、形態素(Morpheme:品詞、単語等の言語で意味を持つ最小単位)に分割し、それぞれの品詞、読み等を判別する。
図2は、形態素解析結果の具体例を示す図である。同図には、連続テキスト文「民主党、社民党、国民新党の野党3党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。」を入力とした場合に、形態素解析により出力される表層語(連続テキスト文が分割された結果である各形態素)、基本形(活用語の終止形)、読み(表記上の仮名)、発音(表音上の仮名)、品詞名、活用形が示されている。
なお、図2においては、各表層語に対応する読みは1つずつ表示されているが、複数の読みを持つ表層語については、複数の読みを得ることができる。例えば、図2では、「3」の読みは「サン」のみが示されているが、「ミ」、「スリー」の読みも得ることもできる。
(Morphological Analysis Department)
The morpheme analysis unit 11 is a dictionary database of grammatical rules, parts of speech, reading kana, etc. stored in advance in a storage device for continuous text sentences input to the
FIG. 2 is a diagram illustrating a specific example of a morphological analysis result. In the figure, the morphological analysis is performed when the continuous text sentence “A resolution of the question to Prime Minister Fukuda submitted by the Democratic Party, the Social Democratic Party, and the New National Party of the Opposition Party was passed for the first time at the Upper House of the House of Councilors” was input. Surface words (each morpheme that is the result of splitting a continuous text sentence), basic form (terminal form of a usage word), reading (kana on the notation), pronunciation (kana on the phonetics), part of speech name, Inflection forms are shown.
In FIG. 2, one reading corresponding to each surface word is displayed one by one, but a plurality of readings can be obtained for a surface word having a plurality of readings. For example, in FIG. 2, only “Sun” is shown as “3”, but “mi” and “three” can also be obtained.
(文節推定部)
文節推定部12は、連続テキスト文中の句読点や形態素解析部11の解析結果による単語・品詞情報を、予め記憶装置に記憶されている文節推定ルールと照合することで、文節の単位(区切り位置)を推定する。なお、文節推定ルールとは、助詞、助動詞等の品詞種類や句読点の並び条件に基づいて、文節の単位を推定する公知のロジックである。なお、文節とは、名詞、動詞等の自立語に接語が接続された発音上の単位である。例えば、「あの人は私の甥です。」というテキスト文の文節は、「あの」、「人は」、「私の」、「甥です。」の4つとなる。
(Phrase estimation part)
The
(字幕単位文生成部)
字幕単位文生成部14は、所望の字幕単位文生成条件(例えば、画面に表示する字幕の文字数は30文字以内とする等の条件)に適合するように、入力された連続テキスト文を文節の区切りで分割することで、自然な箇所で区切られた字幕単位文を生成する。
(Subtitle unit sentence generator)
The subtitle unit
(音声認識単位文生成部)
音声認識単位文生成部13は、連続テキスト文の句読点や形態素解析部11による単語・品詞情報を、予め記憶装置に記憶されている公知の息継ぎ推定ルールと照合することによって、息継ぎによる無音区間を推定し、連続テキスト文を無音区間で区切ることにより、音声認識に適した処理単位である音声認識単位文を生成する。
図3は、形態素解析部11による解析結果に基づいて、文節推定部12により推定される文節と、字幕単位文生成部14により生成される字幕単位文と、音声認識単位文生成部13により生成される音声認識単位文の具体例を示す図である。
図3に示す原稿の連続テキスト文「民主党、社民党、国民新党の野党3党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。」は、形態素解析部11により形態素解析され、当該形態素解析された結果としての句読点や単語・品詞に基づいて、文節推定部12により図3に示す文節が推定され、字幕単位文生成部14により図3に示す字幕文単位文が生成され、音声認識単位文生成部13により図3に示す音声認識単位文が生成されることとなる。
(Speech recognition unit sentence generator)
The speech recognition unit
FIG. 3 shows a phrase estimated by the
The morphological analysis department 11 has issued a continuation text sentence in the manuscript shown in Fig. 3 "The resolution of the question to Prime Minister Fukuda submitted by the Democratic Party, the Social Democratic Party, and the New National Party's three opposition parties was passed for the first time at the House of Councilors'Meeting." 3 is estimated by the
(ビタビネットワーク生成部)
ビタビネットワーク生成部15は、原稿の連続テキスト文がアナウンサーにより読み上げられた場合の音声を認識するためのビタビネットワーク(Viterbi Network)を生成する。このビタビネットワークは、音声認識単位文生成部13により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、当該音声認識単位文の先頭の文節に対応するものから順に連結したものである。ここで、「認識候補」とは、文節が発声された音声を音声認識可能とするために、1つの文節に対して形態素解析部11により得られた1又は複数の読みの発音記号列を例えば音素HMM(Hidden Markov Model)に変換したものである。また、「認識候補単位」とは、1つの文節に対する認識候補の集合である。したがって、「文節」と「認識候補単位」とは1対1に対応する。1つの文節に対して得られた読みが複数の場合には、「文節」と「認識候補」、及び、「認識候補単位」と「認識候補」とは、1対多の関係となる。1つの文節に対して得られた読みが1つの場合には、「認識候補」と「認識候補単位」とは一致する。ビタビネットワーク生成部15は、このビタビネットワークを、音声認識単位文生成部13により生成された音声認識単位文の数だけ生成する。
(Viterbi network generator)
The Viterbi
また、ビタビネットワーク生成部15は、連結された認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入する。ここで、「特殊認識候補」としては、「SIL」、「NULL」、「Garbage」等が存在する。「NULL」は、ポーズ(間)がないことを意味しており、無音区間も不要語も発生しなかった場合を表現している。「SIL」は、無音のポーズ(無音区間)を意味しており、アナウンサーが発声の間を任意に取ることによって、ビタビネットワークの音声認識の尤度が低下するのを防ぐ機能を有する。「Garbage」は、音声認識において期待していない語を意味し、不要語を吸収する機能を有する。不要語が挿入される場合としては、例えば、「福田そーり、ゲホ、総理大臣に対する・・・」といった咳き込みや、「もん、問責決議が」のような言い直しが発生した場合である。このように、認識候補単位の間にNULL、SIL、Garbage等の特殊認識候補を挿入することで、読み間違いや間のおき方の違いを吸収し、高精度の音声認識を行うことが可能となる。
Moreover, the Viterbi
さらに、各認識候補単位を構成する認識候補中に特殊認識候補を含めることも可能である。例えば、形態素解析時に、読み仮名候補がない、或いは、英文字・記号などで読み方が不明又は不明瞭であると判定された文節については、Garbageを並列な認識候補として、認識候補単位中に含めることができる。また、雑音などの理由による音声認識誤りを避けるためにGarbageを認識候補単位中に含めることもできる。さらに、アナウンサーの読み飛ばし等による誤認識を避けるためには、NULLを並列な認識候補として認識候補単位中に含めることができる。なお、Garbageは、全音素HMMの並列な枝として構成される。 Furthermore, it is possible to include special recognition candidates in the recognition candidates constituting each recognition candidate unit. For example, Garbage is included in the recognition candidate unit as a parallel recognition candidate for phrases that have no kana candidates or are determined to be unclear or ambiguous by English characters or symbols during morphological analysis. be able to. Further, Garbage can be included in the recognition candidate unit in order to avoid a voice recognition error due to noise or the like. Furthermore, NULL can be included in the recognition candidate unit as a parallel recognition candidate in order to avoid erroneous recognition due to skipping of the announcer. Garbage is configured as a parallel branch of all phoneme HMMs.
図4には、3つの音声認識単位文及び文節から生成される3つのビタビネットワークの例を示す。なお、この例では、連続テキスト文の形態素解析時において、「3」の読み候補は、「サン」、「ミ」、「スリー」の3通りが存在し、「福田」の読み候補は「フクタ」、「フクダ」、「フグダ」の3通りが存在したため、同図に示すように、文節「3党が」の認識候補単位は認識候補「サン」、「ミ」、「スリー」で構成されており、文節「福田」の認識候補単位は認識候補「フクタ」、「フクダ」、「フグダ」で構成されている。また、この例では、文節「民主党」の認識候補単位は認識候補「ミンシュトー」、「NULL」、「Garbage」で構成されている。また、図4に示すビタビネットワークを構成する各認識候補単位を連結する矢印は、図5に示すように、NULL、SIL、Garbageを経由したビタビ状態遷移を表している。 FIG. 4 shows an example of three Viterbi networks generated from three speech recognition unit sentences and phrases. In this example, at the time of morphological analysis of a continuous text sentence, there are three reading candidates of “3”: “Sun”, “Mi”, and “Three”, and “Fukuda” reading candidates are “Fukuta” ”,“ Fukuda ”, and“ Fuguda ”. As shown in the figure, the recognition candidate unit of the phrase“ 3 party is ”consists of recognition candidates“ Sun ”,“ Mi ”, and“ Three ”. The recognition candidate unit of the phrase “Fukuda” is composed of recognition candidates “Fukuta”, “Fukuda”, and “Fuguda”. Further, in this example, the recognition candidate unit of the phrase “Democratic Party” is composed of recognition candidates “Minstow”, “NULL”, and “Garbage”. In addition, as shown in FIG. 5, the arrows connecting the recognition candidate units constituting the Viterbi network shown in FIG. 4 represent Viterbi state transitions via NULL, SIL, and Garbage.
さらに、ビタビネットワーク生成部15は、図1に示すように字幕先頭検出用ネットワーク生成機能151を備えている。字幕先頭検出用ネットワーク生成機能151は、各字幕単位文の先頭の文節が発声されたことを検出するための字幕先頭検出用のビタビネットワーク(以下、「字幕先頭検出用ネットワーク」という)を、字幕単位文生成部14により生成された字幕単位文の数だけ生成する。この字幕先頭検出用ネットワークは、先頭部分が所定のビタビネットワークの先頭部分で構成され、終端部分が所定の字幕単位文の先頭部分に対応する認識候補単位で構成されている。なお、この字幕先頭検出用ネットワークの生成方法の詳細は後述する。
Further, the Viterbi
(音声認識部)
音声認識部16は、原稿の連続テキスト文がアナウンサーにより発声された音声を、ビタビネットワーク生成部15で生成されたビタビネットワークを用いて音声認識する。
図6は、音声認識処理部16の詳細な機能構成を示すブロック図である。同図に示すように、音声認識処理部16は、音声特徴量抽出部161と、ビタビネットワーク比較評価部162と、事象発生判定部163とを含んで構成される。
音声特徴量抽出部161は、入力音声から音声特徴量を求める。
ビタビネットワーク比較評価部162は、ビタビネットワークを構成する各認識候補単位を構成する各認識候補及び各認識候補単位の間に挿入された特殊認識候補の音声特徴量と、音声特徴量抽出部161で得られた音声特徴量との比較照合を逐次行い、ビタビネットワークで表される時系列的な音声特徴量変化が起こった尤度(確率)を逐次算出する。
(Voice recognition unit)
The
FIG. 6 is a block diagram illustrating a detailed functional configuration of the speech
The voice feature
The Viterbi network comparison /
なお、ビタビネットワーク比較評価部162は、複数のビタビネットワークを並列に評価し、各ビタビネットワークの尤度を同時並行に算出する並列認識処理を行うことが可能である。並列評価を行う場合に並列評価対象となるビタビネットワークは、並列評価を行わない場合に認識対象となるビタビネットワーク(すなわち、現在アナウンサーが発声中の文節を含む音声認識単位文に対応するビタビネットワーク)に後続する1つ又は2つのビタビネットワークとしてもよいし、前後に隣接するビタビネットワークとしてもよい。また、並列評価対象となる字幕先頭検出用ネットワークは、上記認識対象となるビタビネットワークの先頭部分を含むネットワークとすることができる。これらの並列評価対象となるビタビネットワークの決定ルールは、予めプログラムやデータベースで定義しておくことができる。
事象発生判定部163は、ビタビネットワーク比較評価部162で算出された尤度に基づいて、複数のビタビネットワークで表される事象の何れか、もしくは、どれも発生していないことを任意の時点で判定し、事象検出結果を出力する。
The Viterbi network comparison and
Based on the likelihood calculated by the Viterbi network comparison and
(字幕単位文出力部)
字幕単位文出力部17は、音声認識部16から得られた事象検出結果に基づいて所定の字幕単位文の出力タイミングを検出した時に、その字幕単位文を出力する。本実施形態では、字幕単位文出力部17は、字幕先頭検出用ネットワーク生成機能151で生成された字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に、当該字幕先頭検出用ネットワークに対応する字幕単位文を出力する。
なお、音声認識部16は、字幕先頭検出用ネットワークで表される事象が発生したことを検出した後も、当該字幕先頭検出用ネットワークを構成する認識候補単位を先頭部分に有するビタビネットワークを続けて最後まで音声認識するため、次の字幕文が不要なタイミングを出力されるのを防ぐことができる。
(Subtitle unit sentence output part)
When the subtitle unit
Note that the
(字幕出力処理)
次に、図7に示すフローチャートを参照して、本実施形態に係る字幕出力装置10が実行する字幕出力処理について説明する。
まず、字幕単位文生成部14は、形態素解析部11及び文節推定部12による処理結果に基づいて、入力された原稿の連続テキスト文を字幕の出力単位に分割することにより、複数の字幕単位文を生成する(ステップS101)。
次に、音声認識単位文生成部13は、形態素解析部11による処理結果に基づいて、入力された原稿の連続テキスト文を音声認識の処理単位に分割することにより、複数の音声認識単位文を生成する(ステップS102)。
(Subtitle output processing)
Next, caption output processing executed by the
First, the subtitle unit
Next, the speech recognition unit
次に、ビタビネットワーク生成部15は、音声認識単位文生成部13により生成された複数の音声認識単位文毎に、各文節に対応する認識候補単位を連結してビタビネットワークを生成する。また、ビタビネットワーク生成部15は、字幕先頭検出用ネットワーク生成機能151により字幕先頭検出用ネットワークを生成する(ステップS103)。
次に、生放送中に、原稿の連続テキスト文がアナウンサーにより読み上げられて、リアルタイム音声が字幕出力装置10に入力されると、音声認識部16は、入力音声と、ビタビネットワーク生成部15により生成された字幕先頭検出用ネットワークを含む複数の各ビタビネットワークを構成する認識候補単位とを、先頭から逐次並列に照合することにより、並列認識処理を行う(ステップS104)。
字幕単位文出力部17は、字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に、当該字幕先頭検出用ネットワークに対応する字幕単位文を出力する(ステップS105)。
Next, the Viterbi
Next, during a live broadcast, when the continuous text sentence of the manuscript is read out by the announcer and real-time audio is input to the
When the caption unit
(字幕先頭検出用ネットワークの生成処理)
次に、図8に示すフローチャートを参照して、ビタビネットワーク生成部15の字幕先頭検出用ネットワーク生成機能151が実行する字幕先頭検出用ネットワークの生成処理について説明する。
前提として、「ネットワーク間距離」の算出方法を定義する。このネットワーク間距離は、ビタビネットワーク同士の類似度を表す指標となり、ネットワーク間距離が小さいほど2つのビタビネットワークを形成する音素同士が類似しており、誤認識が起こる確率が高いことを表す。例えば、ネットワーク間距離は、各ビタビネットワークに含まれる認識候補単位を形成する音素間距離を積算した値として定義できる。なお、ビタビネットワークが複数の経路を有する(つまり、ビタビネットワークに含まれる認識候補単位の中に複数の認識候補を含むものがある)場合は、例えば、比較対象となっているビタビネットワーク間の最近接部分の距離をネットワーク間距離として定義できる。
(Subtitle head detection network generation process)
Next, with reference to the flowchart shown in FIG. 8, the caption head detection network generation processing executed by the caption head detection network generation function 151 of the Viterbi
As a premise, a calculation method of “distance between networks” is defined. This inter-network distance is an index representing the degree of similarity between Viterbi networks, and the smaller the inter-network distance, the more similar the phonemes that form the two Viterbi networks, and the higher the probability that erroneous recognition will occur. For example, the distance between networks can be defined as a value obtained by integrating distances between phonemes forming recognition candidate units included in each Viterbi network. Note that when the Viterbi network has a plurality of routes (that is, some of the recognition candidate units included in the Viterbi network include a plurality of recognition candidates), for example, the latest between Viterbi networks being compared The distance of the contact part can be defined as the distance between networks.
まず、字幕単位文生成部14で生成された字幕単位文のうち、字幕先頭検出用ネットワークの生成対象となる字幕単位文を1つ選択し、当該字幕単位文の先頭文節に対応する認識候補単位を含むビタビネットワーク(以下、「対象ビタビネットワーク」という)に対して、仮の字幕先頭検出用ネットワークを設定する。具体的には、対象ビタビネットワークの先頭の認識候補単位から字幕単位文の先頭文節に対応する認識候補単位までを、仮の字幕先頭検出用ネットワークとする(ステップS201)。
First, among the subtitle unit sentences generated by the subtitle unit
仮の字幕先頭検出用ネットワークと、対象ビタビネットワークと並列に音声認識されるビタビネットワークのうち字幕単位文の先頭文節に対応する認識候補単位を含まない各ビタビネットワークとの間のネットワーク間距離を各々算出する。算出したネットワーク間距離の中に予め定められた所定の閾値未満のものがある場合(ステップS202:No)、仮の字幕先頭検出用ネットワークに対して、字幕単位文の次の文節に対応する認識候補単位を追加していき(ステップS203)、ビタビネットワーク間距離が所定の閾値以上となり、他のビタビネットワークと十分な距離を確保できた場合に(ステップS202;Yes)、字幕先頭検出用ネットワークを決定する(ステップS205)。なお、仮の字幕先頭検出用ネットワークに認識候補単位を追加したときに、対象ビタビネットワークの終端に到達した場合、すなわち、仮の字幕先頭検出用ネットワークと対象ビタビネットワークとが同一となった場合は(ステップS204;Yes)、対象ビタビネットワーク全体を字幕先頭検出用ネットワークとして採用する。以上の字幕先頭検出用ネットワーク生成処理を、字幕単位文生成部14で生成された字幕単位文の数だけ行う。
The inter-network distance between the temporary caption head detection network and each Viterbi network that does not include the recognition candidate unit corresponding to the head sentence of the caption unit sentence in the Viterbi network that is recognized in parallel with the target Viterbi network calculate. When there is a calculated inter-network distance that is less than a predetermined threshold value (step S202: No), recognition corresponding to the next phrase of the subtitle unit sentence for the temporary subtitle head detection network When candidate units are added (step S203) and the distance between the Viterbi networks becomes equal to or greater than a predetermined threshold and a sufficient distance from other Viterbi networks can be secured (step S202; Yes), the caption head detection network is set. Determination is made (step S205). When the recognition candidate unit is added to the temporary caption head detection network and the end of the target Viterbi network is reached, that is, when the temporary caption head detection network and the target Viterbi network are the same. (Step S204; Yes), the entire target Viterbi network is adopted as the caption head detection network. The above subtitle head detection network generation processing is performed for the number of subtitle unit sentences generated by the subtitle unit
以上のような手順で字幕単位文の先頭数文節を含む字幕先頭検出用ネットワークを生成し、字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に当該字幕先頭検出用ネットワークに対応する字幕単位文を出力することで、字幕単位文の先頭数文節が発声された時に字幕単位文の出力を行うことができ、必要最小限の遅延で字幕単位文を出力することができる。また、並列に認識される他のビタビネットワークとのネットワーク間距離を十分にとることで、認識間違いをなくすことができる。 Generate a subtitle head detection network that includes the first few clauses of subtitle unit sentences according to the above procedure, and respond to the subtitle head detection network when an event represented by the subtitle head detection network is detected. By outputting the subtitle unit sentence to be output, the subtitle unit sentence can be output when the first few clauses of the subtitle unit sentence are uttered, and the subtitle unit sentence can be output with a minimum delay. In addition, it is possible to eliminate recognition errors by taking a sufficient distance between networks with other Viterbi networks recognized in parallel.
(字幕先頭検出用ネットワーク決定処理の具体例)
次に、字幕先頭検出用ネットワーク生成機能151が、図9に示す音声認識単位文に基づいて、同図に示す字幕単位文の先頭を認識するための字幕先頭検出用ネットワークを決定する処理の具体例について説明する。
この例では、現在発声中の文節を含む音声認識単位文に対応するビタビネットワークと、当該ビタビネットワークに後続するビタビネットワークと、の2つを並行して用いて音声認識処理を行うものとする。また、実際には、音声認識単位文に対応するビタビネットワークを構成する認識候補単位を用いて字幕先頭検出用ネットワークが生成されるが、ここでは、「ビタビネットワーク」及び「認識候補単位」の代わりに、対応する「音声認識単位文」及び「文節」を用いて説明することとする。
(Specific example of network decision processing for subtitle head detection)
Next, a specific example of processing in which the caption head detection network generation function 151 determines a caption head detection network for recognizing the head of the caption unit sentence shown in FIG. 9 based on the speech recognition unit sentence shown in FIG. An example will be described.
In this example, it is assumed that the voice recognition process is performed using the Viterbi network corresponding to the voice recognition unit sentence including the phrase currently being uttered and the Viterbi network subsequent to the Viterbi network in parallel. In practice, a caption head detection network is generated using recognition candidate units that constitute a Viterbi network corresponding to a speech recognition unit sentence. Here, instead of “Viterbi network” and “recognition candidate unit”, In addition, the explanation will be made using the corresponding “voice recognition unit sentence” and “sentence”.
まず、字幕単位文1)の字幕先頭検出用ネットワークを決定するために、音声認識単位文(A)の先頭文節「別府へ」を、仮の字幕先頭検出用ネットワークとして設定する(図8のステップS201に対応)。この仮の字幕先頭検出用ネットワーク「別府へ」と、音声認識単位文(B)の先頭の文節「切符を」とのネットワーク間距離を計算すると、「ベップヘ」と「キップオ」とのネットワーク間距離はかなり近いので(ステップS202;No)、音声認識単位文(A)の次の文節「行く」を仮の字幕先頭検出用ネットワークに追加する(ステップS203)。これにより、仮の字幕先頭検出用ネットワーク(音声認識単位文(A)の先頭から2文節「別府へ」+「行く」)と、音声認識単位文(B)の先頭から2文節「切符を」+「買う」とのネットワーク間距離を十分に保つことができるため(ステップS202;Yes)、「別府へ」+「行く」を字幕単位文1)の字幕先頭検出用ネットワークとすることにより(ステップS205)、先頭2文節の発声で、音声認識単位文(A)が発声されていることを高精度に判定することができる。 First, in order to determine the subtitle head detection network for subtitle unit sentence 1), the head phrase “To Beppu” of speech recognition unit sentence (A) is set as a temporary subtitle head detection network (step in FIG. 8). Corresponding to S201). When the inter-network distance between this temporary subtitle head detection network “To Beppu” and the first phrase “ticket” of the speech recognition unit sentence (B) is calculated, the inter-network distance between “Bep-he” and “Kip-o” Is quite close (step S202; No), the next phrase “go” of the speech recognition unit sentence (A) is added to the temporary caption head detection network (step S203). As a result, a temporary subtitle head detection network (two phrases “To Beppu” + “go”) from the beginning of the speech recognition unit sentence (A) and two phrases “ticket” from the beginning of the speech recognition unit sentence (B). + Because it is possible to maintain a sufficient network distance with “Buy” (Step S202; Yes), “To Beppu” + “Go” is used as a caption head detection network for caption unit sentence 1) (Step) S205) It can be determined with high accuracy that the speech recognition unit sentence (A) is uttered by the utterance of the first two phrases.
次の字幕単位文2)の字幕先頭検出用ネットワークは、上記と同様の処理手順により、「切符を」+「買う」となる。
次の字幕単位文3)は、音声認識単位文(B)の「チップを」+「渡した」まででは、音声認識単位文(C)の「チップを渡す」と十分な距離がとれないため、「ものか」までが接続され、音声認識単位文(B)の先頭文節から「チップを」+「渡した」+「ものか」までが、字幕単位文3)の字幕先頭検出用ネットワークとなる。
The subtitle head detection network of the next subtitle unit sentence 2) becomes “buy a ticket” + “buy” by the same processing procedure as described above.
In the next caption unit sentence 3), until the “chip” of the voice recognition unit sentence (B) + “pass”, a sufficient distance cannot be taken from “pass the chip” of the voice recognition unit sentence (C). , "Thing" is connected, and from the first sentence of the speech recognition unit sentence (B) to "chip" + "passed" + "what" is the subtitle head detection network of subtitle unit sentence 3) Become.
(並列認識処理の具体例)
次に、図10及び図11を参照して、並列認識処理の具体例について説明する。
図10(a)は、原稿の連続テキスト文「民主党、社民党、国民新党の野党3党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。自民公明両党は対抗措置として・・・」から生成されたビタビネットワーク、(b)は上記連続テキスト文から生成された字幕単位文、(c)は(b)の字幕単位文1)、2)各々の下線部分を音声認識した時点で各字幕単位文を出力するための字幕先頭検出用ネットワークである。
(Specific example of parallel recognition processing)
Next, a specific example of parallel recognition processing will be described with reference to FIGS. 10 and 11.
Figure 10 (a) is the first text of the manuscript, “The Democratic Party, the Social Democratic Party, and the National New Party's three opposition parties, the first resolution passed by the Fukuda Prime Minister, was passed at the Upper House of the House of Councilors. Viterbi network generated from "... as a measure", (b) is a caption unit sentence generated from the continuous text sentence, (c) is a caption unit sentence 1) of (b), 2) each underlined part It is a subtitle head detection network for outputting subtitle unit sentences at the time of voice recognition.
図11は、図10(a)に示すビタビネットワーク及び図10(c)に示す字幕先頭検出用ネットワークに基づいて音声認識部16が行う音声認識処理、及び、音声認識処理による事象検出結果に基づいて字幕単位文出力部17が行う字幕単位文の出力処理の具体例を示す図である。
まず、音声認識部16は、ビタビネットワーク生成部15が生成した図10(a),(c)に示すビタビネットワークのうち、先頭のビタビネットワーク1Aと、並列認識処理対象となる次のビタビネットワーク2Aと、字幕先頭検出用ネットワーク1Bとを検出対象として入力する(ステップS301)。
音声1「みんしゅとうしゃみんとう」がアナウンサーにより発声された時に、音声認識部16は、字幕先頭検出用ネットワーク1Bの事象を検出する(ステップS302)。そして、音声認識部16は、検出対象から検出済みの字幕先頭検出用ネットワーク1Bを除外し、次の字幕先頭検出用ネットワーク2Bを追加する(ステップS303)。
11 is based on the speech recognition processing performed by the
First, the
When the voice 1 “Minshu and Ushaminto” is uttered by the announcer, the
字幕単位文出力部17は、音声認識部16による事象検出結果に基づいて、字幕単位文1)を出力する(ステップS304)。
次に、音声2「こくみんしんとうのやとうさんとうがていしゅつした」が発声されると、音声認識部16は、ビタビネットワーク1Aの事象を検出する(ステップS305)。音声認識部16は、検出対象からビタビネットワーク1Aを除外し、次の並列認識対象のビタビネットワーク3Aを追加する(ステップS306)。
次に、音声3「ふくだそうりだいじんにたいするもんせきけつぎが」が発声されると、音声認識部16は、ビタビネットワーク2A及び字幕先頭検出用ネットワーク2Bの事象を検出する(ステップS307)。音声認識部16は、検出対象からビタビネットワーク2A及び字幕先頭検出用ネットワーク2Bを除外し、次の並列認識対象のビタビネットワーク4Aを追加する(ステップS308)。
The caption unit
Next, when the
Next, when the
字幕単位文出力部17は、音声認識部16による字幕先頭検出用ネットワーク2Bの事象検出に基づいて、字幕単位文2)を出力する(ステップS309)。
なお、ビタビネットワーク2A及び字幕先頭検出用ネットワーク2Bは同一であるため、一方を他方で兼用することも可能である。
以上説明したように、字幕出力装置10は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との音声の照合が完了した時点で字幕単位文を出力するため、リアルタイム放送において少ない遅延で字幕を出力することが可能となる。また、NULL、SIL、SIL、Garbage等の特殊認識候補をビタビネットワークの構成要素とすることで、アナウンサーの読み間違いや間のおき方の違いを吸収し、高精度の音声認識を行うことが可能となる。
また、字幕出力装置10は、音声認識処理を、2以上のビタビネットワークを用いて並列に行うため、アナウンサーの読み飛ばし等による音声の誤認識を防いだり、発声タイミングのずれを回復することができ、音声と対応した字幕を正確に出力することができる。
The caption unit
Since the
As described above, the
In addition, since the
なお、本発明は、上述した実施形態に限定されることなく、特許請求の範囲に記載の技術的範囲内において、上述した実施形態に適宜の変形を加えて実施可能であることは言うまでもない。
例えば、上述した実施形態では、字幕単位文出力部17は、字幕先頭検出用ネットワークを用いて字幕単位文の出力タイミングを判定したが、これに限らず、例えば、字幕先頭検出用ネットワークを用いずに、字幕単位文に対応する音声の認識が開始されてからの時間で出力タイミングを判定してもよい。また、字幕単位文の先頭の数文節に対応する認識候補単位と入力音声との照合が完了した時点で字幕単位文を出力してもよい。「数文節」は予め定められた数であってもよいし、並列認識される他のビタビネットワークとの尤度の差が大きくなり事象発生が検出されるまでの数であってもよい。また、文節の代わりに音節や文字数を用いてもよい。
Needless to say, the present invention is not limited to the above-described embodiment, and can be implemented by appropriately modifying the above-described embodiment within the technical scope described in the claims.
For example, in the above-described embodiment, the caption unit
また、字幕先頭検出用ネットワークの決定方法は、上述した実施形態に限定されることはなく、最低限、字幕単位文の先頭文節が発声されたことを検出できるように、字幕単位文の先頭文節に対応する認識候補単位を少なくとも含むネットワークとなるように決定すればよい。
また、上述した実施形態では、音声認識の性能を高めるために、字幕単位文と音声認識単位文とを別々に生成し、音声認識単位文を字幕単位文と一致させなかったが、音声認識単位文を字幕単位文と一致させることも可能である。
The method for determining the caption head detection network is not limited to the above-described embodiment, and at the very least, it is possible to detect that the head phrase of the caption unit sentence is uttered. May be determined so as to be a network including at least a recognition candidate unit corresponding to.
Further, in the above-described embodiment, in order to improve the performance of speech recognition, the caption unit sentence and the speech recognition unit sentence are generated separately and the speech recognition unit sentence is not matched with the caption unit sentence. It is also possible to match a sentence with a caption unit sentence.
また、形態素解析以外の解析ルール、分割ルール等を用いて、字幕単位文や音声認識単位文を生成してもよい。また、ビタビネットワーク以外の音声認識のためのネットワークを用いて音声認識処理を行ってもよい。
また、上述した実施形態では、生放送のニュース番組でアナウンサーのリアルタイム音声に合わせて字幕を出力する例について説明したが、共通の原稿をアナウンス用と字幕用との双方に利用するリアルタイム放送であれば、スポーツ中継であっても、生講演であってもよい。
Also, subtitle unit sentences and speech recognition unit sentences may be generated using analysis rules, division rules, and the like other than morphological analysis. Further, the voice recognition process may be performed using a voice recognition network other than the Viterbi network.
In the above-described embodiment, an example in which subtitles are output in accordance with the announcer's real-time audio in a live broadcast news program has been described. However, if a common manuscript is used for both announcements and subtitles, It can be a sports broadcast or a live lecture.
10 字幕出力装置
11 形態素解析部
12 文節推定部
13 音声認識単位文生成部
14 字幕単位文生成部
15 ビタビネットワーク生成部
151 字幕先頭検出用ネットワーク生成機能
16 音声認識部
161 音声特徴量抽出部
162 ビタビネットワーク比較評価部
163 事象発生判定部
17 字幕単位文出力部
DESCRIPTION OF
Claims (14)
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、
前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識手段と、
所定のタイミングで前記字幕単位文を出力する字幕単位文出力手段と
を備え、
前記音声認識処理手段は、
前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行い、かつ
前記音声認識ネットワーク生成手段は、
前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成手段を備え、
前記字幕先頭検出用ネットワーク生成手段は、
前記字幕先頭検出用ネットワークと、当該字幕先頭検出用ネットワークと音声認識処理を並列に行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるまで、前記字幕単位文の先頭の文節に対応する認識候補単位に対して、前記字幕単位文の先頭の文節に後続する文節に対応する認識候補単位を順に連結し、当該認識候補単位の連結数が最小となる1または複数の認識候補単位を前記字幕先頭検出用ネットワークとし、
前記字幕単位文出力手段は、
前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする字幕出力装置。 A subtitle output device that outputs subtitles in accordance with audio,
Subtitle unit sentence generation means for generating a subtitle unit sentence by dividing the input text sentence into subtitle output units;
Voice recognition unit sentence generation means for generating a voice recognition unit sentence by dividing the text sentence into processing units for voice recognition;
The recognition candidate units, which are a set of recognition candidates for speech recognition of the phrases of the speech recognition unit sentences generated by the speech recognition unit sentence generation means, are connected in order from the one corresponding to the first phrase of the speech recognition unit sentences. Voice recognition network generation means for generating a voice recognition network,
A speech recognition unit that performs speech recognition processing by sequentially performing collation from the beginning of the speech in which the text sentence is uttered and the recognition candidate units that constitute the speech recognition network generated by the speech recognition network generation unit;
Subtitle unit sentence output means for outputting the subtitle unit sentence at a predetermined timing ,
The voice recognition processing means includes
Performing the speech recognition processing in parallel using two or more speech recognition networks generated by the speech recognition network generating means; and
The voice recognition network generation means includes
Subtitle head detection network generating means for generating a subtitle head detection network including at least a recognition candidate unit corresponding to the head clause of the subtitle unit sentence,
The subtitle head detection network generation means includes:
The head of the subtitle unit sentence until the inter-network distance between the subtitle head detection network and the subtitle head detection network and the voice recognition network to be subjected to voice recognition processing in parallel is equal to or greater than a predetermined threshold. For the recognition candidate unit corresponding to the phrase, the recognition candidate units corresponding to the phrase following the first phrase of the caption unit sentence are sequentially connected, and one or a plurality of the connection numbers of the recognition candidate units are minimized. The recognition candidate unit is the subtitle head detection network,
The caption unit sentence output means includes:
A caption output device that outputs the caption unit sentence when the collation with all recognition candidate units constituting the caption head detection network is completed .
前記音声認識処理を、前記字幕先頭検出用ネットワーク生成手段により生成された前記字幕先頭検出用ネットワークに対応する第1の字幕単位文を含む第1の音声認識単位文に対応する第1の音声認識ネットワークと、該第1の音声認識単位文に後続する第2の音声認識単位文に対応する第2の音声認識ネットワークとを用いて並列に行うことを特徴とする請求項1に記載の字幕出力装置。 The voice recognition processing is performed by a first voice recognition corresponding to a first voice recognition unit sentence including a first caption unit sentence corresponding to the caption head detection network generated by the caption head detection network generation unit. The subtitle output according to claim 1, wherein the subtitle output is performed in parallel using a network and a second voice recognition network corresponding to a second voice recognition unit sentence following the first voice recognition unit sentence. apparatus.
前記第1の音声認識ネットワークと前記第2の音声認識ネットワークと前記字幕先頭検出用ネットワークのそれぞれによって表わされる事象の発生の有無を検出する事象発生判定手段をさらに備えることを特徴とする請求項2に記載の字幕出力装置。 The event occurrence determination means for detecting whether or not an event represented by each of the first voice recognition network, the second voice recognition network, and the caption head detection network is generated. The caption output device described in 1.
前記第1の字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む音声認識ネットワークを仮の字幕先頭検出用ネットワークとして設定し、 A speech recognition network including at least a recognition candidate unit corresponding to a head phrase of the first caption unit sentence is set as a temporary caption head detection network;
該仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離を算出し、前記ネットワーク間距離が前記所定の閾値以上の場合は、前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする請求項2または請求項3に記載の字幕出力装置。 An inter-network distance between the temporary caption head detection network and the second voice recognition network is calculated, and when the inter-network distance is equal to or greater than the predetermined threshold, the temporary caption head detection network is 4. The caption output device according to claim 2, wherein the caption caption detection network is used.
前記ネットワーク間距離が前記所定の閾値未満の場合は、前記仮の字幕先頭検出用ネットワークに対して、前記第1の字幕単位文の先頭文節に後続する文節に対応する認識候補単位を連結することで前記仮の字幕先頭検出用ネットワークを更新し、該更新された仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離が前記所定の閾値以上となるまで前記仮の字幕先頭検出用ネットワークの更新処理を繰り返し行い、該更新処理が終了した時点での前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする請求項4に記載の字幕出力装置。 When the inter-network distance is less than the predetermined threshold, the recognition candidate unit corresponding to the phrase following the first phrase of the first caption unit sentence is connected to the temporary caption head detection network. The temporary subtitle head detection network is updated at, and the temporary subtitle head detection network is updated until the inter-network distance between the updated temporary subtitle head detection network and the second speech recognition network is equal to or greater than the predetermined threshold. 5. The subtitle head detection network is repeatedly updated, and the temporary subtitle head detection network at the end of the update process is the subtitle head detection network. Subtitle output device.
前記連結された各認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入した上で、前記音声認識ネットワークを生成することを特徴とする請求項1から5の何れか1項に記載の字幕出力装置。 The voice recognition network generation means includes
Between each recognition candidate units which are connected, in terms of inserting the special recognition candidates to prevent the erroneous recognition, according to any one of claims 1 to 5, characterized in that to generate the speech recognition network Subtitle output device.
前記認識候補単位に、誤認識を防ぐための特殊認識候補を含めた上で、前記音声認識ネットワークを生成することを特徴とする請求項1から6の何れか1項に記載の字幕出力装置。 The voice recognition network generation means includes
The caption output device according to any one of claims 1 to 6 , wherein the speech recognition network is generated after a special recognition candidate for preventing erroneous recognition is included in the recognition candidate unit.
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、
所定のタイミングで前記字幕単位文を出力する字幕単位文出力ステップと、
を備え、
前記音声認識ステップは、
前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行い、かつ
前記音声認識ネットワーク生成ステップは、
前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成ステップを備え、
前記字幕先頭検出用ネットワーク生成ステップは、
前記字幕先頭検出用ネットワークと、当該字幕先頭検出用ネットワークと音声認識処理を並列に行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるまで、前記字幕単位文の先頭の文節に対応する認識候補単位に対して、前記字幕単位文の先頭の文節に後続する文節に対応する認識候補単位を順に連結し、当該認識候補単位の連結数が最小となる1または複数の認識候補単位を前記字幕先頭検出用ネットワークとし、
前記字幕単位文出力ステップは、
前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする字幕出力方法。 A subtitle output method executed by a subtitle output device that outputs subtitles in accordance with audio,
A subtitle unit sentence generation step for generating a subtitle unit sentence by dividing the input text sentence into subtitle output units;
A speech recognition unit sentence generation step for generating a speech recognition unit sentence by dividing the text sentence into speech recognition processing units;
The recognition candidate units, which are a set of recognition candidates for speech recognition of the speech recognition unit sentence clauses generated in the speech recognition unit sentence generation step, are connected in order from the one corresponding to the first phrase of the speech recognition unit sentence. A voice recognition network generation step for generating a voice recognition network,
A speech recognition step for performing speech recognition processing by sequentially performing collation from the top of the speech from which the text sentence is uttered and the recognition candidate units constituting the speech recognition network generated in the speech recognition network generation step;
A caption unit sentence output step for outputting the caption unit sentence at a predetermined timing ; and
Bei to give a,
The speech recognition step includes
Performing the speech recognition processing in parallel using two or more speech recognition networks generated by the speech recognition network generating means; and
The voice recognition network generation step includes:
A subtitle head detection network generating step for generating a subtitle head detection network including at least a recognition candidate unit corresponding to a head clause of the subtitle unit sentence,
The subtitle head detection network generation step includes:
The head of the subtitle unit sentence until the inter-network distance between the subtitle head detection network and the subtitle head detection network and the voice recognition network to be subjected to voice recognition processing in parallel is equal to or greater than a predetermined threshold. For the recognition candidate unit corresponding to the phrase, the recognition candidate units corresponding to the phrase following the first phrase of the caption unit sentence are sequentially connected, and one or a plurality of the connection numbers of the recognition candidate units are minimized. The recognition candidate unit is the subtitle head detection network,
The subtitle unit sentence output step includes:
A subtitle output method , comprising: outputting the subtitle unit sentence when the collation with all recognition candidate units constituting the subtitle head detection network is completed .
前記音声認識処理を、前記字幕先頭検出用ネットワーク生成手段により生成された前記字幕先頭検出用ネットワークに対応する第1の字幕単位文を含む第1の音声認識単位文に対応する第1の音声認識ネットワークと、該第1の音声認識単位文に後続する第2の音声認識単位文に対応する第2の音声認識ネットワークとを用いて並列に行うことを特徴とする請求項9に記載の字幕出力方法。 The voice recognition processing is performed by a first voice recognition corresponding to a first voice recognition unit sentence including a first caption unit sentence corresponding to the caption head detection network generated by the caption head detection network generation unit. The subtitle output according to claim 9, wherein the subtitle output is performed in parallel using a network and a second speech recognition network corresponding to a second speech recognition unit sentence subsequent to the first speech recognition unit sentence. Method.
前記第1の音声認識ネットワークと前記第2の音声認識ネットワークと前記字幕先頭検出用ネットワークのそれぞれによって表わされる事象の発生の有無を検出する事象発生判定ステップをさらに備えることを特徴とする請求項10に記載の字幕出力方法。 The event occurrence determination step of detecting whether or not an event represented by each of the first voice recognition network, the second voice recognition network, and the caption head detection network is generated. Subtitle output method described in 1.
前記第1の字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む音声認識ネットワークを仮の字幕先頭検出用ネットワークとして設定し、該仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離を算出し、前記ネットワーク間距離が前記所定の閾値以上の場合は、前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする請求項10または請求項11に記載の字幕出力方法。 A speech recognition network including at least a recognition candidate unit corresponding to the first clause of the first caption unit sentence is set as a temporary caption head detection network, and the temporary caption head detection network and the second speech recognition are set. The inter-network distance to a network is calculated, and when the inter-network distance is equal to or greater than the predetermined threshold, the temporary caption head detection network is set as the caption head detection network. The subtitle output method according to claim 10 or claim 11.
前記ネットワーク間距離が前記所定の閾値未満の場合は、前記仮の字幕先頭検出用ネットワークに対して、前記第1の字幕単位文の先頭文節に後続する文節に対応する認識候補単位を連結することで前記仮の字幕先頭検出用ネットワークを更新し、該更新された仮の字幕先頭検出用ネットワークと前記第2の音声認識ネットワークとの間のネットワーク間距離が前記所定の閾値以上となるまで前記仮の字幕先頭検出用ネットワークの更新処理を繰り返し行い、該更新処理が終了した時点での前記仮の字幕先頭検出用ネットワークを前記字幕先頭検出用ネットワークとすることを特徴とする請求項12に記載の字幕出力方法。 When the inter-network distance is less than the predetermined threshold, the recognition candidate unit corresponding to the phrase following the first phrase of the first caption unit sentence is connected to the temporary caption head detection network. The temporary subtitle head detection network is updated at, and the temporary subtitle head detection network is updated until the inter-network distance between the updated temporary subtitle head detection network and the second speech recognition network is equal to or greater than the predetermined threshold. 13. The subtitle head detection network is repeatedly updated, and the temporary subtitle head detection network at the time when the update process is completed is the subtitle head detection network. Subtitle output method.
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、
所定のタイミングで前記字幕単位文を出力する字幕単位文出力ステップと
を実行させるためのプログラムであって、
前記音声認識ステップは、
前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行い、かつ
前記音声認識ネットワーク生成ステップは、
前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成ステップを備え、
前記字幕先頭検出用ネットワーク生成ステップは、
前記字幕先頭検出用ネットワークと、当該字幕先頭検出用ネットワークと音声認識処理を並列に行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるまで、前記字幕単位文の先頭の文節に対応する認識候補単位に対して、前記字幕単位文の先頭の文節に後続する文節に対応する認識候補単位を順に連結し、当該認識候補単位の連結数が最小となる1または複数の認識候補単位を前記字幕先頭検出用ネットワークとし、
前記字幕単位文出力ステップは、
前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とするプログラム。 On the computer,
A subtitle unit sentence generation step for generating a subtitle unit sentence by dividing the input text sentence into subtitle output units;
A speech recognition unit sentence generation step for generating a speech recognition unit sentence by dividing the text sentence into speech recognition processing units;
The recognition candidate units, which are a set of recognition candidates for speech recognition of the speech recognition unit sentence clauses generated in the speech recognition unit sentence generation step, are connected in order from the one corresponding to the first phrase of the speech recognition unit sentence. A voice recognition network generation step for generating a voice recognition network,
A speech recognition step for performing speech recognition processing by sequentially performing collation from the top of the speech from which the text sentence is uttered and the recognition candidate units constituting the speech recognition network generated in the speech recognition network generation step;
A program for executing a caption unit sentence output step for outputting the caption unit sentence at a predetermined timing ,
The speech recognition step includes
Performing the speech recognition processing in parallel using two or more speech recognition networks generated by the speech recognition network generating means; and
The voice recognition network generation step includes:
A subtitle head detection network generating step for generating a subtitle head detection network including at least a recognition candidate unit corresponding to a head clause of the subtitle unit sentence,
The subtitle head detection network generation step includes:
The head of the subtitle unit sentence until the inter-network distance between the subtitle head detection network and the subtitle head detection network and the voice recognition network to be subjected to voice recognition processing in parallel is equal to or greater than a predetermined threshold. For the recognition candidate unit corresponding to the phrase, the recognition candidate units corresponding to the phrase following the first phrase of the caption unit sentence are sequentially connected, and one or a plurality of the connection numbers of the recognition candidate units are minimized. The recognition candidate unit is the subtitle head detection network,
The subtitle unit sentence output step includes:
The program for outputting the caption unit sentence when the collation with all recognition candidate units constituting the caption head detection network is completed .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008207407A JP5243886B2 (en) | 2008-08-11 | 2008-08-11 | Subtitle output device, subtitle output method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008207407A JP5243886B2 (en) | 2008-08-11 | 2008-08-11 | Subtitle output device, subtitle output method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010044171A JP2010044171A (en) | 2010-02-25 |
JP5243886B2 true JP5243886B2 (en) | 2013-07-24 |
Family
ID=42015616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008207407A Expired - Fee Related JP5243886B2 (en) | 2008-08-11 | 2008-08-11 | Subtitle output device, subtitle output method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5243886B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9236047B2 (en) * | 2010-05-21 | 2016-01-12 | Microsoft Technology Licensing, Llc | Voice stream augmented note taking |
JP2017167805A (en) | 2016-03-16 | 2017-09-21 | 株式会社東芝 | Display support device, method and program |
JP6462936B1 (en) * | 2018-06-18 | 2019-01-30 | 菱洋エレクトロ株式会社 | Speech recognition system and speech recognition device |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4210723B2 (en) * | 1999-03-17 | 2009-01-21 | 独立行政法人情報通信研究機構 | Automatic caption program production system |
JP2001175280A (en) * | 1999-12-17 | 2001-06-29 | Nippon Hoso Kyokai <Nhk> | Superimposed character display device and storage medium for superimposed character control |
JP4595098B2 (en) * | 2001-02-15 | 2010-12-08 | 独立行政法人情報通信研究機構 | Subtitle transmission timing detection device |
JP4246703B2 (en) * | 2002-08-01 | 2009-04-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Automatic speech recognition method |
JP2004302175A (en) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | System, method, and program for speech recognition |
JP3873926B2 (en) * | 2003-05-16 | 2007-01-31 | 日本電気株式会社 | Subtitle insertion method, subtitle insertion system and subtitle insertion program |
JP4158937B2 (en) * | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Subtitle correction device |
-
2008
- 2008-08-11 JP JP2008207407A patent/JP5243886B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010044171A (en) | 2010-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6718303B2 (en) | Apparatus and method for automatically generating punctuation marks in continuous speech recognition | |
CN109635270B (en) | Bidirectional probabilistic natural language rewrite and selection | |
US5333275A (en) | System and method for time aligning speech | |
Furui | Recent advances in spontaneous speech recognition and understanding | |
US6442518B1 (en) | Method for refining time alignments of closed captions | |
Hori et al. | A new approach to automatic speech summarization | |
US20070118372A1 (en) | System and method for generating closed captions | |
JP6323947B2 (en) | Acoustic event recognition apparatus and program | |
JP4885160B2 (en) | Method of constructing module for identifying English variant pronunciation, and computer-readable recording medium storing program for realizing construction of said module | |
JP2010230695A (en) | Speech boundary estimation apparatus and method | |
Lease et al. | Recognizing disfluencies in conversational speech | |
Levin et al. | Automated closed captioning for Russian live broadcasting | |
JP5243886B2 (en) | Subtitle output device, subtitle output method and program | |
Batista et al. | Recovering capitalization and punctuation marks on speech transcriptions | |
JP5273844B2 (en) | Subtitle shift estimation apparatus, subtitle shift correction apparatus, playback apparatus, and broadcast apparatus | |
Batista et al. | Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation | |
Bang et al. | Improving Speech Recognizers by Refining Broadcast Data with Inaccurate Subtitle Timestamps. | |
KR101677530B1 (en) | Apparatus for speech recognition and method thereof | |
Veiga et al. | Towards automatic classification of speech styles | |
Razik et al. | Frame-synchronous and local confidence measures for automatic speech recognition | |
Amaral et al. | Automatic vs. manual topic segmentation and indexation in broadcast news | |
Pellegrini et al. | Extension of the lectra corpus: classroom lecture transcriptions in european portuguese | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
Mirzaei et al. | Adaptive Listening Difficulty Detection for L2 Learners Through Moderating ASR Resources. | |
Wambacq et al. | Efficiency of speech alignment for semi-automated subtitling in Dutch |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130405 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
LAPS | Cancellation because of no payment of annual fees |