JP2017212667A - Language information providing device - Google Patents
Language information providing device Download PDFInfo
- Publication number
- JP2017212667A JP2017212667A JP2016105957A JP2016105957A JP2017212667A JP 2017212667 A JP2017212667 A JP 2017212667A JP 2016105957 A JP2016105957 A JP 2016105957A JP 2016105957 A JP2016105957 A JP 2016105957A JP 2017212667 A JP2017212667 A JP 2017212667A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- language information
- sentence
- unit
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、言語情報提供装置に関する。 The present invention relates to a language information providing apparatus.
たとえば特許文献1は、映像における音声等の翻訳文の字幕を、映像とともに再生する技術を開示する。 For example, Patent Document 1 discloses a technique for reproducing subtitles of a translation sentence such as audio in a video together with the video.
映像の視聴者(ユーザ)の判読能力を考慮した単位時間当たりの字幕の表示可能な上限文字数(以下、「表示可能文字数」という)は、概ね決まっていることが知られている。たとえば、映画の場合には4文字/秒程度とされている。字幕に限らず、吹き替えなどの音声を映像に合成するシーンにおいても同様のことが言え、この場合には、単位時間当たりの吹替音声の出力可能な上限文字数が、上述の表示可能文字数に相当し得る。 It is known that the upper limit number of subtitles that can be displayed per unit time (hereinafter referred to as “the number of characters that can be displayed”) in consideration of the interpretation ability of a video viewer (user) is generally determined. For example, in the case of a movie, it is about 4 characters / second. The same can be said for scenes in which audio such as dubbing is synthesized with video as well as subtitles. In this case, the upper limit number of characters that can be output for dubbing audio per unit time corresponds to the number of displayable characters described above. obtain.
映画などの映像に字幕を表示する場合には、映像の各シーンに対応した字幕を、そのシーンの期間内に表示し終えなければならない。その期間内に表示される単位時間当たりの字幕の文字数は、表示可能文字数以下とすることが好ましい。しかしながら、映像の再生に合わせてリアルタイムで翻訳文の字幕(以下、単に「翻訳文」という場合もある)を作成して表示するような場合には、翻訳文の文字数が表示可能文字数を上回る事態が発生し得る。吹替音声を作成して出力する場合にも、吹替音声の文字数が表示可能文字数を上回る事態が発生し得る。表示可能文字数を上回る翻訳文が表示されたり、表示可能文字数を上回る文字数の吹替音声が出力されたりすると、字幕または吹替音声で表されるような言語情報の内容を把握することが難しくなる。いわゆる文字起こしによって音声情報から作成された文字情報(トランスクリプト文)のような言語情報についても、同様のことが言える。 When subtitles are displayed on a video such as a movie, the subtitles corresponding to each scene of the video must be displayed within the period of the scene. It is preferable that the number of subtitle characters per unit time displayed during the period is equal to or less than the number of displayable characters. However, when creating and displaying subtitles of translated sentences in real time (hereinafter sometimes simply referred to as “translated sentences”) in accordance with video playback, the number of translated characters exceeds the number of displayable characters. Can occur. Even when the dubbing voice is created and output, a situation may occur in which the number of characters of the dubbing voice exceeds the number of displayable characters. If a translated sentence exceeding the number of displayable characters is displayed or a dubbing voice having more characters than the number of displayable characters is output, it becomes difficult to grasp the contents of the language information represented by subtitles or dubbing voices. The same can be said for language information such as character information (transcript sentence) created from speech information by so-called transcription.
本発明は、上記課題に鑑みてなされたものであり、内容を把握しやすい言語情報を提供することが可能な言語情報提供装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a language information providing apparatus capable of providing language information whose contents are easily grasped.
本発明の一態様に係る言語情報提供装置は、言語情報の出力時間に基づいて、出力される言語情報の上限文字数を算出する算出手段と、出力される言語情報を作成する作成手段と、算出手段によって算出された上限文字数に応じて、作成手段が作成する言語情報の文字数を制限する制限手段と、を備える。 A language information providing apparatus according to an aspect of the present invention includes: a calculation unit that calculates an upper limit number of characters of language information to be output based on an output time of language information; a creation unit that generates language information to be output; Limiting means for limiting the number of characters of the language information created by the creating means according to the upper limit number of characters calculated by the means.
上記の言語情報提供装置では、言語情報の上限文字数が算出され、算出された上限文字数に応じて、作成される言語情報の文字数が制限される。このように言語情報の文字数を制限することによって、出力された言語情報の内容を把握しやすくすることができる。 In the language information providing apparatus, the upper limit number of characters of the language information is calculated, and the number of characters of the language information to be created is limited according to the calculated upper limit number of characters. By limiting the number of characters of the language information in this way, it is possible to easily grasp the contents of the output language information.
算出手段は、映像における字幕の表示時間を言語情報の出力時間として、表示される字幕の上限文字数を言語情報の上限文字数として算出し、作成手段は、字幕として用いられる翻訳文を言語情報として作成し、制限手段は、作成手段が作成する翻訳文の文字数を制限してもよい。この場合には、表示される字幕の上限文字数が算出され、算出された上限文字数に応じて、作成される翻訳文の文字数が制限される。このように翻訳文の文字数を制限することによって、翻訳文を読みやすくすることができる。 The calculation means calculates the display time of the caption in the video as the output time of the language information, calculates the upper limit number of characters of the displayed caption as the upper limit number of characters of the language information, and the creation means creates the translation sentence used as the caption as the language information Then, the restricting means may restrict the number of characters of the translation sentence created by the creating means. In this case, the upper limit number of characters of the displayed subtitle is calculated, and the number of characters of the translation to be created is limited according to the calculated upper limit number of characters. By limiting the number of characters in the translated sentence in this way, the translated sentence can be made easier to read.
制限手段は、予め定められたフレーズまたは単語が言語情報に含まれる場合には、制限を緩和してもよい。たとえばユーザが読み慣れていたり聞き慣れていたりすることによってユーザが短時間で把握することができるフレーズまたは単語を予め定められたフレーズまたは単語に設定しておけば、そのようなフレーズまたは単語が言語情報に含まれており上述の制限が緩和され言語情報の文字数が増えたとしても、言語情報が把握しにくくなることを抑制することができる。 The restricting means may relax the restriction when a predetermined phrase or word is included in the language information. For example, if a phrase or word that can be grasped in a short period of time by the user becoming accustomed to reading or accustomed to listening is set as a predetermined phrase or word, such a phrase or word can be used as a language. Even if the above-mentioned restrictions are relaxed and the number of characters of the language information is increased, it is possible to prevent the language information from becoming difficult to grasp.
制限手段は、予め定められたフレーズまたは単語が言語情報に含まれない場合には、言語情報の文字数が上限文字数を上回らないようにすることで、言語情報の文字数を制限し、予め定められたフレーズまたは単語が言語情報に含まれる場合には、言語情報の文字数が上限文字数を上回ることを許容することで、制限を緩和してもよい。たとえばこのようにして、言語情報の文字数の制限、および制限の緩和を行うことができる。 The restricting means limits the number of characters in the language information by preventing the number of characters in the language information from exceeding the upper limit number of characters when the predetermined phrase or word is not included in the language information. When a phrase or a word is included in the language information, the restriction may be relaxed by allowing the number of characters in the language information to exceed the upper limit number of characters. For example, in this way, the number of characters in the language information can be restricted and the restriction can be relaxed.
制限手段は、言語情報の基礎となる原文を作成し、作成手段は、制限手段によって作成された原文から出力される言語情報を作成し、制限手段は、原文を短くすることによって、上述の制限を行ってもよい。たとえばこのように原文を短くすることで、言語情報の文字数を制限することができる。 The restricting means creates an original text that is the basis of the language information, the creating means creates language information output from the original text created by the restricting means, and the restricting means shortens the original text, thereby May be performed. For example, the number of characters in the language information can be limited by shortening the original text in this way.
本発明によれば、内容を把握しやすい言語情報を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the linguistic information which can grasp | ascertain the content easily can be provided.
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant descriptions are omitted.
図1は、実施形態に係る言語情報提供装置(以下、単に「装置」という場合もある)の概略構成を示す図である。図1に示される装置10は、たとえば、動画および音声を含む映像における音声の翻訳文の字幕を言語情報として、映像とともに出力する装置(翻訳装置)であってよい。その場合、装置10では、映像の再生の際に翻訳文が作成されて映像とともに出力される。字幕ではなく、翻訳文に対応する音声(吹替音声)が言語情報として作成されて映像とともに出力されてもよい。また、翻訳を伴わなくとも、講演会などで聴覚障害者のために文字起こしされたトランスクリプト文が言語情報として作成され、出力されてもよい。トランスクリプト文の場合には、映像は出力されなくてもよい。装置10は、テレビ、電光掲示板、ディジタルサイネージ、PC、スマートフォン、ユーザとのコミュニケーションが可能なロボットのような様々な電子機器において実現され得る。
FIG. 1 is a diagram illustrating a schematic configuration of a language information providing apparatus (hereinafter also simply referred to as “apparatus”) according to an embodiment. The
図1に示されるように、装置10は、入力部11と、音声認識処理部12と、文字数算出部13と、原文作成部14と、言語情報作成部15と、自動要約部16と、記憶部17と、出力部18とを含む。
As shown in FIG. 1, the
入力部11は、音声および映像を入力する部分である。たとえば、音声および映像のデータ(音声データおよび映像データ)が、入力部11を構成し得るカメラ、マイクなどにより取得される。音声データおよび映像データは、入力部11により、インターネットなどの通信網を介して、映像を配信するコンテンツサーバから取得されてもよい。また、入力部11は、字幕、吹替音声およびトランスクリプト文のいずれの情報を言語情報として出力すべきかを指定するためのユーザ操作を受け付ける。たとえば、字幕あるいは吹替音声の出力を行うべき旨の指示が、入力部11によって入力される。または、トランスクリプト文を出力するための処理(文字起こし処理)を実行すべき旨の指示が、入力部11によって入力される。
The
音声認識処理部12は、入力部11によって入力された音声を認識する部分である。音声の認識は、入力部11によって入力された音声全体あるいは音声に含まれる各単語の意味、内容を特定することである。音声認識には、音声認識処理が実行可能な種々の公知の音声認識エンジンが用いられてよい。その場合、映像の属性に応じて異なる種類の音響モデル、言語モデルを備えた音声認識エンジンが用いられてもよい。
The voice
文字数算出部13は、上述の字幕、吹替音声およびトランスクリプト文などの言語情報が出力される場合の、出力される言語情報の上限文字数を算出する部分(算出手段)である。たとえば、文字数算出部13は、映像において表示される字幕あるいは出力される吹替音声の最大許容文字数を上限文字数として算出する。字幕あるいは吹替音声の最大許容文字数は、映像の視聴者(この例では装置10のユーザ)の判読能力を考慮した、映像の一つのシーンにおいて表示すべき翻訳文の文字数の上限文字数である。映像の一つのシーンとしては、映像中における或る人物が一つのセリフを述べるシーンなどが想定される。また、文字数算出部13は、講演会等で表示されるトランスクリプト文の最大許容文字数を上限文字数として算出する。トランスクリプト文の最大許容文字数は、トランスクリプト文の視聴者の判読能力を考慮した、講演会等の一つのシーンにおいて表示すべきトランスクリプト文の文字数の上限文字数である。講演会等の一つのシーンとしては、スピーチを行っている人物が一つのセリフを述べるシーンなどが想定される。
The number-of-
最大許容文字数の算出の例について説明する。最大許容文字数が字幕または吹替音声の上限文字数の場合には、たとえば、文字数算出部13が、映像の一つのシーンにおける字幕の表示時間または吹替音声の出力時間と、上述の表示可能文字数とを乗ずることによって、最大許容文字数を算出する。最大許容文字数の算出のために、文字数算出部13は、入力部11によって入力された映像における字幕の表示時間または吹替音声の出力時間を取得する。表示時間等の取得は、たとえば、表示時間等を指定するデータが予め準備されており、当該データが音声データおよび映像データとともに入力部11によって入力されることで取得されてもよい。表示時間等を指定するデータが無い場合には、文字数算出部13は、表示時間等を測定してもよい。表示時間等の測定は、映像データを解析することによって行われる。たとえば、文字数算出部13は、映像の一つのシーンにおいてセリフが音声として発せられている時間を測定し、測定した時間を映像における字幕の表示時間等とする。最大許容文字数がトランスクリプト文の上限文字数の場合には、たとえば、文字数算出部13が、講演等の一つのシーンにおけるトランスクリプト文の表示時間と、上述の表示可能文字数を乗ずることによって、最大許容文字数を算出する。トランスクリプト文の表示時間については、上述の字幕の表示時間等と同様にして、文字数算出部13によって取得されよい。
An example of calculating the maximum allowable number of characters will be described. When the maximum allowable number of characters is the upper limit number of characters of subtitles or dubbed audio, for example, the character
原文作成部14は、後述の言語情報作成部15によって作成される言語情報の基礎となる原文を作成する部分である。原文作成部14がはじめに作成する原文は、入力部11によって入力された音声に対応する文である。たとえば、入力部11によって映像とともに入力される音声データが文字データ(テキストデータ)として与えられる場合には、当該文字データをそのまま用いることで原文が作成される。一方、そのような文字データが無い場合には、原文作成部14は、たとえば、入力部11によって入力され音声認識処理部12によって認識された音声に対応する文字データを、原文として作成してもよい。
The original
言語情報作成部15は、原文作成部14によって作成された原文から、出力される言語情報を作成する部分(作成手段)である。たとえば、言語情報が上述の字幕または吹替音声である場合には、言語情報作成部15は、原文作成部14によって作成された原文の翻訳文を作成する。翻訳には、種々の公知の機械翻訳技術が用いられてよい。この言語情報作成部15によって作成された翻訳文は、映像に表示される字幕として用いられ得る。また、言語情報作成部15は、翻訳文に対応する音声(映像とともに出力される合成音声)を作成する。合成音声は、翻訳文から自動的に作成されてもよいし、翻訳文を人(読み手)が読み上げることによって作成されてもよい。合成音声を自動的に作成する場合には、文字データを音声データに変換するための種々の公知の手法を用いるとよい。合成音声を読み手が作成する場合には、言語情報作成部15によって作成された翻訳文がたとえば後述の出力部18によって表示され、表示された翻訳文を読み手が読み上げるようにするとよい。言語情報作成部15によって作成された翻訳文に対応する音声は、映像とともに出力される吹替音声として用いられ得る。言語情報が上述のトランスクリプト文である場合には、言語情報作成部15は、原文作成部14によって作成された原文そのまま用いることでトランスクリプト文を作成する。
The language
自動要約部16は、原文作成部14によって作成された原文の要約文を作成する部分である。要約文の作成は、原文を段階的に短くすることによって行うことができる。そのような要約文の作成手法はとくに限定されないが、一例として非特許文献1に記載された手法を用いることができる。
The
上述の原文作成部14、言語情報作成部15および自動要約部16は、文字数算出部13によって算出された最大許容文字数に応じて、言語情報の文字数を制限する部分(制限手段)でもある。制限手法の例について説明すると、まず、言語情報作成部15が、原文作成部14によって作成された原文を翻訳する。原文作成部14は、言語情報作成部15によって作成された言語情報の文字数をカウントし、カウントした言語情報の文字数が、文字数算出部13によって算出された最大許容文字数を上回るか否かを判断する。翻訳文の文字数が最大許容文字数を上回る場合には、原文作成部14は、自動要約部16に原文を要約するよう指示する。原文作成部14は、自動要約部16が要約することによって得られる要約文を、新たな原文として作成する。新たに作成された原文は、はじめに作成された原文の要約文に相当するので、はじめに作成された原文よりも短くなる。言語情報作成部15は、原文作成部14によって新たに作成された原文から言語情報を作成する。これにより得られる言語情報の文字数は、最初に作成された言語情報の文字数よりも少ない。このようにして言語情報の文字数を減らすことで、言語情報の文字数を制限することができる。上述のように自動要約部16による要約は段階的に行うことができるので、上記一連の処理を繰り返し実行することによって、言語情報も段階的に短くすることができる。そして、このような一連の処理を、言語情報の文字数が最大許容文字数以下となるまで繰り返し実行することによって、言語情報の文字数を最大許容文字数以下に制限する。
The above-described original
さらに、本実施形態では、予め定められたフレーズまたは単語が、言語情報作成部15によって作成された言語情報に含まれる場合には、上述の言語情報の文字数の制限が緩和される。予め定められたフレーズおよび単語は、ユーザが読み慣れていたり聞き慣れていたりすることによって、他のフレーズおよび単語と比較して、ユーザが短時間で内容を把握することができるフレーズおよび単語である。フレーズの例としては、日常的に用いられる決まり文句「おはようございます」などが挙げられる。単語の例としては、日常的に用いられている固有名詞「ニュージーランド」などが挙げられる。
Furthermore, in the present embodiment, when a predetermined phrase or word is included in the language information created by the language
原文作成部14は、予め定められたフレーズまたは単語が言語情報に含まれるか否かを判断する。予め定められたフレーズまたは単語が言語情報に含まれない場合には、原文作成部14は、先に説明したように言語情報作成部15および自動要約部16と協働して、言語情報の文字数が最大許容文字数を上回らないように言語情報の文字数を制限する。一方、予め定められたフレーズまたは単語が言語情報に含まれる場合には、原文作成部14は、翻訳文の文字数が最大許容文字数を上回ることを許容することで、言語情報の文字数の制限を緩和する。たとえば、原文作成部14は、言語情報に含まれる予め定められたフレーズまたは単語の文字数の合計文字数を、言語情報の文字数から差し引いた文字数を、新たな言語情報の文字数として算出する。算出した新たな言語情報の文字数と、最大許容文字数とを比較することによって、原文作成部14は、先に説明したように言語情報作成部15および自動要約部16と協働し、翻訳文の文字数が上限文字数を上回らないように言語情報の文字数を制限する。
The original
記憶部17は、装置10において実行される種々の処理に必要な情報を記憶する部分である。とくに、記憶部17は、上述の表示可能文字数、上述の予め定められたフレーズおよび単語を記憶する。
The
出力部18は、言語情報作成部15によって作成された言語情報を出力する部分である。言語情報が原文の翻訳文である場合には、出力部18は、原文の翻訳文を字幕とし、入力部11によって入力された映像とともに出力する。言語情報が吹替音声の場合には、出力部18は、吹替音声を映像とともに出力する。言語情報がトランスクリプト文の場合には、出力部18は、原文を表示する。
The
言語情報作成部15は、原文作成部14によって作成された原文から、出力される言語情報を作成する部分(作成手段)である。たとえば、言語情報が上述の字幕または吹替音声である場合には、言語情報作成部15は、原文作成部14によって作成された原文の翻訳文を作成する。翻訳には、種々の公知の機械翻訳技術が用いられてよい。この言語情報作成部15によって作成された翻訳文は、映像に表示される字幕として用いられ、また、翻訳文に対応する音声は、映像とともに出力される吹替音声として用いられ得る。言語情報が上述のトランスクリプト文である場合には、言語情報作成部15は、原文作成部14によって作成された原文そのまま用いることでトランスクリプト文を作成する。言語情報がトランスクリプト文の場合には、少なくともトランスクリプト文が出力されればよく、映像の出力は必須ではない。なお、出力部18によって出力される字幕および映像の例を、後に図4を参照して説明する。
The language
図2は、装置のハードウェア構成の例を示す図である。図2に示されるように、装置10は、物理的には、1または複数のCPU(Central Processing Unit)101、主記憶装置であるRAM(Random Access Memory)102およびROM(Read Only Memory)103、データ送受信デバイスである通信モジュール104、半導体メモリなどの補助記憶装置105、ユーザ操作の入力を受け付ける入力装置106、ディスプレイといった出力装置107などを備えるコンピュータとして構成され得る。先に図1を参照して説明した装置10の各機能は、たとえば、CPU101、RAM102などのハードウェア上に1または複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信モジュール104、入力装置106、出力装置107などを動作させるとともに、RAM102および補助記憶装置105におけるデータの読み出しおよび書き込みを行うことで実現することができる。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the apparatus. As shown in FIG. 2, the
図3は、装置において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、たとえば、再生中の映像の一つのシーン、あるいは講演会中の一つのシーンにおいて実行される。処理が映像の一つのシーンで実行される場合には、翻訳を伴う処理が実行される(後述のステップS4〜S9)。処理が講演会等の一つのシーンで実行される場合には、翻訳を伴わない文字起こし処理が実行される(後述のステップS10〜S13)。いずれの処理に分岐するかは、先に説明したように、入力部11が受け付けたユーザ操作による指示内容に依存する。入力部11によるユーザ操作の受け付けは、図3のフローチャートの開始に先立って行われているものとする。
FIG. 3 is a flowchart illustrating an example of processing executed in the apparatus. The process of this flowchart is executed, for example, in one scene of a video being reproduced or one scene in a lecture. When the process is executed in one scene of the video, a process involving translation is executed (steps S4 to S9 described later). When the process is executed in one scene such as a lecture, a transcription process without translation is executed (steps S10 to S13 described later). Which process is branched to depends on the content of the instruction by the user operation received by the
ステップS1において、装置10は、言語情報の出力時間を取得する。具体的に、先に説明したように、入力部11によって入力された音声等に基づいて、文字数算出部13が、字幕の表示時間、吹替音声の出力時間、あるいは、トランスクリプト文の表示時間を、言語情報の出力時間として取得する。
In step S1, the
ステップS2において、装置10は、出力時間から最大許容文字数を算出する。具体的に、文字数算出部13が、先のステップS1で算出された字幕の表示時間(秒)、吹替音声の出力時間(秒)あるいはトランスクリプト文の出力時間(秒)と、記憶部17に記憶されている表示可能文字数(たとえば4文字/秒)とを乗ずることによって、最大許容文字数を算出する。
In step S2, the
ステップS3において、装置10は、翻訳を行うべきかそれとも文字起こしを行うべきかを判断する。たとえば、装置10のユーザ操作によって、字幕あるいは吹替音声の出力を行うべき旨の指示が入力部11によって入力された場合には、翻訳処理が必要になるので、翻訳を行うべきと判断される。一方、ユーザ操作によって文字起こし処理を実行すべき旨の指示が入力部11によって入力された場合には、文字起こしを行うべきと判断される。翻訳を行うべきと判断した場合、装置10はステップS4〜S9に処理を進める。文字起こしを行うべきと判断した場合、装置10はステップS10〜S13(後述の図4)に処理を進める。
In step S3, the
ステップS4において、装置10は、機械翻訳を実行する。具体的に、自動要約部16が、先に説明したように原文作成部14によって作成された原文の翻訳文を作成する。このステップS4の処理は、後述のステップS8の処理が実行された場合には繰り返し実行されることとなるが、1回目のステップS4の処理において翻訳の基礎となる原文は、先に説明したように原文作成部14によってはじめに作成された原文である。2回目以降のステップS4の処理では、後述のステップS8の処理により短くされた原文が、新たな原文として作成されることになる。
In step S4, the
ステップS5において、装置10は、翻訳文に例外フレーズまたは単語が含まれるか否かを判断する。具体的に、原文作成部14が、先のステップS4において作成された翻訳文と、記憶部17に記憶されているフレーズまたは単語とを比較し、当該フレーズまたは単語が記憶部17に含まれるか否かを判断する。翻訳文に例外フレーズまたは単語が含まれる場合(ステップS5:YES)、装置10はステップS6に処理を進める。そうでない場合(ステップS5:NO)、装置10はステップS6をスキップしてステップS7に処理を進める。
In step S5, the
ステップS6において、装置10は、例外フレーズまたは単語を翻訳文字数から減算する。具体的に、原文作成部14が、先のステップS4において作成された翻訳文の文字数から、先のステップS5において翻訳文に含まれると判断されたフレーズまたは単語の文字数を減じた数を、新たな翻訳文の文字数として算出する。このようにして新たな翻訳文の文字数を算出すると、新たに算出する前の翻訳文の文字数が最大許容文字数を上回っていても、後述のステップS7においてYESの判定がされ得るとともに、後述のステップS8において最大許容文字数を上回る文字数の翻訳文が字幕として、あるいは翻訳文に対応する音声が吹替音声として、映像とともに出力され得る。
In step S6, the
ステップS7において、装置10は、翻訳文字数が最大許容文字数以下であるか否かを判断する。具体的に、原文作成部14が、先のステップS4で作成された翻訳文の文字数または先のステップS6で算出された新たな翻訳文の文字数が、先のステップS2で算出された最大許容文字数以下であるか否かを判断する。翻訳文字数が最大許容文字数以下の場合(ステップS7:YES)、装置10はステップS9に処理を進める。そうでない場合(ステップS7:NO)、装置10はステップS8に処理を進める。
In step S7, the
ステップS8において、装置10は、文を段階的に短くする。具体的に、自動要約部16が、先のステップS4において作成された原文を要約する。原文作成部14は、自動要約部16が要約することによって得られる要約文を、新たな原文として作成する。ステップS8の処理が完了した後、装置10はステップS4に再び処理を戻す。先に説明したようにステップS4では原文の翻訳文が作成される。また、図3に示されるようにこれらステップS4〜S8の処理は繰り返し実行され得る。これらの処理が繰り返し実行されることによって、原文とともに翻訳文が段階的に短くなる。
In step S8, the
ステップS9において、装置10は、字幕表示・音声合成またはトランスクリプト文表示を行う。具体的に、出力部18が先のステップS4で作成された翻訳文を字幕として映像とともに表示するか、翻訳文に対応する音声を吹替音声として映像とともに出力する。または、原文作成部14によって作成された原文あるいは後述のステップS13において新たに作成された原文を、トランスクリプト文として出力する。ステップS9の処理が完了した後、装置10は、フローチャートの処理を終了する。
In step S9, the
次に、先のステップS3において文字起こしを行うべきと判断され、図4に示されるステップS10に処理が進められた場合に実行される処理について説明する。 Next, processing that is executed when it is determined in step S3 that transcription should be performed and the processing proceeds to step S10 shown in FIG. 4 will be described.
ステップS10において、装置10は、文に例外フレーズまたは単語が含まれるか否かを判断する。具体的に、原文作成部14が、先に説明したように作成したトランスクリプト文となり得る原文と、記憶部17に記憶されているフレーズまたは単語とを比較し、当該フレーズまたは単語が記憶部17に含まれているか否かを判断する。原文に例外フレーズまたは単語が含まれる場合(ステップS10:YES)、装置10はステップS11に処理を進める。そうでない場合(ステップS10:NO)、装置10はステップS11をスキップしてステップS12に処理を進める。
In step S10, the
ステップS11において、装置10は、例外フレーズまたは単語を文字数から減算する。具体的に、原文作成部14が、原文の文字数から、先のステップS10において原文に含まれると判断されたフレーズまたは単語の文字数を減じた数を、新たな原文の文字数として算出する。このようにして新たな原文の文字数を算出すると、新たに算出する前の原文の文字数が最大許容文字数を上回っていても、後述のステップS12においてYESの判定がされ得るとともに、後に実行されるステップS9において最大許容文字数を上回る文字数の原文がトランスクリプト文として出力され得る。
In step S11, the
ステップS12において、装置10は、文字数が最大許容文字数以下であるか否かを判断する。具体的に、原文作成部14が、原文の文字数または先のステップS11で算出された新たな原文の文字数が、先のステップS2で算出された最大許容文字数以下であるか否かを判断する。文字数が最大許容文字数以下の場合(ステップS12:YES)、装置10は先に説明したステップS9(図3)に処理を進める。そうでない場合(ステップS12:NO)、装置10はステップS13に処理を進める。
In step S12, the
ステップS13において、装置10は、文を段階的に短くする。この処理は、先のステップS8の処理と同様であるので、ここでは説明を省略する。ステップS13の処理が完了した後、装置10はステップS10に再び処理を戻す。
In step S13, the
以上説明した装置10によれば、言語情報の上限文字数が算出され(ステップS2)、算出された上限文字数に応じて、作成される言語情報の文字数が制限される(ステップS4〜S8、S10〜S13)。このように言語情報の文字数を制限することによって、出力された言語情報(ステップS8)の内容を把握しやすくすることができる。
According to the
たとえば、映像に表示される字幕の上限文字数が算出され(ステップS2)、算出された上限文字数に応じて、作成される翻訳文の文字数が制限される(ステップS3〜S8)。このように表示される翻訳文の文字数を制限することによって、制限された文字数の翻訳文が字幕として映像とともに表示されたときに(ステップS9)、翻訳文が読みやすくなる。 For example, the upper limit number of subtitle characters displayed in the video is calculated (step S2), and the number of characters of the translation to be created is limited according to the calculated upper limit number of characters (steps S3 to S8). By limiting the number of characters of the translated text displayed in this way, when the translated text with the limited number of characters is displayed as a subtitle along with the video (step S9), the translated text becomes easy to read.
また、予め定められたフレーズまたは単語が言語情報に含まれる場合には(ステップS5:YES、ステップS10:YES)、上述の制限が緩和される(ステップS6、S11)。ここで、ユーザが読み慣れていたり聞き慣れていたりすることによってユーザが短時間で把握することができるフレーズまたは単語が、予め定められたフレーズとして設定されている。よって、そのようなフレーズまたは単語が言語情報に含まれており上述の制限が緩和され言語情報の文字数が増えて表示されたとしても(ステップS8)、言語情報が把握しにくくなることを抑制することができる。 Further, when a predetermined phrase or word is included in the language information (step S5: YES, step S10: YES), the above-described restriction is relaxed (steps S6 and S11). Here, a phrase or a word that can be grasped in a short time by the user becoming accustomed to reading or accustomed to listening is set as a predetermined phrase. Therefore, even if such a phrase or word is included in the language information and the above-mentioned restriction is relaxed and the number of characters of the language information is increased (step S8), it is suppressed that the language information becomes difficult to grasp. be able to.
また、予め定められたフレーズまたは単語が言語情報に含まれない場合には(ステップS5:NO、ステップS10:NO)、言語情報の文字数が上限文字数を上回らないようにすることで、言語情報の文字数が制限される(ステップS7:NO、ステップS9、ステップS12:NO、ステップS13)。一方、予め定められたフレーズまたは単語が翻訳文に含まれる場合には(ステップS5:YES、ステップS10:YES)、翻訳文の文字数が上限文字数を上回ることを許容することで、上述の制限が緩和される(ステップS6、ステップS7:YES、ステップS11、ステップS12:YES)。このようにして、言語情報の文字数の制限、および制限の緩和を行うことができる。 If a predetermined phrase or word is not included in the linguistic information (step S5: NO, step S10: NO), the linguistic information can be stored by making the number of characters in the linguistic information not exceed the upper limit number of characters. The number of characters is limited (step S7: NO, step S9, step S12: NO, step S13). On the other hand, when a predetermined phrase or word is included in the translated sentence (step S5: YES, step S10: YES), the above-mentioned restriction is allowed by allowing the number of characters in the translated sentence to exceed the upper limit number of characters. Relaxed (step S6, step S7: YES, step S11, step S12: YES). In this way, the number of characters in the language information can be restricted and the restriction can be relaxed.
また、言語情報の基礎となる原文を短くすることによって、上述の制限が行われる(ステップS8、S13)。このように原文を短くすることで、言語情報の文字数を制限することができる。 Moreover, the above-mentioned restriction | limiting is performed by shortening the original text used as the foundation of language information (step S8, S13). By shortening the original text in this way, the number of characters in the language information can be limited.
図5は、字幕として表示される、文字数の制限された翻訳文の例を示す図である。図5の左側の画面D1に表示されている字幕としての翻訳文は比較例であり、図5の右側の画面D2に表示されている翻訳文が、装置10によって文字数が制限された字幕である。これらの画面D1、D2は、出力部18によって出力され得る画面であり、具体的に、先に図2を参照して説明したようなディスプレイなどの出力装置107に表示される画面である。
FIG. 5 is a diagram illustrating an example of a translated sentence with a limited number of characters displayed as subtitles. The translated sentence displayed on the screen D1 on the left side of FIG. 5 is a comparative example, and the translated sentence displayed on the screen D2 on the right side of FIG. 5 is a caption whose number of characters is limited by the
はじめに、比較例としての画面D1について説明する。画面D1には、文字数が制限されていない翻訳文が表示されている。この例では、映像中の人物がセリフ「先週末はお越しいただいて本当に楽しかったです。また近いうちにお尋ねください。」という原文を、原文の言語を用いて述べているシーンにおいて、その翻訳文が映像とともに表示されている。これに対し、画面D2には、文字数が制限された翻訳文が表示されている。画面D2を画面D1と比較すると、画面D2では、映像中の人物のセリフから「お越しいただいて本当に」および「また」との文言が削除されることによって要約された原文の翻訳文が表示されている。その結果、画面D2に表示される翻訳文の文字数が制限され、ユーザにとって判読し易いものとなっている。文字数が制限されたことで、画面D1では2行にわたって表示されていた翻訳文が、画面D2では1行で表示されるようにもなっている。これにより、ユーザは快適に字幕を判読することができるようになる。 First, a screen D1 as a comparative example will be described. On the screen D1, a translated sentence whose number of characters is not limited is displayed. In this example, in the scene where the person in the video says the original sentence, “I was really happy to come over last weekend. It is displayed with the video. On the other hand, a translated sentence with a limited number of characters is displayed on the screen D2. Comparing screen D2 with screen D1, screen D2 displays the translated text of the original text summarized by deleting the words “Come to me” and “Mata” from the words of the person in the video. Yes. As a result, the number of characters of the translated text displayed on the screen D2 is limited, and it is easy for the user to read. By limiting the number of characters, the translated text displayed on two lines on the screen D1 is also displayed on one line on the screen D2. As a result, the user can comfortably read the subtitles.
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではない。 Although one embodiment of the present invention has been described above, the present invention is not limited to the above embodiment.
たとえば、装置において実行される処理の一部が、外部サーバにおいて実行されてもよい。図6はそのような変形例に係る装置10Aの概略構成を示す図である。装置10Aは、装置10(図1)と比較して、音声認識処理部12および言語情報作成部15を含まない一方で、通信部19を含む点で相違する。通信部19は、サーバ20と通信をするための部分である。サーバ20は、音声認識処理部21と、言語情報作成部22と、通信部23とを含む。音声認識処理部21および言語情報作成部22の機能は、先に説明した音声認識処理部12および言語情報作成部15と同様であるのでここでは説明を省略する。通信部23は、装置10Aの通信部19と通信を行う部分である。図6に示される装置10Aは、通信部19を用いてサーバ20と通信を行うことにより、サーバ20の音声認識処理部21および言語情報作成部22の機能を利用することができる。このような構成によっても、装置10Aは、先に説明した装置10と同様の処理を実行することができる。この場合、音声の認識および言語情報の作成のための処理がサーバ20で実行される分だけ、装置10Aにおける処理負担を軽減することができる。
For example, a part of the processing executed in the device may be executed in the external server. FIG. 6 is a diagram showing a schematic configuration of an
また、上記実施形態では、表示可能文字数として4文字/秒を例に挙げて説明した。ただし、表示可能文字数はこの例に限定されない。たとえば、映像の種類に応じて異なる表示可能文字数が採用されてもよい。映像の種類としては、映画の映像、講演会の映像、会議の映像などの様々な映像が想定される。たとえば映画の映像の場合には、表示可能文字数として3〜4文字/秒を採用してもよい。映像の種類に応じて表示可能文字数を使い分ける場合には、映像の種類と表示可能文字数とを対応付けて記述したデータテーブルを、記憶部17が予め記憶しておくとよい。そして、たとえば文字数算出部13が、映像の種類に応じた表示可能文字数を記憶部17から取得し、取得した表示可能文字数を用いて最大許容翻訳文字数を算出するとよい。翻訳文が日本語とは異なる言語で翻訳文が作成され表示される場合には、言語に応じて異なる表示可能文字数が採用されてもよい。この場合も、上述した映像の種類に応じて表示可能文字数を使い分ける場合と同様に文字数算出部13、記憶部17をカスタマイズするとよい。その他にも、装置10のユーザごと、あるいは、コンテンツごとに、表示可能文字数を使い分けてもよい。
Moreover, in the said embodiment, 4 characters / second was mentioned as an example and demonstrated as the number of displayable characters. However, the number of displayable characters is not limited to this example. For example, a different number of displayable characters may be employed depending on the type of video. As video types, various videos such as movie videos, lecture videos, and conference videos are assumed. For example, in the case of a movie image, 3 to 4 characters / second may be adopted as the number of displayable characters. When the number of displayable characters is properly used according to the type of video, the
また、上記実施形態では、言語情報に予め定められたフレーズまたは単語が含まれる場合に、それらフレーズまたは単語の文字数を言語情報の文字数から減算する例について説明した。この場合、単にフレーズまたは単語の文字数をそのまま言語情報の文字数から減算するのではなく、フレーズまたは単語の種類に応じてそれらの文字数を補正したうえで(たとえば補正係数を乗じたうえで)、補正後の文字数を言語情報の文字数ら減算してもよい。その場合、フレーズまたは単語がユーザにとって読み慣れたり聞き慣れたりしているものであるほど、補正後の文字数が多くなるようにする(たとえば補正係数を大きくする)とよい。フレーズまたは単語の種類に応じて言語情報の文字数からの減算の程度を変える場合には、フレーズまたは単語の種類と、たとえば補正係数とを対応付けて記述したデータテーブルを、記憶部17が予め記憶しておくとよい。そして、文字数算出部13が、フレーズまたは単語の種類に応じた補正係数を記憶部17から取得し、取得した補正係数をフレーズまたは単語の文字数に乗じた文字数を、言語情報の文字数から減算するとよい。
Moreover, in the said embodiment, when the predetermined phrase or word was contained in language information, the example which subtracts the number of characters of these phrases or a word from the number of characters of language information was demonstrated. In this case, instead of simply subtracting the number of characters in the phrase or word from the number of characters in the language information, correct the number of characters according to the type of phrase or word (for example, by multiplying by a correction factor) The number of characters after may be subtracted from the number of characters in the language information. In that case, it is better to increase the number of corrected characters (for example, increase the correction coefficient) as the phrase or word becomes more familiar to the user or familiar to the user. When the degree of subtraction from the number of characters in the language information is changed according to the type of phrase or word, the
また、上記実施形態では、必要に応じて、文字数算出部13が、映像の一つのシーンにおいてセリフが音声として発せられている時間を測定し、測定した時間を映像における字幕の表示時間とする例について説明した。ただし、セリフが発せられている時間よりも対応する字幕の表示時間が長くなるように、字幕の表示時間が設定されてもよい。逆に、セリフが発せられている時間よりも対応する字幕の表示時間が短くなるように、字幕の表示時間が設定されてもよい。
Moreover, in the said embodiment, the number-of-
また、上記実施形態では、言語情報の文字数が最大許容文字数を上回るか否か、言語情報に予め定められたフレーズまたは単語が含まれているか否か、といった判断を、原文作成部14が行う例について説明した。ただし、これらの判断は、原文作成部14以外の要素、たとえば文字数算出部13、言語情報作成部15、自動要約部16などによって行われてもよい。
Moreover, in the said embodiment, the original
10、10A…装置、11…入力部、12、21…音声認識処理部、13…文字数算出部、14…原文作成部、15、22…言語情報作成部、16…自動要約部、17…記憶部、18…出力部、19、23…通信部、20…サーバ。
DESCRIPTION OF
Claims (5)
前記出力される言語情報を作成する作成手段と、
前記算出手段によって算出された上限文字数に応じて、前記作成手段が作成する言語情報の文字数を制限する制限手段と、
を備える、
言語情報提供装置。 Calculation means for calculating the upper limit number of characters of the language information to be output based on the output time of the language information;
Creating means for creating the output language information;
Limiting means for limiting the number of characters of the language information created by the creating means according to the upper limit number of characters calculated by the calculating means;
Comprising
Language information providing device.
前記作成手段は、前記字幕として用いられる翻訳文を前記言語情報として作成し、
前記制限手段は、前記作成手段が作成する翻訳文の文字数を制限する、
請求項1に記載の言語情報提供装置。 The calculation means calculates the display time of the caption in the video as the output time of the language information, calculates the upper limit number of characters of the displayed caption as the upper limit number of characters of the language information,
The creating means creates a translation used as the subtitle as the language information,
The restricting means restricts the number of characters of the translation sentence created by the creating means;
The language information providing apparatus according to claim 1.
前記予め定められたフレーズまたは単語が前記言語情報に含まれない場合には、前記言語情報の文字数が前記上限文字数を上回らないようにすることで、前記言語情報の文字数を制限し、
前記予め定められたフレーズまたは単語が前記言語情報に含まれる場合には、前記言語情報の文字数が前記上限文字数を上回ることを許容することで、前記制限を緩和する、
請求項3に記載の言語情報提供装置。 The limiting means is
When the predetermined phrase or word is not included in the language information, by limiting the number of characters of the language information by preventing the number of characters of the language information from exceeding the upper limit number of characters,
When the predetermined phrase or word is included in the language information, the limit is relaxed by allowing the number of characters in the language information to exceed the upper limit number of characters.
The language information providing apparatus according to claim 3.
前記作成手段は、前記制限手段によって作成された原文から前記出力される言語情報を作成し、
前記制限手段は、前記原文を短くすることによって、前記制限を行う、
請求項1〜4のいずれか1項に記載の言語情報提供装置。 The restriction means creates an original text that is the basis of the language information,
The creation means creates the output language information from the original text created by the restriction means,
The restriction means performs the restriction by shortening the original text.
The language information providing apparatus according to any one of claims 1 to 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016105957A JP2017212667A (en) | 2016-05-27 | 2016-05-27 | Language information providing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016105957A JP2017212667A (en) | 2016-05-27 | 2016-05-27 | Language information providing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017212667A true JP2017212667A (en) | 2017-11-30 |
Family
ID=60475773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016105957A Pending JP2017212667A (en) | 2016-05-27 | 2016-05-27 | Language information providing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017212667A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7434762B2 (en) | 2019-09-10 | 2024-02-21 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and programs |
-
2016
- 2016-05-27 JP JP2016105957A patent/JP2017212667A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7434762B2 (en) | 2019-09-10 | 2024-02-21 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6556972B1 (en) | Method and apparatus for time-synchronized translation and synthesis of natural-language speech | |
US6859778B1 (en) | Method and apparatus for translating natural-language speech using multiple output phrases | |
US8862478B2 (en) | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server | |
US6772122B2 (en) | Character animation | |
US8103511B2 (en) | Multiple audio file processing method and system | |
US20140358516A1 (en) | Real-time, bi-directional translation | |
US20090202226A1 (en) | System and method for converting electronic text to a digital multimedia electronic book | |
CA2372544A1 (en) | Information access method, information access system and program therefor | |
US10917607B1 (en) | Editing text in video captions | |
JP2001502828A (en) | Method and apparatus for translating between languages | |
US20140372117A1 (en) | Transcription support device, method, and computer program product | |
US7415413B2 (en) | Methods for conveying synthetic speech style from a text-to-speech system | |
US20040098266A1 (en) | Personal speech font | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
CN113808576A (en) | Voice conversion method, device and computer system | |
JP2017212667A (en) | Language information providing device | |
US20030097253A1 (en) | Device to edit a text in predefined windows | |
CN115171645A (en) | Dubbing method and device, electronic equipment and storage medium | |
JP2016012315A (en) | Spaced-wording unit dividing program for text data, and electronic book reproduction device | |
JP2020052262A (en) | Correction candidate presentation method, correction candidate presentation program, and information processing device | |
KR102076565B1 (en) | Speech processing apparatus which enables identification of a speaking person through insertion of speaker identification noise and operating method thereof | |
JP4042435B2 (en) | Voice automatic question answering system | |
KR101832464B1 (en) | Device and method for providing moving picture, and computer program for executing the method | |
TW201009613A (en) | System and method for speech translation between classical Chinese and vernacular Chinese |