JP2023170822A - Explanation voice production device and program - Google Patents
Explanation voice production device and program Download PDFInfo
- Publication number
- JP2023170822A JP2023170822A JP2022082878A JP2022082878A JP2023170822A JP 2023170822 A JP2023170822 A JP 2023170822A JP 2022082878 A JP2022082878 A JP 2022082878A JP 2022082878 A JP2022082878 A JP 2022082878A JP 2023170822 A JP2023170822 A JP 2023170822A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- label
- text
- data
- text element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 91
- 238000004458 analytical method Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000003860 storage Methods 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000012544 monitoring process Methods 0.000 claims description 32
- 239000002245 particle Substances 0.000 claims description 12
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 description 35
- 238000000034 method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000009471 action Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 15
- 230000033001 locomotion Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000007123 defense Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、解説音声用のテキストを生成する解説音声制作装置及びプログラムに関する。 The present invention relates to an explanatory audio production device and program that generate text for explanatory audio.
従来、スポーツ中継の放送番組を放送すると共に、その放送番組の解説音声を視聴者へ提供する解説音声サービスが知られている(例えば特許文献1を参照)。 2. Description of the Related Art Conventionally, commentary audio services have been known that broadcast sports broadcast programs and provide viewers with commentary audio of the broadcast programs (for example, see Patent Document 1).
図15は、解説音声サービスを提供するシステムの概要を説明する図である。このシステムは、放送送信装置101、放送受信装置102、解説音声制作配信装置103、アプリサーバ104及び携帯端末105を備えて構成される。
FIG. 15 is a diagram illustrating an overview of a system that provides an audio commentary service. This system includes a
放送送信装置101、解説音声制作配信装置103及びアプリサーバ104は、例えば放送局に設置され、放送受信装置102は、例えば視聴者100の自宅に設置される。また、携帯端末105は、自宅で放送番組を視聴する視聴者100により使用される。
The broadcast transmitting
このシステムの解説音声サービスにより、視聴者100は、アナウンサーの実況及び解説者の解説にて試合状況を説明する音声及び映像の放送番組と共に、解説音声の提供を受けることができる。
With the commentary audio service of this system, the
放送送信装置101は、地上デジタル放送波を介して、放送番組コンテンツを放送受信装置102へ送信する。放送受信装置102は例えばテレビ受信機であり、放送送信装置101から地上デジタル放送波を介して送信された放送番組コンテンツを受信し、受信した放送番組コンテンツを再生する。
Broadcast transmitting
解説音声制作配信装置103は、放送送信装置101が送信している放送番組コンテンツの解説音声を制作し、解説音声を携帯端末105へ送信する。アプリサーバ104は、携帯端末105で動作するアプリを記憶しており、携帯端末105からの要求に応じて、アプリを携帯端末105へ送信する。アプリは、アプリケーションの略語であり、ここでは、解説音声を受信して再生するプログラムである。
The commentary audio production and
携帯端末105は、例えばスマートフォン、PDA(Personal Digital Assistant)であり、放送受信装置102が受信した放送番組コンテンツに同期して、放送番組コンテンツの解説音声を再生する。携帯端末105は、解説音声を再生するときに、視聴者100の操作に従って再生速度等を変更する。
The mobile terminal 105 is, for example, a smartphone or a PDA (Personal Digital Assistant), and plays explanatory audio of the broadcast program content in synchronization with the broadcast program content received by the broadcast receiving device 102. When reproducing the commentary audio, the mobile terminal 105 changes the reproduction speed etc. according to the operation of the
例えば放送番組が野球中継である場合、視聴者100は、野球の試合の映像及び音声と共に、そのときの試合状況を詳しく解説した解説音声の提供を受けることができ、試合の内容を詳細に把握することができる。野球の解説音声は、例えば試合状況に応じた投手の情報、投手の動作、球種、球速、コース、打者の情報、打者の動作、得点等である。
For example, if the broadcast program is a baseball broadcast, the
このような解説音声サービスを実現する解説音声制作配信装置103の例としては、ODF(Olympic Data Feed)の仕様に従ったデータの提供を受け、当該データを用いて解説音声を制作し、配信するシステムが知られている(例えば非特許文献1を参照)。
An example of the commentary audio production and
この非特許文献1に記載された解説音声制作配信装置103は、オリンピックのデータを提供する1つの情報源から、現在の試合状況の得点、反則等のデータを逐次受信する。そして、解説音声制作配信装置103は、予め設定されたテンプレートに変数を当てはめる等することで、試合状況に応じた実況文面のテキストを生成し、音声合成器を用いてテキストを音声化し、解説音声の音声ファイルを携帯端末105へ送信する。
The commentary audio production and
前述のとおり、非特許文献1の技術は、特定のオリンピックの大会のみで利用することができ、大会のODFの仕様に従ったデータの限定したフォーマットによりテキストを生成し、解説音声の音声ファイルを生成するものである。
As mentioned above, the technology in Non-Patent
このため、非特許文献1の技術は、その他の大会にそのまま利用することができず、拡張性及び汎用性が低いという問題があった。
For this reason, the technology of Non-Patent
また、非特許文献1の技術では、解説音声を生成するための情報源が1つであることから、解説音声として視聴者100へ伝えたい情報があったとしても、その情報源に、必ずしも伝えたい情報が存在するとは限らない。このため、複数の情報源を利用することが可能な技術が所望されていた。
Furthermore, in the technology of Non-Patent
また、非特許文献1の技術では、情報源から必要なタイミングでデータが配信される保証がない。このため、リアルタイム性を要するデータに関しては、視聴者100へ伝えるべきタイミングで情報源からデータの配信を受けなければ、解説音声サービスが成立しないという問題があった。
Furthermore, with the technique disclosed in
このように、1つの情報源から配信されたデータを用いてテキストを生成し、解説音声を生成する非特許文献1の技術では、解説音声サービスとしては不十分であり、視聴者100の要求を十分に満たすことができない。
In this way, the technology of Non-Patent
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、複数の情報源のデータを利用すると共に、拡張性及び汎用性の高い解説音声をリアルタイムで提供可能な解説音声制作装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above problems, and its purpose is to provide an explanatory voice that utilizes data from multiple information sources and that can provide extensible and versatile explanatory audio in real time. Its purpose is to provide production equipment and programs.
前記課題を解決するために、請求項1の解説音声制作装置は、ライブ配信しているスポーツ番組の解説音声用のテキストを発話毎に生成する解説音声制作装置において、前記発話毎に、前記テキストが1または複数のテキスト要素により構成される場合の前記1または複数のテキスト要素に対応する1または複数のラベルを含む発話定義データが定義されたテンプレートと、前記テキスト要素が格納される情報管理テーブルと、複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って前記データを解析することで、前記データから前記テキスト要素を抽出する解析部と、前記解析部により抽出された前記テキスト要素に対し、前記テキスト要素の発話を提示するタイミングの優先度を含むラベルを付与し、前記ラベルが付与されたテキスト要素を前記情報管理テーブルに格納する格納部と、前記情報管理テーブルに格納された前記テキスト要素が更新されたか否かを監視し、更新されたと判定された場合の前記テキスト要素に付与された前記ラベルを出力する更新監視部と、前記更新監視部により出力された前記ラベルを含む前記発話定義データの前記発話について、前記情報管理テーブルから、前記発話定義データに含まれる1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出し、当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を出力する読出部と、前記読出部により出力された当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を、所定の再生時刻を含むファイルにフォーマット変換するフォーマット変換部と、前記フォーマット変換部によりフォーマット変換された前記ファイルから前記1または複数のテキスト要素を抽出し、前記テキストを生成して出力するテキスト生成部と、前記フォーマット変換部によりフォーマット変換された前記発話毎のファイルを入力し、前記発話毎のファイルの前記ラベルに含まれる前記優先度に基づいて、前記発話の順序を決定し、前記順序に従って前記発話毎のファイルに含まれる前記再生時刻を再設定し、前記順序が決定された先頭の発話のファイルに含まれる前記再生時刻を出力し、前記先頭の発話のファイルを破棄する順序破棄制御部と、を備えたことを特徴とする。
In order to solve the above problem, an explanation audio production device according to
また、請求項2の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記複数の情報源には、前記スポーツ番組の試合状況に応じたリアルタイムのデータを送信する情報源が含まれると共に、さらに、オペレータの入力操作に従って前記スポーツ番組のデータを送信する情報源、前記スポーツ番組の試合状況の画像を解析することで得られるデータを送信する情報源及び前記スポーツ番組の試合状況の音声を認識することで得られるデータを送信する情報源のうちの少なくとも1つが含まれる、ことを特徴とする。
Further, in the commentary audio production device according to
また、請求項3の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記テンプレートには、前記発話毎に、前記1または複数のラベルに加え、前記1または複数のラベルのうちの1つがトリガーラベルとして定義されており、前記更新監視部が、前記トリガーラベルが付与された前記テキスト要素が前記情報管理テーブルにおいて更新されたか否かを監視し、更新されたと判定された場合の前記トリガーラベルを出力する、ことを特徴とする。
Further, in the explanatory audio production device according to
また、請求項4の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記ラベルが、前記情報源の種類、前記スポーツ番組の競技種目、前記優先度、前記テキスト要素が属するグループ、及び前記グループ内の項目を示すそれぞれの数値から構成されるものとし、前記発話定義データに含まれる前記1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出す際の前記ラベルを読出対象ラベルとし、前記読出対象ラベルに加え、当該読出対象ラベルを構成する前記テキスト要素が属するグループ及び前記グループ内の項目が同じであって、前記情報源の種類が異なるラベルを同種ラベルとして、前記読出部が、前記情報管理テーブルに、前記同種ラベルが付与されたテキスト要素が複数格納されている場合、前記情報管理テーブルから、前記同種ラベルが付与された複数のテキスト要素のうち最先に格納された前記テキスト要素を読み出す、ことを特徴とする。
Further, in the explanatory audio production apparatus according to
また、請求項5の解説音声制作装置は、請求項4に記載の解説音声制作装置において、前記読出部が、前記情報管理テーブルに、前記読出対象ラベルが付与されたテキスト要素が格納されておらず、前記読出対象ラベル以外の前記同種ラベルが付与されたテキスト要素が格納されている場合、前記情報管理テーブルから、前記読出対象ラベル以外の前記同種ラベルが付与されたテキスト要素を読み出す、ことを特徴とする。
Further, in the explanatory audio production device according to
また、請求項6の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記ラベルには、前記優先度に加え、前記スポーツ番組の競技種目が含まれており、前記読出部が、前記情報管理テーブルから読み出したテキスト要素について、当該テキスト要素に付与されたラベルに含まれる前記競技種目に応じて、当該テキスト要素を修正し、当該発話の1または複数のラベル及び1または複数のテキスト要素(修正したテキスト要素がある場合は当該テキスト要素)を出力する、ことを特徴とする。
Further, in the explanatory audio production device according to
また、請求項7の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記発話定義データに含まれる前記1または複数のラベルには、所定の助詞または単語に対応するラベルが含まれており、前記読出部が、前記情報管理テーブルから、前記所定の助詞または単語を含む1または複数のテキスト要素を読み出し、前記テキスト生成部が、前記ファイルから、前記所定の助詞または単語を含む1または複数のテキスト要素を抽出し、前記所定の助詞または単語を含むテキストを生成して出力する、ことを特徴とする。
Further, in the explanatory audio production device according to
また、請求項8の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記ラベルに含まれる前記優先度が、即時、準即時、定期及びその他を示す情報のうちのいずれかの情報であり、前記即時の優先度が最も高く、前記準即時が次に高く、前記その他が最も低いものとし、前記順序破棄制御部が、前記定期の優先度を含むラベルの発話を、前記即時または前記準即時の優先度を含むラベルの第1の発話、及び所定の時間間隔で配置される前記定期の優先度を含むラベルの第2の発話とし、前記第1の発話について、前記優先度が高いほど前記先頭の近くに配置するように、前記発話の順序を決定すると共に、前記第2の発話について、前記第1の発話の後に前記所定の時間間隔で配置するように、前記発話の順序を決定する、ことを特徴とする。
Further, in the explanatory audio production device according to
また、請求項9の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記ラベルが、前記情報源の種類、前記スポーツ番組の競技種目、前記優先度、前記テキスト要素が属するグループ、及び前記グループ内の項目を示す数値から構成されるものとし、前記発話定義データに含まれる前記1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出す際の前記ラベルを読出対象ラベルとし、前記読出対象ラベルに加え、当該読出対象ラベルを構成する前記テキスト要素が属するグループ及び前記グループ内の項目が同じであって、前記情報源の種類が異なるラベルを同種ラベルとして、前記順序破棄制御部が、前記更新監視部による更新の判定に伴って、前記同種ラベルを含む新たなファイルを入力し、前記発話毎のファイルについての発話の順序を決定した際に、前記同種ラベルを含むファイルが複数存在する場合、前記同種ラベルを含む複数のファイルのうち、前記新たなファイル以外のファイルを破棄する、ことを特徴とする。
Further, in the explanatory audio production device according to
また、請求項10の解説音声制作装置は、請求項1に記載の解説音声制作装置において、前記順序破棄制御部が、前記発話毎のファイルのうち、予め設定された時間が経過したファイルを破棄する、ことを特徴とする。
In the explanatory audio production device according to
さらに、請求項11のプログラムは、ライブ配信しているスポーツ番組の解説音声用のテキストを発話毎に生成する解説音声制作装置を構成するコンピュータを、前記発話毎に、前記テキストが1または複数のテキスト要素により構成される場合の前記1または複数のテキスト要素に対応する1または複数のラベルを含む発話定義データが定義されたテンプレート、前記テキスト要素が格納される情報管理テーブル、複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って前記データを解析することで、前記データから前記テキスト要素を抽出する解析部、前記解析部により抽出された前記テキスト要素に対し、前記テキスト要素の発話を提示するタイミングの優先度を含むラベルを付与し、前記ラベルが付与されたテキスト要素を前記情報管理テーブルに格納する格納部、前記情報管理テーブルに格納された前記テキスト要素が更新されたか否かを監視し、更新されたと判定された場合の前記テキスト要素に付与された前記ラベルを出力する更新監視部、前記更新監視部により出力された前記ラベルを含む前記発話定義データの前記発話について、前記情報管理テーブルから、前記発話定義データに含まれる1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出し、当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を出力する読出部、前記読出部により出力された当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を、所定の再生時刻を含むファイルにフォーマット変換するフォーマット変換部、前記フォーマット変換部によりフォーマット変換された前記ファイルから前記1または複数のテキスト要素を抽出し、前記テキストを生成して出力するテキスト生成部、及び、前記フォーマット変換部によりフォーマット変換された前記発話毎のファイルを入力し、前記発話毎のファイルの前記ラベルに含まれる前記優先度に基づいて、前記発話の順序を決定し、前記順序に従って前記発話毎のファイルに含まれる前記再生時刻を再設定し、前記順序が決定された先頭の発話のファイルに含まれる前記再生時刻を出力し、前記先頭の発話のファイルを破棄する順序破棄制御部として機能させることを特徴とする。
Further, the program according to
以上のように、本発明によれば、複数の情報源のデータを利用すると共に、拡張性及び汎用性の高い解説音声をリアルタイムで提供することができる。 As described above, according to the present invention, it is possible to utilize data from a plurality of information sources and provide explanatory audio with high expandability and versatility in real time.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔解説音声制作配信システム〕
まず、解説音声サービスを実現する解説音声制作配信システムについて説明する。図1は、本発明の実施形態による解説音声制作装置を含む解説音声制作配信システムの全体構成例を説明する概略図である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described in detail using the drawings.
[Explanatory audio production and distribution system]
First, the explanation audio production and distribution system that realizes the explanation audio service will be explained. FIG. 1 is a schematic diagram illustrating an example of the overall configuration of an explanatory audio production and distribution system including an explanatory audio production device according to an embodiment of the present invention.
この解説音声制作配信システム10は、解説音声制作装置1、複数の情報源2、音声合成装置3、配信装置4及び携帯端末5を備えて構成される。解説音声制作配信システム10は、図15に示した解説音声サービスを提供するシステムのうち、解説音声制作配信装置103及び携帯端末105に対応している。
This explanatory audio production and
解説音声制作装置1は、ライブ配信しているスポーツ番組の解説音声を制作する際の解説音声用テキストを発話毎に生成する装置である。解説音声制作装置1は、複数の情報源2から、ライブ配信しているスポーツ番組の試合状況に応じたリアルタイムのデータを入力する。そして、解説音声制作装置1は、データの入力元である情報源2独自のデータフォーマットに従ってデータを解析することでテキスト要素を抽出し、テキスト要素にラベルを付与し、後述する情報管理テーブル13に格納する。
The commentary
ここで、テキスト要素は、生成したい解説音声用テキスト(発話したい内容のテキスト)を構成する1または複数の要素である。ラベルは、テキスト要素の内容を識別するための情報である。詳細については後述する。 Here, the text element is one or more elements that constitute the explanatory voice text (text of the content desired to be uttered) to be generated. A label is information for identifying the content of a text element. Details will be described later.
解説音声制作装置1は、1発話の解説音声用テキストを生成するために、後述するテンプレート14に定義された発話定義データに従い、情報管理テーブル13から更新されたテキスト要素を読み出して再生時刻を含むJsonファイルを生成し、発話IDを付与して解説音声用テキストを生成する。また、解説音声制作装置1は、発話の順序を決定して再生時刻を再設定する。再生時刻は、携帯端末5が解説音声用テキストの音声ファイルを再生する時刻である。
In order to generate explanatory audio text for one utterance, the explanatory
解説音声制作装置1は、発話毎に、発話ID及び解説音声用テキストを音声合成装置3へ出力すると共に、発話ID及び再生時刻を配信装置4へ出力する。
For each utterance, the explanatory
情報源2は、例えば競技種目毎の複数の情報源からなる。図1に示すとおり、野球の複数の情報源2としては、例えばODFの仕様に従ったオリンピック関連のデータを配信する情報源2-1、BISの仕様に従ったプロ野球関連のデータを配信する情報源2-2、BIPの仕様に従ったプロ野球関連のデータを配信する情報源2-3、SIGNの仕様に従った高校野球関連のデータを配信する情報源2-4がある。
The
また、野球の情報源2としては、放送番組を視聴しているオペレータの入力操作により、所定の仕様に従った野球関連のデータを送信する情報源2-5、野球の試合状況の画像を解析することで野球関連のデータを生成し、所定の仕様に従った野球関連のデータを送信する情報源2-6、野球の試合状況の音声を認識することで野球関連のデータを生成し、所定の仕様に従った野球関連のデータを送信する情報源2-7等がある。その他、テニスのデータを配信する複数の情報源2等がある。
In addition, the
このように、スポーツ番組の試合状況に応じたリアルタイムのデータを送信する情報源2-1,・・・,2-4に加え、オペレータの入力操作による情報源2-5、画像解析による情報源2-6及び音声認識による情報源2-7、または情報源2-5,2-6,2-7のうちの少なくとも1つを用いることにより、情報源2-1,・・・,2-4から配信されるデータの不足分を補充することができ、提示する解説音声の幅を広げることができる。 In this way, in addition to the information sources 2-1, ..., 2-4 that transmit real-time data according to the match situation of sports programs, the information source 2-5 based on operator input operations, and the information source based on image analysis. 2-6 and information source 2-7 by voice recognition, or by using at least one of information sources 2-5, 2-6, 2-7, information sources 2-1, ..., 2- It is possible to supplement the missing data distributed from 4, and it is possible to widen the range of explanatory voices to be presented.
また、複数の情報源2のデータを用いることにより、特定の番組、大会または競技に依存することなく、汎用性の高い解説音声制作配信システム10を実現することができる。また、複数の情報源2から解説音声として必要なデータを取得することができるため、確実な解説音声の提示が可能となり、リアルタイム性も実現することができる。
Further, by using data from a plurality of
音声合成装置3は、解説音声制作装置1から発話ID及び解説音声用テキストを入力し、既存技術により、解説音声用テキストから合成音を生成することで音声ファイルを生成する。そして、音声合成装置3は、発話ID及び音声ファイルを配信装置4へ出力する。
The
配信装置4は、解説音声制作装置1から発話ID及び再生時刻を入力すると共に、音声合成装置3から発話ID及び音声ファイルを入力する。そして、配信装置4は、解説音声の発話が放送の主音声の発話と重ならないように、再生時刻を変更する。具体的には、配信装置4は、放送の主音声の発話についてその終わりの時刻を予測し、主音声の開始時刻から終了時刻までの間の時間期間と解説音声の音声ファイルが再生される時間期間とが重なる場合、再生時刻を主音声の終了時刻の後の時刻に変更する。
The
配信装置4は、同じ発話IDの音声ファイル及び再生時刻を携帯端末5へ配信する。
The
携帯端末5は、配信装置4から配信された音声ファイル及び再生時刻を受信し、再生時刻のときに音声ファイルを再生する。
The
生放送のようなリアルタイムに進行する音声に対しては、複数の音声の重なりを避けられない状況も考えられる。また、高齢者または難聴者は、女性の声が聴き取り難かったり、試合の進行状況が速い競技では音声を聴き逃がしたりすることがあり得る。この場合、携帯端末5は、視聴者100の操作に従い、再生音声の話者及び再生速度を選択して再生する。これにより、それぞれの事情に合わせて聴き取り易さを実現できる。
For audio that progresses in real time, such as in a live broadcast, there may be situations in which multiple audio overlap is unavoidable. Furthermore, elderly people or people with hearing loss may have difficulty hearing women's voices, or may miss hearing voices in fast-paced competitions. In this case, the
〔解説音声制作装置1〕
次に、図1に示した解説音声制作装置1について詳細に説明する。図2は、本発明の実施形態による解説音声制作装置1の構成例を示すブロック図である。
[Explanatory audio production device 1]
Next, the explanation
この解説音声制作装置1は、解析部11、格納部12、情報管理テーブル13、テンプレート14、更新監視部15、読出部16、フォーマット変換部17、テキスト生成部18及び順序破棄制御部19を備えている。
This explanatory
<解析部11>
図3は、解析部11及び格納部12の処理例を示すフローチャートである。解析部11は、複数の情報源2から、ライブ配信しているスポーツ番組の試合状況に応じたデータを入力する(ステップS301)。入力するデータは、固定長、CSV、XML、Json等の様々な形式で定義されたデータである。
<
FIG. 3 is a flowchart showing a processing example of the
解析部11は、データの入力元である情報源2の種類を識別して識別情報を生成すると共に、入力した情報源2のデータについて、情報源2の予め設定されたデータフォーマットに従って解析することで、データからテキスト要素を抽出する(ステップS302)。また、解析部11は、テキスト要素の抽出の際に、テキスト要素がどのような種類、内容等の情報であるかを示す解析結果を生成し、テキスト要素、解析結果及び識別情報を格納部12に出力する。
The
例えば解析部11は、情報源2-2からBISの仕様に従ったプロ野球関連のデータ(「ピッチャー鈴木」「かまえた」等)を入力し、識別情報として、情報源2の種類が「BIS」であることを示す情報を生成し、情報源2-2のデータフォーマットに合わせて解析することで、データからテキスト要素「ピッチャー鈴木」「かまえた」を抽出する。また、解析部11は、解析結果として、競技種目が「野球」であり、「ピッチャー鈴木」が投手の名前であり、「かまえた」が投手の動作であること等を示す結果を生成する。
For example, the
<格納部12>
格納部12は、解析部11からテキスト要素、解析結果及び識別情報を入力し、テキスト要素に対し、解析結果及び識別情報に応じたラベルを付与する(ステップS303)。そして、格納部12は、ラベルが付与されたテキスト要素をタイムスタンプと共に、情報管理テーブル13に格納(ラベルに応じた位置に配置)する(ステップS304)。タイムスタンプは、テキスト要素が情報管理テーブル13に格納される時刻に関する情報である。
<
The
前述のとおり、ラベルはテキスト要素の内容を識別するための情報である。ラベルは、後述する図4に示すように、1列目から5列目までの合計5個の数値により構成される。具体的には、1列目はテキスト要素が取得された情報源2の種類、2列目はテキスト要素の競技種目、3列目はテキスト要素を発話として提示する際の提示タイミングの優先度(優先順位)を示す。また、4,5列目はテキスト要素を内容に応じて分類したときのグループ及び項目を示す。
As mentioned above, a label is information for identifying the content of a text element. As shown in FIG. 4, which will be described later, the label is composed of a total of five numerical values from the first column to the fifth column. Specifically, the first column shows the type of
例えば格納部12は、解析部11からテキスト要素「ピッチャー鈴木」、解析結果(競技種目が「野球」であり、「ピッチャー鈴木」が投手の名前であること等を示す結果)及び識別情報(情報源2の種類が「BIS」であることを示す情報)を入力した場合、テキスト要素「ピッチャー鈴木」に対し、解析結果及び識別情報に応じたラベルとして「2-1-3-9-1」を付与する。
For example, the
後述する図4に示すとおり、1列目「2」は情報源2の種類が「BIS」であることを示し、2列目「1」は競技種目が「野球」であることを示し、3列目「3」は提示タイミングが「定期」であることを示している。また、4,5列目「9-1」はグループが「投手情報」であり、項目が「名前」であることを示している(投手の名前であることを示している)。
As shown in FIG. 4, which will be described later, "2" in the first column indicates that the type of
また、格納部12は、解析部11からテキスト要素「かまえた」、解析結果(情報源2が「BIS」であり、競技種目が「野球」であり、「かまえた」が投手の動作である等を示す結果)及び識別情報(情報源2の種類が「BIS」であることを示す情報)を入力した場合、テキスト要素「かまえた」に対し、解析結果及び識別情報に応じたラベルとして「2-1-1-11-1」を付与する。
In addition, the
後述する図4に示すとおり、1列目「2」は情報源2の種類が「BIS」であることを示し、2列目「1」は競技種目が「野球」であることを示し、3列目「1」は提示タイミングが「即時」であることを示している。また、4,5列目「11-1」はグループが「投手の動作」であり、項目が「かまえた」であることを示している。
As shown in FIG. 4, which will be described later, "2" in the first column indicates that the type of
これにより、テキスト要素には共通のラベルが付与されることとなるため、本来的に異なる情報源2のデータフォーマットによるデータから抽出されたテキスト要素を、情報管理テーブル13にて一元管理することができる。同様に、競技種目の異なるデータも一元管理することができる。
As a result, a common label is given to the text elements, so it is possible to centrally manage the text elements extracted from the data in the data format of the
ここで、格納部12において、ラベルの1列目には、識別情報に応じた数値が付与され、ラベルの2,4,5列目には、解析結果に応じた数値が付与され、3列目の提示タイミングには、後述するテンプレート14に定義されたラベルの3列目における数値が付与される。具体的には、格納部12は、付与するラベルの1~5列目の数値について、まず、解析結果及び識別情報に応じて1,2,4,5列目の数値を決定する。そして、格納部12は、3列目について、後述するテンプレート14に定義されたラベルのうち、決定した1,2,4,5列目の数値と同じ1,2,4,5列目の数値を有するラベルを特定し、特定したラベルの3列目の数値を抽出し、当該数値を、付与するラベルの3列目の数値として決定する。
Here, in the
尚、後述するテンプレート14に、ラベルの4,5列目に応じた3列目の提示タイミングが定義されるようにしてもよい。この場合、テンプレート14は、ラベルの4,5列目毎に、3列目の提示タイミングの数値を備えており、格納部12は、解析結果及び識別情報に応じてラベルの1,2,4,5列目の数値を決定した後、テンプレート14からラベルの4,5列目に対応する3列目の提示タイミングの数値を読み出し、読み出した数値を、付与するラベルの3列目の数値として決定する。
Note that the presentation timing of the third column may be defined in the
<情報管理テーブル13>
情報管理テーブル13には、ラベルが付与されたテキスト要素がタイムスタンプと共に格納される。つまり、情報管理テーブル13は、ラベル、テキスト要素及びタイムスタンプにより構成される。テキスト要素は、解説音声用テキストを構成する際の最小単位の要素である。
<Information management table 13>
The information management table 13 stores labeled text elements together with time stamps. That is, the information management table 13 is composed of labels, text elements, and time stamps. The text element is the minimum unit element when configuring the explanatory audio text.
図4は、ラベルを説明する図である。図4(1)に示すように、ラベルは、1つのテキスト要素に対して付与され、1列目から5列目までの合計5個の数値により構成される。 FIG. 4 is a diagram illustrating labels. As shown in FIG. 4(1), a label is given to one text element and is composed of a total of five numerical values from the first column to the fifth column.
ラベルの1列目は、図4(2)に示すように、テキスト要素の配信元等である情報源2の種類を示す。情報源2の種類は、素性を区別するための情報である。数値「1」は「ODF」、数値「2」は「BIS」、数値「3」は「BIP」、数値4は「画像解析ツール」、数値5は「入力ツール」、・・・を示す。
As shown in FIG. 4(2), the first column of labels indicates the type of
ラベルの2列目は、図4(3)に示すように、テキスト要素の内容が表現している競技種目を示す。競技種目は、競技毎に異なる独自の発話の言い回し、または競技毎に異なる条件が必要になったときに使用する情報である。数値「1」は「野球」、数値「2」は「テニス」、数値「3」は「卓球」、数値「4」は「バドミントン」、数値「5」は「バスケットボール」、・・・を示す。 The second column of labels indicates the competition event expressed by the content of the text element, as shown in FIG. 4(3). The competition event is information that is used when different unique utterances are required for each competition, or when different conditions are required for each competition. The number "1" indicates "baseball", the number "2" indicates "tennis", the number "3" indicates "table tennis", the number "4" indicates "badminton", the number "5" indicates "basketball", etc. .
ラベルの3列目は、図4(4)に示すように、テキスト要素を発話として提示する際の提示タイミングの優先度を示す。提示タイミングは、解説音声を提示するタイミングを制御するための情報である。数値「1」は「即時」、数値「2」は「準即時」、数値「3」は「定期」、数値「4」は「その他」を示す。 The third column of labels indicates the priority of presentation timing when presenting a text element as an utterance, as shown in FIG. 4(4). The presentation timing is information for controlling the timing of presenting the explanatory audio. The numerical value "1" indicates "immediate," the numerical value "2" indicates "semi-immediate," the numerical value "3" indicates "regular," and the numerical value "4" indicates "other."
解説音声は必ず1つずつ提示する必要があり、放送に合わせて提示する条件下では特に、放送が解説音声に重なってもよいか否かの観点で、テキスト要素に応じて提示タイミングが予め設定される。 It is necessary to present explanatory audio one by one, and the presentation timing is set in advance according to the text element, especially under the condition that the explanatory audio is presented in conjunction with the broadcast, from the viewpoint of whether or not the broadcast may overlap with the explanatory audio. be done.
「即時」は、映像との同期が重要であり、放送音声との重なりは一切考えず、配信装置4から解説音声の音声ファイル等が配信され次第、即時に携帯端末5のアプリはこれを再生する。このため、優先度としては最上位に位置する。例えば、解説音声が「ピッチャーかまえた」「投げた」の場合、これらは映像と同期して再生されなければ意味がない。
"Immediately" means that it is important to synchronize with the video, and the application on the
「準即時」は、放送音声との重なりも考慮しつつ、所定の時間内に携帯端末5のアプリが解説音声の音声ファイルを再生する。例えば卓球の試合で技が決まった際に、解説音声が「鈴木対山田 10対6」の場合、携帯端末5のアプリは、放送音声と重ならずに発話させるために、例えば2秒の時間内に放送音声と重ならないときに再生を行うか、または2秒を超えたときに、即時に再生を行う。
"Semi-immediate" means that the app on the
「定期」は、解説音声が試合タイトル、対戦カード、今の得点情報等、即時性がなく定期的に発話させた方がよい場合に設定される。携帯端末5のアプリは、所定時間間隔で、または所定条件下で解説音声の音声ファイルを再生する。
"Regularly" is set when the explanatory voice is not immediate and should be uttered periodically, such as the match title, match card, current score information, etc. The application on the
この場合、例えば図1に示した配信装置4は、解説音声制作装置1から発話ID及び再生時刻と共に、当該発話に対応するラベルを入力し、ラベルの提示タイミングが「定期」であることを判定すると、解説音声の発話が放送の主音声の発話と重ならないように、再生時刻を変更する。
In this case, for example, the
ラベルの4列目は、図4(5)に示すように、テキスト要素を内容に応じて分類したときのグループを示す。グループは、テキスト要素のカテゴリーを示す情報である。数値「1」は「試合情報」、数値「2」は「試合の種類」、・・・、数値「9」は「投手情報」、数値「10」は「打者情報」、数値「11」は「投手の動作」、・・・・を示す。 The fourth column of labels indicates groups when text elements are classified according to content, as shown in FIG. 4(5). A group is information indicating a category of text elements. The number "1" is "match information", the number "2" is "game type", the number "9" is "pitcher information", the number "10" is "batter information", the number "11" is Indicates the "pitcher's action"...
これにより、テキスト要素がグループで管理されるため、下位に定められた5列目の情報を一括で制御することができる。 As a result, the text elements are managed in groups, so that the information in the fifth column defined at the lower level can be controlled all at once.
ラベルの5列目は、図4(5)に示すように、グループ内の項目を示す。項目は、テキスト要素のカテゴリーをさらに細かく分類したときの情報であり、最も具体的に表した情報である。 The fifth column of labels indicates the items within the group, as shown in FIG. 4(5). Items are information obtained by further classifying categories of text elements, and are the most concrete information.
例えばラベルの4列目のグループが数値「1」の「試合情報」である場合、項目の数値「1」は「大会名」、数値「2」は「試合名(例えばX対Y)」、数値「3」は「会場(例えばZ球場)」、・・・を示す。また、例えばラベルの4列目のグループが数値「9」の「投手情報」である場合、項目の数値「1」は「名前(例えば鈴木)」、数値「2」は「シーズン成績(例えば今シーズンの勝敗として5勝2敗)」、数値「3」は「今日の成績(例えば今日の防御率0.50)」を示す。また、例えばラベルの4列目のグループが数値「11」の「投手の動作」である場合、項目の数値「1」は「かまえた」、数値「2」は「投げた」、数値「3」は「牽制」を示す。 For example, if the group in the fourth column of the label is "match information" with the number "1", the number "1" in the item is "tournament name", the number "2" is "match name (for example, X vs. Y)", The numerical value "3" indicates "venue (for example, Z Stadium)", . . . For example, if the group in the fourth column of the label is "pitcher information" with the number "9", the number "1" in the item is "name (e.g. Suzuki)" and the number "2" is "season performance (e.g. current The number "3" indicates "today's performance (for example, today's ERA 0.50)". For example, if the group in the fourth column of the label is "Pitcher's action" with the number "11", the item number "1" is "Kate", the number "2" is "Throw", and the number "3" is "Pitcher's action". ” indicates “check”.
ラベルの4列目の「グループ」において、数値「1」~「5」,「18」は全競技共通の情報であり、情報源2からこの種のテキスト要素を取得できない場合は使用されない。ラベルの4列目の「グループ」における数値「6」,「7」,「15」~「17」は、ラケット競技共通の情報であり、例えば「競技種目」が「卓球」、「バドミントン」、「テニス」の場合に使用される。「競技種目」が「卓球」、「バドミントン」及び「テニス」の場合には、共通する「項目」が多いため、このような共通の情報が使用される。
In "Group" in the fourth column of the label, the numerical values "1" to "5" and "18" are information common to all competitions, and are not used if this type of text element cannot be obtained from the
ラベルの4列目の「グループ」における数値「8」~「14」は、「競技種目」が「野球」の場合の情報であるが、「競技種目」が「ソフトボール」の場合も共通の「項目」があるため、「野球」及び「ソフトボール」に共通の情報としてもよい。 The numbers "8" to "14" in "Group" in the fourth column of the label are information when "Sports Event" is "Baseball", but they are also common when "Sports Event" is "Softball". Since there is an "item", the information may be common to "baseball" and "softball".
このように、複数の情報源2を用いることで、情報管理テーブル13の多くの「項目」にテキスト要素を格納することができるため、多くの種類の解説音声用テキストを生成することができ、表現したい解説音声の幅を広げることができる。
In this way, by using
また、ラベルの4列目のグループが数値「40」の「助詞」である場合、項目の数値「1」は「は」、数値「2」は「の」、数値「3」は「へ」、数値「4」は「が」を示す。また、ラベルの4列目のグループが数値「41」の「単語(位置)」である場合、項目の数値「1」は「方向へ」、数値「2」は「奥へ」、数値「3」は「手前へ」を示す。 Also, if the group in the fourth column of the label is a "particle" with the number "40", the number "1" in the item is "ha", the number "2" is "no", and the number "3" is "he". , the numerical value "4" indicates "ga". Also, if the group in the fourth column of the label is "word (position)" with the number "41", the number "1" in the item is "toward", the number "2" is "toward", and the number "3" is "towards". ” indicates “forward”.
ラベルの4列目のグループが数値「40」の「助詞」である場合、及びラベルの4列目のグループが数値「41」の「単語(位置)」である場合、これらのテキスト要素は、情報源2から取得されるのではなく、固定の文字列として予め当該情報管理テーブル13に格納されている。
If the group in the fourth column of the label is a "particle" with the numerical value "40", and if the group in the fourth column of the label is "word (position)" with the numerical value "41", these text elements are Rather than being acquired from the
このような「助詞」または「単語(位置)」のテキスト要素を用いることにより、すなわち情報源2から取得されず、かつ情報管理テーブル13に予め格納された固定のテキスト要素を用いることにより、柔軟な表現の解説音声用テキストを生成することができる。そして、携帯端末5のアプリは、人の発話に近い解説音声の音声ファイルを再生することができ、視聴者100は、解説音声を容易に認識することができる。
By using text elements such as "particles" or "words (positions)," that is, by using fixed text elements that are not acquired from the
<テンプレート14>
図5は、テンプレート14の例を示す図である。このテンプレート14には、解説音声制作装置1が生成する解説音声用テキスト毎に、すなわち発話毎に、発話番号、発話内容、ラベルの組合せ及びトリガーラベルからなる発話定義データが定義されている。新たに解説音声の種類を増やすためには、このテンプレート14に、新たな発話の発話定義データ、すなわち発話番号、発話内容、ラベルの組合せ及びトリガーラベルを追加すればよい。
<
FIG. 5 is a diagram showing an example of the
テンプレート14に定義される発話定義データは、解説音声制作装置1を操作するユーザのキー入力により設定される。尚、図5に示すテンプレート14の構成は一例であり、これ以外の構成であってもよい。
The utterance definition data defined in the
発話番号は、発話毎の発話定義データを識別するための番号である。発話内容は、発話したい内容であり、1または複数のテキスト要素の「項目」(ラベルの5列目の「項目」)により構成される。ラベルの組合せは、発話内容に対応する1または複数のラベルにより構成される。トリガーラベルは、後述する更新監視部15により更新が監視されるテキスト要素に対応するラベルである。
The utterance number is a number for identifying utterance definition data for each utterance. The utterance content is the content to be uttered, and is composed of one or more "items" of text elements ("items" in the fifth column of labels). A combination of labels is made up of one or more labels corresponding to the content of the utterance. The trigger label is a label corresponding to a text element whose update is monitored by the
図5の例では、発話番号1として、発話内容が「投手情報の名前」及び「投手の動作(かまえた)」、ラベルの組合せが「4-1-3-9-1」及び「5-1-1-11-1」、トリガーラベルが「5-1-1-11-1」の各情報が定義されている。
In the example of FIG. 5, for
これは、情報管理テーブル13に格納されたトリガーラベル「5-1-1-11-1」の4,5列目「11-1」のテキスト要素が更新されたときに、情報管理テーブル13に格納されているラベル「4-1-3-9-1」の4,5列目「9-1」及び「5-1-1-11-1」の4,5列目「11-1」のテキスト要素「投手情報の名前」「投手の動作(かまえた)」からなる解説音声用テキストを生成することを示している。 This means that when the text element in the 4th and 5th columns "11-1" of the trigger label "5-1-1-11-1" stored in the information management table 13 is updated, the information management table 13 "9-1" in the 4th and 5th columns of the stored label "4-1-3-9-1" and "11-1" in the 4th and 5th columns of "5-1-1-11-1" This indicates that an explanatory audio text consisting of the text elements ``Pitcher information name'' and ``Pitcher's motion (kamaeta)'' is generated.
また、発話番号2として、発話内容が「大会名」「試合名」「国名1」及び「国名2」、ラベルの組合せ及びトリガーラベルが「1-1-3-1-1」「1-1-3-1-2」「1-1-3-3-1」及び「1-1-3-3-2」の各情報が定義されている。
In addition, as
これは、情報管理テーブル13に格納されたトリガーラベル「1-1-3-1-1」の4,5列目「1-1」、「1-1-3-1-2」の4,5列目「1-2」、「1-1-3-3-1」の4,5列目「3-1」及び「1-1-3-3-2」の4,5列目「3-2」の全て(または少なくとも1つ)のテキスト要素が更新されたときに、情報管理テーブル13に格納されているこれらのテキスト要素「大会名」「試合名」「国名1」及び「国名2」からなる解説音声用テキストを生成することを示している。
This is "1-1" in the 4th and 5th columns of the trigger label "1-1-3-1-1" stored in the information management table 13, 4 in the "1-1-3-1-2", 5th column "1-2", 4th and 5th columns "3-1" of "1-1-3-3-1" and 4th and 5th columns "1-1-3-3-2" When all (or at least one) text elements in "3-2" are updated, these text elements "tournament name", "match name", "
また、発話番号3として、発話内容が「球種(変化球)」、ラベルの組合せが「5-1-1-12-1」、トリガーラベルが「5-1-1-12」の各情報が定義されている。さらに、発話番号4として、発話内容が「球種(ストレート)」、ラベルの組合せが「5-1-1-12-2」、トリガーラベルが「5-1-1-12」の各情報が定義されている。
In addition, as
これは、情報管理テーブル13に格納されたトリガーラベル「5-1-1-12」の「グループ」である「球種」について、これに属するラベル「5-1-1-12-1」の「項目」のテキスト要素「変化球」またはラベル「5-1-1-12-2」の「項目」のテキスト要素「ストレート」が更新されたときに、情報管理テーブル13に格納されているラベル「5-1-1-12-1」のテキスト要素「変化球」またはラベル「5-1-1-12-2」のテキスト要素「ストレート」からなる解説音声用テキストを生成することを示している。 This applies to the "pitch type" which is the "group" of the trigger label "5-1-1-12" stored in the information management table 13, and the label "5-1-1-12-1" that belongs to this. The label stored in the information management table 13 when the text element "Curving ball" of the "Item" or the text element "Straight" of the "Item" of the label "5-1-1-12-2" is updated. Indicates that an explanatory audio text consisting of the text element "Curving Ball" with the label "5-1-1-12-1" or the text element "Straight" with the label "5-1-1-12-2" is to be generated. There is.
尚、トリガーラベルが1~5列目のラベル「5-1-1-12-1」「5-1-1-12-2」ではなく、1~4列目のラベル「5-1-1-12」から構成されているのは、情報管理テーブル13から、ラベル「5-1-1-12-1」のテキスト要素「変化球」及びラベル「5-1-1-12-2」のテキスト要素「ストレート」のうち、更新されたいずれか一方が読み出され、両方のテキスト要素が同時に読み出されることがないからである。 In addition, the trigger label is not the label "5-1-1-12-1" or "5-1-1-12-2" in the 1st to 5th columns, but the label "5-1-1" in the 1st to 4th columns. -12'' consists of the text element ``curving ball'' with the label ``5-1-1-12-1'' and the text element ``5-1-1-12-2'' from the information management table 13. This is because only one of the updated text elements "straight" is read out, and both text elements are not read out at the same time.
また、発話番号5として、発話内容が「守備位置」「単語(方向へ)」及び「打撃結果(ヒット)」、ラベルの組合せが「4-1-3-20-1」「5-1-4-41-1」及び「5-1-1-21-1」、トリガーラベルが「5-1-1-21-1」の各情報が定義されている。
Also, as
これは、情報管理テーブル13に格納されたトリガーラベル「5-1-1-21-1」のテキスト要素「打撃(ヒット)」が更新されたときに(「打撃(ヒット)」が格納されたときに)、情報管理テーブル13に格納されているラベル「4-1-3-20-1」「5-1-4-41-1」「5-1-1-21-1」のテキスト要素「守備位置」「単語(方向へ)」「打撃結果(ヒット)」からなる解説音声用テキストを生成することを示している。 This happens when the text element "Hit" of the trigger label "5-1-1-21-1" stored in the information management table 13 is updated ("Hit" is stored). ), the text elements of the labels "4-1-3-20-1", "5-1-4-41-1" and "5-1-1-21-1" stored in the information management table 13 This shows that an explanatory audio text consisting of "defense position", "word (direction)", and "batting result (hit)" is generated.
この発話番号5の例は、情報源2から取得したテキスト要素「守備位置」「打撃結果(ヒット)」に加え、これらの間に、情報源2からは取得されないテキスト要素である固定の文字列(この例では「単語(方向へ)」)を追加するものである。これにより、例えば解説音声用テキスト「レフト 方向へ ヒット」が生成され、視聴者100にとって理解し易い内容の解説音声用テキストを生成することができ、視聴者100が解説音声を視聴したときの違和感をなくすことができる。
In this example of
図6は、テンプレート14に定義された発話定義データ、情報管理テーブル13に格納されたラベル及びテキスト要素、Jsonファイル、並びに解説音声用テキストの例を説明する図である。
FIG. 6 is a diagram illustrating an example of the utterance definition data defined in the
図6(1)に示すように、テンプレート14の発話番号1の発話定義データには、発話内容「投手情報の名前」及び「投手の動作(かまえた)」、ラベルの組合せ「4-1-3-9-1」及び「5-1-1-11-1」、トリガーラベル「5-1-1-11-1」の各情報が定義されている。これは、図5に示した発話番号1の発話定義データと同様である。
As shown in FIG. 6(1), the utterance definition data of
ここで、情報管理テーブル13において、ラベル「5-1-1-11-1」のテキスト要素である「投手の動作(かまえた)」として、「かまえた」が新たに格納され、このデータが更新されたとする。 Here, in the information management table 13, "kamaeta" is newly stored as "pitcher's action (kamaeta)", which is the text element of the label "5-1-1-11-1", and this data is Suppose it has been updated.
このとき、図6(2)に示すように、更新時において、情報管理テーブル13には、ラベル「4-1-3-9-1」が付与されたテキスト要素の「投手情報の名前」として、「ピッチャー鈴木」が格納されているものとする。また、情報管理テーブル13には、ラベル「5-1-1-11-1」が付与されたテキスト要素の「投手の動作(かまえた)」として、「かまえた」が格納されているものとする。 At this time, as shown in FIG. 6(2), at the time of update, the information management table 13 contains the "pitcher information name" of the text element with the label "4-1-3-9-1". , "Pitcher Suzuki" is stored. In addition, in the information management table 13, it is assumed that "kamaeta" is stored as "pitcher's action (kamaeta)" of the text element with the label "5-1-1-11-1". do.
この場合、テンプレート14に定義された発話番号1の発話定義データに従い、情報管理テーブル13において、トリガーラベル「5-1-1-11-1」が付与されたテキスト要素の更新が判定され、ラベル「4-1-3-9-1」が付与されたテキスト要素「ピッチャー鈴木」及びラベル「5-1-1-11-1」が付与されたテキスト要素「かまえた」が読み出される。
In this case, in accordance with the utterance definition data of
そして、後述する図6(3)及び(4)のJsonファイル及び解説音声用テキストが生成され、携帯端末5により、解説音声の音声ファイルとして「ピッチャー鈴木 かまえた」が再生されることとなる。
Then, the Json file and explanatory audio text shown in FIGS. 6(3) and (4), which will be described later, are generated, and the
尚、前述のとおり、図5に示したテンプレート14の発話番号1の発話定義データには、発話内容が「投手情報の名前」及び「投手の動作(かまえた)」、ラベルの組合せが「4-1-3-9-1」及び「5-1-1-11-1」、トリガーラベルが「5-1-1-11-1」が定義されており、この発話定義データにより、テキスト要素「投手情報の名前」「投手の動作(かまえた)」からなる解説音声用テキストが生成される。
As mentioned above, the utterance definition data of
これに対し、この発話番号1の発話定義データに、例えば5回の更新のうち1回はテキスト要素「投手情報の名前」「投手の動作(かまえた)」からなる解説音声用テキストが生成され、4回はテキスト要素「投手の動作(かまえた)」のみからなる解説音声用テキストが生成されるようにするための付加情報を定義するようにしてもよい。
On the other hand, in the utterance definition data of
<更新監視部15>
図7は、更新監視部15の処理例を示すフローチャートである。更新監視部15は、読出部16からトリガーラベルを入力し、情報管理テーブル13においてトリガーラベルが付与されたテキスト要素が更新されたか否かを監視する(ステップS701)。尚、トリガーラベルは、読出部16によりテンプレート14から読み出され、読出部16から更新監視部15に出力される。
<Update monitoring
FIG. 7 is a flowchart showing an example of processing by the
更新監視部15は、ステップS701において、トリガーラベルのテキスト要素が更新されていないと判定した場合(ステップS701:更新無)、ステップS701の処理を継続する。
If the
一方、更新監視部15は、ステップS701において、トリガーラベルのテキスト要素が更新されたと判定した場合(ステップS701:更新有)、更新有及びトリガーラベルを読出部16に出力する(ステップS702)。図7の処理は、テンプレート14に定義された発話毎(発話定義データ毎)に行われる。
On the other hand, if the
図8は、更新監視部15の処理例を説明する図である。図8(1)は、図5及び図6の例に示したテンプレート14の発話番号1の発話についての処理例を示す。更新監視部15は、読出部16からトリガーラベル「5-1-1-11-1」を入力する。そして、情報管理テーブル13において、トリガーラベル「5-1-1-11-1」が付与されたテキスト要素である「投手の動作(かまえた)」が更新され、「かまえた」が格納されたとする(図8のαを参照)。
FIG. 8 is a diagram illustrating a processing example of the
そうすると、更新監視部15は、情報管理テーブル13におけるトリガーラベル「5-1-1-11-1」が付与されたテキスト要素のタイムスタンプの更新を判断することで、「投手の動作(かまえた)」の更新有を判定し、更新有及びトリガーラベル「5-1-1-11-1」を読出部16に出力する。この場合、更新監視部15は、トリガーラベル「5-1-1-11-1」のテキスト要素自体の更新(「投手の動作(かまえた)」の領域に何ら格納されていない状態から、「かまえた」が格納された状態への変化による更新)を判断することで、「投手の動作(かまえた)」の更新有を判定するようにしてもよい。
Then, the
これにより、テンプレート14の発話番号1に定義された発話内容「投手情報の名前」及び「投手の動作(かまえた)」に対応して、テキスト要素「ピッチャー鈴木」及び「かまえた」が得られる。
As a result, text elements "Pitcher Suzuki" and "Kamaeta" are obtained corresponding to the utterance contents "Pitcher information name" and "Pitcher's action (Kamaeta)" defined in
図8(2)は、図5の例に示したテンプレート14の発話番号4の発話についての処理例を示す。更新監視部15は、読出部16からトリガーラベル「5-1-1-12」を入力する。そして、情報管理テーブル13において、トリガーラベル「5-1-1-12」に対応するラベル「5-1-1-12-1」「5-1-1-12-2」が付与されたテキスト要素である「球種(変化球)」「球種(ストレート)」が更新され、「球種(変化球)」の領域には何ら格納されておらず、「球種(ストレート)」の領域に「ストレート」が格納されたとする(図8のβを参照)。または、トリガーラベル「5-1-1-12」に対応するラベル「5-1-1-12-1」「5-1-1-12-2」のうちラベル「5-1-1-12-2」が付与されたテキスト要素「球種(ストレート)」のタイムスタンプが更新され、「球種(ストレート)」の領域に新たに「ストレート」が格納されたとする
FIG. 8B shows an example of processing for the utterance with
そうすると、更新監視部15は、情報管理テーブル13におけるトリガーラベル「5-1-1-12」に対応するラベル「5-1-1-12-1」「5-1-1-12-2」に付与されたテキスト要素である「球種(変化球)」「球種(ストレート)」の更新、またはラベル「5-1-1-12-2」に付与されたテキスト要素「球種(ストレート)」のタイムスタンプの更新を判断することで、更新有を判定し、更新有及びトリガーラベル「5-1-1-12」を読出部16に出力する。
Then, the
これにより、テンプレート14の発話番号4に定義された発話内容「球種(ストレート)」に対応して、テキスト要素「ストレート」が得られる。この場合、タイムスタンプにて更新を判断することで、テキスト要素「ストレート」が連続して更新された場合も、連続して更新有を判定することができる。
As a result, the text element "straight" is obtained in response to the utterance content "pitch type (straight)" defined in
<読出部16>
図9は、読出部16の処理例を示すフローチャートである。読出部16は、テンプレート14から、発話毎の発話定義データ(発話番号、発話内容、ラベルの組合せ及びトリガーラベル)を読み出す(ステップS901)。そして、読出部16は、発話毎のトリガーラベルを更新監視部15に出力する(ステップS902)。
<
FIG. 9 is a flowchart showing a processing example of the
読出部16は、更新監視部15から更新有を入力したか否かを判定する(ステップS903)。読出部16は、ステップS903において、更新有を入力していないと判定した場合(ステップS903:N)、ステップS903の処理を継続する。
The
一方、読出部16は、ステップS903において、更新監視部15から更新有を入力したと判定した場合(ステップS903:Y)、当該更新有と共に入力したトリガーラベルに対応する発話を特定する。そして、読出部16は、当該発話におけるラベルの組合せのそれぞれ(各ラベル)について、情報管理テーブル13からラベル及び当該ラベルが付与されたテキスト要素を読み出す(ステップS904)。
On the other hand, if the
ここで、読出部16は、情報管理テーブル13において、当該ラベル(読出対象ラベル)と同種のラベル(同種ラベル(4,5列目の数値が同じラベル))のテキスト要素が複数格納されている場合、これらのうち最先に格納された1つのラベル及びテキスト要素を読み出す(ステップS905)。同種ラベルとは、読出対象ラベルに加え、読出対象ラベルの4,5列目(グループ及び項目)と同じ数値を4,5列目に有し、かつ読出対象ラベルの1列目(情報源2の種類)と異なる数値を1列目に有するラベルをいう。具体例については後述する図10にて説明する。
Here, the
また、読出部16は、情報管理テーブル13において、テンプレート14に定義されたラベル(読出対象ラベル)のテキスト要素が格納されておらず、読出対象ラベル以外の同種ラベルのテキスト要素のみが格納されている場合、読出対象ラベル以外の同種ラベル及びテキスト要素を読み出す。
The
これにより、解説音声制作装置1が主となる情報源2からデータ(テンプレート14に定義されたラベルに関連するデータ)を取得することができない場合であっても、他の情報源2からデータ(テンプレート14に定義されたラベルにおいて1列目の情報源2の種類が異なるラベル(同種ラベル)に関連するデータ)を取得したときには、情報管理テーブル13から当該同種ラベル及びテキスト要素を読み出し、これが反映された解説音声用テキストを生成することができる。つまり、携帯端末5は、主となる情報源2以外の情報源2から取得したデータが反映された解説音声の音声ファイルを再生することができる。
As a result, even if the explanatory
図10は、テキスト要素の読み出し例(ステップS905)を説明する図である。テンプレート14のラベルの組合せにラベル「5-1-1-11-1」が定義されており、情報管理テーブル13には、ラベルの4,5列目が「11-1」のテキスト要素として2つのテキスト要素が格納されている場合を想定する。
FIG. 10 is a diagram illustrating an example of reading out text elements (step S905). The label "5-1-1-11-1" is defined in the label combination of the
一方がラベル「5-1-1-11-1」のテキスト要素「かまえた」TAであり、そのタイムスタンプがt1であり、他方がラベル「4-1-1-11-1」のテキスト要素「かまえた」TBであり、そのタイムスタンプがt2であるとする。t1<t2であり、t2の方が現在時刻に近いものとする。タイムスタンプは、ラベル及びテキスト要素が情報管理テーブル13に格納された時刻を示す。 One is the text element "Kamaeta" TA with the label "5-1-1-11-1", its timestamp is t1, and the other is the text element with the label "4-1-1-11-1" Assume that the TB is "Kamaeda" and its timestamp is t2. It is assumed that t1<t2, and t2 is closer to the current time. The timestamp indicates the time when the label and text element were stored in the information management table 13.
これらのラベルは4,5列目「11-1」が同じであり、ラベル「5-1-1-11-1」が読出対象ラベルであり、ラベル「5-1-1-11-1」及び「4-1-1-11-1」が同種ラベルである。両ラベルは、ラベルの4,5列目「11-1」に対応する発話内容が「かまえた」である点で同じであり、ラベルの1~3列目「5-1-1」「4-1-1」における1列目の示す情報源2の種類が「入力ツール」「画像解析ツール」である点で相違する。
These labels have the same "11-1" in the 4th and 5th columns, the label "5-1-1-11-1" is the label to be read, and the label "5-1-1-11-1" and “4-1-1-11-1” are similar labels. Both labels are the same in that the utterance content corresponding to "11-1" in the 4th and 5th columns of the label is "kameta", and the utterance content corresponding to "11-1" in the 1st to 3rd columns of the label is "5-1-1" and "4". The difference is that the type of
この場合、読出部16は、テンプレート14のラベルの組合せに定義されたラベル(読出対象ラベル)「5-1-1-11-1」に対する同種ラベル「5-1-1-11-1」及び「4-1-1-11-1」について、ラベル「5-1-1-11-1」「4-1-1-11-1」のタイムスタンプt1,t2を比較し、最先の(一番古い、最も過去の)タイムスタンプt1を特定する。そして、読出部16は、最先に格納されたタイムスタンプt1のラベル「5-1-1-11-1」及びそのテキスト要素「かまえた」TAを読み出す。
In this case, the
これにより、携帯端末5は、最先に格納されたテキスト要素に対応する解説音声の音声ファイルを再生することができるため、映像に合わせたリアルタイム性を実現することができる。
Thereby, the
図9に戻って、読出部16は、情報管理テーブル13から読み出したラベル及びテキスト要素について、ラベルの2列目の数値が示す「競技種目」に応じて、予め設定された規則に従い、テキスト要素を修正する(ステップS906)。
Returning to FIG. 9, the
例えばテンプレート14の発話定義データとして、発話内容「得点1、単語(対)、得点2」及びこれに対応するラベルの組合せ等が定義されており、読出部16は、情報管理テーブル13から、ラベル「4-2-1-5-1」(2列目の数値「2」は「競技種目」が「テニス」であることを示す。)のテキスト要素「得点1」として「15」を読み出すと共に、ラベル「4-2-1-5-2」のテキスト要素「得点2」として「15」を読み出したとする。
For example, as the utterance definition data of the
読出部16は、当該発話について、予め設定された規則に従い、「競技種目」が「テニス」であることを判断し、発話内容を構成するテキスト要素「15」、テキスト要素「対」及びテキスト要素「15」(この場合の解説音声用テキストは「15対15」)を、テキスト要素「フィフティーン」及びテキスト要素「オール」(この場合の解説音声用テキストは「フィフティーン オール」)に修正する。
Regarding the utterance, the
また、読出部16は、情報管理テーブル13から、ラベル「4-4-1-5-1」(2列目の数値「4」は「バドミントン」の「競技種目」を示す。)のテキスト要素「得点1」として「15」を読み出すと共に、ラベル「4-4-1-5-2」のテキスト要素「得点2」として「15」を読み出したとする。
The
この場合、読出部16は、当該発話について、予め設定された規則に従い、「競技種目」が「バドミントン」であることを判断し、発話内容を構成するテキスト要素「15」、テキスト要素「対」及びテキスト要素「15」(この場合の解説音声用テキストは「15対15」)を、テキスト要素「15」、テキスト要素「対」、テキスト要素「15」及びテキスト要素「同点」(この場合の解説音声用テキストは「15対15 同点」)に修正する。
In this case, the
これにより、複数の競技種目において得点は同じであるが、発話の際の言い回しが異なる場合、その言い回しを競技種目毎に区別することができ、競技種目に合わせた解説音声の音声ファイルを再生することができる。 As a result, if the score is the same in multiple sports events, but the phrases used are different, the phrases can be distinguished for each sports event, and an audio file of explanatory audio tailored to the sports event can be played. be able to.
また、例えば読出部16は、情報管理テーブル13から、ラベル「5-2-1-16-1」~「5-2-1-16-4」及びこれらのテキスト要素「決め手(スマッシュ)」・・・、並びにラベル「5-2-1-17-1」「5-2-1-17-2」及びこれらのテキスト要素「結果(成功)」「結果(失敗)」を読み出し、予め設定された規則に従い、「競技種目」が「テニス」であることを判断し、これらの組合せにより得点を自動的に加算する。そして、読出部16は、例えば得点が30対15のときに、新たなラベル及びテキスト要素「鈴木」「対」「田中」「サーティ」「フィフティーン」(この場合の解説音声用テキストは「鈴木対田中 サーティ フィフティーン」)を生成するようにしてもよい。
Further, for example, the
このように、例えばサーブを行う選手のテキスト要素(例えば「鈴木」)が特定された場合、テキスト要素「鈴木」「ダブルフォルト」、「鈴木」「サービスエース」、「鈴木」「リターンエース」等のように、読出部16における予め設定された規則に従い、テキスト要素を修正したり、新たなテキスト要素を生成したりすることができる。
In this way, for example, if the text element of a player serving (for example, "Suzuki") is specified, the text elements "Suzuki", "Double Fault", "Suzuki", "Service Ace", "Suzuki", "Return Ace", etc. According to the preset rules in the
図9に戻って、読出部16は、発話毎に、1または複数のラベル及びこれに対応する1または複数のテキスト要素をフォーマット変換部17に出力する(ステップS907)。
Returning to FIG. 9, the
<フォーマット変換部17>
図11は、フォーマット変換部17の処理例を示すフローチャートである。フォーマット変換部17は、読出部16から、発話毎に、1または複数のラベル及びこれに対応する1または複数のテキスト要素を入力する(ステップS1101)。
<
FIG. 11 is a flowchart showing an example of processing by the
フォーマット変換部17は、発話毎に、後述するJsonファイルを識別するためのIDを付与する(ステップS1102)。そして、フォーマット変換部17は、後述するステップS1104におけるJsonファイルを生成する際の時刻を基準として、音声合成装置3による音声合成処理の時間等による遅れを考慮することで再生時刻を設定する(ステップS1103)。再生時刻は、携帯端末5が解説音声の音声ファイルを再生するときの時刻であり、後段の順序破棄制御部19及び図1に示した配信装置4にて再設定されることがあり得る。
The
フォーマット変換部17は、予め設定されたデータフォーマットに従い、発話毎に、ID及び再生時刻、並びに1または複数のラベル及びこれに対応する1または複数のテキスト要素を含むJsonファイルを生成する。そして、フォーマット変換部17は、発話毎のJsonファイルをテキスト生成部18及び順序破棄制御部19に出力する(ステップS1104)。
The
図6(1)~(3)を参照して、読出部16により、情報管理テーブル13から、ラベル「4-1-3-9-1」及びこれに対応するテキスト要素「ピッチャー鈴木」、並びにラベル「5-1-1-11-1」及びこれに対応するテキスト要素「かまえた」が読み出され、フォーマット変換部17は、当該発話について、ラベル「4-1-3-9-1」及びこれに対応するテキスト要素「ピッチャー鈴木」、並びにラベル「5-1-1-11-1」及びこれに対応するテキスト要素「かまえた」を入力する。そして、フォーマット変換部17は、当該発話のIDを付与し、再生時刻を設定する。
6(1) to (3), the
フォーマット変換部17は、図6(3)に示すように、ID「000・・・2724」、再生時刻「2021-03-23・・・2233705Z」、1番目のラベル「4-1-3-9-1」及びテキスト要素「ピッチャー鈴木」、並びに2番目のラベル「5-1-1-11-1」及びテキスト要素「かまえた」を含むJsonファイルを生成する。
As shown in FIG. 6(3), the
これにより、複数の情報源2から取得された異なるデータフォーマットのデータを統一化することができ、情報源2の素性が反映されていないJsonファイルが生成される。
Thereby, data in different data formats acquired from a plurality of
<テキスト生成部18>
図12は、テキスト生成部18の処理例を示すフローチャートである。テキスト生成部18は、フォーマット変換部17から発話毎のJsonファイルを入力する(ステップS1201)。
<
FIG. 12 is a flowchart showing an example of processing by the
テキスト生成部18は、Jsonファイルから1または複数のテキスト要素を順番に抽出し(ステップS1202)、1または複数のテキスト要素からなる解説音声用テキストを生成する(ステップS1203)。
The
図6の例では、図6(3)に示したJsonファイルからテキスト要素「ピッチャー鈴木」「かまえた」が抽出され、図6(4)に示すように、解説音声用テキスト「ピッチャー鈴木 かまえた」が生成される。 In the example in Figure 6, the text elements "Pitcher Suzuki" and "Kamaeta" are extracted from the Json file shown in Figure 6 (3), and the explanatory audio text "Pitcher Suzuki Kameta" is extracted as shown in Figure 6 (4). " is generated.
図12に戻って、テキスト生成部18は、Jsonファイルに対し(当該発話に対し)、Jsonファイル(発話)を識別するためのユニークな発話IDを付与する(ステップS1204)。そして、テキスト生成部18は、ステップS1203にて生成した解説音声用テキストの文字数を求め、文字数に基づき、所定の算出処理にて解説音声用テキストの音声ファイル(wav(Waveform Audio File Format)ファイル)の時間長を算出する(ステップS1205)。文字数から音声ファイルの時間長を算出するための処理は既知であるため、ここでは説明を省略する。
Returning to FIG. 12, the
テキスト生成部18は、発話ID及び時間長を順序破棄制御部19に出力し(ステップS1206)、発話ID及び解説音声用テキストを音声合成装置3へ出力する(ステップS1207)。
The
これにより、音声合成装置3は、発話IDを用いて解説音声用テキストの音声ファイルを管理することができる。また、後段の順序破棄制御部19は、時間長を用いて、発話毎の再生時刻を再設定することができる。
Thereby, the
尚、テキスト生成部18は、フォーマット変換部17から入力したJsonファイルに基づいて解説音声用テキストを生成するようにしたが、読出部16から発話毎の1または複数のテキスト要素を入力し、解説音声用テキストを生成するようにしてもよい。
Note that although the
<順序破棄制御部19>
図13は、順序破棄制御部19の処理例を示すフローチャートである。順序破棄制御部19は、フォーマット変換部17からの入力があるか否か(入力タイミングであるか否か)を判定する(ステップS1301)。順序破棄制御部19は、ステップS1301において、入力があると判定した場合(ステップS1301:Y)、ステップS1302へ移行する。一方、順序破棄制御部19は、ステップS1301において、入力がないと判定した場合(ステップS1301:N)、ステップS1308へ移行する。
<Order discard
FIG. 13 is a flowchart showing a processing example of the order discard
順序破棄制御部19は、ステップS1301(Y)から移行して、フォーマット変換部17からJsonファイルを入力すると共に、テキスト生成部18から当該Jsonファイルに対応する発話ID及び時間長を入力する(ステップS1302)。
Moving from step S1301 (Y), the order discard
順序破棄制御部19は、入力したJsonファイルから再生時刻、及び1または複数のラベルを抽出し、発話ID、再生時刻、1または複数のラベル、及び時間長からなる発話データを生成し、配列の最後部に追加する(ステップS1303)。これにより、情報管理テーブル13において更新されたテキスト要素に対応する発話データが、配列に追加される。尚、発話データは、発話ID及びJsonファイルからなるようにしてもよい。
The order discard
ここで、配列は、発話毎の1または複数の発話データ、すなわちこれから解説音声として発話される1または複数の音声ファイルに対応する1または複数の発話データにより構成される。発話される解説音声がない場合は、配列には発話データは存在しない。配列には、フォーマット変換部17からJsonファイルが入力される毎に、当該Jsonファイルに対応する発話データが追加される。また、後述するステップS1306等の処理により、配列内の発話データが破棄される。
Here, the array is composed of one or more utterance data for each utterance, that is, one or more utterance data corresponding to one or more audio files that will be uttered as explanatory audio. If there is no explanatory audio to be uttered, no utterance data exists in the array. Every time a Json file is input from the
順序破棄制御部19は、配列内の複数の発話データについて、ラベルの3列目の「提示タイミング」に基づいて、「即時」>「準即時」>「定期」>「その他」の優先度となるように、配列内における複数の発話データの順序を決定して並び替える(ステップS1304)。
The order discard
ここで、順序破棄制御部19は、発話データに(発話に)複数のラベルが含まれる場合、複数のラベルのうち1つでもその3列目が「定期」の数値「3」であるとき、発話データとしての「提示タイミング」を「定期」として扱う。また、順序破棄制御部19は、複数のラベルに「定期」の数値「3」がなく、1つでも「即時」の数値「1」があるとき、発話データとしての「提示タイミング」を「即時」として扱う。また、順序破棄制御部19は、複数のラベルに「定期」の数値「3」がなく、1つでも「準即時」の数値「2」があるとき、発話データとしての「提示タイミング」を「準即時」として扱う。
Here, when the utterance data includes a plurality of labels (utterances), and the third column of even one of the plurality of labels is "3" indicating "regular", The "presentation timing" as speech data is treated as "regular". In addition, when multiple labels do not have the numerical value "3" for "regular" and at least one label has the numerical value "1" for "immediate", the order discard
映像及び画像については、同時に複数の情報を伝えることができるが、音声については、同時に複数の情報を提示したとしても、視聴者100は、内容を理解して受け取ることが困難である。特に、解説音声制作装置1が使用される解説音声サービスでは、伝えたい情報が同時に複数あった場合でも、必ず1つずつ順番に伝える必要がある。
With video and images, multiple pieces of information can be conveyed at the same time, but with audio, even if multiple pieces of information are presented at the same time, it is difficult for the
このため、ステップS1304の処理において優先度に従い発話データの順序を入れ替え、後述するステップS1306等の処理において発話データを破棄することで、1または複数の発話データからなる配列を構成するようにした。 Therefore, by rearranging the order of speech data according to the priority in the process of step S1304 and discarding the speech data in processes such as step S1306, which will be described later, an array consisting of one or more speech data is constructed.
順序破棄制御部19は、配列内の複数の発話データについて、再生時刻を再設定する(ステップS1305)。具体的には、順序破棄制御部19は、発話データについて、配列内の順序、並びに配列内の発話データの再生時刻及び時間長に基づいて、その再生時刻を再設定する。
The order discard
例えば、ステップS1303にて追加された発話データについて、ステップS1304にてその順序が配列内の2番目に決定されたとする。この場合、順序破棄制御部19は、配列内の発話データを並び替える前の先頭の発話データの再生時刻に、並び替えた後の先頭の発話データの時間長を加算することで、加算結果の時刻を、並び替えた後の2番目に決定された発話データの再生時刻として再設定する。
For example, assume that the order of the speech data added in step S1303 is determined to be second in the array in step S1304. In this case, the order discard
尚、順序破棄制御部19は、テキスト生成部18により算出された時間長を用いるようにしたが、音声合成装置3により算出された時間長を用いて、発話データの再生時刻を再設定するようにしてもよい。音声合成装置3は、音声ファイルを生成する際に時間長を算出するため、テキスト生成部18よりも精度の高い時間長を算出することができる。したがって、順序破棄制御部19は、音声合成装置3により算出された時間長を用いることで、精度の高い再生時刻を再設定することができる。
Note that although the order discard
順序破棄制御部19は、配列内に4,5列目が同じ同種ラベルの発話データが複数ある場合、古い再生時刻の発話データを破棄する(ステップS1306)。
If there is a plurality of utterance data with the same type of label in the fourth and fifth columns in the array, the order discard
具体的には、順序破棄制御部19は、配列内の複数の発話データから、4,5列目が同じ数値のラベルを含む発話データ(同種ラベルの発話データ)を特定する。そして、順序破棄制御部19は、特定した複数の発話データのうち、最新の再生時刻を含む発話データを残し、これ以外の古い(最新の再生時刻よりも過去の)再生時刻を含む1または複数の発話データを破棄する。この場合、順序破棄制御部19は、破棄の処理の後の配列内の発話データについて、ステップS1305と同様の処理にて、再生時刻を再設定する。
Specifically, the order discard
これにより、後述するステップS1309にて、配列内の先頭の発話データにおける発話ID及び再生時刻を出力するまでの待ち状態の間に、同種ラベルのテキスト要素が情報管理テーブル13において更新され、この発話データが配列に追加された場合、古い再生時刻を含む発話データが破棄され、最新の再生時刻を含む発話データ、すなわち追加された発話データに対応する解説音声の音声ファイルが携帯端末5にて再生されることとなる。したがって、映像に合わせた解説音声の音声ファイルを再生する際に、最新の試合状況の内容が反映された解説音声を視聴者100に提示することができ、映像に合わせたリアルタイム性を実現することができる。
As a result, in step S1309, which will be described later, text elements with similar labels are updated in the information management table 13 during the waiting state until the utterance ID and playback time of the first utterance data in the array are output. When data is added to the array, the utterance data including the old playback time is discarded, and the utterance data including the latest playback time, that is, the audio file of the explanatory audio corresponding to the added utterance data is played back on the
順序破棄制御部19は、配列内の発話データについて、配列内に追加されたときから一定時間(予め設定された時間)経過した発話データを破棄し(ステップS1307)、ステップS1308へ移行する。この場合も、順序破棄制御部19は、破棄の処理の後の配列内の発話データについて、ステップS1305と同様の処理にて、再生時刻を再設定する。
Regarding the utterance data in the array, the order discard
順序破棄制御部19は、ステップS1301(N)またはステップS1307から移行して、当該順序破棄制御部19からの出力があるか否か(出力タイミングであるか否か)を判定する(ステップS1308)。
The order discard
順序破棄制御部19は、ステップS1308において、出力があると判定した場合(ステップS1308:Y)、ステップS1309へ移行する。一方、順序破棄制御部19は、ステップS1308において、出力がないと判定した場合(ステップS1308:N)、当該処理を終了し、ステップS1301から処理を再度開始する。
If the order discard
順序破棄制御部19は、ステップS1308(Y)から移行して、配列内の先頭の発話データから発話ID及び再生時刻を抽出し、発話ID及び再生時刻を配信装置4へ出力する(ステップS1309)。そして、順序破棄制御部19は、配列内の先頭の発話データを破棄する(ステップS1310)。
The order discard
図14は、順序破棄制御部19における配列内の発話データの変遷を説明する図である。(A)の配列が構成されているものとする。この配列の先頭は「投手名(投手情報の名前)+かまえた(投手の動作(かまえた))」の発話データ<a>であり、ラベルの3列目の「提示タイミング」は「即時」([1])である。また、この配列には、「試合名+イニング+スコア(得点1、得点2)」の発話データ<p>が含まれており、ラベルの3列目の「提示タイミング」は「定期」([3])である。発話データ<p>の解説音声用テキストは「X対Y 6回裏 7対0」である。
FIG. 14 is a diagram illustrating the transition of utterance data in an array in the order discard
(B)に示すように、順序破棄制御部19は、ステップS1309において、配列の先頭の発話データ<a>における発話ID及び再生時刻を出力し、ステップS1310において、発話データ<a>を破棄する。これにより、(A)の配列から発話データ<a>が破棄され、(C)の配列が構成される。
As shown in (B), the order discard
そして、(D)に示すように、順序破棄制御部19は、ステップS1302において、「打者名(打者情報の名前)+打った(打者の動作)」の発話データ<b>のJsonファイル、「球速」の発話データ<c>のJsonファイル、及び「守備位置+方向へ(単語(方向へ))+ヒット(打撃結果(ヒット))」の発話データ<d>のJsonファイルを入力する。発話データ<b>に含まれるラベルの3列目の「提示タイミング」は「即時」([1])であり、発話データ<c>に含まれるラベルの3列目の「提示タイミング」は「準即時」([2])である。また、発話データ<d>に含まれるラベルの3列目の「提示タイミング」は「即時」([1])である。
Then, as shown in (D), in step S1302, the order discard
(E)に示すように、順序破棄制御部19は、ステップS1304において、配列内の複数の発話データにつき、ラベルの3列目の「提示タイミング」に基づいて「即時」>「準即時」>「定期」>「その他」の優先度となるように、発話データの順序を決定して並び替え、ステップS1305において、発話データの再生時刻を再設定し、(F)の配列を構成する。
As shown in (E), in step S1304, the order discard
(F)の配列の先頭は発話データ<b>であり、ラベルの3列目の「提示タイミング」は「即時」([1])である。2番目は発話データ<d>であり、ラベルの3列目の「提示タイミング」は「即時」([1])である。また、3番目は発話データ<c>であり、ラベルの3列目の「提示タイミング」は「準即時」([2])である。尚、4番目以降の発話データについては、ラベルの3列目の「提示タイミング」が「準即時」([2])、「定期」([3])または「その他」(「4」)であるとする。 The beginning of the array in (F) is speech data <b>, and the "presentation timing" in the third column of labels is "immediate" ([1]). The second is speech data <d>, and the "presentation timing" in the third column of labels is "immediate" ([1]). The third item is speech data <c>, and the “presentation timing” in the third column of labels is “semi-immediate” ([2]). For the fourth and subsequent utterance data, the "presentation timing" in the third column of the label is "semi-immediate" ([2]), "regular" ([3]), or "other" ("4"). Suppose there is.
そして、(G)に示すように、順序破棄制御部19は、ステップS1309において、配列の先頭の発話データ<b>における発話ID及び再生時刻を出力し、ステップS1310において、発話データ<b>を破棄する。これにより、(F)の配列から発話データ<b>が破棄される。また、順序破棄制御部19は、ステップS1309において、配列の先頭の発話データ<d>における発話ID及び再生時刻を出力し、ステップS1310において、発話データ<d>を破棄する。これにより、配列から発話データ<d>が破棄される。
Then, as shown in (G), the order discard
そして、(H)に示すように、順序破棄制御部19は、ステップS1302において、「レフトから3塁方向へ送球」の発話データ<e>のJsonファイル、及び「試合名+イニング+スコア」の発話データ<f>のJsonファイルを入力する。発話データ<e>に含まれるラベルの3列目の「提示タイミング」は「即時」([1])であり、発話データ<f>に含まれるラベルの3列目の「提示タイミング」は「定期」([3])である。
Then, as shown in (H), in step S1302, the order discard
ここで、発話データ<f>及び発話データ<p>のラベルは同種ラベルである。前述の発話データ<p>の解説音声用テキストは「X対Y 6回裏 7対0」であるのに対し、更新後の発話データ<f>の解説音声用テキストは「X対Y 6回裏 7対1」である。 Here, the labels of the utterance data <f> and the utterance data <p> are of the same type. The audio commentary text for the aforementioned utterance data <p> is "X vs. Y, bottom of the 6th inning, 7-0", whereas the audio commentary text for the updated utterance data <f> is "X vs. Y, 6th inning". Back 7 to 1”.
(I)に示すように、順序破棄制御部19は、ステップS1304において、配列内の複数の発話データにつき、ラベルの3列目の「提示タイミング」に基づいて「即時」>「準即時」>「定期」>「その他」の優先度となるように、発話データの順序を決定して並び替え、ステップS1305において、発話データの再生時刻を再設定する。
As shown in (I), in step S1304, the order discard
この場合、順序破棄制御部19は、「提示タイミング」が「定期」である更新のあった発話データ<f>について、「提示タイミング」を「即時」に設定して発話データの順序を決定して並び替える。そして、順序破棄制御部19は、「提示タイミング」が「即時」に設定された発話データ<f>の次から最後の発話データまでの間について、発話データ<f>における「提示タイミング」を「定期」としたまま、予め設定された時間間隔となるように、発話データ<f>を挿入する。
In this case, the order discard
これにより、発話データ<f>の解説音声用テキスト「X対Y 6回裏 7対1」が即時に生成されると共に、その後は定期的に生成されることとなる。 As a result, the explanatory audio text "X vs. Y, bottom of the 6th inning, 7 vs. 1" for the utterance data <f> is generated immediately, and thereafter is generated periodically.
そして、(J)に示すように、順序破棄制御部19は、ステップS1306において、配列内に同種ラベルの発話データ<f><p>があり、発話データ<p>が発話データ<f>に更新されたため、新たに追加した発話データ<f>以外の発話データ<p>を破棄する。これにより、配列から古い再生時刻の解説音声用テキスト「X対Y 6回裏 7対0」に対応する発話データ<p>が破棄され、最新の再生時刻の解説音声用テキスト「X対Y 6回裏 7対1」に対応する発話データ<f>が残ることとなる。また、順序破棄制御部19は、ステップS1307において、配列から一定時間経過した発話データ<c>を破棄する。これにより、(K)の配列が構成される。
Then, as shown in (J), in step S1306, the order discard
(K)の配列の先頭は発話データ<e>であり、ラベルの3列目の「提示タイミング」は「即時」([1])である。2番目は発話データ<f>であり、ラベルの3列目の「提示タイミング」は「即時」([1])である。この発話データ<f>については、Jsonファイルを入力したときの「提示タイミング」は「定期」([3])であるため、予め設定された時間間隔となるように、発話データ<f’>として配列内に挿入される。 The beginning of the array in (K) is the utterance data <e>, and the "presentation timing" in the third column of labels is "immediate" ([1]). The second is speech data <f>, and the "presentation timing" in the third column of labels is "immediate" ([1]). Regarding this utterance data <f>, since the "presentation timing" when inputting the Json file is "regular" ([3]), the utterance data <f'> is displayed at a preset time interval. is inserted into the array as .
これにより、発話データ<f>の解説音声用テキスト「X対Y 6回裏 7対1」が即時に生成されると共に、定期的に生成されることとなり、視聴者100は、この解説音声を更新時に聞くことができ、さらに、その後更新されない限り定期的に聞くことができる。
As a result, the commentary audio text "X vs. Y, bottom of the 6th inning, 7 to 1" for the utterance data <f> is generated immediately and periodically, and the
ここで、複数のラベルを含む発話データについて、「提示タイミング」が「定期」であるラベルを含み、さらに「即時」または「準即時」であるラベルを含む場合、当該発話データの「提示タイミング」を「定期」として扱う。 Here, for utterance data that includes multiple labels, if the utterance data includes a label whose "presentation timing" is "regular" and further includes a label whose "immediate" or "semi-immediate", the "presentation timing" of the utterance data is treated as "periodic".
この場合、順序破棄制御部19は、前述の(I)のとおり、新たな配列を構成する際に、「提示タイミング」が「定期」である更新のあった発話データ(新たに入力したJsonファイルの発話データ)について、最初の当該発話データにおける「提示タイミング」を「即時」または「準即時」に設定して(配列内の他の発話データが「即時」のラベルを含み「準即時」のラベルを含まない場合は「即時」に設定し、他の発話データが「準即時」のラベルを含み「即時」のラベルを含まない場合は「準即時」に設定して)順序を決定し、配列の発話データを並び替える。そして、順序破棄制御部19は、それ以降の当該発話データにおける「提示タイミング」を「定期」としたまま、予め設定された時間間隔となるように、順序を決定して配列の発話データを並び替える。
In this case, as described in (I) above, when configuring a new array, the order discard
以上のように、本発明の実施形態の解説音声制作装置1によれば、解析部11は、複数の情報源2からデータを入力し、情報源2の予め設定されたデータフォーマットに従い、入力したデータを解析することでテキスト要素を抽出する。
As described above, according to the explanatory
格納部12は、テキスト要素に対してラベルを付与し、ラベルが付与されたテキスト要素をタイムスタンプと共に情報管理テーブル13に格納する。
The
更新監視部15は、テンプレート14に定義された発話定義データに含まれるトリガーラベルのテキスト要素について、情報管理テーブル13にて更新されたか否かを監視する。
The
読出部16は、更新されたテキスト要素のトリガーラベルの発話について、発話定義データに含まれるラベルの組合せ(1または複数のラベル)の1または複数のテキスト要素を情報管理テーブル13から読み出す。
The
フォーマット変換部17は、1または複数のラベル及びこれに対応する1または複数のテキスト要素を、再生時刻を含むJsonファイルにフォーマット変換する。
The
テキスト生成部18は、Jsonファイルから1または複数のテキスト要素を抽出し、解説音声用テキストを生成し、Jsonファイルに対して発話IDを付与し、解説音声用テキストの文字数に基づいて、その音声ファイルの時間長を算出する。
The
順序破棄制御部19は、フォーマット変換部17からJsonファイルの入力がある場合、Jsonファイルから再生時刻及び1または複数のラベルを抽出し、発話ID、再生時刻、1または複数のラベル、及び時間長からなる発話データを生成し、ラベルに含まれる提示タイミングの優先度に基づいて発話データの順序を決定して配列を構成する。また、順序破棄制御部19は、構成した配列の順序、発話データの再生時刻及び時間長に基づいて、発話データの再生時刻を再設定する。
When a Json file is input from the
順序破棄制御部19は、配列内の先頭の発話データについての発話ID及び再生時刻を出力し、当該発話データを破棄する。また、順序破棄制御部19は、配列内に同種ラベルの発話データが複数ある場合、古い再生時刻の発話データを破棄し、一定時間経過した発話データも破棄する。
The order discard
これにより、テンプレート14に定義された発話毎の発話定義データに従い、発話したい解説音声用テキストが生成され、ラベルの3列目の「提示タイミング」の優先度に基づいて、発話の順序が決定され発話の再生時刻が再設定される。
As a result, the explanatory audio text to be uttered is generated according to the utterance definition data for each utterance defined in the
このようにして生成された解説音声用テキストの音声ファイルが再生時刻に再生されることで、ライブ配信されているスポーツ番組の生放送に合わせて、リアルタイムに解説音声を視聴者100に提供することができる。
By playing the audio file of the explanatory audio text generated in this way at the playback time, the explanatory audio can be provided to the
また、複数の情報源2からデータを取得し、データから抽出したテキスト要素を、複数の情報源2のデータフォーマットを統一したラベルと共に、情報管理テーブル13に格納するようにしたため、情報管理テーブル13を一元管理することができる。つまり、汎用性に富んだ解説音声制作配信システム10を実現することができる。
In addition, since data is acquired from
このように、複数の情報源2を利用した情報管理テーブル13の一元管理により、リアルタイム性も担保しながら、テキスト要素が重なることのない発話毎の解説音声用テキストが生成される。
In this way, by centrally managing the information management table 13 using a plurality of
この解説音声用テキストの発話を増やしたい場合、テンプレート14に当該発話の発話定義データを追加すれば済むため、拡張性に富んだ解説音声制作配信システム10を実現することができる。
If it is desired to increase the number of utterances of this explanatory voice text, it is only necessary to add the utterance definition data of the utterances to the
したがって、複数の情報源2のデータを利用すると共に、拡張性及び汎用性の高い解説音声をリアルタイムで提供することができる。
Therefore, it is possible to utilize data from a plurality of
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the embodiments described above, and can be modified in various ways without departing from the technical concept thereof.
例えばフォーマット変換部17は、Jsonファイルを生成するようにしたが、Jsonファイル以外のファイルを生成するようにしてもよい。本発明は、テキスト生成部18及び順序破棄制御部19が入力するファイルをJsonファイルに限定するものではなく、他のデータフォーマットに従ったファイルであってもよい。
For example, although the
また、図1に示した解説音声制作配信システム10では、音声合成装置3は、音声合成処理により音声ファイルを生成し、配信装置4は、音声ファイル及び再生時刻を携帯端末5へ配信するようにした。
In addition, in the explanatory audio production and
これに対し、配信装置4は、音声ファイル及び再生時刻の代わりに、解説音声制作装置1により生成された解説音声用テキスト及び再生時刻を携帯端末5へ配信するようにしてもよい。この場合、解説音声制作配信システム10は音声合成装置3を備える必要がなく、携帯端末5は、解説音声用テキストを受信して音声合成処理を行うことで音声ファイルを生成し、音声ファイルを再生時刻に再生する。
On the other hand, the
また、テンプレート14には、図5に示したとおり、発話内容、ラベルの組合せ等が定義される。これに対し、テンプレート14にテロップ等の情報が定義されるようにしてもよい。この場合、ラベルの5列目として、テロップ等の汎用性の高い項目を用意しておき、格納部12は、情報管理テーブル13に、このようなラベルが付与された情報のテキスト要素を格納する。そして、テキスト生成部18は、テロップ等のテキスト要素を含む解説音声用テキストを生成する。これにより、どのような情報を解説音声として提示すべきか分からない場合であっても、テロップ等のテキスト要素を含む解説音声用テキストを生成することができ、番組の解説付与率を向上させることができる。
Furthermore, as shown in FIG. 5, the
例えば入力ツールの情報源2-5から入力されたデータのテキスト要素が、テロップ等のラベルと共に情報管理テーブル13に格納されるようにする。これにより、入力ツールの情報源2-5のオペレータにより入力操作された文字情報が解説音声用テキストに反映されることとなり、当該文字情報が反映された解説音声の音声ファイルが再生されることとなる。 For example, text elements of data input from the information source 2-5 of the input tool are stored in the information management table 13 together with labels such as captions. As a result, the character information inputted by the operator of information source 2-5 of the input tool will be reflected in the commentary audio text, and the audio file of the commentary audio in which the text information is reflected will be played. Become.
尚、本発明の実施形態による解説音声制作装置1のハードウェア構成としては、通常のコンピュータを使用することができる。解説音声制作装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
Note that a normal computer can be used as the hardware configuration of the explanatory
解説音声制作装置1に備えた解析部11、格納部12、情報管理テーブル13、テンプレート14、更新監視部15、読出部16、フォーマット変換部17、テキスト生成部18及び順序破棄制御部19の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
Each of the
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, and are read and executed by the CPU. Additionally, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROMs, DVDs, etc.), semiconductor memories, etc., and can be distributed via networks. You can also send and receive messages.
1 解説音声制作装置
2 情報源
3 音声合成装置
4 配信装置
5,105 携帯端末
10 解説音声制作配信システム
11 解析部
12 格納部
13 情報管理テーブル
14 テンプレート
15 更新監視部
16 読出部
17 フォーマット変換部
18 テキスト生成部
19 順序破棄制御部
100 視聴者
101 放送送信装置
102 放送受信装置
103 解説音声制作配信装置
104 アプリサーバ
1 Explanation
Claims (11)
前記発話毎に、前記テキストが1または複数のテキスト要素により構成される場合の前記1または複数のテキスト要素に対応する1または複数のラベルを含む発話定義データが定義されたテンプレートと、
前記テキスト要素が格納される情報管理テーブルと、
複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って前記データを解析することで、前記データから前記テキスト要素を抽出する解析部と、
前記解析部により抽出された前記テキスト要素に対し、前記テキスト要素の発話を提示するタイミングの優先度を含むラベルを付与し、前記ラベルが付与されたテキスト要素を前記情報管理テーブルに格納する格納部と、
前記情報管理テーブルに格納された前記テキスト要素が更新されたか否かを監視し、更新されたと判定された場合の前記テキスト要素に付与された前記ラベルを出力する更新監視部と、
前記更新監視部により出力された前記ラベルを含む前記発話定義データの前記発話について、前記情報管理テーブルから、前記発話定義データに含まれる1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出し、当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を出力する読出部と、
前記読出部により出力された当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を、所定の再生時刻を含むファイルにフォーマット変換するフォーマット変換部と、
前記フォーマット変換部によりフォーマット変換された前記ファイルから前記1または複数のテキスト要素を抽出し、前記テキストを生成して出力するテキスト生成部と、
前記フォーマット変換部によりフォーマット変換された前記発話毎のファイルを入力し、前記発話毎のファイルの前記ラベルに含まれる前記優先度に基づいて、前記発話の順序を決定し、前記順序に従って前記発話毎のファイルに含まれる前記再生時刻を再設定し、
前記順序が決定された先頭の発話のファイルに含まれる前記再生時刻を出力し、前記先頭の発話のファイルを破棄する順序破棄制御部と、
を備えたことを特徴とする解説音声制作装置。 In a commentary audio production device that generates text for commentary audio for each utterance of a live sports program,
a template in which utterance definition data including one or more labels corresponding to the one or more text elements when the text is composed of one or more text elements is defined for each of the utterances;
an information management table in which the text elements are stored;
Analysis that extracts the text element from the data by inputting data corresponding to the match situation of the sports program from each of a plurality of information sources and analyzing the data according to a preset data format of the information source. Department and
a storage unit that assigns a label including a priority of the timing of presenting the utterance of the text element to the text element extracted by the analysis unit, and stores the text element to which the label has been assigned in the information management table; and,
an update monitoring unit that monitors whether or not the text element stored in the information management table has been updated, and outputs the label given to the text element when it is determined that the text element has been updated;
Regarding the utterance of the utterance definition data including the label output by the update monitoring unit, one or more corresponding texts to which one or more labels included in the utterance definition data are attached are determined from the information management table. a reading unit that reads the element and outputs one or more labels of the utterance and one or more text elements corresponding thereto;
a format conversion unit that converts the format of one or more labels of the utterance output by the reading unit and one or more text elements corresponding thereto into a file including a predetermined playback time;
a text generation unit that extracts the one or more text elements from the file whose format has been converted by the format conversion unit, generates and outputs the text;
The file for each utterance whose format has been converted by the format converter is input, the order of the utterances is determined based on the priority included in the label of the file for each utterance, and the file for each utterance is converted according to the order. reset the playback time included in the file;
an order discard control unit that outputs the playback time included in the file of the first utterance for which the order has been determined, and discards the file of the first utterance;
An explanatory audio production device characterized by comprising:
前記複数の情報源には、前記スポーツ番組の試合状況に応じたリアルタイムのデータを送信する情報源が含まれると共に、さらに、オペレータの入力操作に従って前記スポーツ番組のデータを送信する情報源、前記スポーツ番組の試合状況の画像を解析することで得られるデータを送信する情報源及び前記スポーツ番組の試合状況の音声を認識することで得られるデータを送信する情報源のうちの少なくとも1つが含まれる、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
The plurality of information sources include an information source that transmits real-time data according to the match situation of the sports program, and further includes an information source that transmits data of the sports program according to an input operation by an operator, and a source that transmits real-time data according to the match situation of the sports program. The information source includes at least one of an information source that transmits data obtained by analyzing an image of a match situation of a program, and an information source that transmits data obtained by recognizing audio of a match situation of the sports program. An explanatory audio production device characterized by:
前記テンプレートには、前記発話毎に、前記1または複数のラベルに加え、前記1または複数のラベルのうちの1つがトリガーラベルとして定義されており、
前記更新監視部は、
前記トリガーラベルが付与された前記テキスト要素が前記情報管理テーブルにおいて更新されたか否かを監視し、更新されたと判定された場合の前記トリガーラベルを出力する、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
In the template, for each utterance, in addition to the one or more labels, one of the one or more labels is defined as a trigger label,
The update monitoring unit includes:
An explanatory audio production device characterized in that it monitors whether or not the text element to which the trigger label is attached has been updated in the information management table, and outputs the trigger label when it is determined that the text element has been updated.
前記ラベルは、前記情報源の種類、前記スポーツ番組の競技種目、前記優先度、前記テキスト要素が属するグループ、及び前記グループ内の項目を示すそれぞれの数値から構成されるものとし、
前記発話定義データに含まれる前記1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出す際の前記ラベルを読出対象ラベルとし、前記読出対象ラベルに加え、当該読出対象ラベルを構成する前記テキスト要素が属するグループ及び前記グループ内の項目が同じであって、前記情報源の種類が異なるラベルを同種ラベルとして、
前記読出部は、
前記情報管理テーブルに、前記同種ラベルが付与されたテキスト要素が複数格納されている場合、
前記情報管理テーブルから、前記同種ラベルが付与された複数のテキスト要素のうち最先に格納された前記テキスト要素を読み出す、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
The label is composed of respective numerical values indicating the type of information source, the competition type of the sports program, the priority, the group to which the text element belongs, and the item within the group,
When reading the corresponding one or more text elements to which the one or more labels included in the utterance definition data are attached, the label is set as a read target label, and in addition to the read target label, the read target label is configured. A label to which the group to which the text element belongs and the item in the group are the same, and the type of the information source is different is considered a homogeneous label,
The reading section is
When the information management table stores a plurality of text elements to which the same type of label is attached,
An explanatory audio production device characterized in that the text element stored first among a plurality of text elements to which the same kind of label is given is read out from the information management table.
前記読出部は、
前記情報管理テーブルに、前記読出対象ラベルが付与されたテキスト要素が格納されておらず、前記読出対象ラベル以外の前記同種ラベルが付与されたテキスト要素が格納されている場合、
前記情報管理テーブルから、前記読出対象ラベル以外の前記同種ラベルが付与されたテキスト要素を読み出す、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 4,
The reading section is
When the information management table does not store a text element to which the read target label is attached, but stores a text element to which the same kind of label other than the read target label is attached,
An explanatory audio production device characterized in that the text element to which the same kind of label other than the read target label is attached is read out from the information management table.
前記ラベルには、前記優先度に加え、前記スポーツ番組の競技種目が含まれており、
前記読出部は、
前記情報管理テーブルから読み出したテキスト要素について、当該テキスト要素に付与されたラベルに含まれる前記競技種目に応じて、当該テキスト要素を修正し、当該発話の1または複数のラベル及び1または複数のテキスト要素(修正したテキスト要素がある場合は当該テキスト要素)を出力する、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
In addition to the priority, the label includes the competition type of the sports program,
The reading section is
Regarding the text element read from the information management table, the text element is modified according to the sport event included in the label given to the text element, and one or more labels and one or more texts of the utterance are modified. An explanatory audio production device characterized by outputting an element (if there is a corrected text element, the text element).
前記発話定義データに含まれる前記1または複数のラベルには、所定の助詞または単語に対応するラベルが含まれており、
前記読出部は、
前記情報管理テーブルから、前記所定の助詞または単語を含む1または複数のテキスト要素を読み出し、
前記テキスト生成部は、
前記ファイルから、前記所定の助詞または単語を含む1または複数のテキスト要素を抽出し、前記所定の助詞または単語を含むテキストを生成して出力する、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
The one or more labels included in the utterance definition data include a label corresponding to a predetermined particle or word,
The reading section is
reading one or more text elements containing the predetermined particle or word from the information management table;
The text generation unit is
An explanatory audio production device characterized by extracting one or more text elements containing the predetermined particle or word from the file, and generating and outputting a text containing the predetermined particle or word.
前記ラベルに含まれる前記優先度は、即時、準即時、定期及びその他を示す情報のうちのいずれかの情報であり、前記即時の優先度が最も高く、前記準即時が次に高く、前記その他が最も低いものとし、
前記順序破棄制御部は、
前記定期の優先度を含むラベルの発話を、前記即時または前記準即時の優先度を含むラベルの第1の発話、及び所定の時間間隔で配置される前記定期の優先度を含むラベルの第2の発話とし、
前記第1の発話について、前記優先度が高いほど前記先頭の近くに配置するように、前記発話の順序を決定すると共に、
前記第2の発話について、前記第1の発話の後に前記所定の時間間隔で配置するように、前記発話の順序を決定する、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
The priority included in the label is any one of information indicating immediate, semi-immediate, regular, and other, and the immediate priority is the highest, the semi-immediate is the next highest, and the other is the priority. is the lowest,
The order discard control unit includes:
utterances of a label containing the periodic priority, a first utterance of the label containing the immediate or semi-immediate priority, and a second utterance of the label containing the periodic priority arranged at predetermined time intervals; As an utterance,
Regarding the first utterance, determining the order of the utterances such that the higher the priority, the closer to the beginning the utterances are, and
An explanatory audio production device characterized in that the order of the utterances is determined so that the second utterance is placed after the first utterance at the predetermined time interval.
前記ラベルは、前記情報源の種類、前記スポーツ番組の競技種目、前記優先度、前記テキスト要素が属するグループ、及び前記グループ内の項目を示す数値から構成されるものとし、
前記発話定義データに含まれる前記1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出す際の前記ラベルを読出対象ラベルとし、前記読出対象ラベルに加え、当該読出対象ラベルを構成する前記テキスト要素が属するグループ及び前記グループ内の項目が同じであって、前記情報源の種類が異なるラベルを同種ラベルとして、
前記順序破棄制御部は、
前記更新監視部による更新の判定に伴って、前記同種ラベルを含む新たなファイルを入力し、前記発話毎のファイルについての発話の順序を決定した際に、前記同種ラベルを含むファイルが複数存在する場合、
前記同種ラベルを含む複数のファイルのうち、前記新たなファイル以外のファイルを破棄する、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
The label is composed of a type of information source, a competition type of the sports program, the priority, a group to which the text element belongs, and a numerical value indicating an item within the group,
When reading the corresponding one or more text elements to which the one or more labels included in the utterance definition data are attached, the label is set as a read target label, and in addition to the read target label, the read target label is configured. A label to which the group to which the text element belongs and the item in the group are the same, and the type of the information source is different is considered a homogeneous label,
The order discard control unit includes:
In accordance with the update determination by the update monitoring unit, when a new file including the same kind of label is input and the order of utterances for the files for each utterance is determined, it is determined that there are multiple files including the same kind of label. case,
An explanatory audio production device characterized in that, among a plurality of files including the same kind of label, files other than the new file are discarded.
前記順序破棄制御部は、
前記発話毎のファイルのうち、予め設定された時間が経過したファイルを破棄する、ことを特徴とする解説音声制作装置。 The explanatory audio production device according to claim 1,
The order discard control unit includes:
An explanatory audio production device characterized in that, among the files for each utterance, files for which a preset time has elapsed are discarded.
前記発話毎に、前記テキストが1または複数のテキスト要素により構成される場合の前記1または複数のテキスト要素に対応する1または複数のラベルを含む発話定義データが定義されたテンプレート、
前記テキスト要素が格納される情報管理テーブル、
複数の情報源のそれぞれから前記スポーツ番組の試合状況に応じたデータを入力し、前記情報源の予め設定されたデータフォーマットに従って前記データを解析することで、前記データから前記テキスト要素を抽出する解析部、
前記解析部により抽出された前記テキスト要素に対し、前記テキスト要素の発話を提示するタイミングの優先度を含むラベルを付与し、前記ラベルが付与されたテキスト要素を前記情報管理テーブルに格納する格納部、
前記情報管理テーブルに格納された前記テキスト要素が更新されたか否かを監視し、更新されたと判定された場合の前記テキスト要素に付与された前記ラベルを出力する更新監視部、
前記更新監視部により出力された前記ラベルを含む前記発話定義データの前記発話について、前記情報管理テーブルから、前記発話定義データに含まれる1または複数のラベルが付与された対応する1または複数のテキスト要素を読み出し、当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を出力する読出部、
前記読出部により出力された当該発話の1または複数のラベル及びこれに対応する1または複数のテキスト要素を、所定の再生時刻を含むファイルにフォーマット変換するフォーマット変換部、
前記フォーマット変換部によりフォーマット変換された前記ファイルから前記1または複数のテキスト要素を抽出し、前記テキストを生成して出力するテキスト生成部、及び、
前記フォーマット変換部によりフォーマット変換された前記発話毎のファイルを入力し、前記発話毎のファイルの前記ラベルに含まれる前記優先度に基づいて、前記発話の順序を決定し、前記順序に従って前記発話毎のファイルに含まれる前記再生時刻を再設定し、
前記順序が決定された先頭の発話のファイルに含まれる前記再生時刻を出力し、前記先頭の発話のファイルを破棄する順序破棄制御部として機能させるためのプログラム。 A computer that constitutes a commentary audio production device that generates text for commentary audio for each utterance of sports programs that are being streamed live.
a template in which utterance definition data including one or more labels corresponding to the one or more text elements when the text is composed of one or more text elements is defined for each of the utterances;
an information management table in which the text elements are stored;
Analysis that extracts the text element from the data by inputting data corresponding to the match situation of the sports program from each of a plurality of information sources and analyzing the data according to a preset data format of the information source. Department,
a storage unit that assigns a label including a priority of the timing of presenting the utterance of the text element to the text element extracted by the analysis unit, and stores the text element to which the label has been assigned in the information management table; ,
an update monitoring unit that monitors whether or not the text element stored in the information management table has been updated, and outputs the label given to the text element when it is determined that the text element has been updated;
Regarding the utterance of the utterance definition data including the label output by the update monitoring unit, one or more corresponding texts to which one or more labels included in the utterance definition data are attached are determined from the information management table. a reading unit that reads the element and outputs one or more labels of the utterance and one or more text elements corresponding thereto;
a format conversion unit that converts the format of one or more labels of the utterance output by the reading unit and one or more text elements corresponding thereto into a file including a predetermined playback time;
a text generation unit that extracts the one or more text elements from the file whose format has been converted by the format conversion unit, generates and outputs the text, and
The file for each utterance whose format has been converted by the format converter is input, the order of the utterances is determined based on the priority included in the label of the file for each utterance, and the file for each utterance is converted according to the order. reset the playback time included in the file;
A program for functioning as an order discard control unit that outputs the playback time included in a file of the first utterance whose order has been determined, and discards the file of the first utterance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022082878A JP2023170822A (en) | 2022-05-20 | 2022-05-20 | Explanation voice production device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022082878A JP2023170822A (en) | 2022-05-20 | 2022-05-20 | Explanation voice production device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023170822A true JP2023170822A (en) | 2023-12-01 |
Family
ID=88927635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022082878A Pending JP2023170822A (en) | 2022-05-20 | 2022-05-20 | Explanation voice production device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023170822A (en) |
-
2022
- 2022-05-20 JP JP2022082878A patent/JP2023170822A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220053160A1 (en) | System and methods providing sports event related media to internet-enabled devices synchronized with a live broadcast of the sports event | |
JP6824399B2 (en) | Voice guide generator, voice guide generation method and broadcasting system | |
US10805685B2 (en) | Streamlined viewing of recorded programs based on markers | |
US8824863B2 (en) | Information processing apparatus, information processing method, information processing program, and information processing system | |
JP6947985B2 (en) | Game video editing program and game video editing system | |
US20110214141A1 (en) | Content playing device | |
JP4139253B2 (en) | Streaming delivery method | |
US9924148B2 (en) | Highlight program | |
JP2006309923A (en) | Information processing apparatus and method | |
US8527880B2 (en) | Method and apparatus for virtual editing of multimedia presentations | |
KR100697107B1 (en) | Sport image distribution system | |
JP2019110480A (en) | Content processing system, terminal device, and program | |
WO2006059436A1 (en) | Video content reproduction supporting method, video content reproduction supporting system, and information delivery program | |
JP2023170822A (en) | Explanation voice production device and program | |
WO2021240837A1 (en) | Information output program, device, and method | |
US20240346728A1 (en) | Information processing device, information processing method, and information processing system | |
US11659243B2 (en) | Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets | |
JP2024112086A (en) | Commentary speech production device, portable terminal and program | |
WO2023044420A1 (en) | Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets | |
US20220238140A1 (en) | Video tagging device and video tagging method | |
WO2014002728A1 (en) | Recording device, television receiver, and recording method | |
KR102664295B1 (en) | Method and apparatus for providing a platform for sign language subtitles video | |
JP7137278B2 (en) | Playback control method, control system, terminal device and program | |
JP7550081B2 (en) | Automatic ambient sound switcher | |
US20230093416A1 (en) | Methods and systems to provide a playlist for simultaneous presentation of a plurality of media assets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20230823 |