JP7481894B2 - Speech text generation device, speech text generation program, and speech text generation method - Google Patents

Speech text generation device, speech text generation program, and speech text generation method Download PDF

Info

Publication number
JP7481894B2
JP7481894B2 JP2020083244A JP2020083244A JP7481894B2 JP 7481894 B2 JP7481894 B2 JP 7481894B2 JP 2020083244 A JP2020083244 A JP 2020083244A JP 2020083244 A JP2020083244 A JP 2020083244A JP 7481894 B2 JP7481894 B2 JP 7481894B2
Authority
JP
Japan
Prior art keywords
data
speech
text
section
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020083244A
Other languages
Japanese (ja)
Other versions
JP2021179468A (en
Inventor
清 栗原
均 伊藤
信正 清山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2020083244A priority Critical patent/JP7481894B2/en
Publication of JP2021179468A publication Critical patent/JP2021179468A/en
Application granted granted Critical
Publication of JP7481894B2 publication Critical patent/JP7481894B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法に関する。 The present invention relates to a speech text generation device, a speech text generation program, and a speech text generation method.

近年、音声合成や音声認識の分野では、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いて、音声合成や音声認識を行う手法が一般化している。
例えば、DNNで構成された統計モデルを用いて、テキストデータから音声データを生成する音声合成手法が、特許文献1等に開示されている。
また、DNNで構成された音響モデル等を用いて、音声データからテキストデータを生成する音声認識手法が、特許文献2等に開示されている。
このようなDNNを用いた手法では、DNNのモデルを学習するための膨大な学習データが必要となる。
従来、この学習データを生成する手法として、放送番組の音声データと字幕データ(テキストデータ)とから、時刻に対応した音声データとテキストデータとを対応付けて学習データを生成する手法が、特許文献3等に開示されている。
In recent years, in the fields of voice synthesis and voice recognition, a method of performing voice synthesis and voice recognition using a deep neural network (DNN) has become common.
For example, Patent Document 1 discloses a voice synthesis method that generates voice data from text data using a statistical model configured with a DNN.
Furthermore, a speech recognition method for generating text data from speech data using an acoustic model configured with a DNN is disclosed in, for example, Japanese Patent Laid-Open No. 2003-233996.
Such a method using DNN requires a huge amount of training data to train the DNN model.
Conventionally, as a method for generating this learning data, a method is disclosed in Patent Document 3 and the like in which learning data is generated by associating audio data and text data corresponding to a time from audio data and subtitle data (text data) of a broadcast program.

特開2019-219590号公報JP 2019-219590 A 特開2019-020597号公報JP 2019-020597 A 特許第6426971号公報Patent No. 6426971

放送番組のような字幕データ(クローズドキャプション)が重畳された放送データから、従来手法によって、音声データとテキストデータである字幕データとを対応付けて抽出する場合、以下に示す問題がある。
放送番組が生放送の場合、字幕作成者が、送出された音声を聞いた後にキーボードによって字幕を付加するため、実際の音声に対して字幕が遅延して放送されることになる。そのため、従来手法では、音声データと字幕データとに時間のずれが生じ、正しく学習データを生成することができないという問題がある。
また、生放送では、字幕の付加に人手が介在し、音声データと字幕データとの時間のずれが一定ではないため、音声データと字幕データとを調相して対応付けることは困難である。
When extracting audio data and closed caption data, which is text data, in association with each other from broadcast data on which closed caption data, such as a broadcast program, is superimposed, using a conventional method, the following problems arise.
When a broadcast program is live, the subtitle creator adds subtitles by keyboard after listening to the transmitted audio, so the subtitles are broadcast with a delay from the actual audio. Therefore, in the conventional method, a time lag occurs between the audio data and the subtitle data, and the learning data cannot be generated correctly.
Furthermore, in live broadcasts, the addition of subtitles requires manual intervention, and the time lag between the audio data and the subtitle data is not constant, making it difficult to synchronize and associate the audio data and the subtitle data.

そこで、本発明は、複数の発話音声を含んだ音声データと対応するテキストデータとから、発話区間ごとの音声データとテキストデータとを生成することが可能な発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法を提供することを課題とする。 The present invention aims to provide a speech text generation device, a speech text generation program, and a speech text generation method that are capable of generating speech data and text data for each speech section from speech data containing multiple speech sounds and corresponding text data.

記課題を解決するため、本発明に係る発話音声テキスト生成装置は、音声区切り検出手段と、音声認識手段と、マッチング手段と、コンテキスト情報生成手段と、変換手段と、を備える構成とした。 In order to achieve the above object, the speech text generation device according to the present invention is configured to include a speech segment detection means, a speech recognition means, a matching means, a context information generation means, and a conversion means.

かかる構成において、発話音声テキスト生成装置は、音声区切り検出手段によって、複数の発話音声からなる音声データから、パワー等の音響特徴によって、発話ごとの区間音声データの区切り位置を検出する。
そして、発話音声テキスト生成装置は、音声認識手段によって、発話区間の区間音声データごとに音声認識を行う。
そして、発話音声テキスト生成装置は、マッチング手段によって、音声認識手段の認識結果と、音声データの発話内容であるテキストデータとをDPマッチング等のマッチング手法でマッチングすることで、区間音声データの時間に対応する区間テキストデータを推定する。
In such a configuration, the speech text generation device detects, by the speech segment detection means, segment positions of section speech data for each utterance from speech data consisting of a plurality of utterances, based on acoustic features such as power.
Then, the speech text generation device performs speech recognition on each section speech data of the speech section by using the speech recognition means.
Then, the speech text generation device estimates section text data corresponding to the time of the section speech data by using a matching means to match the recognition result of the speech recognition means with text data, which is the spoken content of the speech data, using a matching method such as DP matching.

さらに、発話音声テキスト生成装置は、コンテキスト情報生成手段によって、区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報を生成する。このコンテキスト情報によって、音素ごとのアクセントの状態を認識することが可能になる。
そして、発話音声テキスト生成装置は、変換手段によって、音素列のコンテキスト情報を、音素の出現順の読みを表す文字とアクセントの状態を示す韻律を表す予め定めた文字とを含む第2の区間テキストデータに変換する。これによって、発話者が発した区間音声データの時間に対応する区間テキストデータ、第2の区間テキストデータを生成することができる。
Furthermore, the speech text generation device generates, from the section text data, context information for each phoneme, including at least information on the phoneme and accent phrase information indicating characteristics of an accent phrase including the phoneme and an accent phrase adjacent to the accent phrase, by using the context information generation means. This context information makes it possible to recognize the accent state of each phoneme.
The speech text generation device then converts the context information of the phoneme string into second section text data including characters representing the reading order of the phonemes and predetermined characters representing prosody indicating the state of accent, by using the conversion means, thereby making it possible to generate section text data corresponding to the time of the section speech data uttered by the speaker, that is, the second section text data.

また、前記課題を解決するため、本発明に係る発話音声テキスト生成プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。
また、前記課題を解決するため、本発明に係る発話音声テキスト生成方法は、前記した各手段の動作をステップとして含む手順として実現することができる。
In order to achieve the above object, a speech text generation program according to the present invention can be realized as a program for causing a computer to function as each of the means described above.
In order to achieve the above object, the speech text generation method according to the present invention can be realized as a procedure including the operations of the above-mentioned means as steps.

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、複数の発話音声からなる音声データとその音声データに対応するテキストデータとに時間的にずれがある場合でも、発話ごとの音声データとテキストデータとを対応付けて抽出することができる。
The present invention provides the following excellent effects.
According to the present invention, even if there is a time lag between voice data consisting of multiple utterances and the text data corresponding to that voice data, it is possible to extract voice data and text data for each utterance in association with each other.

参考例の実施形態に係る発話音声テキスト生成装置を含む学習データ生成システムの構成を示すブロック構成図である。1 is a block diagram showing a configuration of a training data generation system including a speech text generation device according to an embodiment of a reference example . アップロード端末において字幕付きデータのファイルを選択する選択画面の例を示す図である。FIG. 13 is a diagram showing an example of a selection screen for selecting a file of subtitled data in an upload terminal. 編集端末において音声の区切り位置およびテキストデータを修正する編集画面の例を示す図である。13 is a diagram showing an example of an editing screen for correcting audio delimiter positions and text data on an editing terminal. FIG. 参考例の実施形態に係る学習データ生成システムの動作を示すフローチャートである。13 is a flowchart showing the operation of a training data generation system according to an embodiment of a reference example . 本発明の実施形態に係る発話音声テキスト生成装置を含む学習データ生成システムの構成を示すブロック構成図である。1 is a block diagram showing a configuration of a training data generation system including a speech text generation device according to an embodiment of the present invention. 発話音声テキスト生成装置が生成する読み仮名と韻律記号とを含むPLPデータの例を説明するための説明図である。1 is an explanatory diagram for explaining an example of PLP data including pronunciation kana and prosodic symbols generated by a speech text generation device; 韻律記号の例を説明するための説明図である。FIG. 11 is an explanatory diagram for explaining an example of prosodic symbols. コンテキスト情報の各ラベルの特徴を示す図(その1)である。FIG. 13 is a diagram (part 1) showing the characteristics of each label of context information. コンテキスト情報の各ラベルの特徴を示す図(その2)である。FIG. 2 is a diagram (part 2) showing the characteristics of each label of context information. コンテキスト情報の形式の例を示す図である。FIG. 13 is a diagram illustrating an example of a format of context information. 韻律記号を挿入する条件を説明するための説明図である。FIG. 11 is an explanatory diagram for explaining a condition for inserting a prosodic symbol. コンテキスト情報からPLPデータを生成する流れを説明するための説明図である。FIG. 11 is an explanatory diagram for explaining a flow of generating PLP data from context information. 編集端末において音声の区切り位置およびテキストデータ(PLPデータ)を修正する編集画面の例を示す図である。11 is a diagram showing an example of an editing screen for correcting audio delimiter positions and text data (PLP data) on an editing terminal. FIG. 編集端末において音声の区切り位置およびテキストデータ(仮名漢字交じり文、PLPデータ)を修正する編集画面の例を示す図である。13 is a diagram showing an example of an editing screen for correcting audio delimiter positions and text data (kana-kanji mixed text, PLP data) on an editing terminal. FIG. 本発明の実施形態に係る学習データ生成システムの動作を示すフローチャートである。4 is a flowchart showing the operation of the training data generation system according to the embodiment of the present invention.

以下、参考例および本発明の実施形態について図面を参照して説明する。
参考例の実施形態≫
<学習データ生成システムの構成>
最初に、図1を参照して、参考例の実施形態に係る学習データ生成システム100の構成について説明する。
Hereinafter, reference examples and embodiments of the present invention will be described with reference to the drawings.
<Embodiments of Reference Examples >
<Configuration of the learning data generation system>
First, with reference to FIG. 1, a configuration of a training data generation system 100 according to an embodiment of the reference example will be described.

学習データ生成システム100は、音声合成または音声認識に用いるディープニューラルネットワーク(DNN)のモデルを学習するための発話単位の音声データおよびその音声データに対応するテキストデータを学習データとして生成するものである。
学習データ生成システム100は、字幕付きデータ記憶装置1と、アップロード端末2と、発話音声テキスト生成装置3と、編集端末4と、を備える。
The training data generation system 100 generates, as training data, speech data in units of utterances for training a deep neural network (DNN) model used for voice synthesis or voice recognition, and text data corresponding to that speech data.
The training data generation system 100 includes a subtitled data storage device 1, an upload terminal 2, a speech text generation device 3, and an editing terminal 4.

〔字幕付きデータ記憶装置〕
字幕付きデータ記憶装置1は、複数の発話音声からなる音声データとその音声データに対応する字幕データとを含んだ字幕付きデータを記憶するものである。字幕付きデータは、例えば、XDCAM(登録商標)等のデータ形式の映像音声コンテンツ等である。なお、字幕付きデータは、少なくとも音声データとそれに対応する字幕データとを含んだものであればよく、映像データを含まないデータであってもよい。
字幕付きデータ記憶装置1には、字幕付きデータを1つのファイルとして予め複数記憶しておく。
[Subtitled data storage device]
The subtitled data storage device 1 stores subtitled data including audio data consisting of a plurality of spoken voices and subtitle data corresponding to the audio data. The subtitled data is, for example, video and audio content in a data format such as XDCAM (registered trademark). Note that the subtitled data may be data that does not include video data as long as it includes at least audio data and the corresponding subtitle data.
In the subtitled data storage device 1, a plurality of subtitled data are stored in advance as one file.

〔アップロード端末〕
アップロード端末2は、字幕付きデータ記憶装置1に記憶されている字幕付きデータ、または、現在放送中の字幕付きデータ(放送データ)から、音声データと字幕データ(テキストデータ)とを分離して、発話音声テキスト生成装置3に送信するクライアント端末である。
アップロード端末2は、ファイル選択手段20と、ファイル分離手段21と、放送データ受信手段22と、放送データ分離手段23と、を備える。
[Uploading terminal]
The upload terminal 2 is a client terminal that separates audio data and subtitle data (text data) from the subtitled data stored in the subtitled data storage device 1 or from the subtitled data currently being broadcast (broadcast data), and transmits the separated audio data and subtitle data to the speech text generation device 3.
The upload terminal 2 comprises a file selection means 20, a file separation means 21, a broadcast data receiving means 22, and a broadcast data separation means 23.

ファイル選択手段20は、字幕付きデータ記憶装置1に記憶されている複数の字幕付きデータの各ファイルから、学習データを生成するためのファイルを選択するものである。
例えば、アップロード端末2は、ファイル選択手段20によって、図2に示すような、ファイルを選択する選択画面G1を表示装置(不図示)に表示し、操作者によるマウス等の入力手段(不図示)の操作によって、ファイルを選択する。
The file selection means 20 selects a file for generating learning data from among the multiple subtitled data files stored in the subtitled data storage device 1 .
For example, the upload terminal 2 causes the file selection means 20 to display a selection screen G1 for selecting a file as shown in FIG. 2 on a display device (not shown), and the operator selects a file by operating an input means (not shown) such as a mouse.

図2に示した選択画面G1は、実行g1、識別名g2、日時g3、ファイルパスg4、チャンネルg5、ステータスg6の欄と、開始ボタンBを表示した例を示している。
実行g1の欄は、選択対象のファイルを選択するチェック欄である。ここでは、ファイル選択手段20は、実行g1の欄を選択されることで、レ点を表示し、当該ファイルが選択されたことを示す。
識別名g2の欄は、字幕付きデータを識別する名称を表示する欄である。例えば、字幕付きデータのファイル名である。
日時g3は、字幕付きデータの時間情報を表示する欄である。この時間情報は、字幕付きデータを録音、録画した日時、あるいは、字幕付きデータ記憶装置1に字幕付きデータを記憶した日時である。
ファイルパスg4の欄は、字幕付きデータを記憶している字幕付きデータ記憶装置1のファイルパスを表示する欄である。
The selection screen G1 shown in FIG. 2 shows an example in which columns for execution g1, identification name g2, date and time g3, file path g4, channel g5, and status g6, as well as a start button B are displayed.
The execution g1 column is a check column for selecting a file to be selected. Here, when the execution g1 column is selected, the file selection means 20 displays a check mark to indicate that the file has been selected.
The identification name g2 field displays a name for identifying the subtitled data, for example, a file name of the subtitled data.
The date and time g3 is a field for displaying time information of the subtitled data. This time information is the date and time when the subtitled data was recorded or filmed, or the date and time when the subtitled data was stored in the subtitled data storage device 1.
The file path g4 field displays the file path of the subtitled data storage device 1 that stores the subtitled data.

チャンネルg5の欄は、チャンネル番号を指定する欄である。例えば、字幕付きデータがXDCAMの場合、最大8チャンネルの中から抽出したい音声チャンネルを選択する。
ステータスg6の欄は、選択された字幕付きデータのアップロードの状態を表示する欄である。例えば、ここでは、ファイルが選択されただけで、まだ、アップロードされていない(未送信)状態を示している。このステータスg6の欄は、後記するファイル分離手段21によって、音声データおよび字幕データが分離され、発話音声テキスト生成装置3にアップロードされた段階で、送信完了に更新される。
開始ボタンBは、選択されたファイルのアップロードを指示するボタンである。アップロード端末2は、ファイルを選択された後、マウス等の入力手段によって開始ボタンBを押下されることで、ファイルのアップロードを開始する。
The channel g5 field is a field for specifying a channel number. For example, if the subtitled data is XDCAM, the audio channel to be extracted is selected from a maximum of eight channels.
The status g6 column is a column that displays the upload status of the selected subtitled data. For example, here, it shows a state where the file has only been selected but has not yet been uploaded (transmitted). This status g6 column is updated to "transmission completed" when the voice data and subtitle data are separated by the file separation means 21, which will be described later, and uploaded to the speech voice text generation device 3.
The start button B is a button for instructing uploading of a selected file. After a file has been selected, the upload terminal 2 starts uploading the file when the start button B is pressed using an input means such as a mouse.

図1に戻って、アップロード端末2の構成について説明を続ける。
ファイル選択手段20は、選択された字幕付きデータを字幕付きデータ記憶装置1から読み出して、ファイル分離手段21に出力する。
Returning to FIG. 1, the description of the configuration of the upload terminal 2 will be continued.
The file selection means 20 reads out the selected subtitled data from the subtitled data storage device 1 and outputs it to the file separation means 21 .

ファイル分離手段(分離手段)21は、ファイル選択手段20で選択された字幕付きデータから、音声データと字幕データとを分離するものである。
例えば、字幕付きデータがXDCAMの動画コンテンツの場合、映像データ、音声データおよび字幕データは、MXF(Material eXchange Format)の形式でコンテンツ内に格納されている。
そこで、ファイル分離手段21は、MXFの字幕付きデータから、音声ストリームを抽出し、WAVファイルに変換することで、音声データを分離する。
また、字幕データは、MXFの形式でARIB(Association of Radio Industries and Businesses:一般社団法人電波産業会)字幕ファイルとしてコンテンツ内に格納されている。
そこで、ファイル分離手段21は、MXFの字幕付きデータから、ARIB字幕ファイルを抽出し、ARIB字幕を文字コード(例えば、UTF-8)に変換することで、テキストデータとして字幕データを分離する。
The file separating means (separating means) 21 separates the subtitled data selected by the file selecting means 20 into audio data and subtitle data.
For example, when the subtitled data is XDCAM video content, the video data, audio data, and subtitle data are stored in the content in the MXF (Material eXchange Format) format.
Therefore, the file separation means 21 extracts the audio stream from the MXF subtitled data and converts it into a WAV file, thereby separating the audio data.
The subtitle data is stored in the content as an ARIB (Association of Radio Industries and Businesses) subtitle file in MXF format.
Therefore, the file separation means 21 extracts the ARIB subtitle file from the MXF subtitled data, and converts the ARIB subtitles into a character code (for example, UTF-8) to separate the subtitle data as text data.

ファイル分離手段21は、分離した音声データおよびテキストデータを、発話音声テキスト生成装置3にアップロードする。
ここでは、ファイル分離手段21は、図示を省略した通信手段によって、ネットワークN,Nを介して、音声データおよびテキストデータを対応付けて発話音声テキスト生成装置3に送信する。
なお、ファイル分離手段21は、音声データおよびテキストデータを、発話音声テキスト生成装置3にアップロードした後、図2に示した選択画面G1のステータスg6の欄を「送信完了」に更新する。
これによって、操作者は、選択したファイルのアップロード状況を確認することができる。
The file separation means 21 uploads the separated voice data and text data to the speech text generation device 3 .
Here, the file separation means 21 transmits the voice data and the text data in association with each other to the speech text generation device 3 via the networks N and N1 by using a communication means (not shown).
After uploading the voice data and text data to the speech voice text generator 3, the file separator 21 updates the status g6 field of the selection screen G1 shown in FIG. 2 to "Transmission Completed".
This allows the operator to check the upload status of the selected file.

放送データ受信手段22は、デジタル放送で放送中の字幕付きデータ(放送データ)を受信し、ストリームデータ(トランスポートストリーム〔TS:Transport Stream〕)に復調するものである。
放送データ受信手段22は、例えば、外部から、字幕付きの放送データを放送しているチャンネルを指定されることで、復調したストリームデータ中のPSI/SI(Program Specific Information〔番組特定情報〕/Service Information〔番組配列情報〕)を解析し、指定されたチャンネルに対応するストリームデータを抽出する。
放送データ受信手段22は、抽出したストリームデータを放送データ分離手段23に出力する。
The broadcast data receiving means 22 receives subtitled data (broadcast data) being broadcast by digital broadcasting, and demodulates the data into stream data (transport stream (TS)).
For example, when a channel broadcasting subtitled broadcast data is specified from outside, the broadcast data receiving means 22 analyzes the PSI/SI (Program Specific Information/Service Information) in the demodulated stream data and extracts the stream data corresponding to the specified channel.
The broadcast data receiving means 22 outputs the extracted stream data to the broadcast data separating means 23 .

放送データ分離手段(分離手段)23は、放送データ受信手段22で受信したストリームデータから、音声データと字幕データ(テキストデータ)とを分離するものである。
放送データ分離手段23は、ストリームデータに多重化されている音声データと、ストリームデータにクローズドキャプションとして多重化されているテキストデータである字幕データとをそれぞれ抽出する。
放送データ分離手段23は、分離した音声データおよびテキストデータを、発話音声テキスト生成装置3にアップロードする。
ここでは、放送データ分離手段23は、図示を省略した通信手段によって、ネットワークN,Nを介して、音声データおよびテキストデータを対応付けて発話音声テキスト生成装置3に送信する。
The broadcast data separating means (separating means) 23 separates the stream data received by the broadcast data receiving means 22 into audio data and subtitle data (text data).
The broadcast data separation means 23 extracts audio data multiplexed into the stream data and subtitle data, which is text data multiplexed into the stream data as closed captions.
The broadcast data separation means 23 uploads the separated voice data and text data to the speech text generation device 3 .
Here, the broadcast data separation means 23 transmits the voice data and the text data in association with each other to the speech voice text generation device 3 via the networks N and N1 by using a communication means (not shown).

以上、アップロード端末2の構成について説明したが、アップロード端末2は、この構成に限定されるものではない。例えば、アップロード端末2は、放送データ受信手段22および放送データ分離手段23を省略し、字幕付きデータ記憶装置1に記憶されている字幕付きデータから、音声データとテキストデータとを分離して、発話音声テキスト生成装置3に送信するものとして構成してもよい。また、例えば、アップロード端末2は、ファイル選択手段20およびファイル分離手段21を省略し、現在放送中の放送データから、音声データとテキストデータとを分離して、発話音声テキスト生成装置3に送信するものとして構成してもよい。 Although the configuration of the upload terminal 2 has been described above, the upload terminal 2 is not limited to this configuration. For example, the upload terminal 2 may be configured to omit the broadcast data receiving means 22 and the broadcast data separating means 23, and separate the audio data and text data from the subtitled data stored in the subtitled data storage device 1, and transmit them to the speech voice text generation device 3. Also, for example, the upload terminal 2 may be configured to omit the file selection means 20 and the file separating means 21, and separate the audio data and text data from the broadcast data currently being broadcast, and transmit them to the speech voice text generation device 3.

〔発話音声テキスト生成装置〕
発話音声テキスト生成装置3は、複数の発話音声からなる音声データとその音声データに対応するテキストデータとから、発話区間の音声データ(区間音声データ)と、その音声データに対応するテキストデータ(区間テキストデータ)とを学習データとして生成するサーバである。
発話音声テキスト生成装置3は、音声テキスト記憶手段30と、音声区切り検出手段31と、音声認識手段32と、マッチング手段33と、を備える。
[Speech to text generator]
The speech text generation device 3 is a server that generates speech data of an utterance section (section speech data) and text data corresponding to the speech data (section text data) as learning data from speech data consisting of multiple utterances and text data corresponding to the speech data.
The speech text generation device 3 includes a speech text storage means 30 , a speech segment detection means 31 , a speech recognition means 32 , and a matching means 33 .

音声テキスト記憶手段30は、複数の発話音声からなる音声データとその音声データに対応するテキストデータとを対応付けて記憶するものである。この音声テキスト記憶手段30は、ハードディスク等の一般的な記憶媒体で構成することができる。
音声テキスト記憶手段30に記憶する音声データおよびテキストデータは、図示を省略した通信手段によって、ネットワークN,Nを介して、アップロード端末2からアップロードされた音声データおよびテキストデータを受信して記憶されたデータである。
The voice text storage means 30 stores voice data consisting of a plurality of spoken voices in association with text data corresponding to the voice data. The voice text storage means 30 can be configured with a general storage medium such as a hard disk.
The voice data and text data stored in the voice text storage means 30 are data that are received and stored by communication means (not shown) via the networks N and N1 and uploaded from the upload terminal 2.

音声区切り検出手段31は、複数の発話音声からなる音声データから、発話ごとの音声データ(区間音声データ)の区切り位置を検出するものである。
音声区切り検出手段31は、音声テキスト記憶手段30に記憶されている音声データから、発話区間を検出し、発話区間同士の間の位置(例えば、中間位置)を音声データの区切り位置として検出する。
音声区切り検出手段31における発話区間の検出手法は、一般的な手法を用いればよい。例えば、音声区切り検出手段31は、音声データから音響特徴量であるパワー(パワースペクトル)を抽出し、パワーが、予め定めた閾値よりも大きい場合に当該時間区間を発話区間とし、それ以外を非発話区間とする。
音声区切り検出手段31は、音声データと音声データの区切り位置とを音声認識手段32およびマッチング手段33に出力する。
The voice segment detection means 31 detects segment positions of voice data (section voice data) for each utterance from voice data consisting of a plurality of utterances.
The voice segment detection means 31 detects speech segments from the voice data stored in the voice text storage means 30, and detects positions between speech segments (for example, intermediate positions) as segment positions of the voice data.
A general method may be used as the method for detecting the speech section in the speech segment detection means 31. For example, the speech segment detection means 31 extracts power (power spectrum) which is an acoustic feature from the speech data, and if the power is greater than a predetermined threshold, it determines the relevant time section as a speech section and the rest as a non-speech section.
The voice segment detection means 31 outputs the voice data and the segment positions of the voice data to the voice recognition means 32 and the matching means 33 .

音声認識手段32は、音声区切り検出手段31で検出された区切り位置で区分される音声データ(区間音声データ)ごとに音声認識を行うものである。
音声認識手段32における音声認識手法は、一般的な手法を用いればよい。音声認識手段32は、図示を省略した言語モデル、音響モデルおよび発音辞書により、音声データの音声認識を行う。
音声認識手段32は、区間音声データごとの認識結果(漢字仮名交じり文)をマッチング手段33に出力する。
The voice recognition means 32 performs voice recognition for each piece of voice data (section voice data) divided by the delimiter positions detected by the voice delimiter detection means 31 .
A general method may be used as the voice recognition method in the voice recognition means 32. The voice recognition means 32 performs voice recognition of the voice data using a language model, an acoustic model, and a pronunciation dictionary, which are not shown.
The voice recognition means 32 outputs the recognition result (a mixture of kanji and kana) for each section of voice data to the matching means 33 .

マッチング手段33は、音声認識手段32で音声認識された認識結果と、音声テキスト記憶手段30に記憶されている音声データに対応するテキストデータとをマッチングするものである。
このマッチング手段33は、例えば、動的計画法(Dynamic Programming)によるマッチング手法(DPマッチング)により、単語または文字単位で認識結果とテキストデータとをマッチングすることで、認識結果に対応するテキストデータ(区間テキストデータ)を推定する。このとき、マッチング手段33は、類似の度合いとして、認識結果と推定した区間テキストデータとの間で、認識誤り、記号の挿入、書き換えを含んだ不一致率(matching error rate:MER)を算出する。
マッチング手段33は、不一致率が予め定めた閾値未満の区間テキストデータを、区切り位置で区切られた音声データ(区間音声データ)に対応するテキストデータとする。
そして、マッチング手段33は、区切り位置で区切った区間音声データと、マッチングした区間テキストデータとを対応付ける。
The matching means 33 matches the result of the voice recognition performed by the voice recognition means 32 with text data corresponding to the voice data stored in the voice text storage means 30 .
The matching means 33 estimates text data (section text data) corresponding to the recognition result by matching the recognition result with the text data on a word or character basis, for example, by a dynamic programming matching method (DP matching). At this time, the matching means 33 calculates a matching error rate (MER) including recognition errors, symbol insertions, and rewritings between the recognition result and the estimated section text data as a degree of similarity.
The matching means 33 regards section text data having a mismatch rate less than a predetermined threshold as text data corresponding to the audio data separated at the separation positions (section audio data).
Then, the matching means 33 associates the section voice data separated at the separation positions with the matched section text data.

マッチング手段33は、対応付けた区間音声データと区間テキストデータとを、図示を省略した通信手段によって、ネットワークN,Nを介して、編集端末4に送信する。
なお、マッチング手段33は、認識結果との不一致率が予め定めた閾値未満の区間テキストデータについては、対応する区間音声データとともに、編集端末4に送信を行わないこととする。あるいは、マッチング手段33は、区間音声データとともに、区間テキストデータをNULLデータとして、編集端末4に送信することとしてもよい。
The matching means 33 transmits the associated section voice data and section text data to the editing terminal 4 via the networks N and N2 by means of communication means (not shown).
The matching means 33 does not transmit section text data whose mismatch rate with the recognition result is less than a predetermined threshold together with the corresponding section voice data to the editing terminal 4. Alternatively, the matching means 33 may transmit the section text data as NULL data together with the section voice data to the editing terminal 4.

以上説明したように構成することで、発話音声テキスト生成装置3は、音声データとテキストデータとから、発話ごとに対応付けた区間音声データと区間テキストデータとを学習データとして生成することができる。このとき、発話音声テキスト生成装置3は、音声データに含まれる発話音声である区間音声データを、時間のずれに関係なく字幕データに対応した区間テキストデータに対応付けることができる。
なお、発話音声テキスト生成装置3は、図示を省略したコンピュータを、前記した各手段として機能させるための発話音声テキスト生成プログラムで動作させることができる。
With the above-described configuration, the speech text generation device 3 can generate section speech data and section text data associated with each utterance as learning data from the speech data and text data. At this time, the speech text generation device 3 can associate the section speech data, which is the speech included in the speech data, with the section text data corresponding to the subtitle data regardless of time lag.
The speech text generation device 3 can operate a computer (not shown) using a speech text generation program for causing the computer to function as each of the above-mentioned means.

〔編集端末〕
編集端末4は、発話音声テキスト生成装置3で対応付けられた発話区間ごとの音声データ(区間音声データ)とテキストデータ(区間テキストデータ)とを修正するクライアント端末である。
編集端末4は、学習データ記憶手段40と、修正手段41と、を備える。
[Editing terminal]
The editing terminal 4 is a client terminal that corrects the voice data (section voice data) and the text data (section text data) for each speech section that are associated with each other by the speech text generation device 3 .
The editing terminal 4 includes a learning data storage means 40 and a correction means 41 .

学習データ記憶手段40は、発話音声テキスト生成装置3で生成された学習データである発話区間ごとの区間音声データと区間テキストデータとを対応付けて記憶するものである。この学習データ記憶手段40は、ハードディスク等の一般的な記憶媒体で構成することができる。
学習データ記憶手段40に記憶する区間音声データおよび区間テキストデータは、図示を省略した通信手段によって、ネットワークN,Nを介して、発話音声テキスト生成装置3から受信して記憶されたデータである。
The training data storage means 40 stores, in association with each other, section voice data and section text data for each speech section, which are the training data generated by the speech text generation device 3. The training data storage means 40 can be configured with a general storage medium such as a hard disk.
The section voice data and section text data stored in the learning data storage means 40 are data received and stored from the speech voice text generation device 3 via the networks N and N2 by communication means (not shown).

修正手段41は、操作者の操作によって、学習データ(区間音声データおよび区間テキストデータ)を修正するものである。
修正手段41は、図3に示すような編集画面G2を表示し、操作者の操作によって、区間音声データおよび区間テキストデータを修正する。
The correction means 41 corrects the learning data (section voice data and section text data) in response to an operation by an operator.
The modifying means 41 displays an editing screen G2 as shown in FIG. 3, and modifies the section voice data and the section text data in response to an operation by the operator.

図3では、編集画面G2を、区間音声データの区切り位置を修正する区切り位置修正画面g10と、区間テキストデータを修正するテキスト修正画面g11とで構成した例を示している。
区切り位置修正画面g10は、修正対象の区間音声データの音声波形wを、前後の区間音声データの音声波形wf,wbとともに時系列に表示するとともに、修正対象の区間音声データの前後の区切り位置pf,pbを表示する画面である。
区切り位置修正画面g10は、操作者のマウス等の操作により、区切り位置pf,pbを修正するインタフェースを有する。
また、区切り位置修正画面g10は、さらに、再生ボタンb1、停止ボタンb2、一時停止ボタンb3、10秒戻るボタンb4、10秒進むボタンb5を備え、操作者が所望する位置からの音声データの再生の指示を受け付けるインタフェースを有する。
FIG. 3 shows an example in which the editing screen G2 is configured with a delimiter position correction screen g10 for correcting the delimiter positions of the section voice data, and a text correction screen g11 for correcting the section text data.
The delimiter position correction screen g10 is a screen that displays the audio waveform w of the section audio data to be corrected in chronological order along with the audio waveforms wf, wb of the preceding and following section audio data, and also displays the delimiter positions pf, pb before and after the section audio data to be corrected.
The delimiter position correction screen g10 has an interface for correcting the delimiter positions pf and pb by the operator operating a mouse or the like.
The break position correction screen g10 further includes a play button b1, a stop button b2, a pause button b3, a 10 second back button b4, and a 10 second forward button b5, and has an interface that accepts instructions from the operator to play back audio data from a desired position.

テキスト修正画面g11は、修正対象の区間テキストデータを表示する画面である。
テキスト修正画面g11は、キーボード等の操作により、テキストデータを編集するインタフェースを有する。
また、編集画面G2は、修正対象を前の区間の文章(区間音声データ、区間テキストデータ)に切り替える戻るボタンb6、修正内容を保存して修正対象を次の区間に進める進むボタンb7、修正内容を保存せず、あるいは、修正を行わずに次の区間に進める進むボタンb8を備え、操作者が所望する修正対象の切り替えを行うインタフェースを有する。
The text correction screen g11 is a screen that displays the section text data to be corrected.
The text correction screen g11 has an interface for editing text data by operating a keyboard or the like.
In addition, the editing screen G2 has a back button b6 that switches the object to be corrected to the text of the previous section (section audio data, section text data), a forward button b7 that saves the correction content and advances the object to be corrected to the next section, and a forward button b8 that advances to the next section without saving the correction content or without making any corrections, and has an interface that allows the operator to switch the object to be corrected as desired.

図1に戻って、編集端末4の構成について説明を続ける。
修正手段41は、音声区切り修正手段410と、テキスト修正手段411と、を備える。
Returning to FIG. 1, the configuration of the editing terminal 4 will be further explained.
The correcting means 41 includes a voice segment correcting means 410 and a text correcting means 411 .

音声区切り修正手段410は、学習データ記憶手段40に記憶されている区間音声データの区切り位置を修正するものである。
音声区切り修正手段410は、図3に示した編集画面G2の区切り位置修正画面g10において、修正対象の区間音声データの音声波形wを、前後の区間音声データの音声波形wf,wbとともに時系列に表示する。
また、音声区切り修正手段410は、修正対象の区間音声データの区切り位置pf,pbを表示する。
The voice segment correction means 410 corrects the segment positions of the section voice data stored in the learning data storage means 40 .
The audio segment correction means 410 displays the audio waveform w of the section audio data to be corrected in chronological order together with the audio waveforms wf, wb of the preceding and following section audio data on the segment position correction screen g10 of the editing screen G2 shown in FIG.
Moreover, the audio segment correction means 410 displays the segment positions pf and pb of the audio data segment to be corrected.

音声区切り修正手段410は、再生ボタンb1、停止ボタンb2、一時停止ボタンb3、10秒戻るボタンb4、10秒進むボタンb5を操作者によって指示されることで、操作者が所望する位置からの音声データの再生、停止等を行う。これによって、操作者は、最適な音声データの区切り位置を判断することができる。
音声区切り修正手段410は、操作者の操作によって、例えば、マウス等で区切り位置pf,pbの線を左右にドラッグすることで、区切り位置pf,pbを修正する。
The audio segment correction means 410 plays or stops audio data from a position desired by the operator in response to an instruction from the play button b1, the stop button b2, the pause button b3, the 10-second back button b4, or the 10-second forward button b5. This allows the operator to determine the optimal segment position of the audio data.
The audio segmentation correction means 410 corrects the segmentation positions pf and pb by the operator dragging the lines of the segmentation positions pf and pb to the left and right with, for example, a mouse.

なお、音声区切り修正手段410は、前の区切り位置pfを後ろ修正する、あるいは、後の区切り位置pbを前に修正する場合、修正対象の区間音声データの音声波形wにおいて指定された位置で音声波形を削除すればよい。また、音声区切り修正手段410は、前の区切り位置pfをさらに前に修正する、あるいは、後の区切り位置pbをさらに後ろに修正する場合、修正対象の区間音声データの音声波形wに前後の区間音声データの音声波形の一部を付加すればよい。 When the audio segment correction means 410 corrects the previous segment position pf to be moved backward or the next segment position pb to be moved forward, it only has to delete the audio waveform at the specified position in the audio waveform w of the section audio data to be corrected. When the audio segment correction means 410 corrects the previous segment position pf to be further forward or the next segment position pb to be further backward, it only has to add a part of the audio waveform of the previous or next section audio data to the audio waveform w of the section audio data to be corrected.

テキスト修正手段411は、学習データ記憶手段40に記憶されている区間テキストデータを修正するものである。
テキスト修正手段411は、図3に示した編集画面G2のテキスト修正画面g11に、修正対象の区間テキストデータを表示する。
そして、テキスト修正手段411は、操作者のキーボード等の操作によって、区間テキストデータを一般的なテキスト編集によって修正する。
修正手段41は、図3に示した編集画面G2の戻るボタンb6、進むボタンb8をマウス等の入力手段によって押下されることで、修正対象を時系列で前または後に変更する。
また、修正手段41は、進むボタンb7をマウス等の入力手段によって押下されることで、修正した区間音声データおよび区間テキストデータで、学習データ記憶手段40のデータを更新する。
The text correcting means 411 corrects the section text data stored in the learning data storage means 40 .
The text correction means 411 displays the section text data to be corrected on the text correction screen g11 of the editing screen G2 shown in FIG.
Then, the text correction means 411 corrects the section text data by general text editing in response to the operator's operation of the keyboard or the like.
The correction means 41 changes the object of correction to the previous or next in the chronological order when the back button b6 or the forward button b8 on the editing screen G2 shown in FIG. 3 is pressed by an input means such as a mouse.
Furthermore, when a forward button b7 is pressed by input means such as a mouse, the correcting means 41 updates the data in the learning data storage means 40 with the corrected section voice data and section text data.

以上説明したように、学習データ生成システム100は、字幕付きデータ(放送データ)から、音声合成または音声認識に用いるDNNのモデルを学習するための発話単位の音声データ(区間音声データ)およびその音声データに対応するテキストデータ(区間テキストデータ)を学習データとして生成することができる。
なお、学習データ生成システム100において、編集端末4は必ずしも必須構成ではない。しかし、学習データの精度を高める点において、編集端末4を備えることが好ましい。
また、学習データ生成システム100は、アップロード端末2と、発話音声テキスト生成装置3と、編集端末4と、を一体化した発話音声テキスト生成装置として構成してもよい。
As described above, the training data generation system 100 can generate training data from subtitled data (broadcast data), in the form of utterance-based voice data (section voice data) for training a DNN model used for voice synthesis or voice recognition, and text data corresponding to that voice data (section text data).
The editing terminal 4 is not necessarily a required component of the training data generation system 100. However, it is preferable to provide the editing terminal 4 in terms of improving the accuracy of the training data.
Furthermore, the training data generation system 100 may be configured as a speech text generation device that integrates the upload terminal 2, the speech text generation device 3, and the editing terminal 4.

<学習データ生成システムの動作>
次に、図4を参照(構成については適宜図1参照)して、参考例の実施形態に係る学習データ生成システム100の動作(発話音声テキスト生成方法)について説明する。
なお、字幕付きデータ記憶装置1には、複数の発話音声からなる音声データとその音声データに対応する字幕データとを含んだ字幕付きデータが予め記憶されているものとする。
<Operation of the learning data generation system>
Next, the operation of the training data generation system 100 (a method for generating spoken voice text) according to the embodiment of the reference example will be described with reference to FIG. 4 (for the configuration, refer to FIG. 1 as appropriate).
It is assumed that the subtitled data storage device 1 stores subtitled data in advance, the subtitled data including audio data consisting of a plurality of spoken voices and subtitle data corresponding to the audio data.

ステップS1において、アップロード端末2は、字幕付きデータを取得する。ここでは、アップロード端末2は、字幕付きデータ記憶装置1から、ファイル選択手段20によって、操作者が選択した字幕付きデータを取得する。あるいは、アップロード端末2は、放送データ受信手段22によって、放送データを受信し、指定されたチャンネルに対応するストリームデータを抽出する。 In step S1, the upload terminal 2 acquires subtitled data. Here, the upload terminal 2 acquires subtitled data selected by the operator from the subtitled data storage device 1 using the file selection means 20. Alternatively, the upload terminal 2 receives broadcast data using the broadcast data receiving means 22 and extracts stream data corresponding to the specified channel.

ステップS2において、アップロード端末2は、字幕付きデータから、音声データとテキストデータ(字幕データ)とを分離する。
ステップS3において、アップロード端末2は、分離した音声データとテキストデータとを、発話音声テキスト生成装置3にアップロードする。
In step S2, the upload terminal 2 separates the audio data and the text data (subtitle data) from the subtitled data.
In step S3, the upload terminal 2 uploads the separated voice data and text data to the speech text generator 3.

ステップS4において、発話音声テキスト生成装置3は、ステップS3でアップロードされた音声データとテキストデータとを対応付けて音声テキスト記憶手段30に記憶する。
ステップS5において、発話音声テキスト生成装置3は、音声区切り検出手段31によって、複数の発話音声からなる音声データにおいて、発話ごとの音声データの区切り位置を検出する。
ステップS6において、発話音声テキスト生成装置3は、音声認識手段32によって、ステップS5で検出された区切り位置で区分される音声データである区間音声データごとに音声認識を行う。これによって、発話単位の音声データに対応する音声認識結果が生成される。
In step S4, the speech text generator 3 stores the speech data and text data uploaded in step S3 in the speech text storage means 30 in association with each other.
In step S5, the speech text generation device 3 detects, by the speech segmentation detection means 31, segmentation positions of the speech data for each utterance in the speech data consisting of a plurality of utterances.
In step S6, the speech text generator 3 performs speech recognition for each section of speech data, which is speech data divided by the delimiter positions detected in step S5, by the speech recognition means 32. This generates a speech recognition result corresponding to the speech data in units of utterances.

ステップS7において、発話音声テキスト生成装置3は、マッチング手段33によって、ステップS6で音声認識された区間音声データの認識結果と、複数の発話音声からなる音声データに対応付けられているテキストデータとをマッチングすることで、認識結果に対応するテキストデータ(区間テキストデータ)を推定する。
ステップS8において、発話音声テキスト生成装置3は、生成した学習データ(区間音声データ、区間テキストデータ)を編集端末4に送信し、編集端末4は、区間音声データと区間テキストデータとを対応付けて学習データ記憶手段40に記憶する。
In step S7, the speech text generation device 3 estimates text data (section text data) corresponding to the recognition result by using the matching means 33 to match the recognition result of the section speech data generated in step S6 with text data corresponding to the speech data consisting of multiple speech sounds.
In step S8, the speech text generation device 3 transmits the generated training data (section speech data, section text data) to the editing terminal 4, and the editing terminal 4 stores the section speech data and the section text data in association with each other in the training data storage means 40.

ステップS9において、編集端末4は、修正手段41によって、区間音声データの区切り位置と、区間テキストデータの文字列とを、操作者の判断により必要に応じて修正する。
ここでは、編集端末4は、音声区切り修正手段410によって、区間音声データの区切り位置を修正し、テキスト修正手段411によって、区間テキストデータを修正する。
以上の動作によって、学習データ生成システム100は、音声合成または音声認識に用いるDNNのモデルを学習するための学習データを生成することができる。
In step S9, the editing terminal 4 uses the modifying means 41 to modify the delimiter positions of the section voice data and the character strings of the section text data as required at the discretion of the operator.
Here, the editing terminal 4 uses the voice segment correction means 410 to correct segment positions of the section voice data, and uses the text correction means 411 to correct the section text data.
Through the above operations, the training data generation system 100 can generate training data for training a DNN model used for speech synthesis or speech recognition.

本発明の実施形態≫
<学習データ生成システムの構成>
次に、図5を参照して、本発明の実施形態に係る学習データ生成システム100Bの構成について説明する。
以下の参考文献に記載されている音声合成方式において、音声合成に用いるDNNは、音声データと、それに対応する読み仮名および韻律記号とを学習データとして学習したものである。
(参考文献)栗原清、清山信正、熊野正、今井篤、“読み仮名と韻律記号を入力とする日本語End-to-End 音声合成方式の検討”、日本音響学会秋季研究発表会、1-4-1、Sep.2018.
この参考文献では、学習データとして、漢字仮名交じり文や片仮名のみのテキストデータよりも、読み仮名および韻律記号を用いる方が、音声合成結果の品質が向上する旨が記載されている。
<Embodiments of the present invention >
<Configuration of the learning data generation system>
Next, a configuration of a training data generation system 100B according to an embodiment of the present invention will be described with reference to FIG.
In the speech synthesis method described in the following reference document, the DNN used for speech synthesis is trained using speech data and the corresponding kana pronunciation and prosodic symbols as training data.
(References) Kiyoshi Kurihara, Nobumasa Kiyoyama, Tadashi Kumano, Atsushi Imai, "Study on Japanese End-to-End Speech Synthesis Method Using Reading Kana and Prosodic Symbols as Input," Acoustical Society of Japan Autumn Meeting, 1-4-1, Sep. 2018.
This reference document describes that the quality of speech synthesis results is improved by using pronunciation kana and prosodic symbols as training data rather than text data containing a mixture of kanji and kana or only katakana.

図5に示す学習データ生成システム100Bは、参考文献に記載の手法に対しても学習データを生成することを可能にするシステムである。
学習データ生成システム100Bは、音声合成または音声認識に用いるディープニューラルネットワーク(DNN)のモデルを学習するための発話単位の音声データおよびその音声データに対応する読み仮名および韻律記号を学習データとして生成するものである。
The training data generation system 100B shown in FIG. 5 is a system that makes it possible to generate training data for the techniques described in the reference documents.
The training data generation system 100B generates utterance-unit speech data and pronunciation and prosodic symbols corresponding to the speech data as training data for training a deep neural network (DNN) model used for speech synthesis or speech recognition.

ここで、図6および図7を参照して、学習データ生成システム100Bが生成する読み仮名および韻律記号について説明する。
図6は、「こんにちは正午のニュースです」(漢字仮名交じり文)に対応する読み仮名と韻律記号とを記載した例を示している。
ここでは、「コンニチワショーゴノニュースデス」が読み仮名で、読み仮名の途中や末尾に付加されている記号が韻律記号である。
なお、読み仮名は、
読みを表す文字であればよく、片仮名以外にも、平仮名、音素記号、発音記号、ローマ字等であってもよい。
韻律記号は、韻律を表す予め定めた文字であって、アクセント、句・フレーズの区切り、文末イントネーション、ポーズ等の位置や状態を示す記号である。
Here, the pronunciation and prosodic symbols generated by the training data generation system 100B will be described with reference to FIG. 6 and FIG.
FIG. 6 shows an example in which the reading kana and prosodic symbols corresponding to "Konichiwa Shogo no News Desu" (a mixed kanji and kana sentence) are written.
Here, "Konnichiwa Shogo no Niyusu desu" is the pronunciation, and the symbols added in the middle or at the end of the pronunciation are prosodic symbols.
The pronunciation is as follows:
Any characters that represent readings may be used, and other than katakana, hiragana, phonetic symbols, pronunciation symbols, roman letters, etc. may be used.
The prosodic symbols are predetermined characters that represent prosody, and are symbols that indicate the position or state of accents, divisions of phrases and sentences, intonation at the end of a sentence, pauses, and the like.

図7に韻律記号の例を示す。アクセント位置の指定には、アクセント上昇を表す韻律記号「″」や、アクセント下降を表す韻律記号「&」が用いられる。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「#」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「(」や、疑問の文末を表す韻律記号「?」が用いられる。ポーズの指定には韻律記号「_」が用いられる。なお、これらの韻律記号は例であり、他の記号を用いてもよい。また、これらの例では、韻律記号を1字で表しているが、2字以上で表してもよい。また、図7に示す韻律に加えて他の韻律の韻律記号を用いることもできる。 Figure 7 shows examples of prosodic symbols. To specify the position of the accent, the prosodic symbol "" representing an accent rise and the prosodic symbol "&" representing an accent fall are used. To specify the division of a phrase or phrase, the prosodic symbol "#" representing the division of an accent phrase is used. To specify the intonation at the end of a sentence, the prosodic symbol "(" representing the normal end of a sentence and the prosodic symbol "?" representing the end of a question are used. To specify a pause, the prosodic symbol "_" is used. Note that these prosodic symbols are only examples, and other symbols may be used. Also, in these examples, the prosodic symbol is represented by one character, but it may be represented by two or more characters. Also, in addition to the prosodic symbols shown in Figure 7, prosodic symbols of other prosody may be used.

図5に戻って説明を続ける。
学習データ生成システム100Bは、字幕付きデータ記憶装置1と、アップロード端末2と、発話音声テキスト生成装置3Bと、編集端末4と、を備える。
字幕付きデータ記憶装置1、アップロード端末2および編集端末4は、図1で説明した構成と同じであるため、説明を省略する。
Returning to FIG.
The training data generation system 100B includes a subtitled data storage device 1, an upload terminal 2, a speech voice text generation device 3B, and an editing terminal 4.
The subtitled data storage device 1, the upload terminal 2, and the editing terminal 4 have the same configuration as those described in FIG. 1, and therefore a description thereof will be omitted.

〔発話音声テキスト生成装置〕
発話音声テキスト生成装置3Bは、複数の発話音声からなる音声データとその音声データに対応するテキストデータとから、発話区間の音声データ(区間音声データ)と、その音声データに対応するテキストデータである読み仮名および韻律記号とを学習データとして生成するサーバである。なお、読み仮名および韻律記号を、PLP(Symbols of phoneme and linguistic phonological features)データと記載する場合がある。
[Speech to text generator]
The speech text generation device 3B is a server that generates speech data of an utterance section (section speech data) and reading kana and prosodic symbols, which are text data corresponding to the speech data, as learning data from speech data consisting of a plurality of utterances and text data corresponding to the speech data. Note that the reading kana and prosodic symbols may be referred to as PLP (Symbols of phoneme and linguistic phonological features) data.

発話音声テキスト生成装置3Bは、音声テキスト記憶手段30と、音声区切り検出手段31と、音声認識手段32と、マッチング手段33と、コンテキスト情報生成手段34と、変換手段35と、を備える。
音声テキスト記憶手段30、音声区切り検出手段31、音声認識手段32およびマッチング手段33は、図1で説明した構成と同じであるため、説明を省略する。なお、ここでは、マッチング手段33は、区間テキストデータをコンテキスト情報生成手段34に出力し、区間音声データを変換手段35に出力することとする。
The spoken voice text generation device 3B includes a voice text storage means 30, a voice segment detection means 31, a voice recognition means 32, a matching means 33, a context information generation means 34, and a conversion means 35.
The voice text storage means 30, the voice segment detection means 31, the voice recognition means 32 and the matching means 33 have the same configuration as those described in Fig. 1, and therefore the description thereof will be omitted. Note that, in this embodiment, the matching means 33 outputs section text data to the context information generation means 34 and outputs section voice data to the conversion means 35.

コンテキスト情報生成手段34は、マッチング手段33で区間音声データに対応付けられた区間テキストデータ(漢字仮名交じり文)から、コンテキスト情報(コンテキストラベルデータ)を生成するものである。
コンテキスト情報は、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとの情報(コンテキスト)を、予め定めた指標(ラベル)ごとに表した情報である。
The context information generating means 34 generates context information (context label data) from the section text data (a mixture of kanji and kana text) associated with the section voice data by the matching means 33 .
Context information is information that represents information (context) for each phoneme, which includes at least phoneme information and accent phrase information that indicates characteristics related to the accent phrase in which the phoneme is included and the accent phrases adjacent to the accent phrase, for each predetermined index (label).

図8および図9にコンテキスト情報の各ラベルの特徴を示す。nは、先頭の音素を1番目としたときの音素の順番を表す。ラベルp、a~kは、n番目の音素を現在位置としたときの特徴を示す。
は現在(n番目)の音素を中心とした音素の並びを表す。pn,1は2つ前の音素(先先行音素)、pn,2は1つ前の音素(先行音素)、pn,3は現在(n番目)の音素、pn,4は1つ後の音素(後続音素)、pn,5は2つ後の音素(後後続音素)を表す。aは、アクセント型と位置に関する情報を示す。bは、先行単語の品詞、活用形および活用型に関する情報を示す。cは、現在の単語の品詞、活用形および活用型に関する情報を示す。dは、後続単語の品詞、活用形および活用型に関する情報を示す。eは、先行アクセント句の情報を示す。fは、現在のアクセント句の情報を示す。gは、後続アクセント句の情報を示す。hは、先行呼気段落の情報を示す。iは、現在の呼気段落の情報を示す。jは、後続呼気段落の情報を示す。kは、発話における呼気段落、アクセント句およびモーラ(音の分節)の数を示す。
8 and 9 show the characteristics of each label of the context information. n indicates the order of the phonemes when the first phoneme is numbered 1. The labels p n , a n to k n indicate the characteristics when the nth phoneme is the current position.
p n represents a sequence of phonemes centered on the current (nth) phoneme. p n,1 represents the phoneme two steps back (first preceding phoneme), p n,2 represents the phoneme one step back (preceding phoneme), p n,3 represents the current (nth) phoneme, p n,4 represents the phoneme one step back (subsequent phoneme), and p n,5 represents the phoneme two steps back (subsequent phoneme). a n represents information on accent type and position. b n represents information on the part of speech, inflection form, and inflection type of the preceding word. c n represents information on the part of speech, inflection form, and inflection type of the current word. d n represents information on the part of speech, inflection form, and inflection type of the subsequent word. e n represents information on the preceding accent phrase. f n represents information on the current accent phrase. g n represents information on the subsequent accent phrase. h n represents information on the preceding breath paragraph. i n represents information on the current breath paragraph. j n indicates information on the following breath group, and k n indicates the number of breath groups, accent phrases, and moras (sound segments) in the utterance.

このように、コンテキスト情報は、発話における音素の情報、当該音素の前後の音素の情報、当該音素のアクセント句情報等を含む。アクセント句情報は、発話において現在の音素が含まれるアクセント句に関する特徴、および、当該アクセント句に隣接するアクセント句に関する特徴等を示す。なお、位置は、現在の音素の位置を”0”として、現在の音素よりも前の位置は負の値により、現在の音素のよりも後の位置は正の値により表される。
図10に、コンテキスト情報の形式例を示す。図10のコンテキスト情報Lは、音素列の中のn番目の音素の情報を示す。
In this way, the context information includes information on the phoneme in the utterance, information on the phonemes before and after the phoneme, accent phrase information on the phoneme, etc. The accent phrase information indicates features related to the accent phrase in the utterance in which the current phoneme is included, and features related to the accent phrase adjacent to the accent phrase, etc. The position is represented by taking the position of the current phoneme as "0", with positions before the current phoneme being represented by negative values and positions after the current phoneme being represented by positive values.
An example of the format of the context information is shown in Fig. 10. Context information Ln in Fig. 10 indicates information on the n-th phoneme in the phoneme string.

図5に戻って説明を続ける。
コンテキスト情報生成手段34は、区間テキストデータ(漢字仮名交じり文)から、音素ごとに、図10に示すコンテキスト情報L(n=1~N,N:音素数)を生成する。
漢字仮名交じり文のテキストデータからコンテキスト情報を生成する手法は、一般的な手法を用いればよい。例えば、参考文献「“Open JTalk”,[online],[2020年3月6日検索],インターネット<http://open-jtalk.sourceforge.net/>」に記載の技術を用いることができる。この技術の手法は、形態素解析の機能とアクセント辞典の機能やその他の言語処理の機能を持ち、漢字仮名交じり文からコンテキストラベルの形式で各ラベルに情報を反映する。
コンテキスト情報生成手段34は、生成した音素列のコンテキスト情報を、変換手段35に出力する。
Returning to FIG.
The context information generating means 34 generates context information L n (n=1 to N, N: number of phonemes) shown in FIG. 10 for each phoneme from the section text data (a mixture of kanji and kana text).
A common method can be used to generate context information from text data of mixed kanji and kana sentences. For example, the technology described in the reference "Open JTalk, [online], [searched March 6, 2020], Internet <http://open-jtalk.sourceforge.net/>" can be used. This technology has a morphological analysis function, an accent dictionary function, and other language processing functions, and reflects information from the mixed kanji and kana sentences in the form of context labels to each label.
The context information generating means 34 outputs the generated context information of the phoneme string to the converting means 35 .

変換手段35は、コンテキスト情報生成手段34で生成された音素列のコンテキスト情報を、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含むテキストデータ(第2の区間テキストデータ)に変換するものである。
ここでは、変換手段35は、コンテキスト情報を、PLPデータ(読み仮名および韻律記号)に変換する。
変換手段35は、音素列のコンテキスト情報L,…,L,…,L(N:音素数)から、pn,3(n=1~N,N:音素数)の音素(図8参照)を順番に抽出して、音素列を生成する。
そして、変換手段35は、予め定めた条件に合致したとき、pn,3の後ろに、予め定めた韻律記号を挿入する。
具体的には、変換手段35は、図11に示す条件(1)~(6)に合致する場合(適宜図8,図9参照)、所定の韻律記号を挿入する。
The conversion means 35 converts the context information of the phoneme string generated by the context information generation means 34 into text data (second section text data) including characters representing the reading of the order in which the phonemes appear and predetermined characters representing the rhythm.
Here, the conversion means 35 converts the context information into PLP data (reading kana and prosodic symbols).
The conversion means 35 sequentially extracts phonemes p n,3 (n=1 to N, N: number of phonemes) (see FIG. 8) from context information L 1 , ..., L n , ..., L N (N: number of phonemes) of the phoneme string to generate a phoneme string.
Then, the conversion means 35 inserts a predetermined prosodic symbol after p n,3 when a predetermined condition is met.
Specifically, the conversion means 35 inserts a predetermined prosodic symbol when the conditions (1) to (6) shown in FIG. 11 are met (see FIG. 8 and FIG. 9 as appropriate).

条件(1)は、コンテキスト情報Lのan,3=1、かつ、コンテキスト情報Ln+1のan+1,2=1という条件である。an,3は、現在のアクセント句における現在のモーラの後ろからの位置を意味する。つまり、an,3=1とは、現在のモーラ位置が現在のアクセント句内において最も後ろであることを示す。an,2は、現在のアクセント句における現在のモーラの先頭からの位置を意味する。つまり、an+1,2=1とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。
この条件(1)を満たす場合、変換手段35は、音素pn,3の後ろに、アクセント句の区切りを示す韻律記号(“#”)を挿入する。
Condition (1) is a condition where a n,3 = 1 in the context information L n and a n+1,2 = 1 in the context information L n+1 . a n,3 means the position from the end of the current mora in the current accent phrase. In other words, a n,3 = 1 indicates that the current mora position is the endmost position in the current accent phrase. a n,2 means the position from the beginning of the current mora in the current accent phrase. In other words, a n+1,2 = 1 indicates that the current mora position is the beginning of the current accent phrase when the position of the following phoneme is the current position.
If this condition (1) is satisfied, the conversion means 35 inserts a prosodic symbol ("#") indicating the delimitation of the accent phrase after the phoneme pn ,3 .

条件(2)は、コンテキスト情報Lのan,1=0、かつ、an,2≠fn,1という条件である。an,1=0は、現在のアクセント句においてアクセント型(アクセント核の位置)と現在のモーラ位置とが一致することを示す。an,2≠fn,1は、現在のアクセント句のモーラ数と現在のアクセント句における現在のモーラの先頭からの位置とが不一致であることを示す。つまり、コンテキスト情報Lの音素は、現在のアクセント句における最後のモーラではないことを示す。
この条件(2)を満たす場合、変換手段35は、音素pn,3の後ろに、アクセント下降を示す韻律記号(「&」)を挿入する。
Condition (2) is a condition that a n,1 = 0 and a n,2 ≠ f n,1 of the context information L n . a n,1 = 0 indicates that the accent type (position of the accent kernel) and the current mora position in the current accent phrase match. a n,2 ≠ f n,1 indicates that the number of moras in the current accent phrase and the position from the beginning of the current mora in the current accent phrase do not match. In other words, it indicates that the phoneme of the context information L n is not the last mora in the current accent phrase.
If this condition (2) is met, the conversion means 35 inserts a prosodic symbol ("&") indicating a falling accent after the phoneme pn,3 .

条件(3)は、コンテキスト情報Lのan,2=1、かつ、コンテキスト情報Ln+1のan+1,2=2という条件である。an,2は、現在のアクセント句における現在のモーラの先頭からの位置を表す。an,2=1とは、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。また、an+1,2=2とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において2番目であることを示す。
この条件(3)を満たす場合、変換手段35は、音素pn,3の後ろに、アクセント上昇を示す韻律記号(「”」)を挿入する。
Condition (3) is a condition where a n,2 = 1 in the context information L n and a n+1,2 = 2 in the context information L n+1 . a n,2 indicates the position of the current mora from the beginning of the current accent phrase. a n,2 = 1 indicates that the current mora position is the beginning in the current accent phrase. Also, a n+1,2 = 2 indicates that the current mora position is the second in the current accent phrase when the position of the following phoneme is the current position.
If this condition (3) is satisfied, the conversion means 35 inserts a prosodic symbol ("") indicating an accent rise after the phoneme pn,3 .

条件(4)は、コンテキスト情報Lの音素pn,3がポーズを表す「pau」であるという条件である。
この条件(4)を満たす場合、変換手段35は、音素pn,3の「pau」を削除し、ポーズを表す韻律記号(「_」)を挿入する。
Condition (4) is a condition that the phoneme p n,3 of the context information L n is “pau”, which indicates a pause.
If this condition (4) is met, the conversion means 35 deletes "pau" from the phoneme pn,3 and inserts a prosodic symbol ("_") indicating a pause.

条件(5)は、コンテキスト情報Lの音素pn,3が無音を表す「sil」であり、かつ、n=Nであり、かつ、en,3=0であるという条件である。n=Nとは、現在の音素が発話における最後の音素であることを示す。en,3=0とは、文末イントネーションが疑問形ではない通常のイントネーションであることを示す。
この条件(5)を満たす場合、変換手段35は、音素pn,3の「sil」を削除し、文末(通常)を表す韻律記号(「(」)を挿入する。
Condition (5) is a condition that the phoneme p n,3 of the context information L n is "sil" representing silence, n=N, and e n,3 =0. n=N indicates that the current phoneme is the last phoneme in the utterance. e n,3 =0 indicates that the intonation at the end of the sentence is a normal intonation that is not a question.
If this condition (5) is satisfied, the conversion means 35 deletes the "sil" of the phoneme pn,3 and inserts the prosodic symbol ("(") which indicates the end of the sentence (normal).

条件(6)は、コンテキスト情報Lの音素pn,3が無音を表す「sil」であり、かつ、n=Nであり、かつ、en,3=1であるという条件である。n=Nとは、現在の音素が発話における最後の音素であることを示す。en,3=1とは、文末イントネーションが疑問形のイントネーションであることを示す。
この条件(6)を満たす場合、変換手段35は、音素pn,3の「sil」を削除し、文末(疑問)を表す韻律記号(「?」)を挿入する。
Condition (6) is that the phoneme pn,3 of the context information Ln is "sil" representing silence, n=N, and e n,3 =1. n=N indicates that the current phoneme is the last phoneme in the utterance. e n,3 =1 indicates that the final intonation is an interrogative intonation.
If this condition (6) is met, the conversion means 35 deletes the "sil" of the phoneme pn,3 and inserts a prosodic symbol ("?") indicating the end of the sentence (a question).

これによって、変換手段35は、図12に示すように、コンテキスト情報L,…,L,…,L(N:音素数)を、音素列p1,3,p2,3,…,pN,3に韻律記号を挿入したテキストデータであるPLPデータ(PLP)に変換する。
なお、ここでは、PLPデータの読み仮名を音素記号(p1,3等を示す音素記号)で表した例で示しているが、変換手段35は、音素記号を、平仮名、片仮名、発音記号、ローマ字等に変換してもよい。片仮名に変換した場合、図6に示したPLPデータとなる。
As a result, the conversion means 35 converts the context information L1 , ..., Ln , ..., LN (N: number of phonemes) into PLP data (PLP N ), which is text data in which prosodic symbols are inserted into a phoneme sequence p1,3 , p2,3 , ..., pN ,3, as shown in Figure 12.
In this example, the reading of the PLP data is expressed by phoneme symbols (phoneme symbols indicating p1 , 3 , etc.), but the conversion means 35 may convert the phoneme symbols into hiragana, katakana, phonetic symbols, roman letters, etc. When converted into katakana, the PLP data becomes as shown in FIG.

図5に戻って説明を続ける。
変換手段35は、マッチング手段33で区切られた区間音声データとその区間に対応するPLPデータである区間PLPデータ(第2の区間テキストデータ)とを、図示を省略した通信手段によって、ネットワークN,Nを介して、編集端末4に送信する。
Returning to FIG.
The conversion means 35 transmits the section audio data separated by the matching means 33 and the section PLP data (second section text data) which is the PLP data corresponding to that section, to the editing terminal 4 via networks N and N2 using a communication means not shown.

以上説明したように構成することで、発話音声テキスト生成装置3Bは、音声データとテキストデータとから、発話ごとに対応付けた区間音声データと区間PLPデータとを学習データとして生成することができる。このとき、発話音声テキスト生成装置3Bは、音声データに含まれる発話音声である区間音声データを、時間のずれに関係なく字幕データに対応した区間PLPデータに対応付けることができる。
なお、発話音声テキスト生成装置3Bは、図示を省略したコンピュータを、前記した各手段として機能させるための学習宇データ生成プログラムで動作させることができる。
With the above-described configuration, the speech text generation device 3B can generate section speech data and section PLP data associated with each utterance as learning data from the speech data and text data. At this time, the speech text generation device 3B can associate the section speech data, which is the speech included in the speech data, with the section PLP data corresponding to the subtitle data regardless of the time lag.
The speech text generation device 3B can be operated by a learning data generation program for causing a computer (not shown) to function as each of the above-mentioned means.

学習データ生成システム100Bでは、編集端末4は、発話区間ごとの音声データ(区間音声データ)とテキストデータ(PLPデータ)とを学習データ記憶手段40に記憶する。そして、編集端末4は、図13に示すように、編集画面G2のテキスト修正画面g11に、区間PLPデータを表し、修正を行う。
なお、発話音声テキスト生成装置3Bは、区間音声データと区間PLPデータとともに、区間テキストデータを編集端末4に送信することとしてもよい。
この場合、編集端末4は、修正手段41によって、図14に示すように編集画面G2Bを表示し、区間テキストデータと区間PLPデータとを修正対象とることができる。
図14の例では、テキスト修正手段411が、テキスト修正画面を2つ(g11a,g11b)表示し、テキスト修正画面g11aにおいて区間テキストデータを修正し、テキスト修正画面g11bにおいて区間PLPデータを修正すればよい。
In the learning data generation system 100B, the editing terminal 4 stores voice data (section voice data) and text data (PLP data) for each speech section in the learning data storage means 40. Then, as shown in Fig. 13, the editing terminal 4 displays the section PLP data on a text correction screen g11 of the editing screen G2 and performs correction.
The speech text generation device 3B may transmit the section text data to the editing terminal 4 together with the section voice data and the section PLP data.
In this case, the editing terminal 4 displays the editing screen G2B as shown in FIG. 14 by the modifying means 41, and the section text data and the section PLP data can be subject to modification.
In the example of FIG. 14, the text correction means 411 displays two text correction screens (g11a, g11b), and the section text data is corrected on the text correction screen g11a, and the section PLP data is corrected on the text correction screen g11b.

<学習データ生成システムの動作>
次に、図15を参照(構成については適宜図5参照)して、本発明の実施形態に係る学習データ生成システム100Bの動作(発話音声テキスト生成方法)について説明する。
なお、ステップS1からS7までの動作は、図4で説明した学習データ生成システム100と同じ動作であるため説明を省略する。
<Operation of the learning data generation system>
Next, the operation of the training data generation system 100B (a method for generating spoken voice text) according to an embodiment of the present invention will be described with reference to FIG. 15 (for the configuration, refer to FIG. 5 as appropriate).
The operations from steps S1 to S7 are the same as those of the learning data generation system 100 described with reference to FIG. 4, and therefore will not be described here.

ステップS7Aにおいて、発話音声テキスト生成装置3Bは、コンテキスト情報生成手段34によって、ステップS7で区間音声データに対応付けられた区間テキストデータ(漢字仮名交じり文)に対して、形態素解析および言語解析を行うことで、区間テキストデータから、音素ごとのコンテキスト情報(コンテキストラベルデータ)を生成する。
ステップS7Bにおいて、発話音声テキスト生成装置3Bは、変換手段35によって、ステップ7Aで生成されたコンテキスト情報から音素列を抽出するとともに、図11に示した条件に従って、韻律記号を付加することで、区間音声データに対応した音素列のコンテキスト情報をPLPデータ(区間PLPデータ;第2の区間テキストデータ)に変換する。
In step S7A, the speech text generation device 3B uses the context information generation means 34 to perform morphological analysis and linguistic analysis on the section text data (mixed kanji and kana sentences) associated with the section speech data in step S7, thereby generating context information (context label data) for each phoneme from the section text data.
In step S7B, the speech text generation device 3B extracts a phoneme string from the context information generated in step 7A using the conversion means 35, and adds prosodic symbols in accordance with the conditions shown in FIG. 11 to convert the context information of the phoneme string corresponding to the section speech data into PLP data (section PLP data; second section text data).

ステップ8Aにおいて、発話音声テキスト生成装置3Bは、生成した学習データ(区間音声データ、区間PLPデータ)を編集端末4に送信し、編集端末4は、区間音声データと区間テキストデータとを対応付けて学習データ記憶手段40に記憶する。
ステップS9Bにおいて、編集端末4は、修正手段41によって、区間音声データの区切り位置と、区間PLPデータの文字列とを、操作者の判断により必要に応じて修正する。
ここでは、編集端末4は、音声区切り修正手段410によって、区間音声データの区切り位置を修正し、テキスト修正手段411によって、区間PLPデータを修正する。
以上の動作によって、学習データ生成システム100Bは、音声合成または音声認識に用いるDNNのモデルを学習するための学習データを生成することができる。
In step 8A, the speech text generation device 3B transmits the generated training data (section speech data, section PLP data) to the editing terminal 4, and the editing terminal 4 stores the section speech data and section text data in association with each other in the training data storage means 40.
In step S9B, the editing terminal 4 uses the modifying means 41 to modify the delimiter positions of the section audio data and the character strings of the section PLP data, as necessary, according to the operator's decision.
Here, the editing terminal 4 uses the voice segment correction means 410 to correct segment positions of the section voice data, and uses the text correction means 411 to correct the section PLP data.
Through the above operations, the training data generation system 100B can generate training data for training a DNN model used for speech synthesis or speech recognition.

100,100B 学習データ生成システム
1 字幕付きデータ記憶装置
2 アップロード端末
20 ファイル選択手段
21 ファイル分離手段(分離手段)
22 放送データ受信手段
23 放送データ分離手段(分離手段)
3,3B 発話音声テキスト生成装置
30 音声テキスト記憶手段
31 音声区切り検出手段
32 音声認識手段
33 マッチング手段
34 コンテキスト情報生成手段
35 変換手段
4 編集端末
40 学習データ記憶手段
41 修正手段
410 音声区切り修正手段
411 テキスト修正手段
100, 100B Learning data generation system 1 Subtitled data storage device 2 Upload terminal 20 File selection means 21 File separation means (separation means)
22 Broadcast data receiving means 23 Broadcast data separating means (separating means)
3, 3B Speech text generating device 30 Speech text storage means 31 Speech segment detection means 32 Speech recognition means 33 Matching means 34 Context information generation means 35 Conversion means 4 Editing terminal 40 Learning data storage means 41 Correction means 410 Speech segment correction means 411 Text correction means

Claims (6)

複数の発話音声からなる音声データから、発話ごとの区間音声データの区切り位置を検出する音声区切り検出手段と、
前記区間音声データごとに音声認識を行う音声認識手段と、
前記音声認識手段の認識結果と、前記音声データの発話内容であるテキストデータとをマッチングすることで、前記区間音声データの時間に対応する区間テキストデータを推定するマッチング手段と、
前記区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報を生成するコンテキスト情報生成手段と、
音素列の前記コンテキスト情報を、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含む第2の区間テキストデータに変換する変換手段と、
を備えることを特徴とする発話音声テキスト生成装置。
A voice segment detection means for detecting segment positions of section voice data for each utterance from voice data consisting of a plurality of utterances;
a voice recognition means for performing voice recognition for each of the section voice data;
a matching means for estimating section text data corresponding to a time of the section voice data by matching a recognition result of the voice recognition means with text data which is a spoken content of the voice data;
a context information generating means for generating, from the section text data, context information for each phoneme, the context information including at least information on the phoneme and accent phrase information indicating characteristics related to an accent phrase including the phoneme and an accent phrase adjacent to the accent phrase;
a conversion means for converting the context information of the phoneme string into second section text data including characters representing the pronunciation of the phonemes in the order of appearance and predetermined characters representing prosody;
A speech text generation device comprising:
複数の発話音声と前記発話音声に対応する字幕とを含んだ字幕付きデータから、前記音声データと、前記テキストデータとなる字幕データとを分離する分離手段をさらに備えることを特徴とする請求項1に記載の発話音声テキスト生成装置。 2. The speech text generation device according to claim 1, further comprising a separation means for separating the speech data and the subtitle data that becomes the text data from subtitled data including a plurality of speech sounds and subtitles corresponding to the speech sounds. 前記区間音声データの前記区切り位置を操作者の操作に基づいて修正する音声区切り修正手段をさらに備えることを特徴とする請求項1または請求項2に記載の発話音声テキスト生成装置。 3. The speech text generation device according to claim 1, further comprising a speech segment correction means for correcting the segment positions of the section speech data based on an operation by an operator. 前記区間テキストデータを操作者の操作に基づいて修正するテキスト修正手段をさらに備えることを特徴とする請求項1から請求項のいずれか一項に記載の発話音声テキスト生成装置。 4. The speech text generating device according to claim 1, further comprising a text correction unit that corrects the section text data based on an operation by an operator. コンピュータを、請求項1から請求項のいずれか一項に記載の発話音声テキスト生成装置として機能させるための発話音声テキスト生成プログラム。 A speech text generation program for causing a computer to function as the speech text generation device according to any one of claims 1 to 4 . 複数の発話音声からなる音声データから、発話ごとの区間音声データの区切り位置を音声区切り検出手段により検出するステップと、
前記区間音声データごとに音声認識手段により音声認識を行うステップと、
前記音声認識手段の認識結果と、前記音声データの発話内容であるテキストデータとを
マッチング手段によりマッチングすることで、前記区間音声データの時間に対応する区間テキストデータを推定するステップと、
前記区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報をコンテキスト情報生成手段により生成するステップと、
音素列の前記コンテキスト情報を、変換手段により、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含む第2の区間テキストデータに変換するステップと、
を含むことを特徴とする発話音声テキスト生成方法。
detecting a segmentation position of section voice data for each utterance from voice data consisting of a plurality of utterances by a voice segmentation detection means;
performing voice recognition for each of the section voice data by a voice recognition means;
a step of estimating section text data corresponding to a time of the section voice data by matching a recognition result of the voice recognition means with text data which is the spoken content of the voice data by a matching means;
generating, from the section text data, context information for each phoneme, the context information including at least information on the phoneme and accent phrase information indicating characteristics related to an accent phrase including the phoneme and an accent phrase adjacent to the accent phrase;
converting the context information of the phoneme string into second section text data including characters representing the pronunciation of the phonemes in the order of appearance and predetermined characters representing prosody by a conversion means;
A method for generating speech to text, comprising:
JP2020083244A 2020-05-11 2020-05-11 Speech text generation device, speech text generation program, and speech text generation method Active JP7481894B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020083244A JP7481894B2 (en) 2020-05-11 2020-05-11 Speech text generation device, speech text generation program, and speech text generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020083244A JP7481894B2 (en) 2020-05-11 2020-05-11 Speech text generation device, speech text generation program, and speech text generation method

Publications (2)

Publication Number Publication Date
JP2021179468A JP2021179468A (en) 2021-11-18
JP7481894B2 true JP7481894B2 (en) 2024-05-13

Family

ID=78511320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020083244A Active JP7481894B2 (en) 2020-05-11 2020-05-11 Speech text generation device, speech text generation program, and speech text generation method

Country Status (1)

Country Link
JP (1) JP7481894B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025413A (en) 2003-06-30 2005-01-27 Nec Corp Content processing device, content processing method, and program
JP2009130411A (en) 2007-11-20 2009-06-11 Nippon Hoso Kyokai <Nhk> Closed caption monitoring device and program
WO2018037956A1 (en) 2016-08-26 2018-03-01 ソニー株式会社 Information processing device and information processing method
JP2020030367A (en) 2018-08-24 2020-02-27 日本放送協会 Voice recognition result formatted model learning device and its program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025413A (en) 2003-06-30 2005-01-27 Nec Corp Content processing device, content processing method, and program
JP2009130411A (en) 2007-11-20 2009-06-11 Nippon Hoso Kyokai <Nhk> Closed caption monitoring device and program
WO2018037956A1 (en) 2016-08-26 2018-03-01 ソニー株式会社 Information processing device and information processing method
JP2020030367A (en) 2018-08-24 2020-02-27 日本放送協会 Voice recognition result formatted model learning device and its program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
栗原清 他,"ラベリング作業を必要としないsequence-to-sequence音響特徴量推定手法の有効性",情報処理学会研究報告,2019年11月29日,2019-SLP-130
清水渚佐 他,"語学学習番組を教材利用するための会話音声とテキストの対応付け",第11回情報科学技術フォーラム,2012年08月21日,pp.603-604

Also Published As

Publication number Publication date
JP2021179468A (en) 2021-11-18

Similar Documents

Publication Publication Date Title
CN111566655B (en) Multi-language text-to-speech synthesis method
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
JP4987623B2 (en) Apparatus and method for interacting with user by voice
CN110740275B (en) Nonlinear editing system
JP5246948B2 (en) Subtitle shift correction device, playback device, and broadcast device
JP7033478B2 (en) Speech synthesizer, speech model learning device and their programs
JP2012181358A (en) Text display time determination device, text display system, method, and program
CN110390928B (en) Method and system for training speech synthesis model of automatic expansion corpus
CN110781649A (en) Subtitle editing method and device, computer storage medium and electronic equipment
US11947924B2 (en) Providing translated subtitle for video content
CN110798733A (en) Subtitle generating method and device, computer storage medium and electronic equipment
JP2020012855A (en) Device and method for generating synchronization information for text display
JP4140745B2 (en) How to add timing information to subtitles
JP4436087B2 (en) Character data correction device, character data correction method, and character data correction program
JP5273844B2 (en) Subtitle shift estimation apparatus, subtitle shift correction apparatus, playback apparatus, and broadcast apparatus
US20210005204A1 (en) Recording medium recording program, information processing apparatus, and information processing method for transcription
JP7481894B2 (en) Speech text generation device, speech text generation program, and speech text generation method
JP4210723B2 (en) Automatic caption program production system
US20230317090A1 (en) Voice conversion device, voice conversion method, program, and recording medium
JP6849977B2 (en) Synchronous information generator and method for text display and voice recognition device and method
Sridhar et al. A hybrid approach for Discourse Segment Detection in the automatic subtitle generation of computer science lecture videos
JP5044791B2 (en) Subtitle shift estimation device, correction device, and playback device
KR102546555B1 (en) a translation system for a song
JP2003244539A (en) Consecutive automatic caption processing system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240426

R150 Certificate of patent or registration of utility model

Ref document number: 7481894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150