JP6849977B2 - Synchronous information generator and method for text display and voice recognition device and method - Google Patents

Synchronous information generator and method for text display and voice recognition device and method Download PDF

Info

Publication number
JP6849977B2
JP6849977B2 JP2019165402A JP2019165402A JP6849977B2 JP 6849977 B2 JP6849977 B2 JP 6849977B2 JP 2019165402 A JP2019165402 A JP 2019165402A JP 2019165402 A JP2019165402 A JP 2019165402A JP 6849977 B2 JP6849977 B2 JP 6849977B2
Authority
JP
Japan
Prior art keywords
reference symbol
text
matching
voice signal
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019165402A
Other languages
Japanese (ja)
Other versions
JP2021043338A (en
Inventor
鉄男 石川
鉄男 石川
正明 五十崎
正明 五十崎
浩司 浦部
浩司 浦部
Original Assignee
株式会社ソケッツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソケッツ filed Critical 株式会社ソケッツ
Priority to JP2019165402A priority Critical patent/JP6849977B2/en
Publication of JP2021043338A publication Critical patent/JP2021043338A/en
Application granted granted Critical
Publication of JP6849977B2 publication Critical patent/JP6849977B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

この発明は、テキスト表示用同期情報生成技術および音声認識技術に関し、より具体的には、歌詞および楽曲の間の同期情報を生成する歌詞用同期情報生成技術に関する。 The present invention relates to a text display synchronization information generation technique and a voice recognition technique, and more specifically to a lyrics synchronization information generation technique for generating synchronization information between lyrics and music.

音響データを再生する際に、これに関連するテキストを音響データの再生に同期させて表示させたい場合がある。例えば、楽曲コンテンツの再生に際してその音声部分に同期させて歌詞部分を表示またはハイライト表示することがある。また、ビデオコンテンツの再生に際して、音声部分に同期させてスクリプト(セリフ部分)を表示するという要請もある。 When playing back acoustic data, you may want to display the text related to this in synchronization with the playing of the acoustic data. For example, when playing music content, the lyrics part may be displayed or highlighted in synchronization with the audio part. There is also a request to display a script (line part) in synchronization with the audio part when playing back the video content.

ところで、楽曲データと歌詞データとが関連付けられた状態でコンテンツとして流通していない場合には、そのままでは、楽曲データの再生に同期させて歌詞を表示させることができず、このような場合には、歌詞用同期情報が別途必要になる。このような同期情報のデファクトスタンダードとして歌詞同期フォーマットLRCが知られている(https://en.wikipedia.org/wiki/LRC_(file_format))。図1(A)は歌詞同期フォーマットLRCに準拠したファイル(この歌詞はコンピュータで自動生成した著作権フリーのもの)を示しており、楽曲信号の開始からの経過時間(タイムスタンプ)と、歌詞テキストの各表示行とが対応付けられて記述されている。タイムスタンプは、例えば、対応する表示行を歌い始める時刻を表示する。図1(B)は歌詞カードテキストの例を示す。このような歌詞同期情報を生成するには、作業者が楽曲を再生・視聴しながら、各行の歌いだしのタイミングで、所定の操作を行って各行にタイムスタンプを関係づけ、同期情報ファイル、例えばLRCファイルを生成するといった手作業での処理がおこなわれていた。しかしながら、作業者がLRCファイルを生成するには、基本的には、楽曲の演奏をすべて聞く必要があり、煩雑である。人手によることなく、機械的に同期情報を生成することが望まれる。 By the way, if the music data and the lyrics data are not distributed as contents in a state of being associated with each other, the lyrics cannot be displayed in synchronization with the playback of the music data as it is. In such a case, , Synchronous information for lyrics is required separately. The lyrics synchronization format LRC is known as the de facto standard for such synchronization information (https://en.wikipedia.org/wiki/LRC_ (file_format)). FIG. 1 (A) shows a file conforming to the lyrics synchronization format LRC (the lyrics are copyright-free automatically generated by a computer), and the elapsed time (time stamp) from the start of the music signal and the lyrics text. Each display line of is described in association with each other. The time stamp displays, for example, the time at which the corresponding display line begins to be sung. FIG. 1B shows an example of lyrics card text. In order to generate such lyrics synchronization information, the operator performs a predetermined operation at the timing of singing each line while playing and listening to the music, and associates a time stamp with each line, and a synchronization information file, for example, Manual processing such as generating an LRC file was performed. However, in order for the worker to generate the LRC file, it is basically necessary to listen to all the performances of the music, which is complicated. It is desirable to mechanically generate synchronization information without manual intervention.

また、機械的な同期情報の生成に一般的な音声認識エンジンを用いることも考えられる。しかしながら、一般的に歌手の歌唱はそれぞれの表現スタイルによって通常の会話とは違う発音表現を行う。例えば「わたし」を「ぅわとぁすぃ」と2重母音的に発音をデフォルメしたり、「こころ」を「ぁここぅろ」のように枕音を置いたりする表現を指す。これらは歌手の独自のパフォーマンスであり、多くの楽曲において存在する。一般的な音声認識エンジンでは、これらの表現をそのままの音として捉え、誤認識してしまうという問題点がある。 It is also conceivable to use a general speech recognition engine to generate mechanical synchronization information. However, in general, a singer's singing expresses a pronunciation different from normal conversation depending on each expression style. For example, it refers to an expression that deforms the pronunciation of "I" as a diphthong like "Uwatoasui", or puts a pillow sound like "Akokuro" for "Kokoro". These are the singer's own performances and are present in many songs. In a general speech recognition engine, there is a problem that these expressions are regarded as the sound as it is and are erroneously recognized.

なお、特許文献1は、小型ディスプレイの処理装置を利用して同期情報を生成する際に、歌詞テキスト(歌詞カード)の各行をその小型ディスプレイのサイズに収まるように各行を1または複数の文節からなる表示単位に分割し、そのうえで、表示単位にタイムスタンプを割り当てていくことを開示している。 In Patent Document 1, when synchronization information is generated by using a processing device of a small display, each line of the lyrics text (lyric card) is divided into one or a plurality of clauses so as to fit in the size of the small display. It is disclosed that it is divided into display units, and then time stamps are assigned to the display units.

なお、本発明は、上述の事情または以下の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。 The present invention should not be understood in a limited manner due to the above circumstances or the following problems, and the contents thereof are defined in the claims and will be described in detail below with reference to examples.

特開2006−227082号公報Japanese Unexamined Patent Publication No. 2006-227082

この発明は上述の事情等を考慮してなされたものであり、機械的に同期情報を生成し、または機械的に音声認識を行い、しかも、歌唱者または話者のくせ、演技のスタイル、方言等による問題を抑制することを目的としている。 The present invention has been made in consideration of the above-mentioned circumstances and the like, and mechanically generates synchronization information or mechanically performs voice recognition, and moreover, the habit of the singer or speaker, the style of acting, and the dialect. The purpose is to suppress problems caused by such factors.

この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。 According to the present invention, in order to achieve the above object, the configuration as described in the claims is adopted. Here, prior to explaining the invention in detail, the description of the scope of claims will be supplementarily explained.

この発明の一側面によれば、上述の目的を達成するために、テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置を:上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と;上記音声信号セグメントの時間遷移に基づいて上記発音記号スコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と;上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と;上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有するように構成している。 According to one aspect of the present invention, in order to achieve the above object, a text display synchronization information generator that determines the timing of displaying each of the partial texts of the text based on the voice signal corresponding to the text. : Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the pronunciation component of the pronunciation feature label for each of a plurality of pronunciation feature labels, and the voice signal is concerned. With the pronunciation feature label score generation means, which generates the likelihood that the segment is the pronunciation component of the pronunciation feature label as a score, and outputs the score of each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment; From the transition of scores for the plurality of pronunciation feature labels generated by the pronunciation symbol score generating means based on the time transition of the voice signal segment, it is possible to individually adapt to a specific speaker or a specific group of speakers, respectively. With reference to a plurality of reference symbol estimation dictionaries, a matching reference symbol string generating means generated by associating a plurality of first matching reference symbol strings with the time information of the voice signal segment; and a second matching reference symbol string based on the above text. The matching reference symbol string of the above is matched with the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means along a dynamically determined matching path. With a matching means that associates the time information of the voice signal segment with the second matching reference symbol string; the time information of the voice signal segment associated with the second matching reference symbol string is used to describe the above text. It is configured to have a display timing determining means for determining the display timing for displaying each of the partial texts.

この構成によれば、テキストに基づくマッチング用基準シンボル列を、複数のマッチング用基準シンボル列に横断的にマッチングさせるようにしているので、マッチングを成功裏に行って部分テキストの表示タイミングを生成することができる。 According to this configuration, the matching reference symbol string based on the text is matched across a plurality of matching reference symbol strings, so that the matching is successfully performed and the display timing of the partial text is generated. be able to.

この構成において、上記テキストデータは、上記音声信号に対応する歌詞テキストに基づいたもので良い。 In this configuration, the text data may be based on the lyrics text corresponding to the voice signal.

また、この構成において、上記テキストデータは日本語テキストに基づくものであり、上記マッチング用基準シンボルは、かな文字(ひらがなやカタカナ)、ローマ字表記であって良い。表音文字の言語においては、ひろく、表音文字をマッチング用基準シンボルとして良い。 Further, in this configuration, the text data is based on Japanese text, and the matching reference symbol may be kana characters (hiragana or katakana) or romaji notation. In the language of phonograms, phonograms may be widely used as reference symbols for matching.

また、この構成において、上記テキストデータは英語テキストに基づくものであり、上記マッチング用基準シンボルは単語単位のレベルで表記されたものであって良い。単語レベルの単位を構文要素として使用できる任意の言語、スペイン語、フランス語、ドイツ語、ポルトガル語、ロシア語等にも適用可能である。 Further, in this configuration, the text data is based on the English text, and the matching reference symbol may be expressed at the word unit level. It is also applicable to any language that can use word-level units as syntactic elements, such as Spanish, French, German, Portuguese, and Russian.

また、この構成において、上記第1のマッチング用基準シンボル列に含まれる個々のマッチング用基準シンボルは、上記音声信号に対する尤度をそれぞれ伴い、上記マッチング手段は、尤度の大きさの順にR(Rは2以上の整数)個のマッチング用基準シンボルをマッチング対象として良い。 Further, in this configuration, each matching reference symbol included in the first matching reference symbol string is accompanied by a likelihood with respect to the audio signal, and the matching means R (in order of the magnitude of the likelihood). R may be an integer of 2 or more) as a matching reference symbol.

また、この構成において、上記発音記号は音素片ラベルであって良い。 Further, in this configuration, the phonetic symbol may be a phoneme piece label.

また、この構成において、上記複数の基準シンボル推定辞書は、機械学習により適合化されて良い。 Further, in this configuration, the plurality of reference symbol estimation dictionaries may be adapted by machine learning.

また、この構成において、上記複数の基準シンボル推定辞書は、一般的なN1個の発声者グループ、癖のあるN2個の発声者グループ、および、個別アーティストのN3個の発声者に対するN(=N1+N2+N3)個の基準シンボル推定辞書であって良い。 Further, in this configuration, the plurality of reference symbol estimation dictionaries include a general N1 speaker group, a habitual N2 speaker group, and N (= N1 + N2 + N3) for N3 vocalists of individual artists. ) Reference symbol estimation dictionary may be used.

また、この構成において、上記テキストの上記部分テキストはテキスト行であり、上記表示タイミング決定手段は、上記テキスト行ごとに表示タイミングを決定し、上記テキスト行ごとの上記表示タイミングを記述したLRCファイルを出力して良い。 Further, in this configuration, the partial text of the text is a text line, and the display timing determining means determines the display timing for each text line and creates an LRC file that describes the display timing for each text line. You can output it.

また、この発明の他の側面によれば、上述の目的を達成するために、テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置を:上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と;上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と;上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有するように構成している。 Further, according to another aspect of the present invention, text display synchronization information that determines when to display each of the partial texts of the text based on the voice signal corresponding to the text in order to achieve the above object. Generator: A plurality of reference symbol estimation dictionaries that can be individually adapted to a specific speaker or a specific group of voices from each of the voice signal segments obtained by dividing the voice signal along the time axis. With reference to the matching reference symbol string generating means generated by associating a plurality of first matching reference symbol strings with the time information of the voice signal segment; the second matching reference symbol string based on the above text. Is matched with the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means along a dynamically determined matching path, and the second matching reference is used. A matching means that associates the time information of the voice signal segment with the symbol string; and displays each of the partial texts of the text using the time information of the voice signal segment associated with the second matching reference symbol string. It is configured to have a display timing determining means for determining the display timing to be performed.

この構成によれば、テキストに基づくマッチング用基準シンボル列を、複数のマッチング用基準シンボル列に横断的にマッチングさせるようにしているので、マッチングを成功裏に行って部分テキストの表示タイミングを生成することができる。 According to this configuration, the matching reference symbol string based on the text is matched across a plurality of matching reference symbol strings, so that the matching is successfully performed and the display timing of the partial text is generated. be able to.

また、この発明の他の側面によれば、上述の目的を達成するために、テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置を:上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と;上記音声信号セグメントの時間遷移に基づいて上記発音記号スコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、基準シンボル推定辞書を参照して、第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と;上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と;上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有するように構成している。 Further, according to another aspect of the present invention, text display synchronization information that determines when to display each of the partial texts of the text based on the voice signal corresponding to the text in order to achieve the above object. Generator: Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the sound component of the phonetic feature label for each of a plurality of phonetic feature labels. A pronunciation feature label score generation means that generates a likelihood that the voice signal segment is a pronunciation component of the pronunciation feature label as a score, and outputs a score for each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment. With reference to the reference symbol estimation dictionary from the transition of the scores for the plurality of pronunciation feature labels generated by the pronunciation symbol score generation means based on the time transition of the voice signal segment, the first matching reference symbol. A matching reference symbol string generating means that generates a column in association with the time information of the voice signal segment; and a second matching reference symbol string based on the text are generated from the matching reference symbol string generating means, respectively. With a matching means that matches the plurality of first matching reference symbol strings along a dynamically determined matching path and associates the time information of the voice signal segment with the second matching reference symbol strings. To have a display timing determining means for determining a display timing for displaying each of the partial texts of the text using the time information of the voice signal segment associated with the second matching reference symbol string. It is configured.

この構成によれば、複数の発音特徴ラベルスコアの時間遷移に基づいてマッチング基準シンボルを推定してマッチング基準シンボル列を生成しているので、言語に制約されずに、音声に基づくマッチング基準シンボル列をテキストに基づくマッチング基準シンボル列にマッチングさせることができ、言語に制約されずにテキスト部分の表示タイミングを生成することができる。 According to this configuration, the matching reference symbol is estimated based on the time transition of the plurality of pronunciation feature label scores to generate the matching reference symbol string, so that the matching reference symbol string based on the voice is not restricted by the language. Can be matched with the matching reference symbol string based on the text, and the display timing of the text part can be generated without being restricted by the language.

また、この構成において、上記マッチング基準シンボルは日本語のかな文字であって良い。 Further, in this configuration, the matching reference symbol may be a Japanese kana character.

また、この構成において、上記マッチング基準シンボルは、単語単位のレベルで表記されたものであって良い。 Further, in this configuration, the matching reference symbol may be expressed at the word unit level.

また、この発明のさらに他の側面によれば、音声認識装置が:音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と;上記音声信号セグメントの時間遷移に基づいて上記発音記号スコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、音声認識単位推定辞書を参照して音声認識単位を順次に出力する音声認識単位出力手段とを有するように構成している。 Further, according to still another aspect of the present invention, the speech recognition device: for each of the speech signal segments obtained by dividing the speech signal along the time axis, the pronunciation feature for each of the plurality of pronunciation feature labels. Filtering is performed so as to emphasize the pronunciation component of the label, the likelihood that the speech signal segment is the pronunciation component of the pronunciation feature label is generated as a score, and each score for a plurality of pronunciation feature labels of the speech signal segment is generated. A pronunciation feature label score generating means that is output in association with time information; a speech recognition unit from a score transition for the plurality of pronunciation feature labels generated by the pronunciation symbol score generating means based on the time transition of the voice signal segment. It is configured to have a voice recognition unit output means that sequentially outputs voice recognition units by referring to an estimation dictionary.

この構成によれば、複数の発音記号スコアの時間遷移に基づいて音声認識単位を推定してので、言語種類に制約されずに音声認識を行うことができる。 According to this configuration, since the speech recognition unit is estimated based on the time transition of a plurality of phonetic symbol scores, speech recognition can be performed without being restricted by the language type.

また、この構成において、上記音声認識単位は日本語のかなであって良い。 Further, in this configuration, the voice recognition unit may be Japanese kana.

また、この構成において、上記音声認識単位は、単語単位のレベルで表記されたものであって良い。 Further, in this configuration, the voice recognition unit may be expressed at the word unit level.

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品(コンピュータプログラム、コンピュータ可読記録媒体)もこの発明の技術的な範囲に含まれることも当然である。 It should be noted that the present invention can be realized not only as an apparatus or a system but also as a method. Of course, a part of such an invention can be configured as software. It is also natural that software products (computer programs, computer-readable recording media) used to execute such software on a computer are also included in the technical scope of the present invention.

この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。 The above-mentioned aspects and other aspects of the present invention are described in the claims and will be described in detail below with reference to Examples and the like.

この発明によれば、音声信号にテキスト部分を同期させる同期情報を機械的かつ確実に生成することができ、また、音声認識を行うこともできる。 According to the present invention, synchronization information that synchronizes a text portion with a voice signal can be mechanically and surely generated, and voice recognition can also be performed.

歌詞同期フォーマットLRCおよび歌詞カードテキストの例を説明する図である。It is a figure explaining the example of the lyrics synchronization format LRC and the lyrics card text. この発明の実施例1の同期情報生成装置1000の構成例を説明するブロック図である。It is a block diagram explaining the structural example of the synchronous information generation apparatus 1000 of Example 1 of this invention. 図2の同期情報生成装置1000を実装するコンピュータシステム300を説明する図である。It is a figure explaining the computer system 300 which mounts the synchronization information generation apparatus 1000 of FIG. 図2の同期情報生成装置1000の動作例を説明するフローチャートである。It is a flowchart explaining the operation example of the synchronization information generation apparatus 1000 of FIG. テキスト、および、これから生成された基準シンボル(ひらがな)列の例を示す図である。It is a figure which shows the example of the text and the reference symbol (hiragana) column generated from this. 図2の発音記号スコア生成部1051の発音記号空間を模式的に説明する図である。It is a figure which schematically explains the phonetic symbol space of the phonetic symbol score generation part 1051 of FIG. 図2の発音記号スコア生成部1051で用いる発音記号抽出フィルタ装置1055を説明する図である。It is a figure explaining the phonetic symbol extraction filter apparatus 1055 used by the phonetic symbol score generation part 1051 of FIG. 図7の発音記号抽出フィルタ装置1055の動作例を説明する図である。It is a figure explaining the operation example of the phonetic symbol extraction filter apparatus 1055 of FIG. 図7の発音記号抽出フィルタ装置1055で生成される発音記号の変化量デシベルの例を模式的に説明する図である。FIG. 5 is a diagram schematically illustrating an example of a change amount decibel of a phonetic symbol generated by the phonetic symbol extraction filter device 1055 1 of FIG. 7. 発音記号スコアの出力例を説明する図である。It is a figure explaining the output example of the phonetic symbol score. 図2の基準シンボル推定部1052の機械学習例を説明する図である。It is a figure explaining the machine learning example of the reference symbol estimation unit 1052 of FIG. 図2の基準シンボル推定部1052の出力動作例を説明する図である。It is a figure explaining the output operation example of the reference symbol estimation unit 1052 of FIG. 図2の基準シンボル選択部1053によって第1基準シンボル列を選択する例を説明する図である。It is a figure explaining the example which selects the 1st reference symbol string by the reference symbol selection part 1053 of FIG. 図2の基準シンボル選択部1053によって選択された第1基準シンボル列を第2基準シンボル列にマッチングする例を説明する図である。It is a figure explaining the example of matching the 1st reference symbol string selected by the reference symbol selection part 1053 of FIG. 2 with the 2nd reference symbol string. 図2の実施例の運用例を説明するフローチャートである。It is a flowchart explaining the operation example of the Example of FIG. 図2の実施例の運用例を説明するフローチャートである。It is a flowchart explaining the operation example of the Example of FIG. 同期情報抽出の具体例を模式的に説明する図である。It is a figure explaining the specific example of synchronous information extraction schematically. 英語の音声に適用した例を説明する図である。It is a figure explaining an example applied to English voice. 英語の音声に適用した例を説明する図である。It is a figure explaining an example applied to English voice. 英語の音声に適用した例を説明する図である。It is a figure explaining an example applied to English voice. この発明の実施例2の同期情報生成装置200の原理的な構成例を説明するブロック図である。It is a block diagram explaining the principle structure example of the synchronous information generation apparatus 200 of Example 2 of this invention. 図21の同期情報生成装置200の動作例を説明する図である。It is a figure explaining the operation example of the synchronization information generation apparatus 200 of FIG. 図21の同期情報生成装置200で用いる発音記号の例を説明する図である。It is a figure explaining the example of the phonetic symbol used in the synchronous information generation apparatus 200 of FIG. 発音記号のカナ確率テーブルを説明する図である。It is a figure explaining the katakana probability table of a phonetic symbol. テキストのカナと発音記号(タイムスタンプ)とのマッチングを説明する図である。It is a figure explaining the matching of the kana of a text and a phonetic symbol (time stamp). この発明を音声認識に適用した実施例3を説明する図である。It is a figure explaining Example 3 which applied this invention to voice recognition.

以下、この発明の実施例について説明する。まずこの発明の実施例1に従う同期情報生成装置1000について説明する。この同期情報生成装置1000は、楽曲データと歌詞テキストデータとの間の同期情報を生成するものであり、典型的には先に図1を参照して説明したLRCフォーマットのファイルを生成するものである。 Hereinafter, examples of the present invention will be described. First, the synchronous information generator 1000 according to the first embodiment of the present invention will be described. The synchronization information generation device 1000 generates synchronization information between music data and lyrics text data, and typically generates an LRC format file described with reference to FIG. 1 above. is there.

図2は、この発明の実施例1に従う同期情報生成装置1000の原理的な構成例を示している。同期情報生成装置1000は、楽曲音響データと歌詞カードのテキストデータとを参照してLRCファイルを自動的に作成するものである。楽曲は日本語ベースのものであり、楽曲音響データのボーカル音声信号と歌詞カードのテキストデータとが、かな文字(ひらがな)のレベルでマッチングされ、このマッチングの結果、歌詞カードのテキストデータとボーカル音声信号(楽曲音響データ)の時刻情報とが対応付けられ、この対応付けに基づいてLRCファイルを生成する。マッチングに用いるシンボル(トークンともいう、例えば、かな文字)を以下ではマッチング用基準シンボルまたは単に基準シンボルと呼ぶ。ボーカル音声信号に由来する基準シンボル列を第1基準シンボル列と呼び、歌詞カードのテキストデータに由来する基準シンボル列を第2基準シンボル列と呼ぶ。 FIG. 2 shows a principle configuration example of the synchronous information generation device 1000 according to the first embodiment of the present invention. The synchronization information generation device 1000 automatically creates an LRC file by referring to the music sound data and the text data of the lyrics card. The music is based on Japanese, and the vocal voice signal of the music sound data and the text data of the lyrics card are matched at the level of kana characters (hiragana), and as a result of this matching, the text data of the lyrics card and the vocal voice The time information of the signal (musical sound data) is associated with it, and an LRC file is generated based on this association. The symbols used for matching (also referred to as tokens, for example, kana characters) are hereinafter referred to as matching reference symbols or simply reference symbols. The reference symbol string derived from the vocal voice signal is called the first reference symbol string, and the reference symbol string derived from the text data of the lyrics card is called the second reference symbol string.

この同期情報生成装置1000は、日本語に限定されず、種々の言語に適用可能である。英語等、単語区切りを伴う言語に適用する場合、基準シンボルは、例えば、大文字、小文字の別や特殊記号を捨象した単語であってよい。この例では、歌詞用同期情報生成について説明するけれども、これに限定されない。 The synchronization information generator 1000 is not limited to Japanese, and can be applied to various languages. When applied to a language with word breaks such as English, the reference symbol may be, for example, a word that is case-sensitive or abstracts special symbols. In this example, synchronous information generation for lyrics will be described, but the present invention is not limited to this.

この実施例においては、、ボーカル音声信号に由来する第1基準シンボル列を複数列生成させて、歌詞カードのテキストに由来する第2基準シンボル列を複数の第1基準シンボル列に横断的にマッチングさせて良い。第1基準シンボル列をそれぞれ生成する複数の第1基準シンボル生成プロセスまたはモジュールは、それぞれ特定の発声者(話者)または特定の発声者(話者)グループに機械学習によって適合可能に構成されて良い。 In this embodiment, a plurality of first reference symbol strings derived from the vocal audio signal are generated, and the second reference symbol string derived from the text of the lyrics card is cross-matched with the plurality of first reference symbol strings. You can let me. A plurality of first reference symbol generation processes or modules, each of which generates a first reference symbol sequence, are configured by machine learning to be adapted to a specific speaker (speaker) or a specific speaker (speaker) group, respectively. good.

また、この実施例では、音声信号を時間軸に沿って分割して一連の音声信号セグメント(例えば約0.5mS)を生成し、これら音声信号セグメントの各々に対して、複数の発音記号ごとに当該発音記号の音響成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音記号の音響成分である尤度をスコアとして生成し、複数の発音記号についてスコアを出力し、当該スコアの組(ここでは発音記号スコアベクトルまたは発音記号空間情報ともいう)の時間的遷移に基づいてマッチング用基準シンボル、例えばかな文字を推定して識別するようにしている。発音記号(発音特徴ラベルともいう)は、発音特徴のカテゴリを指し、後に図19に示すような音素単位(母音、子音)の発音記号でも良く、音素片(Demiphoneme)単位の発音記号であっても良い。音素片単位の発音記号としては、「音声の音素片ネットワーク表現と時系列のセグメント化法を用いた自動ラベリング手法」(日本音響学会誌42巻11号(1986)、以下、日本音響学会論文ともいう)の音素片ラベルを用いて良い。音素単位の発音記号は、国際音声記号(International Phonetic Alphabet)に準拠した発音記号(そのサブセットを含む)を用いて良い。 Further, in this embodiment, the voice signal is divided along the time axis to generate a series of voice signal segments (for example, about 0.5 mS), and for each of these voice signal segments, for each of a plurality of phonetic symbols. Filtering is performed so as to emphasize the acoustic component of the phonetic symbol, the likelihood of the phonetic signal segment being the acoustic component of the phonetic symbol is generated as a score, scores are output for a plurality of phonetic symbols, and a set of the scores is obtained. A matching reference symbol, for example, a kana character, is estimated and identified based on the temporal transition of the phonetic symbol score vector or phonetic symbol space information (here, it is also referred to as phonetic symbol score vector or phonetic symbol space information). The phonetic symbol (also called a phonetic feature label) refers to a category of phonetic features, and may be a phoneme unit (vowel, consonant) phonetic symbol as shown later in FIG. 19, and is a phonetic fragment (Demiphoneme) unit phonetic symbol. Is also good. As phonetic symbols for each phoneme piece, "automatic labeling method using phoneme piece network representation of speech and time series segmentation method" (Acoustical Society of Japan, Vol. 42, No. 11 (1986), hereinafter referred to as the Acoustical Society of Japan paper. The phoneme fragment label of) may be used. As the phonetic symbol for each phoneme, a phonetic symbol (including a subset thereof) conforming to the International Phonetic Alphabet may be used.

音声信号セグメントのサンプリング期間長は固定でもよく、可変長でも良い。可変長の場合には、周波数スペクトラムの切れ目を抽出してサンプリング区切りを決定して良い。音声信号セグメントの継続期間は約0.5mSであるけれども、これに限定されない。音素の継続期間は例えば60〜80mSであるけれども、これに限定されない。 The sampling period length of the audio signal segment may be fixed or variable. In the case of variable length, a break in the frequency spectrum may be extracted to determine the sampling delimiter. The duration of the audio signal segment is, but is not limited to, about 0.5 mS. The duration of the phoneme is, for example, 60-80 mS, but is not limited to this.

この実施例の具体的な実装においては、後に詳述するように、複数の音響フィルタシステムが準備され、個々の音響フィルタシステムが1個の発音記号に対応付けられ、対応する発音記号の音声特徴で入力音声信号を強調するように構成されている。個々の音響フィルタシステムは、入力音声信号が、当該音響フィルタシステムに対応付けられた発音記号の音声特徴をどの程度含むかに基づいて、その程度に応じた出力を発生させる。入力音声信号が所定の音響フィルタシステムの発音記号に該当する場合には当該音響フィルタシステムからもっとも大きな出力が生じる。複数の音響フィルタシステムが強調する発音記号のセットは、先の日本音響学会論文の発音記号、国際音声学会の発音記号のような、既存の発音記号のセットまたはサブセットと厳密に合致するように選択されてもよいし、フィルタ装置の調整に応じて若干ずれるものであっても良いし、まったく独自のものであってもよい。のちに図19を参照して説明する発音記号のセットであっても良い。 In a specific implementation of this embodiment, as will be described in detail later, a plurality of acoustic filter systems are prepared, individual acoustic filter systems are associated with one phonetic symbol, and the phonetic features of the corresponding phonetic symbols. Is configured to emphasize the input audio signal. Each acoustic filter system produces a corresponding output based on how much the input speech signal contains the phonetic features of the phonetic symbols associated with the acoustic filter system. When the input voice signal corresponds to the phonetic symbol of a predetermined sound filter system, the sound filter system produces the largest output. The set of phonetic symbols emphasized by multiple acoustic filter systems is selected to exactly match the existing set or subset of phonetic symbols, such as the phonetic symbols of the previous Japanese Acoustic Society paper, the phonetic symbols of the International Phonetic Association. It may be slightly deviated depending on the adjustment of the filter device, or it may be completely original. It may be a set of phonetic symbols which will be described later with reference to FIG.

音響フィルタシステムは例えばレゾナンスフィルタであり、レゾナンスフィルタは複数のノッチフィルタ要素を含んで構成されて良い。 The acoustic filter system is, for example, a resonance filter, and the resonance filter may be configured to include a plurality of notch filter elements.

複数の音響フィルタシステムが発生させる出力は、対応する発音記号の音声特徴成分を入力音声信号が含む尤度として把握可能である。出力は、例えば、0〜1のスコアとして表せる。 The output generated by the plurality of acoustic filter systems can grasp the voice characteristic component of the corresponding phonetic symbol as the likelihood contained in the input voice signal. The output can be expressed as, for example, a score of 0 to 1.

音声信号セグメントに対して生成される複数個(q個、qは2以上の整数、典型的には数十または数百のオーダ)の発音記号のスコアは、q個の発音記号がなすq次元の空間(以下ではこれら空間を発音記号空間ともいう)における、音声信号セグメントの音声特徴を定義する。この実施例では、このような発音記号空間における音声信号セグメントの音声特徴の時間的遷移に基づいて基準シンボル(ひらがな)を決定するようにしている。これについては後に説明する。 The score of multiple phonetic symbols generated for a voice signal segment (q, q is an integer of 2 or more, typically tens or hundreds of orders) is the q dimension of q phonetic symbols. In the space of (hereinafter, these spaces are also referred to as phonetic symbol spaces), the voice characteristics of the voice signal segment are defined. In this embodiment, the reference symbol (hiragana) is determined based on the temporal transition of the speech characteristics of the speech signal segment in such a phonetic symbol space. This will be described later.

図2は、この実施例の同期情報生成装置1000を全体として示しており、この図において、同期情報生成装置1000は、楽曲音響データファイル入力部10、歌詞テキストデータファイル入力部20、ボーカル音声信号抽出部30、時間情報抽出部40、第1基準シンボル列生成部1050、表示単位行分割部110、第2基準シンボル列生成部60、基準シンボル列マッチング部1070、テキストマッチング部80、LRCファイル生成部90、LRCファイル記憶部100等を含んで構成されている。 FIG. 2 shows the synchronization information generation device 1000 of this embodiment as a whole. In this figure, the synchronization information generation device 1000 includes a music sound data file input unit 10, a lyrics text data file input unit 20, and a vocal voice signal. Extraction unit 30, time information extraction unit 40, first reference symbol string generation unit 1050, display unit line division unit 110, second reference symbol string generation unit 60, reference symbol string matching unit 1070, text matching unit 80, LRC file generation It is configured to include a unit 90, an LRC file storage unit 100, and the like.

この例では、同期情報生成装置1000は、典型的には、1つのコンピュータシステム300によって構成されるけれども、複数のコンピュータシステムや、種々のネットワークシステムを有して構成されて良い。コンピュータシステム300の一部をスマートフォン等の情報端末で構成して良い。コンピュータシステム300は、典型的には、図3に示すように、CPU301、主メモリ302、バス303、補助記憶装置304、種々の入出力インタフェース305等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。同期情報生成装置1000は、例えば、コンピュータ可読記録媒体306(図2)に記録されたコンピュータプログラムや通信ネットワーク(図示しない)を介して送信されてくるコンピュータプログラムをコンピュータシステム300にインストールすることにより実現される。同期情報ファイルはLRCファイル記憶部100に蓄積され、携帯端末等の外部装置400(図2)からアクセス可能であって良い。外部装置400が楽曲音響データおより歌詞テキストデータを同期情報生成装置1000にアップロードし、これに応じて同期情報生成装置1000が生成した同期情報ファイルを取得して良い。楽曲音響データファイル入力部10や歌詞テキストデータファイル入力部20は、外部装置として構成して良い。 In this example, the synchronization information generator 1000 is typically configured by one computer system 300, but may be configured to have a plurality of computer systems and various network systems. A part of the computer system 300 may be composed of an information terminal such as a smartphone. The computer system 300 typically includes a CPU 301, a main memory 302, a bus 303, an auxiliary storage device 304, various input / output interfaces 305, and the like, as shown in FIG. 3, a personal computer, a smartphone, and information. It may be a home appliance or the like. The synchronous information generator 1000 is realized, for example, by installing a computer program recorded on a computer-readable recording medium 306 (FIG. 2) or a computer program transmitted via a communication network (not shown) in the computer system 300. Will be done. The synchronization information file may be stored in the LRC file storage unit 100 and accessible from an external device 400 (FIG. 2) such as a mobile terminal. The external device 400 may upload the music sound data and the lyrics text data to the synchronization information generation device 1000, and acquire the synchronization information file generated by the synchronization information generation device 1000 accordingly. The music sound data file input unit 10 and the lyrics text data file input unit 20 may be configured as an external device.

図2において、第1基準シンボル列生成部1050は、発音記号スコア生成部1051、基準シンボル推定部1052、および基準シンボル選択部1053を有する。発音記号スコア生成部1051は、当該音声信号セグメントが発音記号の音声特徴成分を伴う尤度を示す発音記号スコアを発音記号ごとに生成し、各発音記号のスコアを要素とする発音記号スコアベクトルを生成し、これを音声信号セグメントの時間情報(time)に関連付けて出力することができる。基準シンボル推定部1052は、発音記号スコア生成部1051から順次に出力される発音記号スコアベクトルの時系列に基づいて、N個(Nは2以上の整数)の推定辞書1054〜1054の各々を参照して、推定辞書1054〜1054の各々に対して基準シンボル、そのスコア、および時間情報を生成し、一連の音声信号に対してそれぞれ基準シンボル列を出力することができる。基準シンボル推定部1052は、推定辞書1054〜1054の1つを参照して1つの基準シンボル列を生成して良く、また、N個の推定辞書1054〜1054をそれぞれ参照してN個の基準シンボル列を生成して良い。基準シンボル選択部1053は、優先的に1つの基準シンボル列を受け取ってそのまま出力し(図13)、あるいは、N個の基準シンボル列を受け取って、典型的には、所定の評価値を算出して全体として尤度が大きな順にR(Rは正の整数、ただしR≦N)個の基準シンボル列を一連の音声信号に対して選択して出力する(図17、ステップS303)。例えば、基準シンボル選択部1053は、利用状況に応じて、典型的には、所定の1つの推定辞書が発声者に適切に適合されていると考えられるときには、当該1つの推定辞書によって推定される1つの基準シンボル列のみ出力して良い。この場合、それ以外の推定辞書については推定処理を行わなくて良い。第1基準シンボル列は表示単位行分割部110によって表示単位またはハイライト単位の部分列に分割される。基準シンボル列マッチング部1070は、第1基準シンボル列生成部150から出力され、表示単位行分割部110で部分列に分割された、典型的にはR個の基準シンボル列を、第2基準シンボル列生成部60から出力された第2基準シンボル列に最適なマッチング経路を選択するようにマッチングさせる。基準シンボル列マッチング部1070は、マッチング結果にもとづいて第2基準シンボル列を部分列に分割し、これら部分列に時間情報を付与する。第1基準シンボル列が1つの場合には時間軸を伸縮させてマッチングを行えばよい。こののち、テキストマッチング部80がテキストデータと第2基準シンボル列(部分列)とをマッチングさせ、このマッチング結果に基づいてテキストデータの部分テキスト(テキスト行)に時間情報が関連付けられる。LRCファイル生成部100は、時間情報が関連付けられたテキストデータからLRCファイルを生成する。 In FIG. 2, the first reference symbol string generation unit 1050 includes a phonetic symbol score generation unit 1051, a reference symbol estimation unit 1052, and a reference symbol selection unit 1053. The phonetic symbol score generation unit 1051 generates a phonetic symbol score indicating the likelihood that the phonetic signal segment accompanies the phonetic characteristic component of the phonetic symbol for each phonetic symbol, and generates a phonetic symbol score vector having the score of each phonetic symbol as an element. It can be generated and output in association with the time information (time) of the voice signal segment. Reference symbol estimation unit 1052, based on the time series of phonetic symbols score vector that is sequentially output from the phonetic symbol score generation unit 1051, each of the estimated Dictionary 1054 1 ~1054 N of N (N is an integer of 2 or more) With reference to, a reference symbol, its score, and time information can be generated for each of the estimation dictionaries 1054 1 to 1054 N , and a reference symbol string can be output for each of a series of voice signals. Reference symbol estimator 1052 estimates dictionary 1054 1-1054 with reference to one of the N well to generate one reference symbol sequence, also with reference of N estimated Dictionary 1054 1-1054 N respectively N You may generate a string of reference symbols. The reference symbol selection unit 1053 preferentially receives one reference symbol string and outputs it as it is (FIG. 13), or receives N reference symbol strings and typically calculates a predetermined evaluation value. As a whole, R (R is a positive integer, where R ≦ N) reference symbol strings are selected and output for a series of audio signals in descending order of likelihood (FIG. 17, step S303). For example, the reference symbol selection unit 1053 is typically estimated by the one estimation dictionary when it is considered that the predetermined one estimation dictionary is appropriately adapted to the speaker, depending on the usage situation. Only one reference symbol string may be output. In this case, it is not necessary to perform the estimation process for other estimation dictionaries. The first reference symbol string is divided into subcolumns of display units or highlight units by the display unit row division unit 110. The reference symbol column matching unit 1070 outputs typically R reference symbol strings, which are output from the first reference symbol string generation unit 150 and divided into subcolumns by the display unit row division unit 110, into the second reference symbol. The second reference symbol string output from the column generation unit 60 is matched so as to select the optimum matching route. The reference symbol string matching unit 1070 divides the second reference symbol string into substrings based on the matching result, and adds time information to these substrings. When there is one first reference symbol string, the time axis may be expanded or contracted for matching. After that, the text matching unit 80 matches the text data with the second reference symbol column (subsequence), and based on the matching result, the time information is associated with the subtext (text line) of the text data. The LRC file generation unit 100 generates an LRC file from text data associated with time information.

この実施例においては、基準シンボルとして、ひらがなを用いているが、実際には、基準シンボルは個々の発話単位にユニークに割り当てられた単語でも良い。発音記号にラベリングする手法例としては、先の先の日本音響学会論文の音素片ラベルを用いて良い。また、時系列情報を扱う機械学習の手法としては、例えば深層学習のRNN(Recurrent Neural Network)があるけれども、方法はこれらに限定されない。正解データを使った機械学習済みモデルを用いることで、入力された発音記号空間に関する情報の時系列遷移に対応して基準シンボルの候補がその確からしさを示すスコア値とともに抽出される。 In this embodiment, hiragana is used as the reference symbol, but in reality, the reference symbol may be a word uniquely assigned to each utterance unit. As an example of the method of labeling phonetic symbols, the phoneme fragment label of the above-mentioned Acoustical Society of Japan paper may be used. Further, as a machine learning method for handling time-series information, for example, there is RNN (Recurrent Neural Network) for deep learning, but the method is not limited to these. By using a machine-learned model using correct answer data, reference symbol candidates are extracted together with a score value indicating the certainty corresponding to the time-series transition of the input phonetic symbol space information.

なお、この実施例において、発音記号スコアベクトルの時間遷移に基づいて1つまたは複数の発声セグメントが1つの基準シンボルとして判定される。N個のグループごとの基準シンボル列の時間タイミングが同じになるとは限らない。例えば、所定の継続時間におけるスコアの大きさに基づいて上位の7つの基準シンボル列を並べると、例えば、図14のようになる。 In this embodiment, one or more vocal segments are determined as one reference symbol based on the time transition of the phonetic symbol score vector. The time timings of the reference symbol strings for each of N groups are not always the same. For example, when the top seven reference symbol strings are arranged based on the size of the score in a predetermined duration, for example, FIG. 14 is shown.

基準シンボル列マッチング部1070は、図14に示すような態様で、テキストの基準シンボル列(太字で示す)と音声信号の基準シンボル列(R個)とを動的にマッチングさせる。この例では、テキストから「このたびは・・・」という基準シンボル列が生成され、第1基準シンボル列生成部1050から時刻t−1、t−2、t−3、・・・、t−10に沿って基準シンボルが順次に生成されてくる。この例では、太字で示すパスにそって、マッチングが行われる。 The reference symbol string matching unit 1070 dynamically matches the reference symbol string (indicated in bold) of the text and the reference symbol sequence (R pieces) of the audio signal in the manner shown in FIG. In this example, the reference symbol string "This time ..." is generated from the text, and the time t-1, t-2, t-3, ..., T- from the first reference symbol string generation unit 1050. Reference symbols are sequentially generated along the line 10. In this example, matching is done along the paths shown in bold.

図4は、図2に示される同期情報生成装置1000の動作例の概要を説明するものである。 FIG. 4 illustrates an outline of an operation example of the synchronization information generator 1000 shown in FIG.

図2および図4において、楽曲音響データファイル入力部10は、音響信号をMP3、MP4等のフォーマットで記録したファイルを入力するものである(図4、ステップS10)。歌詞テキストデータファイル入力部20は、歌詞テキスト(歌詞カードテキストともいう)を記録したファイルを入力するものである(図4、ステップS11)。 In FIGS. 2 and 4, the music sound data file input unit 10 inputs a file in which the sound signal is recorded in a format such as MP3 or MP4 (FIG. 4, step S10). The lyrics text data file input unit 20 inputs a file in which lyrics text (also referred to as lyrics card text) is recorded (FIG. 4, step S11).

ボーカル音声信号抽出部30は、楽曲信号から音声信号(ボーカル信号、ボイス信号)を抽出するものである(図4、ステップS12)。ボーカル音声信号抽出部30は、楽曲信号から抽出した音声信号(ボーカル信号、ボイス信号)を、時間情報抽出部40に供給する。時間情報抽出部40は、音声信号を時間軸に沿ってサンプリング周期の音声信号セグメントに順次に分割し、例えば曲の開始からの経過情報を示す時間情報(タイムスタンプ)を各音声信号セグメントに付与する(図4、ステップS13)。時間情報抽出部40は時間情報付きの音声信号セグメントを第1基準シンボル列生成部1050に供給する。 The vocal audio signal extraction unit 30 extracts an audio signal (vocal signal, voice signal) from the music signal (FIG. 4, step S12). The vocal voice signal extraction unit 30 supplies the voice signal (vocal signal, voice signal) extracted from the music signal to the time information extraction unit 40. The time information extraction unit 40 sequentially divides the audio signal into audio signal segments having a sampling cycle along the time axis, and imparts time information (time stamp) indicating progress information from the start of the song to each audio signal segment, for example. (FIG. 4, step S13). The time information extraction unit 40 supplies the audio signal segment with the time information to the first reference symbol string generation unit 1050.

第1基準シンボル列生成部1050は、先に説明したように、発音記号スコア生成部1051、基準シンボル推定部1052、および基準シンボル選択部1053を含んで構成されている。発音記号スコア生成部1051は、時間情報付きの音声信号セグメント(ボーカル信号、ボイス信号)を受け取って、後述する発音記号空間に準拠して、予め定められた所定数(q個、qは正の整数)の発音記号の各々について、音声信号セグメントがそれら発音記号の音響成分を含む尤度をスコアとして生成し、q次元のスコアベクトルを時間情報と関連付けて出力する(図4、ステップS114)。発音記号は、発音特徴のカテゴリを指し、音素片(Demiphoneme)単位の発音因子であって良い。音素片単位の発音記号としては、先に述べた先の日本音響学会論文の音素片ラベルを用いて良い。後に参照する図23に示すような音素単位(母音、子音)の発音記号でも良い。 As described above, the first reference symbol string generation unit 1050 includes a phonetic symbol score generation unit 1051, a reference symbol estimation unit 1052, and a reference symbol selection unit 1053. The phonetic symbol score generation unit 1051 receives a voice signal segment (vocal signal, voice signal) with time information, and has a predetermined number (q, q is positive) in accordance with the phonetic symbol space described later. For each of the phonetic symbols (integer), the voice signal segment generates a likelihood including the acoustic component of those phonetic symbols as a score, and outputs a q-dimensional score vector in association with time information (FIG. 4, step S114). The phonetic symbol refers to a category of phonetic features and may be a phonetic factor in units of phonemes (Demiphoneme). As the phonetic symbol for each phoneme piece, the phoneme piece label of the above-mentioned Acoustical Society of Japan paper may be used. Phonetic symbols of phoneme units (vowels, consonants) as shown in FIG. 23, which will be referred to later, may be used.

発音記号スコア生成部1051からの時間情報付きの発音記号スコアベクトルが基準シンボル推定部1052に供給され、基準シンボル推定部1052は、N個の推定辞書1054のうちの1つを参照して、またはN個の推定辞書1054の各々を順次に参照して、発音記号スコアベクトルの時間遷移に応じて基準シンボルを推定し、推定基準シンボル、推定スコアおよび時間情報を出力する(図4、ステップS115)。基準シンボル推定部1052は、一連の音声信号に対して1個の基準シンボル列またはN個の基準シンボル列を出力できる。 The phonetic symbol score vector with time information from the phonetic symbol score generator 1051 is supplied to the reference symbol estimation unit 1052, and the reference symbol estimation unit 1052 refers to one of the N estimation dictionaries 1054, or Each of the N estimation dictionaries 1054 is sequentially referred to, the reference symbol is estimated according to the time transition of the phonetic symbol score vector, and the estimation reference symbol, the estimated score, and the time information are output (FIG. 4, step S115). .. The reference symbol estimation unit 1052 can output one reference symbol string or N reference symbol strings for a series of audio signals.

基準シンボル選択部1053は、基準シンボル推定部1052から単一の基準シンボル列(スコアおよび時間情報を伴う)のみが出力される場合にはそれをそのまま基準シンボル列マッチング部1070に供給し、基準シンボル推定部1052からN個の基準シンボル列(スコアおよび時間情報を伴う)が出力される場合には、当該N個の基準シンボル列を受け取って、例えば、所定のひとまとまりの発声期間にわたってスコアを評価して評価値が大きな順にR個の基準シンボル列を選択して基準シンボル列マッチング部1070に供給する。なお、基準シンボル選択部1053は、N個の基準シンボル列を受け取ったときに、音声信号セグメントごとに、スコアが大きな順にR個の基準シンボルを選択してR個の基準シンボル列を出力しても良い。第1基準シンボル列生成部1050(基準シンボル選択部1053)から出力されるR個の基準シンボル列は、例えば図14に示すようなものである。図14の例ではRは7である。各音声信号セグメントについてR個の基準シンボルがスコアの大きさに基づいてソートされていて良い。ただし、複数の継続する音声信号セグメントの発音記号が同じ場合には、それらをひとまとめにすることが好ましい。 When the reference symbol selection unit 1053 outputs only a single reference symbol string (with score and time information) from the reference symbol estimation unit 1052, the reference symbol selection unit 1053 supplies it as it is to the reference symbol string matching unit 1070, and supplies the reference symbol to the reference symbol string matching unit 1070. When N reference symbol strings (with score and time information) are output from the estimation unit 1052, the N reference symbol strings are received and, for example, the score is evaluated over a predetermined group of vocalization periods. Then, R reference symbol strings are selected in descending order of evaluation value and supplied to the reference symbol string matching unit 1070. When the reference symbol selection unit 1053 receives N reference symbol strings, it selects R reference symbols in descending order of score for each audio signal segment and outputs R reference symbol strings. Is also good. The R reference symbol strings output from the first reference symbol string generation unit 1050 (reference symbol selection unit 1053) are as shown in FIG. 14, for example. In the example of FIG. 14, R is 7. For each audio signal segment, R reference symbols may be sorted based on the magnitude of the score. However, when the phonetic symbols of a plurality of continuous voice signal segments are the same, it is preferable to group them together.

表示単位行分割部110は、音響再生時に、一時に、表示またはハイライトされる表示単位の行を決定するものである。表示単位は、息継ぎで区切らせる区間を1つまたは複数個結合して所望のルールに基づいて決定されて良い。1つの具体的なルール例は、これに限定されないが、最大文字数が予め定めた数、例えば18文字であるというものである。この実施例では、第1基準シンボル列生成部1050からの第1基準シンボル列が表示単位行分割部110によって表示単位行ごとの基準シンボル部分列に分割される(図4、ステップS16)。分割は分離記号(例えば改行コード)を付加することにより実行して良い。表示単位行分割部110は、代替的には、歌詞テキストデータまたは第2基準シンボルデータを部分行単位で分割するように設けて良い。 The display unit line dividing unit 110 determines the line of the display unit to be displayed or highlighted at one time during sound reproduction. The display unit may be determined based on a desired rule by combining one or a plurality of sections separated by breathing. One specific rule example is, but is not limited to, that the maximum number of characters is a predetermined number, for example, 18 characters. In this embodiment, the first reference symbol string from the first reference symbol column generation unit 1050 is divided into the reference symbol subcolumns for each display unit row by the display unit row division unit 110 (FIG. 4, step S16). The division may be executed by adding a separator (for example, a line feed code). Alternatively, the display unit line dividing unit 110 may be provided so as to divide the lyrics text data or the second reference symbol data in partial line units.

他方、歌詞テキストデータファイル入力部20は、テキスト、例えば歌詞テキストを入力するものである(図4、ステップS11)。テキストは第2基準シンボル列生成部60およびテキストマッチング部80に供給する。第2基準シンボル列生成部60は、テキストデータ(図5(A))から基準シンボル列(ひらがな列。図5(B))を生成する(図4、ステップS17)。第2基準シンボル列生成部80からの第2基準シンボル列は基準シンボル列マッチング部1070に供給されて、第1基準シンボル列生成部1050からの1個の第1基準シンボル列、またはR個の第1基準シンボル列と動的にマッチングされる(図4、ステップS118)。第2基準シンボル列をR個の第1基準シンボル列にマッチングする例は、図14に太字で示されるようなものである。このマッチングによって第2基準シンボル列に第1基準シンボル列の時間情報が付与される。時間情報が付与された第2基準シンボル列はテキストマッチング部80に供給される。 On the other hand, the lyrics text data file input unit 20 inputs text, for example, lyrics text (FIG. 4, step S11). The text is supplied to the second reference symbol string generation unit 60 and the text matching unit 80. The second reference symbol string generation unit 60 generates a reference symbol string (hiragana string. FIG. 5 (B)) from the text data (FIG. 5 (A)) (FIG. 4, step S17). The second reference symbol string from the second reference symbol string generation unit 80 is supplied to the reference symbol string matching unit 1070, and one first reference symbol string from the first reference symbol string generation unit 1050, or R pieces. It is dynamically matched with the first reference symbol string (FIG. 4, step S118). An example of matching the second reference symbol sequence to R first reference symbol sequences is as shown in bold in FIG. By this matching, the time information of the first reference symbol string is given to the second reference symbol string. The second reference symbol string to which the time information is added is supplied to the text matching unit 80.

テキストマッチング部80は、時間情報付きの第2基準シンボル列をテキストデータにマッチングさせ、テキストデータに、部分行単位で、時間情報を付与する(図4、ステップS19)。LRCファイル生成部90は部分行単位で時間情報が付与されたテキストデータを受け取ってLRCファイル(図1(A))を生成する(図4、ステップS20)。これはLRCファイル記憶部100に記憶されて良い。 The text matching unit 80 matches the second reference symbol string with the time information with the text data, and adds the time information to the text data in units of partial lines (FIG. 4, step S19). The LRC file generation unit 90 receives text data to which time information is added in units of partial lines and generates an LRC file (FIG. 1 (A)) (FIG. 4, step S20). This may be stored in the LRC file storage unit 100.

図6は発音記号空間を模式的に説明するものである。図2の実施例おいては、音声信号セグメントが、発音記号のセットにより定義される発音記号空間においてどのような尤度で分布するかを調べ、この発音記号空間における分布が、継続的な音声信号セグメントにおいてどのように遷移するかを測定し、その測定結果に基づいて、基準シンボル(発声トークンともいう。かな文字または単語)を推定するものである。 FIG. 6 schematically describes the phonetic symbol space. In the embodiment of FIG. 2, the likelihood of the phonetic signal segments distributed in the phonetic symbol space defined by the set of phonetic symbols is investigated, and the distribution in this phonetic symbol space is continuous voice. It measures how transitions occur in a signal segment, and estimates a reference symbol (also called a phonetic token, a kana character or word) based on the measurement result.

図6(A)に示すように、発音は、声帯・唇・歯・歯茎・口蓋・口蓋垂・舌・咽頭などの発声器官の状態に応じて異なる発音特徴を伴う。音声信号を音響処理(フィルタリング)により多様な発音矯正を行い、発音記号ごとの重み(スコア)を抽出する。図6(B)に模式的に示すように、音声信号セグメント例に対して各発音記号に対して強調を行うと、発音記号「u」対して「+4.2」の変化量(デシベル)が得られ、発音記号「o」に対して「+2.6」の変化量が得られ、他の発音記号に対しても同様に変化量が得られる。図5(B)に示さない発音記号についても同様に変化量が得られる。この変化量は、元の入力信号レベルに対して発音強調を行うことによりどれだけ変動があったかを示す。この例では、強調後の信号レベル(電力)を強調前の信号レベルで割ったもののデシベル表示であるけれどもこれに限定されない。変化量(デシベル)が大きいほど尤度が大きいと判断でき、この変化量は変換テーブルに基づいて0〜1のスコア(尤度)に変換される(1に近づくほど一致度が高い)。発音記号空間のスコアによって音声信号セグメントがどのような音響成分を有しているかを表示できる。なお、スコアの大きい発音記号以外は無視して近似的な扱いを行って良い。典型的には、スコアベクトルに対して、スコアの大きい順に所定数のベクトル要素を有効にし、他のスコアが小さなベクトル要素はゼロまたはヌルにして良い。 As shown in FIG. 6 (A), pronunciation is accompanied by different pronunciation characteristics depending on the state of vocal organs such as vocal cords, lips, teeth, alveolar, palatine, uvula, tongue, and pharynx. Various pronunciation corrections are performed on the voice signal by acoustic processing (filtering), and the weight (score) for each phonetic symbol is extracted. As schematically shown in FIG. 6B, when each phonetic symbol is emphasized for the example voice signal segment, the amount of change (decibel) of "+4.2" with respect to the phonetic symbol "u" is increased. The obtained amount of change of "+2.6" is obtained with respect to the phonetic symbol "o", and the amount of change is similarly obtained with respect to other phonetic symbols. Similarly, the amount of change can be obtained for the phonetic symbols not shown in FIG. 5 (B). This amount of change indicates how much the original input signal level was changed by emphasizing pronunciation. In this example, the signal level (power) after emphasis is divided by the signal level before emphasis, which is a decibel display, but the present invention is not limited to this. It can be determined that the larger the amount of change (decibel) is, the higher the likelihood is, and this amount of change is converted into a score (likelihood) of 0 to 1 based on the conversion table (the closer to 1 the higher the degree of agreement). It is possible to display what kind of acoustic component the voice signal segment has by the score of the phonetic symbol space. It should be noted that the phonetic symbols other than those with a large score may be ignored and treated as an approximation. Typically, for the score vector, a predetermined number of vector elements may be enabled in descending order of score, and other vector elements with smaller scores may be zero or null.

図7(A)および(B)は、発音記号空間に準拠して音声信号セグメントの音響特徴を記述する発音記号スコアベクトルを生成する発音記号スコア生成部1051の構成例を示す。図7(A)および(B)において、発音記号スコア生成部1051は、M個(正の整数、例えば64個)の発音記号抽出フィルタ装置1055、1055、・・・、1055を含む。発音記号抽出フィルタ装置1055〜1055の各々は、P(正の整数、例えば512個)個の音響フィルタシステム1056を有する。音響フィルタシステム1056は例えばレゾナンスフィルタである。音響フィルタシステム1056の各々において、複数のノッチフィルタのフィルタ調整を例えば3つのレベルで設定して、所定の発音記号の強調を行うようになっている。発音記号抽出フィルタ装置1055〜1055のP個の音響フィルタシステム1056の各々は、発音記号の各々に対応し、対応する発音記号の音声特徴の音声信号が入力されたときに最も大きなフィルタ出力値を生成するように、フィルタ調整を行うようになっている。音響フィルタシステム1056の入力および出力は対応するレベル検出器1057に供給され、レベル検出器1057は電力の変化量を検出して(図6(B)、図9に模式的にデシベルで示す)、これに基づいて変換テーブルを参照して、入力された音響信号(音声信号セグメント)が、当該音響フィルタシステム1056に対応する発音記号である尤度をスコア値として出力する。レベル検出器1057からのスコア値は上位発音記号特定部1058に送られ、スコアの大きさに基づいて大きい順にK(Kは正の整数、K≦P)個のスコアが出力され、小さなスコアは無視されて良い(ゼロまたはヌルとして良い)。発話記号抽出フィルタ装置1055〜1055からは、(M×K)個の時刻、発音記号、スコアの組が出力される。このように発音記号スコア生成部1051からはq次元のスコアベクトル(ゼロまたはヌルの要素を含む)および時間情報が生成され、出力される。 7 (A) and 7 (B) show a configuration example of the phonetic symbol score generation unit 1051 that generates a phonetic symbol score vector that describes the acoustic features of the phonetic signal segment in accordance with the phonetic symbol space. In FIG. 7 (A) and (B), phonetic symbol score generation unit 1051 includes M number (a positive integer, for example, 64) phonetic symbols extraction filter device 1055 1, 1055 2, ..., and 1055 M .. Each of the phonetic symbol extraction filter devices 1055 1 to 1055 M has P (positive integers, eg 512) acoustic filter systems 1056. The acoustic filter system 1056 is, for example, a resonance filter. In each of the acoustic filter systems 1056, filter adjustments of a plurality of notch filters are set, for example, at three levels to emphasize predetermined phonetic symbols. Each of the P phonetic filter systems 1056 of the phonetic symbol extraction filter device 1055 1 to 1055 M corresponds to each of the phonetic symbols and has the largest filter output when the voice signal of the phonetic feature of the corresponding phonetic symbol is input. Filter adjustments are made to generate values. The inputs and outputs of the acoustic filter system 1056 are fed to the corresponding level detector 1057, which detects the amount of change in power (FIG. 6B, schematically shown in decibels in FIG. 9). Based on this, with reference to the conversion table, the input acoustic signal (audio signal segment) outputs the likelihood of being a pronunciation symbol corresponding to the acoustic filter system 1056 as a score value. The score value from the level detector 1057 is sent to the upper phonetic symbol identification unit 1058, and K (K is a positive integer, K ≦ P) scores are output in descending order based on the size of the score, and the smaller scores are Can be ignored (may be zero or null). From the utterance symbol extraction filter device 1055 1 to 1055 M , (M × K) time, phonetic symbols, and score sets are output. In this way, the phonetic symbol score generation unit 1051 generates and outputs a q-dimensional score vector (including a zero or null element) and time information.

図8は発音記号スコア生成部1051をさらに説明するものである。図8に示すように、発音記号スコア生成部1051は、(P×M)個の発音矯正用強調フィルタパラメータによって管理・設定される。発音記号スコア生成部1051はM個の発音記号抽出フィルタ装置1055を有し、発音記号抽出フィルタ装置1055の各々はP個の音響フィルタシステム1056を有し(図7)、全体で(P×M)個のフィルタパラメータが個別に設定される。発音記号抽出フィルタ装置1055の各々は、時間t(t−1、t−2、t−3、・・・)に沿ってセグメント分割された音声信号(time、voice)に対し、それぞれP個の対応する発音記号のスコアを時間情報に関連付けて生成し、そのうちの上位のK個を出力する。図9は、発音記号スコア生成部1051の発音記号の各々に対応する音響フィルタシステム1056で生成される電力のデシベルを模式的に示す。発音記号抽出フィルタ装置1055から、音声信号セグメントごとに、上位準拠で選定した(M×K)個の発音記号のスコアが出力される。 FIG. 8 further describes the phonetic symbol score generation unit 1051. As shown in FIG. 8, the phonetic symbol score generation unit 1051 is managed and set by (P × M) phonetic correction emphasis filter parameters. The phonetic symbol score generator 1051 has M phonetic symbol extraction filter devices 1055, and each of the phonetic symbol extraction filter devices 1055 has P acoustic filter systems 1056 (FIG. 7), and the whole (P × M). ) Filter parameters are set individually. Each of the phonetic symbol extraction filter devices 1055 has P for each of the voice signals (time, voice) segmented along the time t (t-1, t-2, t-3, ...). The score of the corresponding phonetic symbol is generated in association with the time information, and the top K of them are output. FIG. 9 schematically shows decibels of electric power generated by the acoustic filter system 1056 corresponding to each of the phonetic symbols of the phonetic symbol score generation unit 1051. The phonetic symbol extraction filter device 1055 1 outputs the scores of (M × K) phonetic symbols selected according to the higher level for each phonetic signal segment.

図10は、発音記号抽出フィルタ装置1055〜1055から出力される発音記号のスコアの出力例(もっともスコアの大きいもののみ)を示す。発話記号は、A[B]で表され、「A」は、対象となるサンプリング期間の音響特特徴を示し、「B」はつぎのサンプリング期間の音響的特徴を示して良い。 FIG. 10 shows an output example of the phonetic symbol score output from the phonetic symbol extraction filter device 1055 1 to 1055 M (only the one with the highest score). The utterance symbol may be represented by A [B], where "A" may indicate the acoustic feature of the target sampling period and "B" may indicate the acoustic feature of the next sampling period.

図11は、基準シンボル推定部1052の推定辞書の機械学習を説明する。図2および図4にも説明したように、基準シンボル推定部1052は、発音記号スコア生成部1051(発音記号抽出フィルタ装置1055)によって各音声信号セグメントに対してその発音記号空間情報に対応して出力される発音記号スコアベクトルを、その連続性を考慮して時系列分析処理を行い、対応する基準シンボルを求める。この実施例においては、基準シンボルを推定するための準備として、発音記号空間情報の連続性と基準シンボルとの関連性を機械学習の手法を用いてモデル化する。具体的には、図11に示されるように、事前に正しい情報の組み合わせであるとわかっている、音声データと同期対象のテキストデータのペアを教師データとして入力して(S30、S31)、機械学習モジュールで学習を行う。実際には音声信号セグメントを図4のステップS114で取得した発音記号スコアベクトル(発音記号空間情報)と、テキストデータを図4のステップS16で基準シンボルに変換したデータとのペアを教師データとする(S32、S33、S34))。学習した発音空間モデルは推定辞書1054に保持される。 FIG. 11 illustrates machine learning of the estimation dictionary of the reference symbol estimation unit 1052. As described in FIGS. 2 and 4, the reference symbol estimation unit 1052 corresponds to the phonetic symbol spatial information for each phonetic signal segment by the phonetic symbol score generation unit 1051 (phonetic symbol extraction filter device 1055). The output phonetic symbol score vector is subjected to time-series analysis processing in consideration of its continuity, and the corresponding reference symbol is obtained. In this embodiment, in preparation for estimating the reference symbol, the continuity of phonetic symbol spatial information and the relationship with the reference symbol are modeled using a machine learning method. Specifically, as shown in FIG. 11, a pair of voice data and text data to be synchronized, which is known to be a correct combination of information in advance, is input as teacher data (S30, S31), and the machine Learn with the learning module. Actually, the pair of the phonetic symbol score vector (phonetic symbol space information) acquired in step S114 of FIG. 4 and the data obtained by converting the text data into the reference symbol in step S16 of FIG. 4 is used as the teacher data. (S32, S33, S34)). The learned pronunciation space model is stored in the estimation dictionary 1054.

なお、ここで、言語を発話する際の最小文字単位(日本語ではひらがな、カタカナ等)に対して漢字や特別の意味を持って発話される記号のように複数の最小文字単位で表現される文字列を含むテキストの場合には、言語の発話する際の最小文字単位を表す基準シンボルを介する必要がある。時系列情報を扱う機械学習の手法としては、上述のとおり、例えば深層学習のRNN(Recurrent Neural Network)を採用して良いけれども、これに限定されない。正解データを使った機械学習済みモデルを用いることで、入力された発話空間情報の時系列の特徴に対応する基準シンボルの候補が確からしさを示すスコア値とともに抽出される。 Here, the minimum character unit when speaking a language (hiragana, katakana, etc. in Japanese) is expressed in a plurality of minimum character units such as kanji and symbols spoken with a special meaning. In the case of text containing character strings, it is necessary to use a reference symbol that represents the minimum character unit when speaking a language. As described above, as a machine learning method for handling time-series information, for example, a deep learning RNN (Recurrent Neural Network) may be adopted, but the method is not limited thereto. By using a machine-learned model using correct answer data, candidates for reference symbols corresponding to the time-series features of the input utterance space information are extracted together with score values indicating certainty.

複数の教師データセットを用いてN個の推定辞書を機械学習により生成できる。すなわち、図11に示す機械学習処理フローに対して、歌手の歌い方の特徴グループごとの教師データセットを使って、複数の学習済みモデルを生成する。このグループ単位の教師データを準備するにあたっては、まず、歌手の歌い方の特徴(くせ)の違いごとにNグループにグルーピングする。例えば、しゃがれた声、こもりがちな声、「し」や「ひ」といった特定の発話レベルが低い、北米南部の訛りのように特定のワードの発話が一般的ではないなどでグルーピングをおこなう。実施例としては、以下のように複数のタイプを持っている。
G1:一般的グループ(グループ数 n1)
G2:癖ありグループ(グループ数 n2)(歌い方に特徴のある歌手)
G3:個別アーティスト(グループ数 n3)
グループ総数N=n1+n2+n3
このように分類されたグループ単位で、機械学習処理を行い、グループごとの学習済みモデルを作成する。これらのグループごとの学習済みモデルを集めたものを基準シンボル推測データベース(推定辞書)として管理する。
N estimation dictionaries can be generated by machine learning using a plurality of teacher datasets. That is, for the machine learning processing flow shown in FIG. 11, a plurality of trained models are generated by using the teacher data set for each feature group of the singer's singing style. In preparing the teacher data for each group, first, the singers are grouped into N groups according to the difference in the singing characteristics (habits) of the singer. For example, grouping is performed by crouching voices, muffled voices, low specific utterance levels such as "shi" and "hi", and uncommon utterances of specific words such as the accent of southern North America. Examples have a plurality of types as follows.
G1: General group (number of groups n1)
G2: Group with habit (number of groups n2) (singer with characteristic singing style)
G3: Individual artist (number of groups n3)
Total number of groups N = n1 + n2 + n3
Machine learning processing is performed for each group classified in this way, and a trained model for each group is created. A collection of trained models for each of these groups is managed as a reference symbol guessing database (estimation dictionary).

図12は、未知の音声データに対する動作例を示す。図12および図2において、推定辞書1054として図11に示す学習処理によってN個のグループに対して学習した学習済みの発音記号空間モデルを用いる。各音声信号セグメントについて、発音記号スコア生成部1051によって時間情報を関連付けられた発音記号ベクトルが生成され(S35、S36)、学習済みの発音記号空間モデル(推定辞書1054)を参照して基準シンボル候補およびそのスコアが推定される(S37)。基準シンボル候補はN個のグループ(N個の推定辞書1054)ごとにN個出力されてよい。基準シンボル選択部1053は、図14に示すように、N個の時間情報、基準シンボル、スコアの組を、例えば、所定の評価値に基づいて選択して1個またはR個出力して良いけれども、これに限定されない。スコアは基準シンボルが発声される確からしさを示す。 FIG. 12 shows an operation example for unknown voice data. In FIGS. 12 and 2, the trained phonetic symbol space model trained for N groups by the learning process shown in FIG. 11 is used as the estimation dictionary 1054. For each phonetic signal segment, the phonetic symbol score generator 1051 generates phonetic symbol vectors associated with time information (S35, S36), and refers to the learned phonetic symbol space model (estimated dictionary 1054) as reference symbol candidates. And its score are estimated (S37). N reference symbol candidates may be output for each N groups (N estimation dictionaries 1054). As shown in FIG. 14, the reference symbol selection unit 1053 may select a set of N time information, reference symbols, and scores based on, for example, a predetermined evaluation value and output one or R sets. , Not limited to this. The score indicates the certainty that the reference symbol is uttered.

図13は、第1基準シンボル列生成部1050の動作例を、基準シンボル選択部1053を中心に説明する。図13において、第1基準シンボル列生成部1050の発音記号スコア生成部1051は、時間情報が関連付けられた音声信号セグメントを順次に受け取り、発音記号セットのスコア(発音記号スコアベクトル)、時間情報を順次に出力する。基準シンボル推定部1052は、グループ1からグループNの学習済モデルを有する推定辞書1054(図2)を参照して、発音記号セットのスコアの遷移に基づいて、N個の基準ベクトル列を生成する。基準シンボル列の各基準シンボルはスコアを有する。基準シンボル列選択部1053は、N個の基準シンボル列の評価値を、シンボルのスコアに基づいて算出し、評価値が一定の条件を満たす1または複数の基準シンボル列を選択して出力する。 FIG. 13 describes an operation example of the first reference symbol string generation unit 1050, focusing on the reference symbol selection unit 1053. In FIG. 13, the phonetic symbol score generation unit 1051 of the first reference symbol string generation unit 1050 sequentially receives the phonetic signal segments associated with the time information, and receives the phonetic symbol set score (phonetic symbol score vector) and time information. Output sequentially. The reference symbol estimation unit 1052 refers to an estimation dictionary 1054 (FIG. 2) having trained models of groups 1 to N, and generates N reference vector sequences based on the transition of the score of the phonetic symbol set. .. Each reference symbol in the reference symbol sequence has a score. The reference symbol string selection unit 1053 calculates the evaluation values of N reference symbol strings based on the scores of the symbols, and selects and outputs one or a plurality of reference symbol strings whose evaluation values satisfy certain conditions.

図14は、基準シンボル列マッチング部1070(図2)の動作例を説明する。この例では、第2基準シンボル列生成部60(図2)からテキストに基づいて基準シンボル列「このたびは・・・」が出力される。時間t−1、t−2、t−3、・・・の一連の音声信号セグメントに対して、第1基準シンボル列生成部1050の基準シンボル選択部1053(図2)からR個(この例では7個)の第1基準シンボル列が「おのてひあ・・・」、「こむちびわ・・・」、・・・「さにゆや・・・」と出力される。第1基準シンボル列は、評価値(スコア)の大きさに基づいて並べられている。図の例では、スコアが大きい第1基準シンボル列ほど左側に配置される。基準シンボル列マッチング部1070は、時間軸に沿って、1つの第2基準シンボル列を複数の第1基準シンボル列に動的にマッチングを行う。太字はマッチングで選択された動的な経路を示す。スコアが大きい(図14の左側)順にマッチングを行うことにより、マッチングのコストを小さくできる。 FIG. 14 describes an operation example of the reference symbol string matching unit 1070 (FIG. 2). In this example, the reference symbol string “this time ...” is output from the second reference symbol string generation unit 60 (FIG. 2) based on the text. For a series of audio signal segments of time t-1, t-2, t-3, ..., R pieces (this example) from the reference symbol selection unit 1053 (FIG. 2) of the first reference symbol string generation unit 1050. Then, the first reference symbol string of 7) is output as "Otehia ...", "Komuchibiwa ...", ... "Saiyuya ...". The first reference symbol string is arranged based on the size of the evaluation value (score). In the example of the figure, the first reference symbol string having a higher score is arranged on the left side. The reference symbol string matching unit 1070 dynamically matches one second reference symbol string with a plurality of first reference symbol strings along the time axis. Bold indicates the dynamic path selected by matching. Matching costs can be reduced by performing matching in descending order of score (left side in FIG. 14).

基準シンボル列マッチング部1070のマッチングによって、第2基準シンボルの部分列が音声信号セグメントの時間情報に関連付けらる。そして、先に説明したように、テキストマッチング部80がテキストデータと第2基準シンボル列(部分列)とをマッチングさせ、このマッチング結果に基づいてテキストデータの部分テキスト(テキスト行)に時間情報が関連付けられる。 By matching of the reference symbol string matching unit 1070, the substring of the second reference symbol is associated with the time information of the audio signal segment. Then, as described above, the text matching unit 80 matches the text data with the second reference symbol column (subsequence), and based on this matching result, the time information is added to the partial text (text line) of the text data. Be associated.

つぎに、具体的な同期情報抽出例を説明する。この例では、さきに説明したようにN(=n1+n2+n3)個の基準シンボル列が出力され、基準シンボル列選択部1053が1個またはR個の第1基準シンボル列を出力し、基準シンボル列マッチング部1070が当該第1基準シンボル列を第2基準シンボル列とマッチングさせる。この例では、発声者がすでに推定辞書の特定のグループ(メンバが1人のグループもあって良い)に属するものとして登録されている場合には、該当する1つの推定辞書を用いて先行して同期情報を抽出し(図15)、そうでない場合には、N個の推定辞書を用いて同期情報を抽出するけれども(図16)、この実施例はこれに限定されない。 Next, a specific example of synchronizing synchronization information will be described. In this example, as explained earlier, N (= n1 + n2 + n3) reference symbol strings are output, the reference symbol string selection unit 1053 outputs one or R first reference symbol strings, and reference symbol string matching is performed. Unit 1070 matches the first reference symbol string with the second reference symbol string. In this example, if the speaker is already registered as belonging to a specific group of estimation dictionaries (there may be a group with one member), the corresponding estimation dictionary is used in advance. Although the synchronization information is extracted (FIG. 15) and otherwise the synchronization information is extracted using N estimation dictionaries (FIG. 16), this embodiment is not limited to this.

この同期情報抽出例では、図15および図16を参照して説明するフローで同期情報を、所定の評価値を利用して抽出する。この例では、音声のトータル時間t_maxとした場合の評価値(evaluation_value)の算出関数を例えば以下のように定義するが、算出関数はこれに限定されない。

evaluation_value
=Σnum_basic_symbol(t)+w×Σsum_score(t)
ただし(0≦t<t_max,wは重み係数) .... (式1)
num_basic_symbol(t)は、時間tの区間において、基準シンボルのスコア値がLimit_score_min以上である基準シンボル数である。
Σsum_score(t)は、時間tの区間における基準シンボルのスコアの合計である。
In this synchronization information extraction example, synchronization information is extracted by using a predetermined evaluation value in the flow described with reference to FIGS. 15 and 16. In this example, the calculation function of the evaluation value (evaluation_value) when the total time of voice is t_max is defined as follows, but the calculation function is not limited to this.

evolution_value
= Σnum_basic_symbol (t) + w × Σsum_score (t)
However, (0≤t <t_max, w is a weighting coefficient) .... (Equation 1)
number_basic_symbol (t) is the number of reference symbols in which the score value of the reference symbol is Limit_score_min or more in the time t interval.
Σsum_score (t) is the sum of the scores of the reference symbols in the interval of time t.

同期情報が未知の楽曲に対して、その歌手がデータベースに含まれるいずれかのクループに登録済みであった場合には、図15に示すフローに従って同期情報を抽出する。すなわち、図15に示すように、その歌手に対応するグループの学習済みモデルを用いて基準シンボル列を推定していき(S200)、(式1)による評価値を算出する(S201)。その評価値がLimit_model_score_min1(第1最小値。動作可能閾値)以上であれば、そのグループの学習済みモデルによる基準シンボル候補の情報を用いて基準シンボルマッチングおよびテキストマッチングを用いて同期情報(LRCファイル)を取得する(S202、S203、S204、S205)。そうでない場合は、まだ評価していないすべてのグループの学習済みモデルに対して基準シンボル列を推定し(S202、S207)、評価値を算出し(S208)、その評価値のいずれもLimit_model_score_min1未満の場合には処理を中止する(S209、S211)。いずれかの評価値がLimit_model_score_min1以上の場合にはその評価値が高い上位R個の基準シンボル例を用いて基準信号マッチングおよびテキストマッチングを行い、同期情報を取得する(S209、S210、S203、S204、S205)。 If the singer is already registered in any of the groups included in the database for a song whose synchronization information is unknown, the synchronization information is extracted according to the flow shown in FIG. That is, as shown in FIG. 15, the reference symbol sequence is estimated using the trained model of the group corresponding to the singer (S200), and the evaluation value according to (Equation 1) is calculated (S201). If the evaluation value is equal to or greater than Limit_model_score_min1 (first minimum value, operable threshold), synchronization information (LRC file) using reference symbol matching and text matching using reference symbol candidate information from the trained model of the group. (S202, S203, S204, S205). If not, the reference symbol sequence is estimated for the trained models of all groups that have not yet been evaluated (S202, S207), the evaluation values are calculated (S208), and all of the evaluation values are less than Limit_model_score_min1. In that case, the process is stopped (S209, S211). When any of the evaluation values is Limit_model_score_min1 or more, reference signal matching and text matching are performed using the upper R reference symbol examples having high evaluation values, and synchronization information is acquired (S209, S210, S203, S204, S205).

歌手がまだどのクループにも登録されていない場合には、図16に示すフローに従って同期情報を抽出する。すなわち、図16に示すように、すべてのグループの学習済みモデルを用いて基準シンボル列を推定し、評価値を算出し(S300、S301)、すべての評価値がLimit_model_score_min1(第1の最小値。動作可能閾値)未満であると処理を中止する(S302、S309)。いずれかの基準シンボル列についても評価値がLimit_model_score_min1(第1の最小値)以上である場合にはその評価値が高い上位R個の基準シンボル例を用いて基準信号マッチングおよびテキストマッチングを行い、同期情報を取得する(S302、S303、S304、S305、S306)。最も大きな評価値が、予め定められたLimit_model_score_min2(>Limit_model_score_min1)以上であれば、歌手はその最も高い評価値のグループに属するとして登録する(S307、S310)。そうでない場合には登録することなく処理を終了する。この場合、新たな学習を行って良い。 If the singer has not yet been registered in any croup, synchronization information is extracted according to the flow shown in FIG. That is, as shown in FIG. 16, reference symbol strings are estimated using the trained models of all groups, evaluation values are calculated (S300, S301), and all evaluation values are Limit_model_score_min1 (first minimum value). If it is less than the operable threshold value), the process is stopped (S302, S309). If the evaluation value of any of the reference symbol strings is Limit_model_score_min1 (first minimum value) or more, reference signal matching and text matching are performed using the upper R reference symbol examples having the highest evaluation value, and synchronization is performed. Information is acquired (S302, S303, S304, S305, S306). If the highest evaluation value is greater than or equal to the predetermined Limit_model_score_min2 (> Limit_model_score_min1), the singer is registered as belonging to the group with the highest evaluation value (S307, S310). If not, the process ends without registration. In this case, new learning may be performed.

なお、図15および図16において、上述のとおり、評価値がLimit_model_score_min1以上のグループが見つからなかった場合には、その音声に対する処理が困難である旨の通知とともに処理を中止する。また、図15のステップS211または図16のステップS309で処理が中止された歌手、または、図16のステップS309において処理で最も高い評価値がLimit_model_score_min2に満たなかった歌手に対しては、必要に応じてそのボーカルとテキストの正解データを用意して、図11のフローに従って新たに学習モデルを作成し、そのグループを追加登録する。 In addition, in FIG. 15 and FIG. 16, as described above, when a group having an evaluation value of Limit_model_score_min1 or more is not found, the processing is stopped with a notification that the processing for the voice is difficult. Further, for the singer whose processing was canceled in step S211 of FIG. 15 or step S309 of FIG. 16, or the singer whose highest evaluation value in the processing in step S309 of FIG. 16 was less than Limit_model_score_min2, if necessary. Prepare the correct answer data of the vocal and the text, create a new learning model according to the flow of FIG. 11, and additionally register the group.

なお、図16のフローで、音声信号に基づいて、最大N個のグループに対する第1基準シンボル列が出力される(図4のステップS115)。これら第1基準シンボル列と、同期情報の抽出対象となるテキストから生成した第2基準シンボル列(図4のステップS17)とをマッチングさせる(図4のステップS118)。先に図14を参照して説明した基準シンボル列のマッチングフロー例では、評価値を基準にして上位R個の第1基準シンボル列を用いるけれども、これをN個として良い。図14の例では、時間方向にオーバーラップしている場合があるため、同じ抽出結果を重複させないなどの処理が行われる。このように作成された第1シンボル列と、第2基準シンボル列との類似度を計算する。計算方法としては、コサイン類似度等が利用できる。また、必要に応じて、文字の位置をずらした文字列との類似度を計算する。100%マッチングしなくても、最も類似度の高いシンボル列をマッチング結果として採用する。マッチングに使用した第1基準シンボル列には、シンボル単位で時間情報が付加されているため、同期情報の抽出対象となるテキストの第2基準シンボル列(その部分列)に、同期情報として時間情報が関連付けられる(図4のステップS118)。 In the flow of FIG. 16, the first reference symbol string for a maximum of N groups is output based on the voice signal (step S115 of FIG. 4). The first reference symbol string is matched with the second reference symbol string (step S17 in FIG. 4) generated from the text to be extracted from the synchronization information (step S118 in FIG. 4). In the example of the matching flow of the reference symbol strings described above with reference to FIG. 14, although the upper R first reference symbol strings are used with reference to the evaluation value, N may be used. In the example of FIG. 14, since they may overlap in the time direction, processing such as not duplicating the same extraction results is performed. The degree of similarity between the first symbol string created in this way and the second reference symbol string is calculated. As a calculation method, cosine similarity and the like can be used. Also, if necessary, the degree of similarity with the character string whose character position is shifted is calculated. Even if 100% matching is not performed, the symbol string having the highest degree of similarity is adopted as the matching result. Since time information is added to the first reference symbol string used for matching in symbol units, time information is added as synchronization information to the second reference symbol string (substring thereof) of the text to be extracted from the synchronization information. Is associated (step S118 in FIG. 4).

同期対象テキストを基準シンボルに変換する際に、元のテキストと変換後の基準シンボルの関係情報を保持してその情報を利用することで、先の処理で第2基準シンボル列(その部分列)に付加された同期時間の情報を元のテキスト(その部分テキスト)に関連付ける。(図4のステップS19)これにより、同期情報付きテキストデータが得られる(図4のステップS20)。 When converting the text to be synchronized to the reference symbol, by holding the relationship information between the original text and the converted reference symbol and using that information, the second reference symbol string (its substring) in the previous process. Associate the synchronization time information added to with the original text (partial text). (Step S19 of FIG. 4) As a result, text data with synchronization information can be obtained (step S20 of FIG. 4).

図17は、基準シンボルのマッチングを中心にして実施例の動作を模式的に示すものである。図15において、同期対称テキストは、「この度はこんな私を選んでくれて・・・」というものである。これは、「このたびはこんなわたしを・・・」という第2基準シンボル列に変換される。他方、音声信号セグメント(t−1、t−2、・・・)に基づいて、発音空間に対応した発音記号スコア情報から複数(この例では7個)の第1基準シンボル列が「おのてひあ・・・」、「こむちびわ・・・」、・・・「さにゆや・・・」が生成される。第1基準シンボル列は、評価値(スコア)の大きさに基づいて並べられている。図の例では、スコアが大きい第1基準シンボル列ほど左側に配置される。時間軸に沿って、1つの第2基準シンボル列を複数の第1基準シンボル列に動的にマッチングさせる。太字はマッチングで選択された動的な経路を示す。「このたびは」という第2基準シンボル部分列が、「このたびわ」という第1基準シンボル部分列に太字で示すようにマッチングされ、その時間情報(タイムスタンプ)が第2基準シンボル部分列に関係付けられ、さらにこれに対応する部分テキストの「この度は」に関係づけられる。この例では、「この度は」の先頭に、時間t−1のタイムスタンプが付与される。「この度は」という部分テキスト(文節)を構成する文字単位にタイムスタンプを付しても良い。基準シンボル列の一部が合致しなくてもマッチングを成功裏に終了させても良い。マッチングに、基準シンボルの個々のラベルの間の距離(または類似度)を導入して、距離が小さくなる(または類似度が大きくなる)ように動的なマッチングを行って良い。 FIG. 17 schematically shows the operation of the embodiment centering on the matching of reference symbols. In FIG. 15, the synchronous symmetric text is "This time, please choose me like this ...". This is converted into a second reference symbol string, "This time I am like this ...". On the other hand, based on the voice signal segments (t-1, t-2, ...), the first reference symbol string of a plurality (7 in this example) is "Ono" from the phonetic symbol score information corresponding to the pronunciation space. "Tehia ...", "Komuchibiwa ...", ... "Saiyuya ..." are generated. The first reference symbol string is arranged based on the size of the evaluation value (score). In the example of the figure, the first reference symbol string having a higher score is arranged on the left side. Along the time axis, one second reference symbol string is dynamically matched with a plurality of first reference symbol strings. Bold indicates the dynamic path selected by matching. The second reference symbol substring "this time" is matched to the first reference symbol substring "this time" as shown in bold, and the time information (time stamp) is added to the second reference symbol substring. It is related, and further related to the corresponding subtext "this time". In this example, a time stamp of time t-1 is added to the beginning of "this time". A time stamp may be added to each character that constitutes the partial text (phrase) "this time". Matching may be completed successfully even if a part of the reference symbol string does not match. For matching, the distance (or similarity) between the individual labels of the reference symbol may be introduced to perform dynamic matching so that the distance is smaller (or the similarity is higher).

この実施例においては、以下の効果がある。
音(発音)とその音に対応する言葉(文字)を関連付けるため、言語ごとの音声辞書が不要で、言語によらず、共通の発音空間モデルを使って処理が可能である。
人物ごとに学習した発音を言葉に変換ライブラリー(発音空間モデル)によるマッチングをおこなうことで、音声認識率を向上させる事が出来る。
In this embodiment, there are the following effects.
Since a sound (pronunciation) and a word (character) corresponding to the sound are associated with each other, a voice dictionary for each language is not required, and processing can be performed using a common pronunciation space model regardless of the language.
The speech recognition rate can be improved by converting the pronunciation learned for each person into words and performing matching with a library (pronunciation space model).

この実施例は以下の用途に適用可能であるけれども、これに限定されない。
(1)音楽コンテンツに対して、ボーカルと伴奏が混在する曲データと、歌詞カードのテキストデータとの時間的同期情報の抽出
(2)ドラマ、映画等のビデオコンテンツに対して映像データの音声データと、シナリオ上のセリフのテキストデータとの時間的同期情報の抽出
(3)会議上における、音声もしく、映像データの音声データと、その音声を音声認識エンジンにより抽出されたテキストデータとの時間的同期情報の抽出
This embodiment is applicable, but not limited to, the following applications.
(1) Extraction of temporal synchronization information between song data in which vocals and accompaniment are mixed for music content and text data of lyrics card (2) Audio data of video data for video content such as drama and movie And extraction of temporal synchronization information with the text data of the dialogue in the scenario (3) Time between the voice data of the voice or video data on the conference and the text data extracted from the voice by the voice recognition engine Extraction of target synchronization information

つぎに実施例1を英語に適用した例について説明する。上述の実施例は日本語に適用し、基準シンボルとしてかな文字を用いたけれども、この発明は、基準シンボルを単語レベルのものとして採用し、単語レベルの単位をトークンとして使用できる任意の言語、スペイン語、フランス語、ドイツ語、ポルトガル語、ロシア語等にも適用可能である。 Next, an example in which Example 1 is applied to English will be described. Although the above embodiment applies to Japanese and uses kana characters as reference symbols, the present invention adopts reference symbols as word-level ones and any language in which word-level units can be used as tokens, Spain. It is also applicable to languages, French, German, Portuguese, Russian, etc.

日本語のように、表意文字(例えば漢字)、表音文字(ひらがなやカタカナ、ローマ字)を持つ言語の歌詞に対しては、表音文字単位の基準シンボルに変換することが好ましいけれども、英語のような言語では、単語を基準にして基準シンボルを構築できる。ただし、この適応例では日本語の処理の説明の統一性を保つために、英語の適応例では大文字小文字変換、特殊文字の削除をおこなったものを基準シンボルとしている。 For lyrics in languages that have ideographic characters (for example, kanji) and phonetic characters (hiragana, katakana, and romaji), such as Japanese, it is preferable to convert them to reference symbols for phonetic characters, but in English In such languages, reference symbols can be constructed on the basis of words. However, in this adaptation example, in order to maintain the uniformity of the explanation of Japanese processing, the English adaptation example uses the one that has been converted to uppercase and lowercase letters and the special characters have been deleted as the reference symbol.

この英語の例では、図18に示すように英語の歌詞テキストを単語レベルの第2基準シンボルへ変換している。図19は、音声信号セグメントに応じた第1基準シンボル列の出力例を示す。図20は、同期情報抽出の全体の流れを示す。この例でも、太字に沿ってマッチングが行われている。部分テキストに同期情報が付与される。 In this English example, the English lyric text is converted into a word-level second reference symbol as shown in FIG. FIG. 19 shows an output example of the first reference symbol string according to the voice signal segment. FIG. 20 shows the overall flow of synchronization information extraction. In this example as well, matching is performed along the bold letters. Synchronization information is added to the partial text.

以上でこの発明の実施例1の同期情報生成装置1000の説明を終了する。 This is the end of the description of the synchronization information generator 1000 according to the first embodiment of the present invention.

つぎにこの発明の実施例2を説明する。図21は、この発明の実施例2に従う、簡略化された同期情報生成装置200を示す。図21において図2と対応する箇所には対応する符号を付した。実施例2の同期情報生成装置200は、実施例1と同様に、楽曲音響データと歌詞カードのテキストデータとを参照してLRCファイルを自動的に作成するものである。楽曲は日本語ベースのものであり、楽曲音響ルデータのボーカル音声信号と歌詞カードのテキストデータとが、かな文字(ひらがな)のレベルでマッチングされ、このマッチングの結果、歌詞カードのテキストデータとボーカル音声信号(楽曲音響データ)の時刻情報とが対応付けられ、この対応付けに基づいてLRCファイルを生成する。マッチングに用いるシンボル(トークンともいう、例えば、かな文字)を以下ではマッチング用基準シンボルまたは単に基準シンボルと呼ぶ。 Next, Example 2 of the present invention will be described. FIG. 21 shows a simplified synchronization information generator 200 according to Example 2 of the present invention. In FIG. 21, the parts corresponding to FIG. 2 are designated by the corresponding reference numerals. Similar to the first embodiment, the synchronization information generation device 200 of the second embodiment automatically creates an LRC file by referring to the music sound data and the text data of the lyrics card. The music is based on Japanese, and the vocal voice signal of the music sound data and the text data of the lyrics card are matched at the level of kana characters (hiragana), and as a result of this matching, the text data of the lyrics card and the vocal voice The time information of the signal (musical sound data) is associated with it, and an LRC file is generated based on this association. The symbols used for matching (also referred to as tokens, for example, kana characters) are hereinafter referred to as matching reference symbols or simply reference symbols.

この同期情報生成装置200は、日本語に限定されず、種々の言語に適用可能である。英語にも適用する場合、基準シンボルは、例えば、大文字、小文字の別や特殊記号を捨象した単語であってよい。この例では、歌詞用同期情報生成について説明するけれども、これに限定されない。 The synchronization information generator 200 is not limited to Japanese, and can be applied to various languages. When applied to English as well, the reference symbol may be, for example, a word that is case-sensitive or abstracts special symbols. In this example, synchronous information generation for lyrics will be described, but the present invention is not limited to this.

図21において、同期情報生成装置200は、楽曲音響データファイル入力部10、歌詞テキストデータファイル入力部20、ボーカル音声信号抽出部30、時間情報抽出部40、第1基準シンボル列生成部50、第2基準シンボル列生成部60、基準シンボル列マッチング部70、テキストマッチング部80、LRCファイル生成部90、LRCファイル記憶部100等を含んで構成されている。第1基準シンボル列生成部50は、この構成例においては、発音記号検出部51および基準シンボル推定部52を含んで構成されている。 In FIG. 21, the synchronization information generation device 200 includes a music sound data file input unit 10, a lyrics text data file input unit 20, a vocal voice signal extraction unit 30, a time information extraction unit 40, a first reference symbol string generation unit 50, and a first. 2. The reference symbol string generation unit 60, the reference symbol string matching unit 70, the text matching unit 80, the LRC file generation unit 90, the LRC file storage unit 100, and the like are included. In this configuration example, the first reference symbol string generation unit 50 includes a phonetic symbol detection unit 51 and a reference symbol estimation unit 52.

この例では、同期情報生成装置200は、1つのコンピュータシステム300によって構成されるけれども、複数のコンピュータシステムや、種々のネットワークシステムを有して構成されて良い。コンピュータシステム300の一部をスマートフォン等の情報端末で構成して良い。コンピュータシステム300は、典型的には、図3に示すように、CPU301、主メモリ302、バス303、補助記憶装置304、種々の入出力インタフェース305等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。同期情報生成装置200は、例えば、コンピュータ可読記録媒体306に記録されたコンピュータプログラムや通信ネットワーク(図示しない)を介して送信されてくるコンピュータプログラムをコンピュータシステム300にインストールすることにより実現される。同期情報ファイルはLRCファイル記憶部100に蓄積され、携帯端末等の外部装置400からアクセス可能であって良い。外部装置400が楽曲音響データおより歌詞テキストデータを同期情報生成装置200にアップロードし、これに応じて同期情報生成装置200が生成した同期情報ファイルを取得して良い。 In this example, the synchronization information generator 200 is composed of one computer system 300, but may be configured to have a plurality of computer systems and various network systems. A part of the computer system 300 may be composed of an information terminal such as a smartphone. The computer system 300 typically includes a CPU 301, a main memory 302, a bus 303, an auxiliary storage device 304, various input / output interfaces 305, and the like, as shown in FIG. 3, a personal computer, a smartphone, and information. It may be a home appliance or the like. The synchronization information generator 200 is realized, for example, by installing a computer program recorded on a computer-readable recording medium 306 or a computer program transmitted via a communication network (not shown) in the computer system 300. The synchronization information file may be stored in the LRC file storage unit 100 and accessible from an external device 400 such as a mobile terminal. The external device 400 may upload the music sound data and the lyrics text data to the synchronization information generation device 200, and acquire the synchronization information file generated by the synchronization information generation device 200 accordingly.

図22は、図21の同期情報生成装置200の動作例の概要を示している。図21および図22において、楽曲音響データファイル入力部10は、音響信号をMP3、MP4等のフォーマットで記録したファイルを入力するものである(図22、ステップS10)。音響信号(audio)は、この例では、ボーカル信号(音声信号、voice)および伴奏信号を含む。歌詞テキストデータファイル入力部20は、歌詞テキスト(歌詞カードテキストともいう)のデータを記録したファイルを入力するものである(図22、ステップS11)。歌詞テキストは例えば図1(B)に示すように、楽曲内の歌詞の第1コーラス、第2コーラス等の曲全体のブロック構成がわかるように記載されることが多く、歌いやすい単位で行が羅列、改行されているわけではない。この実施例では、テキストを最適化された大きさの行単位に分割して良い(図22、ステップS16)。 FIG. 22 shows an outline of an operation example of the synchronization information generation device 200 of FIG. In FIGS. 21 and 22, the music sound data file input unit 10 inputs a file in which an acoustic signal is recorded in a format such as MP3 or MP4 (FIG. 22, step S10). The audio signal (audio) includes a vocal signal (voice signal, voice) and an accompaniment signal in this example. The lyrics text data file input unit 20 inputs a file in which data of lyrics text (also referred to as lyrics card text) is recorded (FIG. 22, step S11). As shown in FIG. 1 (B), the lyrics text is often described so that the block structure of the entire song such as the first chorus and the second chorus of the lyrics in the song can be understood, and the lines are in units that are easy to sing. The list is not broken. In this embodiment, the text may be divided into lines of optimized size (FIG. 22, step S16).

ボーカル音声信号抽出部30は、楽曲信号から音声信号(ボーカル信号、ボイス信号)を抽出するものである(図22、ステップS12)。音声信号抽出には種々の既知の手法を採用して良い。ステレオボーカル抽出には、センターキャンセリングおよび周波数帯域制限を利用できる。これは、ボーカル音声がLchとRchの両方に含まれることを利用するものである。また、モノラルボーカル抽出には、周波数地域制限を利用でき、これは、例えば、人の音声帯域(例えば100Hz−1000Hz)のバンドパスフィルタをかけて信号をとりだす手法がある。その他、多重HPSS法、バイナリマスキング法、RPCA法を採用して良い。 The vocal audio signal extraction unit 30 extracts an audio signal (vocal signal, voice signal) from the music signal (FIG. 22, step S12). Various known methods may be adopted for audio signal extraction. Center canceling and frequency band limitation can be used for stereo vocal extraction. This utilizes the fact that vocal voice is included in both Lch and Rch. Further, for monaural vocal extraction, a frequency region limitation can be used, for example, there is a method of extracting a signal by applying a bandpass filter of a human voice band (for example, 100 Hz to 1000 Hz). In addition, the multiple HPSS method, the binary masking method, and the RPCA method may be adopted.

ボーカル音声信号抽出部30は、楽曲信号から抽出した音声信号(ボーカル信号、ボイス信号)を、時間情報抽出部40に供給する。ボーカル信号(ボイス信号)は、無音区間の検出等に基づいて、ひとまとまりの音声ごとに分析されて良い。時間情報抽出部40は、音声信号を時間軸に沿って音声信号セグメントに所定のサンプリング周期で順次に分割し、例えば曲の開始からの経過情報を示す時間情報(タイムスタンプ)を各音声信号セグメントに付与する(図22、ステップS13)。時間情報抽出部40は時間情報付きの音声信号セグメントを第1基準シンボル列生成部50に供給する。 The vocal voice signal extraction unit 30 supplies the voice signal (vocal signal, voice signal) extracted from the music signal to the time information extraction unit 40. The vocal signal (voice signal) may be analyzed for each group of voices based on the detection of a silent section or the like. The time information extraction unit 40 sequentially divides the audio signal into audio signal segments along the time axis at a predetermined sampling cycle, and for example, time information (time stamp) indicating elapsed information from the start of the song is provided for each audio signal segment. (FIG. 22, step S13). The time information extraction unit 40 supplies the audio signal segment with the time information to the first reference symbol string generation unit 50.

第1基準シンボル列生成部50は、先に説明したように、発音記号検出部51および基準シンボル推定部52を含んで構成されている。発音記号検出部51は、時間情報付きの音声信号セグメント(ボーカル信号、ボイス信号)を入力して発音記号および時間情報を出力するものである(図22、ステップS14)。発音記号は図23に示すようなものであり、フォルマント分析やメル周波数ケプストラム(MFCC)分析等で検出して良い。種々のデジタルオーディオワークステーションを用いて発音記号データを出力でき、例えば、米国Digidesign社のProtoolsを用いて良い。発音記号検出部51は、発音記号および時間情報(タイムスタンプともいう)の対を順次に出力し、これは基準シンボル推定部52に供給される。 As described above, the first reference symbol string generation unit 50 includes a phonetic symbol detection unit 51 and a reference symbol estimation unit 52. The phonetic symbol detection unit 51 inputs a voice signal segment (vocal signal, voice signal) with time information and outputs the phonetic symbol and time information (FIG. 22, step S14). The phonetic symbols are as shown in FIG. 23, and may be detected by formant analysis, mel frequency cepstrum (MFCC) analysis, or the like. Phonetic symbol data can be output using various digital audio workstations, for example, Pro Tools from Digidesign, USA. The phonetic symbol detection unit 51 sequentially outputs a pair of phonetic symbols and time information (also referred to as a time stamp), which is supplied to the reference symbol estimation unit 52.

基準シンボル推定部52は、カナ確率テーブル52aを参照して発音記号の出現順序に基づいて基準シンボル列(ひらがなの列)を出力する(図22、ステップS15)。カナ確率テーブル52aは、発音記号の個別の時系列が表れたときにそれが個別のカナ(語)である確率を表す。カナ確率テーブル52aでは、図24に示すように、発音記号の各々、例えば、「wg」が基準シンボル(カナ)の各々、例えば、「を」、「わ」、・・・に対応する確率が求められている。基準シンボル推定部52は、発音記号と対をなすタイムスタンプをカナ列に対応付けて出力する。図25は、カナ列とタイムスタンプとの対応付け結果を示す。図25のLRC列は、楽曲信号の開始時点を起点にした場合に発話記号が検出された時間(タイムスタンプ)を示している。なお、すべての基準シンボル(カナ)にタイムスタンプを割り当てなくても良く、典型的には、出現頻度の大きな発音記号を中心に、カナにタイムスタンプがマッチングされて良いけれども、これに限定されない。基準シンボル推定部52からのタイムスタンプを伴う第1基準シンボル列は、表示単位行分割部110で表示表単位に分割されて基準シンボル列マッチング部70に供給される。 The reference symbol estimation unit 52 outputs a reference symbol sequence (hiragana sequence) based on the appearance order of phonetic symbols with reference to the kana probability table 52a (FIG. 22, step S15). The kana probability table 52a represents the probability that an individual time series of phonetic symbols is an individual kana (word). In the kana probability table 52a, as shown in FIG. 24, the probabilities that each of the phonetic symbols, for example, "wg" corresponds to each of the reference symbols (kana), for example, "o", "wa", ... It has been demanded. The reference symbol estimation unit 52 outputs a time stamp paired with the phonetic symbol in association with the katakana string. FIG. 25 shows the result of associating the katakana string with the time stamp. The LRC column of FIG. 25 shows the time (time stamp) at which the utterance symbol is detected when the start point of the music signal is used as the starting point. It is not necessary to assign a time stamp to all the reference symbols (kana), and typically, the time stamp may be matched to the kana centering on the phonetic symbol having a high frequency of appearance, but the time stamp is not limited to this. The first reference symbol string accompanied by the time stamp from the reference symbol estimation unit 52 is divided into display table units by the display unit row division unit 110 and supplied to the reference symbol column matching unit 70.

この例でも、表示単位行分割部110は、第1基準シンボル列を分割するのに替えて、歌詞テキストデータまたは第2基準シンボルデータを部分行単位で分割してよい。 In this example as well, the display unit line dividing unit 110 may divide the lyrics text data or the second reference symbol data in partial line units instead of dividing the first reference symbol string.

他方、歌詞テキストデータファイル入力部20は、テキスト、例えば歌詞テキストのデータを入力するものである(図22、ステップS11)。テキストは第2基準シンボル列生成部60およびテキストマッチング部80に供給する。第2基準シンボル列生成部60は、テキストデータ(図5(A))から基準シンボル列(ひらがな列。図5(B))を生成する(図22、ステップS17)。テキストデータから基準シンボル列への変換は形態素解析や簡便な辞書引きで行える。第2基準シンボル列生成部80からの第2基準シンボル列は基準シンボル列マッチング部70に供給されて、第1基準シンボル列生成部50からの第1基準シンボル列とマッチングされ、この結果、第2基準シンボル列に時間情報が付与される(図22、ステップS18)。時間情報が付与された第2基準シンボル列はテキストマッチング部80に供給される。 On the other hand, the lyrics text data file input unit 20 inputs text, for example, lyrics text data (FIG. 22, step S11). The text is supplied to the second reference symbol string generation unit 60 and the text matching unit 80. The second reference symbol string generation unit 60 generates a reference symbol string (hiragana string. FIG. 5 (B)) from the text data (FIG. 5 (A)) (FIG. 22, step S17). Conversion from text data to reference symbol strings can be performed by morphological analysis or simple dictionary lookup. The second reference symbol string from the second reference symbol string generation unit 80 is supplied to the reference symbol string matching unit 70 and matched with the first reference symbol string from the first reference symbol string generation unit 50, and as a result, the first reference symbol string is matched. 2 Time information is added to the reference symbol string (FIG. 22, step S18). The second reference symbol string to which the time information is added is supplied to the text matching unit 80.

テキストマッチング部80は、時間情報付きの第2基準シンボル列をテキストデータにマッチングさせ、テキストデータに時間情報を付与する(図22、ステップS19)。LRCファイル生成部90は時間情報付きのテキストデータを受け取ってLRCファイル(図1(A))を生成する(図22、ステップS20)。これはLRCファイル記憶部100に記憶されて良い。 The text matching unit 80 matches the second reference symbol string with the time information with the text data, and adds the time information to the text data (FIG. 22, step S19). The LRC file generation unit 90 receives text data with time information and generates an LRC file (FIG. 1 (A)) (FIG. 22, step S20). This may be stored in the LRC file storage unit 100.

なお、図21に破線で示すように、複数のカナ確率テーブル52aを設けて複数の基準シンボル列を生成し、基準シンボル列マッチング部70で、図2の基準シンボル列マッチング部1070と同様なダイナミックなマッチングを行って良い。 As shown by the broken line in FIG. 21, a plurality of kana probability tables 52a are provided to generate a plurality of reference symbol strings, and the reference symbol string matching unit 70 has the same dynamic as the reference symbol string matching unit 1070 of FIG. Matching is good.

以上でこの発明の実施例2に従う、図21に示す同期情報生成装置200の説明を終了する。 This is the end of the description of the synchronization information generator 200 shown in FIG. 21 according to the second embodiment of the present invention.

つぎのこの発明を音声認識装置に適用した実施例3を説明する。図26は、この実施例3の音声認識装置700を示し、この図において、音声認識装置700は、入力部701、音声信号セグメント分割部702、音声記号スコア生成部703、音声単位推定部704、音声単位推定辞書705、出力部706を含んで構成されている。音声認識装置700も図3に示すようなコンピュータシステムに実装されて良い。 Next, Example 3 in which the present invention is applied to a voice recognition device will be described. FIG. 26 shows the voice recognition device 700 of the third embodiment. In this figure, the voice recognition device 700 includes an input unit 701, a voice signal segment division unit 702, a voice symbol score generation unit 703, and a voice unit estimation unit 704. It includes a voice unit estimation dictionary 705 and an output unit 706. The voice recognition device 700 may also be mounted in a computer system as shown in FIG.

入力部701は、話者が発生した音声をマイクロホンを介して音声信号に変換するものである。音声信号セグメント分割部702は音声信号を時間区間に分けて出力するものである。音声記号スコア生成部703は発音記号空間に準拠して一群の発音記号およびスコアの組を音声信号セグメントごとに出力するものである。この例では同期情報を取得するものではないので時間情報は不要である。音声単位推定部704は一群の発音記号およびスコアの組を受け取って音声単位推定辞書705を参照して発音単位を推定する。発音単位は、先に説明した例における基準シンボル(トークン)であり、日本語の場合、例えば、ひらがな文字(モーラ)であってよく、英語等の場合、単語(大文字小文字の別、特殊文字を捨象したもの)であって良く、また音素等であってもよい。日本語のひらがな文字が出力される場合には、辞書を参照して適宜カナ漢字変換されて良い。適宜、単語モデルおよび言語モデルを参照して最終的な文章を出力して良い。 The input unit 701 converts the voice generated by the speaker into a voice signal via a microphone. The audio signal segment division unit 702 divides the audio signal into time intervals and outputs the signal. The phonetic symbol score generation unit 703 outputs a group of phonetic symbols and a set of scores for each phonetic signal segment in accordance with the phonetic symbol space. In this example, the time information is unnecessary because the synchronization information is not acquired. The voice unit estimation unit 704 receives a set of phonetic symbols and scores, and estimates the sound unit by referring to the voice unit estimation dictionary 705. The pronunciation unit is the reference symbol (token) in the example described above, and in the case of Japanese, for example, it may be a hiragana character (mora), and in the case of English, etc., a word (case-sensitive, special character). It may be a discarded one), or it may be a phoneme or the like. When Japanese hiragana characters are output, they may be converted into katakana and kanji as appropriate by referring to the dictionary. The final sentence may be output by referring to the word model and the language model as appropriate.

以上でこの発明の実施例3の説明を終了する。 This is the end of the description of Example 3 of the present invention.

なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。例えば、この発明は、音声信号と表示対象テキストとを同期させる種々の用途に適用できる。例えば、ビデオコンテンツとセリフ(スクリプト)とを同期させてよい。記録した音声(音声付ビデオ)と音声認識結果とを同期させて再生する場合にも適用可能である。この発明は日本語に適用されるだけでなく、種々の言語に適用可能である。また、当業者は、特許請求の範囲の記載に従って種々の変更を行い、種々の実施例を実施でき、このような実施例も特許請求の範囲の記載に含まれることに留意されたい。
以下、ここで説明された技術的特徴を列挙する。
[技術的特徴1]
テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置において、
上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と、
上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有することを特徴とするテキスト表示用同期情報生成装置。
[技術的特徴2]
上記テキストは、上記音声信号に対応する歌詞テキストに基づく技術的特徴1記載のテキスト表示用同期情報生成装置。
[技術的特徴3]
上記テキストは日本語テキストに基づくものであり、上記マッチング用基準シンボルは、かな文字である技術的特徴1または2のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴4]
上記テキストは英語テキストに基づくものであり、上記マッチング用基準シンボルは単語単位のレベルで表記されたものである技術的特徴1または2のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴5]
上記第1のマッチング用基準シンボル列に含まれる個々のマッチング用基準シンボルは、上記音声信号に対する尤度をそれぞれ伴い、上記マッチング手段は、尤度の大きさの順にR(Rは2以上の整数)個のマッチング用基準シンボルをマッチング対象とする技術的特徴1〜4のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴6]
上記発音特徴ラベルは音素片ラベルである技術的特徴1〜5のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴7]
上記複数の基準シンボル推定辞書は、機械学習により適合化される技術的特徴1〜6のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴8]
上記複数の基準シンボル推定辞書は、一般的なN1個の発声者グループ、癖のあるN2個の発声者グループ、および、個別アーティストのN3個の発声者に対するN(=N1+N2+N3)個の基準シンボル推定辞書である技術的特徴1〜7のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴9]
上記テキストの上記部分テキストはテキスト行であり、上記表示タイミング決定手段は、上記テキスト行ごとに表示タイミングを決定し、上記テキスト行ごとの上記表示タイミングを記述したLRCファイルを出力する技術的特徴1〜8のいずれかに記載のテキスト表示用同期情報生成装置。
[技術的特徴10]
テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成方法において、
発音特徴ラベルスコア生成手段が、上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力するステップと、
マッチング用基準シンボル列生成手段が、上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するステップと、
マッチング手段が、上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるステップと、
表示タイミング決定手段が、上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定するステップとを有することを特徴とするテキスト表示用同期情報生成方法。
[技術的特徴11]
テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するためのテキスト表示用同期情報生成用コンピュータプルグラムにおいて、
コンピュータを、
上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段、
上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段、および、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段
として実現させるために使用されるテキスト表示用同期情報生成用コンピュータプログラム。
[技術的特徴12]
音声信号を入力する音声信号入力装置と、CPUとを有し、テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置において、
上記CPUが、
上記音声信号入力装置から入力した上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力し、
上記音声信号セグメントの時間遷移に基づいて生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生し、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記複数の基準シンボル推定辞書を参照してそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けし、
上記音声信号に対応するテキストデータに基づく第2のマッチング用基準シンボル列を、上記複数の上記第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングし、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定するように構成されるテキスト表示用同期情報生成装置。
[技術的特徴13]
テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置において、
上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有することを特徴とするテキスト表示用同期情報生成装置。
[技術的特徴14]
テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置において、
上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と、
上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、基準シンボル推定辞書を参照して、第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有することを特徴とするテキスト表示用同期情報生成装置。
[技術的特徴15]
上記マッチング用基準シンボルは日本語のかなである技術的特徴14記載のテキスト表示用同期情報生成装置。
[技術的特徴16]
上記マッチング用基準シンボルは、単語単位のレベルで表記されたものである技術的特徴14記載のテキスト表示用同期情報生成装置。
[技術的特徴17]
音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と;
上記音声信号セグメントの時間遷移に基づいて上記発音記号スコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、音声認識単位推定辞書を参照して音声認識単位を順次に出力する音声認識単位出力手段とを有することを特徴とする音声認識装置。
[技術的特徴18]
上記音声認識単位は日本語のかなである技術的特徴17記載の音声認識装置。
[技術的特徴19]
上記音声認識単位は、単語単位のレベルで表記されたものである技術的特徴17記載の音声認識装置。
The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention. For example, the present invention can be applied to various uses for synchronizing an audio signal and a text to be displayed. For example, the video content and the dialogue (script) may be synchronized. It is also applicable when the recorded voice (video with voice) and the voice recognition result are synchronized and played back. The present invention is applicable not only to Japanese but also to various languages. It should be noted that a person skilled in the art can make various changes according to the description of the claims and implement various examples, and such examples are also included in the description of the claims.
The technical features described here are listed below.
[Technical feature 1]
In a text display synchronization information generator that determines the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the sound component of the sound feature label for each of a plurality of sound feature labels, and the voice signal segment is used. Generates the likelihood that is the pronunciation component of the pronunciation feature label as a score, and outputs the score of each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment.
The score transitions for the plurality of pronunciation feature labels generated by the pronunciation feature label score generating means based on the time transition of the voice signal segment can be individually adapted to a specific speaker or a specific speaker group. With reference to a plurality of reference symbol estimation dictionaries, each of the plurality of first matching reference symbol strings is associated with the time information of the voice signal segment, and the matching reference symbol string generating means is generated.
The second matching reference symbol string based on the text is used as a matching path dynamically determined for the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means. A matching means that matches along and associates the time information of the audio signal segment with the second matching reference symbol string,
It is characterized by having a display timing determining means for determining a display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. Synchronous information generator for text display.
[Technical feature 2]
The above text has technical features 1 Symbol placement text display synchronization information generating apparatus based on the lyrics text corresponding to the audio signal.
[Technical feature 3]
The above text is based on the Japanese text, the matching reference symbols, text display synchronization information generating apparatus according to any one of the kana characters of technical features 1 or 2.
[Technical feature 4]
The above text is based on the English text, the text display synchronization information generating apparatus according to any one of the technical features 1 or 2 above matching reference symbol is one which is expressed in the level of the word unit.
[Technical feature 5]
Each of the matching reference symbols included in the first matching reference symbol string has a likelihood for the audio signal, and the matching means R (R is an integer of 2 or more) in the order of the magnitude of the likelihood. ) A synchronous information generator for text display according to any one of technical features 1 to 4 for matching reference symbols for matching.
[Technical feature 6]
The above-mentioned pronunciation feature label is a synchronous information generator for text display according to any one of technical features 1 to 5, which is a phoneme piece label.
[Technical feature 7]
The plurality of reference symbol estimation dictionaries are synchronous information generators for text display according to any one of technical features 1 to 6 adapted by machine learning.
[Technical feature 8]
The above-mentioned plurality of reference symbol estimation dictionaries estimate N (= N1 + N2 + N3) reference symbols for a general N1 speaker group, a habitual N2 speaker group, and N3 speaker of an individual artist. A synchronous information generator for text display according to any one of technical features 1 to 7, which is a dictionary.
[Technical feature 9]
The partial text of the text is a text line, and the display timing determining means determines the display timing for each text line and outputs an LRC file describing the display timing for each text line. Technical feature 1 The synchronization information generator for text display according to any one of 8 to 8.
[Technical feature 10]
In the text display synchronization information generation method for determining the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
The pronunciation feature label score generating means emphasizes the pronunciation component of the pronunciation feature label for each of the plurality of pronunciation feature labels for each of the voice signal segments obtained by dividing the voice signal along the time axis. A step of performing filtering, generating the likelihood that the voice signal segment is the pronunciation component of the pronunciation feature label as a score, and outputting each score for a plurality of pronunciation feature labels in association with the time information of the voice signal segment. ,
The matching reference symbol string generating means is a specific utterer or a specific utterance from the transition of the score for the plurality of pronunciation feature labels generated by the pronunciation feature label score generating means based on the time transition of the voice signal segment. With reference to a plurality of reference symbol estimation dictionaries that can be individually adapted to the group of persons, a step generated by associating a plurality of first matching reference symbol strings with the time information of the voice signal segment, and
The matching means dynamically determines the second matching reference symbol string based on the text to the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means, respectively. A step of matching along the matching path and associating the time information of the audio signal segment with the second matching reference symbol string,
The display timing determining means includes a step of determining a display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. A method for generating synchronous information for text display, which is characterized by the fact that.
[Technical Features 11]
In the text display synchronization information generation computer program for determining the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
Computer,
Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the sound component of the sound feature label for each of a plurality of sound feature labels, and the voice signal segment is used. Is a pronunciation feature label score generation means, which generates a likelihood that is a pronunciation component of the pronunciation feature label as a score, and outputs a score for each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment.
The score transitions for the plurality of pronunciation feature labels generated by the pronunciation feature label score generating means based on the time transition of the voice signal segment can be individually adapted to a specific speaker or a specific speaker group. A matching reference symbol string generating means, which is generated by associating a plurality of first matching reference symbol strings with the time information of the voice signal segment by referring to a plurality of reference symbol estimation dictionaries.
The second matching reference symbol string based on the text is used as a matching path dynamically determined for the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means. A matching means that matches along and associates the time information of the audio signal segment with the second matching reference symbol string, and
Used as a display timing determining means for determining the display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. A computer program for generating synchronous information for displaying text.
[Technical feature 12]
In a text display synchronization information generator which has an audio signal input device for inputting an audio signal and a CPU and determines the timing of displaying each of the partial texts of the text based on the audio signal corresponding to the text.
The above CPU
For each of the voice signal segments obtained by dividing the voice signal input from the voice signal input device along the time axis, the pronunciation component of the pronunciation feature label is emphasized for each of the plurality of pronunciation feature labels. Filtering is performed, the likelihood that the voice signal segment is the pronunciation component of the pronunciation feature label is generated as a score, and each score for a plurality of pronunciation feature labels is output in association with the time information of the voice signal segment.
A plurality of reference symbol estimation dictionaries that can be individually adapted to a specific speaker or a specific group of voices from the transition of scores for the plurality of pronunciation feature labels generated based on the time transition of the voice signal segment. With reference to, each of a plurality of first matching reference symbol strings is generated in association with the time information of the voice signal segment.
Matching that is dynamically determined by the second matching reference symbol string based on the text to the plurality of first matching reference symbol strings generated by referring to the plurality of reference symbol estimation dictionaries. Matching along the route, the time information of the audio signal segment is associated with the second matching reference symbol string, and the time information is associated with the second matching reference symbol string.
The second matching reference symbol string based on the text data corresponding to the voice signal is matched with the plurality of the first matching reference symbol strings along the dynamically determined matching path.
Text display synchronization information configured to determine the display timing for displaying each of the partial texts of the text using the time information of the audio signal segment associated with the second matching reference symbol string. Generator.
[Technical Feature 13]
In a text display synchronization information generator that determines the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
From each of the audio signal segments obtained by dividing the audio signal along the time axis, refer to a plurality of reference symbol estimation dictionaries that can be individually adapted to a specific speaker or a specific speaker group. , A matching reference symbol string generating means generated by associating a plurality of first matching reference symbol strings with the time information of the audio signal segment, respectively.
The second matching reference symbol string based on the text is used as a matching path dynamically determined for the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means. A matching means that matches along and associates the time information of the audio signal segment with the second matching reference symbol string,
It is characterized by having a display timing determining means for determining a display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. Synchronous information generator for text display.
[Technical Feature 14]
In a text display synchronization information generator that determines the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the sound component of the sound feature label for each of a plurality of sound feature labels, and the voice signal segment is used. Generates the likelihood that is the pronunciation component of the pronunciation feature label as a score, and outputs the score of each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment.
From the transition of the scores for the plurality of pronunciation feature labels generated by the pronunciation feature label score generation means based on the time transition of the voice signal segment, the reference symbol estimation dictionary is referred to, and the first matching reference symbol string is used. The matching reference symbol string generating means generated in association with the time information of the voice signal segment,
The second matching reference symbol string based on the text is used as a matching path dynamically determined for the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means. A matching means that matches along and associates the time information of the audio signal segment with the second matching reference symbol string,
It is characterized by having a display timing determining means for determining a display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. Synchronous information generator for text display.
[Technical feature 15]
The above-mentioned reference symbol for matching is a Japanese kana. A synchronous information generator for text display according to technical feature 14.
[Technical features 16]
The matching reference symbol is a text display synchronization information generator according to technical feature 14, which is expressed at the word unit level.
[Technical feature 17]
Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the pronunciation component of the pronunciation feature label for each of a plurality of pronunciation feature labels, and the voice signal segment is generated. With a pronunciation feature label score generation means that generates a likelihood that is a pronunciation component of the pronunciation feature label as a score and outputs each score for a plurality of pronunciation feature labels in association with the time information of the voice signal segment;
A voice that sequentially outputs voice recognition units by referring to a voice recognition unit estimation dictionary from the transition of scores for the plurality of phonetic feature labels generated by the phonetic symbol score generation means based on the time transition of the voice signal segment. A voice recognition device comprising a recognition unit output means.
[Technical Feature 18]
The voice recognition unit according to the technical feature 17, wherein the voice recognition unit is Japanese.
[Technical features 19]
The voice recognition device according to technical feature 17, wherein the voice recognition unit is expressed at a word unit level.

1000 同期情報生成装置
10 楽曲音響データファイル入力部
20 歌詞テキストデータファイル入力部
30 ボーカル音声信号抽出部
40 時間情報抽出部
1050 第1基準シンボル列生成部
1051 発音記号スコア生成部
1052 基準シンボル推定部
1053 基準シンボル選択部
1054 推定辞書
1055 発音記号抽出フィルタ装置
1056 音響フィルタシステム
1057 レベル検出器
1058 上位発音記号特定部
60 第2基準シンボル列生成部
1070 基準シンボル列マッチング部
80 テキストマッチング部
90 LRCファイル生成部
100 LRCファイル記憶部
110 表示単位行分割部
300 コンピュータシステム
301 CPU
302 主メモリ
303 バス
304 補助記憶装置
305 入出力インタフェース
306 コンピュータ可読記録媒体
400 外部装置
700 音声認識装置
701 入力部
702 音声信号セグメント分割部
703 音声記号スコア生成部
704 音声単位推定部
705 音声単位推定辞書
706 出力部
1000 Synchronous information generator 10 Music acoustic data file input unit 20 Lyrics text data file input unit 30 Vocal voice signal extraction unit 40 Time information extraction unit 1050 First reference symbol string generation unit 1051 Phonetic symbol score generation unit 1052 Reference symbol estimation unit 1053 Reference symbol selection unit 1054 Estimated dictionary 1055 Phonetic symbol extraction filter device 1056 Acoustic filter system 1057 Level detector 1058 Higher phonetic symbol identification unit 60 Second reference symbol string generation unit 1070 Reference symbol string matching unit 80 Text matching unit 90 LRC file generation unit 100 LRC file storage unit 110 Display unit Line division unit 300 Computer system 301 CPU
302 Main memory 303 Bus 304 Auxiliary storage device 305 Input / output interface 306 Computer-readable recording medium 400 External device 700 Voice recognition device 701 Input unit 702 Voice signal segment division unit 703 Voice symbol score generation unit 704 Voice unit estimation unit 705 Voice unit estimation dictionary 706 output section

Claims (12)

テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置において、
上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段と、
上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段と、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段と、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段とを有することを特徴とするテキスト表示用同期情報生成装置。
In a text display synchronization information generator that determines the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the sound component of the sound feature label for each of a plurality of sound feature labels, and the voice signal segment is used. Generates the likelihood that is the pronunciation component of the pronunciation feature label as a score, and outputs the score of each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment.
The score transitions for the plurality of pronunciation feature labels generated by the pronunciation feature label score generating means based on the time transition of the voice signal segment can be individually adapted to a specific speaker or a specific speaker group. With reference to a plurality of reference symbol estimation dictionaries, each of the plurality of first matching reference symbol strings is associated with the time information of the voice signal segment, and the matching reference symbol string generating means is generated.
The second matching reference symbol string based on the text is used as a matching path dynamically determined for the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means. A matching means that matches along and associates the time information of the audio signal segment with the second matching reference symbol string,
It is characterized by having a display timing determining means for determining a display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. Synchronous information generator for text display.
上記テキストは、上記音声信号に対応する歌詞テキストに基づく請求項1記載のテキスト表示用同期情報生成装置。 The text, the text display synchronization information generating apparatus according to claim 1 Symbol placement based on lyrics text corresponding to the audio signal. 上記テキストは日本語テキストに基づくものであり、上記マッチング用基準シンボルは、かな文字である請求項1または2のいずれかに記載のテキスト表示用同期情報生成装置。 The above text is based on the Japanese text, the matching reference symbols, text display synchronization information generating apparatus according to claim 1 or 2 is kana characters. 上記テキストは英語テキストに基づくものであり、上記マッチング用基準シンボルは単語単位のレベルで表記されたものである請求項1または2のいずれかに記載のテキスト表示用同期情報生成装置。 The above text is based on the English text, the text display synchronization information generating apparatus according to any one of claims 1 or 2 above matching reference symbol is one which is expressed in the level of the word unit. 上記第1のマッチング用基準シンボル列に含まれる個々のマッチング用基準シンボルは、上記音声信号に対する尤度をそれぞれ伴い、上記マッチング手段は、尤度の大きさの順にR(Rは2以上の整数)個のマッチング用基準シンボルをマッチング対象とする請求項1〜4のいずれかに記載のテキスト表示用同期情報生成装置。 Each of the matching reference symbols included in the first matching reference symbol string has a likelihood for the audio signal, and the matching means R (R is an integer of 2 or more) in the order of the magnitude of the likelihood. The synchronization information generation device for text display according to any one of claims 1 to 4, wherein the matching reference symbols are matched. 上記発音特徴ラベルは音素片ラベルである請求項1〜5のいずれかに記載のテキスト表示用同期情報生成装置。 The synchronization information generator for text display according to any one of claims 1 to 5, wherein the pronunciation feature label is a phoneme piece label. 上記複数の基準シンボル推定辞書は、機械学習により適合化される請求項1〜6のいずれかに記載のテキスト表示用同期情報生成装置。 The text display synchronous information generator according to any one of claims 1 to 6, wherein the plurality of reference symbol estimation dictionaries are adapted by machine learning. 上記複数の基準シンボル推定辞書は、一般的なN1個の発声者グループ、癖のあるN2個の発声者グループ、および、個別アーティストのN3個の発声者に対するN(=N1+N2+N3)個の基準シンボル推定辞書である請求項1〜7のいずれかに記載のテキスト表示用同期情報生成装置。 The above-mentioned plurality of reference symbol estimation dictionaries estimate N (= N1 + N2 + N3) reference symbols for a general N1 speaker group, a habitual N2 speaker group, and N3 speaker of an individual artist. The synchronous information generation device for text display according to any one of claims 1 to 7, which is a dictionary. 上記テキストの上記部分テキストはテキスト行であり、上記表示タイミング決定手段は、上記テキスト行ごとに表示タイミングを決定し、上記テキスト行ごとの上記表示タイミングを記述したLRCファイルを出力する請求項1〜8のいずれかに記載のテキスト表示用同期情報生成装置。 The partial text of the text is a text line, and the display timing determining means determines the display timing for each text line and outputs an LRC file describing the display timing for each text line. The synchronization information generation device for text display according to any one of 8. テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成方法において、
発音特徴ラベルスコア生成手段が、上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力するステップと、
マッチング用基準シンボル列生成手段が、上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するステップと、
マッチング手段が、上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるステップと、
表示タイミング決定手段が、上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定するステップとを有することを特徴とするテキスト表示用同期情報生成方法。
In the text display synchronization information generation method for determining the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
The pronunciation feature label score generating means emphasizes the pronunciation component of the pronunciation feature label for each of the plurality of pronunciation feature labels for each of the voice signal segments obtained by dividing the voice signal along the time axis. A step of performing filtering, generating the likelihood that the voice signal segment is the pronunciation component of the pronunciation feature label as a score, and outputting each score for a plurality of pronunciation feature labels in association with the time information of the voice signal segment. ,
The matching reference symbol string generating means is a specific utterer or a specific utterance from the transition of the score for the plurality of pronunciation feature labels generated by the pronunciation feature label score generating means based on the time transition of the voice signal segment. With reference to a plurality of reference symbol estimation dictionaries that can be individually adapted to the group of persons, a step generated by associating a plurality of first matching reference symbol strings with the time information of the voice signal segment, and
The matching means dynamically determines the second matching reference symbol string based on the text to the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means, respectively. A step of matching along the matching path and associating the time information of the audio signal segment with the second matching reference symbol string,
The display timing determining means includes a step of determining a display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. A method for generating synchronous information for text display, which is characterized by the fact that.
テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するためのテキスト表示用同期情報生成用コンピュータプルグラムにおいて、
コンピュータを、
上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力する発音特徴ラベルスコア生成手段、
上記音声信号セグメントの時間遷移に基づいて上記発音特徴ラベルスコア生成手段から生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生するマッチング用基準シンボル列発生手段、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記マッチング用基準シンボル列発生手段からそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けるマッチング手段、および、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定する表示タイミング決定手段
として実現させるために使用されるテキスト表示用同期情報生成用コンピュータプログラム。
In the text display synchronization information generation computer program for determining the timing of displaying each of the partial texts of the above text based on the voice signal corresponding to the text.
Computer,
Each of the voice signal segments obtained by dividing the voice signal along the time axis is filtered so as to emphasize the sound component of the sound feature label for each of a plurality of sound feature labels, and the voice signal segment is used. Is a pronunciation feature label score generation means, which generates a likelihood that is a pronunciation component of the pronunciation feature label as a score, and outputs a score for each of the plurality of pronunciation feature labels in association with the time information of the voice signal segment.
The score transitions for the plurality of pronunciation feature labels generated by the pronunciation feature label score generating means based on the time transition of the voice signal segment can be individually adapted to a specific speaker or a specific speaker group. A matching reference symbol string generating means, which is generated by associating a plurality of first matching reference symbol strings with the time information of the voice signal segment by referring to a plurality of reference symbol estimation dictionaries.
The second matching reference symbol string based on the text is used as a matching path dynamically determined for the plurality of first matching reference symbol strings generated from the matching reference symbol string generating means. A matching means that matches along and associates the time information of the audio signal segment with the second matching reference symbol string, and
Used as a display timing determining means for determining the display timing for displaying each of the partial texts of the text by using the time information of the audio signal segment associated with the second matching reference symbol string. A computer program for generating synchronous information for displaying text.
音声信号を入力する音声信号入力装置と、CPUとを有し、テキストに対応する音声信号に基づいて、上記テキストの部分テキストの各々を表示するタイミングを決定するテキスト表示用同期情報生成装置において、
上記CPUが、
上記音声信号入力装置から入力した上記音声信号を時間軸に沿って分割して得た音声信号セグメントの各々に対して、複数の発音特徴ラベルごとに当該発音特徴ラベルの発音成分を強調するようにフィルタリングを行い、当該音声信号セグメントが当該発音特徴ラベルの発音成分である尤度をスコアとして生成し、複数の発音特徴ラベルについてそれぞれのスコアを当該音声信号セグメントの時間情報に関連付けて出力し、
上記音声信号セグメントの時間遷移に基づいて生成される上記複数の発音特徴ラベルに対するスコアの遷移から、特定の発声者または特定の発声者グループにそれぞれ個別に適合化可能である複数の基準シンボル推定辞書を参照して、それぞれ複数の第1のマッチング用基準シンボル列を上記音声信号セグメントの時間情報に関連付けて発生し、
上記テキストに基づく第2のマッチング用基準シンボル列を、上記複数の基準シンボル推定辞書を参照してそれぞれ発生させられた上記複数の第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングして上記第2のマッチング用基準シンボル列に上記音声信号セグメントの時間情報を関連付けし、
上記音声信号に対応するテキストデータに基づく第2のマッチング用基準シンボル列を、上記複数の上記第1のマッチング用基準シンボル列に、動的に決定されるマッチング経路に沿ってマッチングし、
上記第2のマッチング用基準シンボル列に関連付けられた上記音声信号セグメントの時間情報を用いて、上記テキストの上記部分テキストの各々を表示する表示タイミングを決定するように構成されるテキスト表示用同期情報生成装置。
In a text display synchronization information generator which has an audio signal input device for inputting an audio signal and a CPU and determines the timing of displaying each of the partial texts of the text based on the audio signal corresponding to the text.
The above CPU
For each of the voice signal segments obtained by dividing the voice signal input from the voice signal input device along the time axis, the pronunciation component of the pronunciation feature label is emphasized for each of the plurality of pronunciation feature labels. Filtering is performed, the likelihood that the voice signal segment is the pronunciation component of the pronunciation feature label is generated as a score, and each score for a plurality of pronunciation feature labels is output in association with the time information of the voice signal segment.
A plurality of reference symbol estimation dictionaries that can be individually adapted to a specific speaker or a specific group of voices from the transition of scores for the plurality of pronunciation feature labels generated based on the time transition of the voice signal segment. With reference to, each of a plurality of first matching reference symbol strings is generated in association with the time information of the voice signal segment.
Matching that is dynamically determined by the second matching reference symbol string based on the text to the plurality of first matching reference symbol strings generated by referring to the plurality of reference symbol estimation dictionaries. Matching along the route, the time information of the audio signal segment is associated with the second matching reference symbol string, and the time information is associated with the second matching reference symbol string.
The second matching reference symbol string based on the text data corresponding to the voice signal is matched with the plurality of the first matching reference symbol strings along the dynamically determined matching path.
Text display synchronization information configured to determine the display timing for displaying each of the partial texts of the text using the time information of the audio signal segment associated with the second matching reference symbol string. Generator.
JP2019165402A 2019-09-11 2019-09-11 Synchronous information generator and method for text display and voice recognition device and method Active JP6849977B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019165402A JP6849977B2 (en) 2019-09-11 2019-09-11 Synchronous information generator and method for text display and voice recognition device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019165402A JP6849977B2 (en) 2019-09-11 2019-09-11 Synchronous information generator and method for text display and voice recognition device and method

Publications (2)

Publication Number Publication Date
JP2021043338A JP2021043338A (en) 2021-03-18
JP6849977B2 true JP6849977B2 (en) 2021-03-31

Family

ID=74862312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019165402A Active JP6849977B2 (en) 2019-09-11 2019-09-11 Synchronous information generator and method for text display and voice recognition device and method

Country Status (1)

Country Link
JP (1) JP6849977B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096635B (en) * 2021-03-31 2024-01-09 抖音视界有限公司 Audio and text synchronization method, device, equipment and medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302175A (en) * 2003-03-31 2004-10-28 Fuji Television Network Inc System, method, and program for speech recognition
JP4113059B2 (en) * 2003-07-28 2008-07-02 株式会社東芝 Subtitle signal processing apparatus, subtitle signal processing method, and subtitle signal processing program
WO2005027092A1 (en) * 2003-09-08 2005-03-24 Nec Corporation Document creation/reading method, document creation/reading device, document creation/reading robot, and document creation/reading program
JP5621993B2 (en) * 2009-10-28 2014-11-12 日本電気株式会社 Speech recognition system, speech recognition requesting device, speech recognition method, and speech recognition program

Also Published As

Publication number Publication date
JP2021043338A (en) 2021-03-18

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
JP4791984B2 (en) Apparatus, method and program for processing input voice
Gupta et al. Automatic lyrics alignment and transcription in polyphonic music: Does background music help?
US7962341B2 (en) Method and apparatus for labelling speech
KR20140121580A (en) Apparatus and method for automatic translation and interpretation
CN110675866B (en) Method, apparatus and computer readable recording medium for improving at least one semantic unit set
JP6615952B1 (en) Synchronous information generation apparatus and method for text display
JP2012037790A (en) Voice interaction device
JP2006227425A (en) Speech reproducing device and utterance support device
TWI605350B (en) Text-to-speech method and multiplingual speech synthesizer using the method
KR20160061071A (en) Voice recognition considering utterance variation
JP6849977B2 (en) Synchronous information generator and method for text display and voice recognition device and method
CN112002304B (en) Speech synthesis method and device
JP5334716B2 (en) Character information presentation control device and program
KR20140115536A (en) Apparatus for editing of multimedia contents and method thereof
Zhang et al. Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition
EP3718107B1 (en) Speech signal processing and evaluation
JP2009042509A (en) Accent information extractor and method thereof
Pedone et al. Phoneme-level text to audio synchronization on speech signals with background music
JP6538399B2 (en) Voice processing apparatus, voice processing method and program
Ninh et al. F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese
Kruspe et al. LYRICS ALIGNMENT USING HMMS, POSTERIORGRAM-BASED DTW, AND PHONEME-BASED LEVENSHTEIN ALIGNMENT
JP2013195928A (en) Synthesis unit segmentation device
Yong et al. Low footprint high intelligibility Malay speech synthesizer based on statistical data
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210225

R150 Certificate of patent or registration of utility model

Ref document number: 6849977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250