JP6217304B2 - 歌唱評価装置およびプログラム - Google Patents

歌唱評価装置およびプログラム Download PDF

Info

Publication number
JP6217304B2
JP6217304B2 JP2013216846A JP2013216846A JP6217304B2 JP 6217304 B2 JP6217304 B2 JP 6217304B2 JP 2013216846 A JP2013216846 A JP 2013216846A JP 2013216846 A JP2013216846 A JP 2013216846A JP 6217304 B2 JP6217304 B2 JP 6217304B2
Authority
JP
Japan
Prior art keywords
phoneme
singing
lyrics
singing voice
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013216846A
Other languages
English (en)
Other versions
JP2015079160A (ja
Inventor
慶二郎 才野
慶二郎 才野
恵一 徳田
恵一 徳田
圭一郎 大浦
圭一郎 大浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013216846A priority Critical patent/JP6217304B2/ja
Publication of JP2015079160A publication Critical patent/JP2015079160A/ja
Application granted granted Critical
Publication of JP6217304B2 publication Critical patent/JP6217304B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

この発明は、カラオケの歌唱を評価する装置およびプログラムに関する。
この種のカラオケの歌唱評価の技術として例えば特許文献1に開示されたものがある。この特許文献1に開示の技術では、カラオケ装置のマイクロホンで採取した歌唱音声を音声認識手段により認識し文字化する。同時に周波数分析手段により発音の音高を測定する。そして、認識文字と対応する発音音高を、カラオケデータのもつ楽譜データから取得した歌唱すべき歌詞文字・正解音高と比較する。
特開2002−41068号公報
従来より正しい音高で歌詞を発音することができているか否かを評価する技術(例えば特許文献1)はあったが、音高は無視して、歌詞をどの程度正確に歌唱しているかという観点で歌唱の評価をする技術的手段は提供されていなかった。
本発明は、このような課題に鑑みてなされたものであり、歌詞をどの程度正確に歌唱しているかを評価することができる技術的手段を提供することを目的とする。
この発明は、歌唱音声を取得する歌唱音声取得手段と、表示手段に表示された歌詞の文字のワイプタイミングを指示するワイプ時間情報に基づいて、前記歌唱音声取得手段により取得される歌唱音声に含まれる音素波形に対応する前記歌詞の音素記号を特定する正解歌詞特定手段と、前記歌詞の音素記号について定義された音素波形が前記歌唱音声に含まれる音素波形らしい程度を示す音素コンフィデンスを算出する音素コンフィデンス評価部を含み、前記音素コンフィデンスに基づいて前記歌詞の歌唱の正確さを評価する評価手段とを具備することを特徴とする歌唱評価装置を提供する。
この発明によれば、ワイプ時間情報に基づいて、歌唱音声に含まれる音素波形が歌詞に含まれる音素記号に対応付けられ、歌詞の音素記号について定義された音素波形が歌唱音声に含まれる音素波形らしい程度を示す音素コンフィデンスが算出され、この音素コンフィデンスに基づいて、歌詞をどの程度正確に歌唱しているかの評価がなされる。
この発明の一実施形態である歌唱評価装置を含むカラオケ装置の構成を示すブロック図である。 同実施形態における歌唱評価プログラムの機能の概略を示す図である。 同実施形態におけるモデル学習部に与えられる学習データの内容を例示するタイムチャートである。 同実施形態においてモデル学習部が学習データに基づいて生成するコンテキストを説明するタイムチャートである。 同実施形態においてモデル学習部が行うコンテキストに基づく文字の歌唱の継続長のクラスタリングを説明する図である。 同実施形態における歌唱音声取得部の動作を示すタイムチャートである。 同実施形態における正解歌詞特定部の処理内容を例示するタイムチャートである。 同実施形態における正解歌詞特定部の処理内容を例示するタイムチャートである。 同正解歌詞特定部の処理内容の他の例を示すタイムチャートである。 同実施形態における音素コンフィデンス評価部の処理内容を例示するタイムチャートである。 同実施形態における音素コンフィデンススコアの算出方法を示す図である。 同実施形態における正解歌詞特定部、音素アライメント部および継続長評価部の処理内容を例示するタイムチャートである。 同実施形態における歌唱の評価の第1の例を示すタイムチャートである。 同実施形態における歌唱の評価の第2の例を示すタイムチャートである。 同実施形態における歌唱の評価の第3の例を示すタイムチャートである。
以下、図面を参照し、この発明の実施の形態を説明する。
図1はこの発明の一実施形態である歌唱評価装置を含むカラオケ装置の構成を示すブロック図である。図1において、CPU1は、カラオケ装置全体の制御を行うプロセッサである。CPU1には、カラオケ伴奏音を放音するためのサウンドシステム2、歌詞を画像とともに表示するための表示部3、歌唱音声を収音するマイク等からなる音声入力部4、サウンドシステム2の音量、音声入力部4の音量等の各種のパラメータの設定のために用いられる操作部5が接続されている。
また、CPU1には、図示しないサーバからLANを介してカラオケの曲データを受信するための通信部6、図示しないリモコン(図示略)との間で情報の授受を行うリモコン通信部7、各種の制御プログラムを記憶したROM8、CPU1によってワークエリアとして使用されるRAM9が接続されている。
さらにCPU1には不揮発性記憶装置であるHDD(ハードディスク駆動装置)10が接続されている。このHDD10には各種のプログラムやデータベースが記憶されている。CPU1は、このHDD10に記憶されたプログラムをRAM9に格納して実行する。
HDD10に記憶されたプログラムのうち主要なプログラムとして、カラオケ制御プログラム10Aがある。このカラオケ制御プログラム10Aは、次のような処理をCPU1に実行させるプログラムである。まず、リモコン操作により指定されたカラオケ曲の曲番号をリモコン通信部7により受信し、その曲番号に対応した曲データを通信部6によりサーバ(図示略)から受信し、RAM9に格納する。そして、RAM9内の曲データに含まれるカラオケ伴奏データを読み出し、カラオケ伴奏音をサウンドシステム2に放音させるとともに、曲データに含まれる背景画像情報および歌詞情報に基づいて、画像および歌詞を表示部3に表示させる。ここで、曲データにはワイプ時間情報が含まれている。このワイプ時間情報は、歌詞における歌唱位置をユーザに示すために行うワイプ(塗り)のタイミングを指示する情報であり、歌詞を構成する各文字についてワイプを開始する時刻(曲の開始点を基準とした相対時刻)と、ワイプを終了する時刻を指定する。CPU1は、このワイプ時間情報を参照することにより、表示部3に表示された歌詞の各文字のうち現在の歌唱位置に該当する文字を着色表示させる制御を行う。
カラオケ制御プログラム10Aは、歌唱評価プログラム100を含む。この歌唱評価プログラム100は、音声入力部4により取得される歌唱音声に基づき、歌唱の巧拙を評価するプログラムである。図1に示すカラオケ装置は、CPU1がこの歌唱評価プログラム100を実行することにより、本実施形態による歌唱評価装置として機能する。
本実施形態による歌唱評価プログラム100は、操作部5の操作または図示しないリモコンの操作により所定のコマンドが与えられた場合に、本実施形態に特有の歌唱評価を行う機能を備えている。すなわち、歌唱音声の音高は無視し、歌詞をどの程度正確に歌唱しているかを評価する機能である。
この機能を実現するため、本実施形態による歌唱評価プログラム100は、歌唱音声取得部110と、正解歌詞特定部120と、音素アライメント部130と、音素コンフィデンス評価部140と、継続長評価部150と、総合評価部160と、モデル学習部170とを含む。
本実施形態では、2つの観点から歌詞の歌唱の正確さの評価を行う。第1の観点は、歌詞を分解した各音素がどの程度正確に歌唱されているかという観点である。第2の観点は、歌詞を構成する文字の歌唱の継続長がどの程度正確であるかという観点である。
HDD10には、第1の観点での歌唱の評価を実現するための音響モデルデータベース101が記憶される。この音響モデルデータベース101は、各種の音素記号について定義された音素波形またはその特徴を定義した音響モデルの集合体である。
第2の観点での歌唱の評価を行うためには、歌詞の文字の歌唱の継続長と比較する基準が必要である。この基準として、歌詞の文字のワイプ時間を使用することも考えられるが、ワイプ時間は基準として適切ではない。何故ならば、実際の歌唱における歌詞の文字の歌唱の継続長に基づいてその文字のワイプ時間が決定されるとは限らないからである。そこで、第2の観点での評価を実現するために、カラオケ曲の全てについて、歌詞の文字の歌唱の継続長を測定し、各文字の歌唱の継続長を示すデータを用意することも考えられる。しかし、そのようなデータを用意するには大変な手間が掛かる。そこで、本実施形態では、学習により歌詞の文字の歌唱の継続長の基準を生成する。この学習により得られる基準がHDD10内の継続長モデルデータベース102である。
この継続長モデルデータベース102は、様々なコンテキストにおいて歌詞中の各種の文字が歌唱されるときの歌唱の継続長の確率密度分布をコンテキスト毎に定義した継続長モデルの集合体である。ここで、コンテキストとは、歌唱される文字が一息に歌唱されるフレーズの中の何番目の文字であるか、そのフレーズの音素数、その文字のワイプ時間等、歌唱される文字の置かれた状況を意味する。本実施形態では、正解歌詞が特定された場合に、その正解歌詞の各文字が置かれたコンテキストを求め、継続長モデルデータベース102において、そのコンテキストに対応付けられた継続長モデルを基準として、歌詞の文字の歌唱の継続長の正確さの評価に使用する。
図2は歌唱評価プログラム100の機能の概略を示す図である。歌唱音声取得部110は、音声入力部4を介して歌唱音声のサンプルデータを取得し、この歌唱音声のサンプルデータを有音区間と無音区間とに分け、有音区間のサンプルデータを歌唱音声フレーズとしてRAM9に格納するプログラムである。
正解歌詞特定部120は、RAM9に格納された曲データ中の歌詞情報とワイプ時間情報を参照することにより、RAM9内の歌唱音声フレーズに対応付ける正解歌詞を特定するとともに、正解歌詞を構成する音素記号列を特定するプログラムである。ここで、正解歌詞とは、曲データ中の歌詞情報が示す歌詞のうち歌唱音声フレーズにおいて歌唱されていると考えられる部分である。
音素アライメント部130は、音響モデルデータベース101を参照することにより、RAM9内の歌唱音声フレーズに含まれる各音素波形区間の時間境界区切りを求め、歌唱音声フレーズを複数の音素波形区間に分割するプログラムである。
音素コンフィデンス評価部140は音響モデルデータベース101を参照して第1の観点での歌唱の評価を行うプログラムである。また、継続長評価部150は継続長モデルデータベース102を参照して第2の観点での歌唱の評価を行うプログラムである。そして、総合評価部160は、第1の観点での評価結果および第2の観点での評価結果に基づいて、歌詞の歌唱の正確さについての総合的評価を行うプログラムである。これらの音素コンフィデンス評価部140、継続長評価部150および総合評価部160が、歌詞の歌唱の正確さを評価する評価手段を構成している。
モデル学習部170は、通信部6等を介して供給される学習データに基づいて、音響モデルデータベース101および継続長モデルデータベース102を更新するプログラムである。以上が本実施形態による歌唱評価プログラム100の機能の概略である。
次に歌唱評価プログラム100を構成する各部の詳細について説明する。
本実施形態では、音響モデルデータベース101および継続時間モデルデータベース102を参照することにより、カラオケ演奏において歌手が歌詞をどの程度正確に歌唱しているかの評価を行う。以下、この音響モデルデータベース101および継続時間モデルデータベース102へのデータの蓄積を行うモデル学習部170について説明する。
本実施形態では、歌唱評価プログラム100を本稼働させる前に、音響モデルデータベース101および継続時間モデルデータベース102を充実させるために学習データがモデル学習部170に与えられる。そして、モデル学習部170は、この学習データに基づいて、音響モデルデータベース101および継続時間モデルデータベース102へのデータの蓄積を行う。
図3はモデル学習部170に与えられる学習データの内容を例示するタイムチャートである。この学習データは、歌詞データと、歌詞データが示す歌詞の歌唱音声波形を示す歌唱音声データとにより構成されている。ここで、歌詞データには、歌詞の各文字のワイプ開始時刻とワイプ終了時刻を指定するワイプ時間情報が付加されている。また、歌唱音声データは、各々1つの音素記号に対応した音素波形区間に区切られており、各音素波形区間には該当する音素記号を示す音素ラベルデータが付加されている。
モデル学習部170は、このような歌詞データおよび歌唱音声データからなる学習データを受け取ると、歌唱音声データを無音区間と有音区間に分け、有音区間内のデータを歌唱音声フレーズとしてRAM9に格納する。そして、モデル学習部170は、歌唱音声フレーズを音素波形区間に分割し、各音素波形区間のデータ(音素波形のサンプルデータ)を各々の音素記号により分類して音響モデルデータベース101に蓄積する。
また、モデル学習部170は、歌詞データが示す歌詞のうち歌唱音声フレーズと同じ時間帯を占めるワイプ文字列を歌詞データ中のワイプ時間情報に基づいて求める。なお、この歌唱音声フレーズと同じ時間帯を占めるワイプ文字列を求めるアルゴリズムは、正解歌詞特定部120に採用されているアルゴリズムと同様である。そして、モデル学習部170は、歌唱音声フレーズと同じ時間帯を占めるワイプ文字列の各ワイプ文字を音素記号に分解し、このようにして得られる各音素記号を歌唱音声フレーズを分割した各音素波形区間に対応付ける。そして、モデル学習部170は、各ワイプ文字について、当該ワイプ文字を分割した各音素記号に対応した各音素波形区間の継続長を加算することにより当該ワイプ文字の歌唱の継続長を算出する。
また、モデル学習部170は、歌唱音声フレーズと同じ時間帯を占めるワイプ文字列の各ワイプ文字についてコンテキストを求め、各ワイプ文字の歌唱の継続長をコンテキストに基づいてクラスタリングし、継続長モデルデータベース102に蓄積する。
図4はこのモデル学習部170が各ワイプ文字について求めるコンテキストの内容を例示するタイムチャートである。この例では、歌唱音声フレーズと同じ時間帯内に「君を忘れない」というワイプ文字列がワイプされている。以下、このワイプ文字列中のワイプ文字「な」を例に、コンテキストの内容を説明する。
コンテキストの最初のデータは、ワイプ文字の総母音数/総子音数/総音素数である。ワイプ文字「な」に対応する音素列は「na」であるので、総母音数=1、総子音数=1、総音素数=2がコンテキストの最初のデータとなる。コンテキストの2番目のデータは、ワイプ文字が母音のみか?/子音のみか?/子音+母音か?である。ワイプ文字「な」の場合、子音+母音の組み合わせを示すデータがコンテキストの2番目のデータとなる。
コンテキストの3番目のデータは、ワイプ文字の最初の音素と最後の音素である。ワイプ文字「な」の場合、最初の音素「n」と最後の音素「a」を示すデータがコンテキストの3番目のデータとなる。コンテキストの4番目のデータは、1歌唱音声フレーズに対応したワイプ文字列内での当該ワイプ文字の位置(先頭から何番目か)である。この例ではワイプ文字「な」は先頭から5番目にあるのでコンテキストの4番目のデータは5となる。そして、コンテキストの5番目のデータは、当該ワイプ文字のワイプの時間長である。ワイプ文字「な」の場合、歌詞データに付加されている文字「な」のワイプ時間データが示すワイプ開始時刻からワイプ終了時刻までの時間がコンテキストの5番目のデータとなる。
モデル学習部170は、このようなコンテキストを各ワイプ文字について求め、各ワイプ文字の歌唱の継続長を図5に示すようにコンテキストに基づいてクラスタリングして継続長モデルデータベース102に蓄積する。なお、図5における横軸の歌唱の継続長、以下の説明における1200ms、800ms等の継続長は、あくまでも一例であり、実際にはこれら以外の継続長となる場合があり得る。
まず、モデル学習部170は、コンテキストが示すワイプの時間長が1200ms以上か否かを判断し、この判断結果が「No」である場合はワイプの時間長が800ms以上か否かを判断し、という具合に各ワイプ文字の歌唱の継続長をワイプ時間の範囲の異なった複数のグループにクラスタリングする。図5には、ワイプ時間が800ms以上であるグループにクラスタリングされた各ワイプ文字の歌唱の継続長の確率密度分布が例示されている。この確率密度分布は、継続長の頻度分布から推定されたものであり、具体的には継続長の頻度分布に対して尤度が最大となるガウス分布である。モデル学習部170は、この確率密度分布(ガウス分布)を特定するパラメータを記憶している。モデル学習部170は、ワイプ時間が800ms以上であるグループ以外のグループに関しても、同様な継続長の確率密度分布のパラメータを記憶している。
次にモデル学習部170は、ワイプ時間の範囲によりクラスタリングされた各グループの各ワイプ文字の歌唱の継続長を、ワイプ文字が例えば歌唱音声フレーズ内の最後から1番目の文字かという具合に、フレーズ内文字位置によりクラスタリングする。図5には、ワイプ時間が800ms未満であり、かつ、歌唱音声フレーズ内の最終文字であるグループにクラスタリングされた各ワイプ文字の歌唱の継続長の確率密度分布が例示されている。
図示は省略したが、モデル学習部170は、このようにしてクラスタリングした各ワイプ文字の歌唱の継続長をコンテキストの他の種類のデータによりさらにクラスタリングする。そして、モデル学習部170は、学習データが与えられる都度、その学習データから求めた各ワイプ文字の歌唱の継続長について、このようなコンテキストに基づくクラスタリングを行って、継続長モデルデータベース102に蓄積するのである。
本実施形態では、このようにモデル学習部170によってデータの蓄積された音響モデルデータベース101および継続時間モデルデータベース102を参照することにより、歌唱者が歌詞をどの程度正確に歌唱しているかの評価が行われる。以下、この歌詞の歌唱の正確さを評価するための各プログラムの機能の詳細を説明する。
歌唱音声取得部110は、有音区間における入力音声の特徴を定義した有音モデルと、無音区間における音声の特徴を定義した無音モデルとを記憶している。歌唱音声取得部110は、音声入力部4を介して歌唱音声のサンプルデータを取得し、この歌唱音声のサンプルデータを有音モデルおよび無音モデルの各々と比較することにより、有音区間と無音区間とに分け、有音区間のサンプルデータを歌唱音声フレーズのサンプルデータとしてRAM9に格納する。図6はこのようにして得られる歌唱音声フレーズと元の歌唱音声との関係を示すタイムチャートである。
正解歌詞特定部120は、RAM9内の各歌唱音声フレーズに対応付ける正解歌詞を特定する。この正解歌詞の特定のために、正解歌詞特定部120は、前処理として、単語や文法の辞書を参照することにより、歌詞データが示す歌詞の形態素解析を行い、歌詞を言語としての意味をもつ最小単位である形態素(具体的には品詞)に分解する。また、正解歌詞特定部120は、形態素解析により得られた形態素からモーラ(音)を生成し、このモーラに基づいて、音素記号列を生成する。
以上の前処理を終えると、正解歌詞特定部120は、RAM9内の各歌唱音声フレーズに対応付ける正解歌詞を特定するための処理を実行する。すなわち、正解歌詞特定部120は、歌詞データが示す歌詞の各文字のワイプ時間情報に基づき、歌詞を構成する文字のうち歌唱音声フレーズの開始時刻および終了時刻の付近においてワイプされる文字を求め、歌唱音声フレーズに対応する正解歌詞を特定する。より具体的には、正解歌詞特定部120は、歌詞の各文字のワイプ時間情報を参照することにより、歌唱音声フレーズの歌唱開始時刻の前後にワイプ開始時刻とワイプ終了時刻があるワイプ文字を始点文字とし、当該歌唱音声フレーズの歌唱終了時刻の前後にワイプ開始時刻とワイプ終了時刻があるワイプ文字を終点文字とし、始点文字から終点文字までの歌詞の文字列を歌唱音声フレーズに対応付ける正解歌詞として特定する。さらに正解歌詞特定部120は、この正解歌詞を構成する音素記号列を歌唱音声フレーズに対応付ける。
図7(a)〜(d)はこの歌唱音声フレーズへの正解歌詞の対応付け処理の内容を例示する図である。この例では、図7(a)に示すように、「今日はいい天気だから散歩に出かけよう」という歌詞が表示部3に表示される。この歌詞が表示部3に表示される間、RAM9に記憶された歌詞の各文字のワイプ時間情報に従って、表示部3に表示された歌詞の各文字のワイプ(塗り)が行われる。
図7(b)はこのワイプ時間情報の内容を例示するものである。表示部3に表示された歌詞の各文字は、その文字に対応したワイプ情報が示す開始時刻においてワイプが開始され、終了時刻においてワイプが終了する。
図7(c)は、時間軸を横軸とし、ワイプされる各文字を時系列的に示したものである。歌唱者は、このようにして表示部3に表示された歌詞の各文字がワイプされるのに合わせて、各文字の歌唱を行う。そして、歌唱音声取得部110は、この歌唱により発生する歌唱音声のサンプルデータを取り込み、有音区間のサンプルデータを歌唱音声フレーズのサンプルデータとしてRAM9に格納する。
図7(d)は、この歌唱音声フレーズの歌唱期間を図7(c)と同じ時間軸上に示したものである。この例では、「今日はいい天気だから」という歌詞の各文字のワイプが行われる間に2つの歌唱音声フレーズの歌唱が行われ、各歌唱音声フレーズがRAM9に格納されている。ここで、図7(d)の先行する歌唱音声フレーズに着目すると、この歌唱音声フレーズの歌唱開始時刻の前後には「今」という文字のワイプ開始時刻とワイプ終了時刻があり、この歌唱音声フレーズの歌唱終了時刻の前後には「は」という文字のワイプ開始時刻とワイプ終了時刻がある。そこで、正解歌詞特定部120は、始点文字「今」から終点文字「は」までの「今日は」という文字列を先行する歌唱音声フレーズに対応した正解歌詞として特定する。正解歌詞特定部120では、同様のことを後続の歌唱音声フレーズについても実行し、文字列「いい天気だから」を後続の歌唱音声フレーズに対応する正解歌詞として特定する。
また、歌唱の仕方によっては、歌唱音声フレーズの歌唱開始時刻または歌唱終了時刻の前後にワイプ開始時刻とワイプ終了時刻を有する文字が存在せず、始点文字または終点文字を決定することができない事態も発生し得る。このような事態が発生した場合は、例えば次のようなルールに従って対処すればよい。
a.歌唱音声フレーズの歌唱開始時刻の前後にワイプ開始時刻とワイプ終了時刻を有する文字がない場合(歌い出しが早い場合)は、当該歌唱音声フレーズの歌唱開始時刻の直後にワイプ開始時刻を有する文字を始点文字とする。
b.歌唱音声フレーズの歌唱終了時刻の前後にワイプ開始時刻とワイプ終了時刻を有する文字がない場合(歌い終わりが遅い場合)は、当該歌唱音声フレーズの歌唱終了時刻の直前にワイプ終了時刻を有する文字を終点文字とする。
また、先行する歌唱音声フレーズの歌唱終了時刻と後続の歌唱音声フレーズの歌唱開始時刻が接近しているような場合、先行する歌唱音声フレーズの終点文字と後続の歌唱音声フレーズの始点文字が重複する事態が発生し得る。図8(a)および(b)はこのような事態の例を示すものである。この例では、図8(a)に示すように「今僕の目の前には」という歌詞の各文字のワイプが行われる間に、図8(b)に示すように2つの歌唱音声フレーズが取得されている。そして、「目」という文字のワイプ開始時刻とワイプ終了時刻との間に先行する歌唱音声フレーズの歌唱終了時刻と後続の歌唱音声フレーズの歌唱開始時刻が挟まれている。
このような状況において、先行する歌唱音声フレーズと後続の歌唱音声フレーズの両方に上述のルールを適用すると、文字「目」が先行する歌唱音声フレーズの終点文字とされるととともに、後続の歌唱音声フレーズの始点文字とされる。この結果、図8(c)に示すように、先行する歌唱音声フレーズには音素列「imabokunome」が、後続の歌唱音声フレーズには「menomaeniwa」が対応付けられる。共通の音素列「me」が先行する歌唱音声フレーズと後続の歌唱音声フレーズの両方に重複して対応付けられるという不都合が発生する。
そこで、ある好ましい態様では、先行する歌唱音声フレーズの終点文字と後続の歌唱音声フレーズの始点文字が共通の文字となる場合に先行する歌唱音声フレーズを優先する。すなわち、先行する歌唱音声フレーズの終点文字はその共通の文字とし、後続の歌唱音声フレーズの始点文字はその共通の文字の次の文字とする。従って、この例では、図8(d)に示すように、先行する歌唱音声フレーズについては、共通の文字「目」を終点文字とし、音素列「imabokunome」を対応付け、後続の歌唱音声フレーズについては、共通の文字「目」の次の文字「の」を始点文字とし、音素列「nomaeniwa」を対応付けることとなる。
ここで、歌唱者が歌詞を「今僕の目」と「の前には」に区切って歌唱したのであれば、図8(d)に示す対応付けは適切なものになる。しかし、歌唱者が歌詞を例えば「今僕の」と「目の前には」に区切って歌唱したのであれば図4(d)に示す対応付けは不適切なものになる。
そこで、歌唱音声フレーズでの歌詞の対応付けに関しては図9(a)〜(c)に例示する他の態様が考えられる。この態様では、歌唱音声フレーズ(図9(b)参照)の歌唱開始時刻および終了開始時刻の各々に図9(a)に示すようにマージン±αを与え、次のように1または複数の始点文字と終点文字を決定する。
a.歌唱音声フレーズの歌唱開始時刻±αの範囲内にワイプ開始時刻またはワイプ終了時刻のあるワイプ文字を始点文字とする。
b.歌唱音声フレーズの歌唱終了時刻±αの範囲内にワイプ開始時刻またはワイプ終了時刻のあるワイプ文字を始点文字とする。
そして、このようにして得られる1または複数の始点文字と1または複数の終点文字を使って、始点文字と終点文字の全ての組み合わせを作る。そして、各組み合わせの始点文字から終点文字までの歌詞の音素列の各々を歌唱音声フレーズに対応付ける音素列とするのである。
この例では、歌唱音声フレーズの歌唱開始時刻±αの範囲内にワイプ開始時刻またはワイプ終了時刻があるのは、文字「今」のみであるので、この文字「今」のみが始点文字となる。
一方、歌唱音声フレーズの歌唱終了時刻±αの範囲内には、「目」の前の「の」のワイプ終了時刻と、「目」のワイプ開始時刻およびワイプ終了時刻と、「目」の後の「の」のワイプ開始時刻がある。従って、「目」の前の「の」、「目」、「目」の後の「の」の3文字が終点文字となる。
従って、図9(c)に示すように、音素列「imabokuno」と、音素列「imabokunome」と、音素列「imabokunomeno」の3つの音素列が歌唱音声フレーズに各々対応付けられる。そして、後述する音素コンフィデンススコアおよび継続長スコアの評価においては、この3つの音素列の各々について各音素の音素コンフィデンススコアおよび継続長スコアを計算し、音素列全体としての最終スコアが最大となる音素列を選択し、選択した音素列の最終スコアを採用するのである。
この態様は、演算量が増えるが、正確な評価結果が得られるという利点がある。
正解歌詞特定部120により正解歌詞およびその音素記号列が特定されたRAM9内の歌唱音声フレーズは、音素アライメント部130により音素波形区間に分割される。
音素コンフィデンス評価部140は、音素アライメント部130により分割された歌唱音声フレーズの各音素波形が正解歌詞特定部120により特定された正解歌詞の音素記号列の各音素記号に該当すると認められる程度を評価する。
図10はこの音素コンフィデンス評価部140の処理内容を例示するタイムチャートである。この例では、正解歌詞特定部120により音素記号列「subete」が歌唱音声フレーズに対応する正解歌詞の音素記号列として特定されている。そこで、音素コンフィデンス評価部140は、歌唱音声フレーズを6個の音素波形区間に分割する。そして、音素コンフィデンス評価部140は、6個の音素波形区間の各々について次のことを実行する。すなわち、音響モデルデータベース101において各種の音素記号について定義された各音素波形について、その音素波形が他の音素波形に比べてどの程度当該音素波形区間の音素波形(すなわち、歌唱音声フレーズに含まれる音素波形)らしいかを示す音素コンフィデンスを算出し、そのうち音素コンフィデンスが高いものから順に上位5者を選択するのである。
ここで、音素コンフィデンスは次のようにして算出される。まず、Oを観測系列とした場合、ある音素/N/の事後確率が次式により表されるものとする。
音素/N/の事後確率=P(phn=/N/|O) ……(1)
この場合、ある音素/N/の音素コンフィデンスは次式により算出される。
音素/N/の音素コンフィデンス
=P(phn=/N/|O)/ΣP(phn=k|O) ……(2)
図10には式(2)により算出した音素コンフィデンスを対数確率表現した数値が示されている。図10に示す例において、最初の音素波形区間に対応した正解歌詞の音素記号は「s」であるが、同音素波形区間について各種の音素波形の音素コンフィデンスを算出すると、音素コンフィデンスが1位から5位である各音素波形は、音素記号「z」、「s」、「j」、「ts」について定義された各音素波形となった。正解歌詞の音素記号「s」の音素コンフィデンスは2位である。2番目の音素波形区間に対応した正解歌詞の音素記号は「u」である。この音素波形区間について各種の音素波形の音素コンフィデンスを算出すると、正解歌詞の音素記号「u」の音素波形の音素コンフィデンスが1位となった。そして、図10に示す例において、2、3、4、6番目の各音素波形区間では、正解歌詞の音素記号の音素コンフィデンスが1位となったが、1、5番目の各音素波形区間では、正解歌詞の音素記号の音素コンフィデンスが1位にならなかった。理想的には、歌唱者が正解歌詞通りに歌唱を行った場合、歌唱音声フレーズの全ての音素波形区間において正解歌詞の音素記号の音素コンフィデンスが1位になる。しかし、データのばらつき等によりモデル学習が上手く行われなかった場合、この例のように音素コンフィデンスが1位とならない場合があり得る。
そこで、本実施形態では、歌唱音声フレーズの各音素波形区間の音素波形について、図11に例示するように、正解歌詞の音素記号に対応した音素波形の音素コンフィデンスが3位以内であるという条件と、その音素コンフィデンスが−15.0よりも大きいという条件を満たすか否かを判定する。そして、2つの条件の少なくとも一方を満たす場合に、その音素波形区間内の音素波形を合格音素とし、両方の条件を満たさない場合にその音素波形区間内の音素波形を不合格音素とする。そして、歌唱音声フレーズの音素波形区間の数に対する合格音素の数の比を音素コンフィデンススコアとする。この音素コンフィデンススコアがどの程度正確に歌詞を歌唱しているかを示す評価値である。図11に示す例では、音素波形区間が15個あるのに対し、合格音素数が14個となったため、音素コンフィデンススコアは14/15=93.3%となる。なお、この例では合格音素/不合格音素の判定を行うために、音素コンフィデンスが−15.0よりも大きいという条件を採用したが、これはあくまでも一例であり、−15.0以外の数値を採用してもよい。
次に継続長評価部150について説明する。継続長評価部150は、音素アライメント部130により分割された歌唱音声フレーズの各音素波形の継続長を求める。そして、継続長評価部150は、この各音素波形の継続長に基づいて、正解歌詞特定部120が歌唱音声フレーズに対応する正解歌詞として特定した文字列の各文字の歌唱の継続長を算出する。そして、継続長評価部150は、継続長モデルデータベース102を参照することにより、正解歌詞の各文字の歌唱の継続長が正確である程度を示す継続長スコアを求める。さらに詳述すると、継続長評価部150は、正解歌詞の各文字について、上述したモデル学習部170が生成したものと同様なコンテキストを生成する。そして、継続長評価部150は、正解歌詞の各文字について、当該文字のコンテキストに対応付けられた文字の歌唱の継続長の確率密度分布を示すデータを継続長モデルデータベース102から読み出し、当該文字の実歌唱時間がその確率密度分布において有する確率密度(当該文字のコンテキストに対応した実歌唱時間らしさを示す値であり、以下、継続長確率密度という)を当該文字の継続長尤度として算出する。継続長評価部150は、この継続長尤度を正解歌詞の全文字について平均化することにより継続長スコアを算出する。
図12は正解歌詞特定部120、音素アライメント部130および継続長評価部150の処理の具体例を示すタイムチャートである。この例では正解歌詞特定部120により歌唱音声フレーズに対応した正解歌詞として文字列「せかされるように」が特定され、この正解歌詞の音素記号列「sekasareruyouni」が特定された。このため、音素アライメント部130は、歌唱音声フレーズを14個の音素波形区間に分割した。
そこで、継続長評価部150は、音素「s」、「e」の音素波形が所在していると考えられる1番目および2番目の各区間の継続長を加算し、正解歌詞の文字「せ」の歌唱の継続長を算出する。また、継続長評価部150は、音素「k」、「a」の音素波形が所在していると考えられる2つの区間の継続長を加算し、正解歌詞の文字「か」の歌唱の継続長を算出する。以下同様に、継続長評価部150は、正解歌詞の各文字に対応した音素波形区間の継続長を加算することにより、正解歌詞の文字「さ」、「れ」、「る」、「よう」、「に」の歌唱の継続長を各々算出する。
次に継続長評価部150は、正解歌詞の最初の文字「せ」のコンテキスト(図4参照)を求め、継続長モデルデータベース102において当該コンテキストに対応付けられた歌唱の継続長の確率密度分布を参照することにより、文字「せ」の歌唱の継続長尤度を算出する。この例では文字「せ」の継続長尤度は−10.95となった。次に続長評価部150は、正解歌詞の2番目の文字「か」のコンテキストを求め、継続長モデルデータベース102において当該コンテキストに対応付けられた歌唱の継続長の確率密度分布を参照することにより、文字「か」の歌唱の継続長尤度を算出する。この例では文字「か」の継続長尤度は−1.13となった。以下同様に、継続長評価部150は、正解歌詞における後続の各文字の継続長尤度を求める。そして、正解歌詞の全ての文字の継続長尤度を平均化し、継続長スコアを算出する。この例では、正解歌詞「せかされるように」を歌唱した歌唱音声フレーズの継続長スコアは−3.07となった。
総合評価部160は、音素コンフィデンス評価部140の評価結果である音素コンフィデンススコアと、継続長評価部150の評価結果である継続長スコアとに基づき、歌唱音声フレーズが正解歌詞を総合的にどの程度正確に歌唱したものであるかを示す最終スコアを算出する。本実施形態において総合評価部150は、次式に従って最終スコアを算出する。
最終スコア=音素コンフィデンススコア+継続長スコア×10 ……(3)
この最終スコアでは、音素コンフィデンススコアが大きな割合を占める。このようの音素コンフィデンススコアの割合を大きくしたのは、音素コンフィデンススコアの方が継続長スコアよりも歌詞の歌唱の正確さとの結びつきが強いと考えられるからである。
図13〜図15は、本実施形態において行われる歌詞の歌唱の正確さの評価の例を示す図である。これらの図には、歌唱音声フレーズの波形と、正解歌詞の文字列と、音素アライメント部により分割された音素波形区間に対応付けられた正解歌詞の音素記号と、正解歌詞の音素記号の音素波形が音素波形区間の音素波形であるらしい程度を示す音素コンフィデンスの順位と、各音素波形区間の音素が合格音素であるか不合格音素であるかの情報が示されている。また、図13〜図15では、音素コンフィデンス評価部140により算出された音素コンフィデンススコアと、継続長評価部150により算出された継続長スコアと、総合評価部160により算出された最終スコアが示されている。
図13に示す例では、正解歌詞を構成する音素記号の個数が21であるのに対し、合格音素の数が20個であるため、音素コンフィデンススコアは95.2%となった。また、各音素波形の継続長も適切であり、継続長スコアは0.024となった。このため、最終スコアは95.4%となった。これは歌詞が正確に歌唱された場合の評価結果の例である。
図14に示す例では、正解歌詞の音素記号数が17であるのに対して、合格音素数が16個であるため音素コンフィデンススコアは83.3%となった。また、各音素波形の継続長は図13よりもやや不正確であり、継続長スコアは−1.080となった。このため、最終スコアは73.2%となった。
図15に示す例では、多くの不合格音素が発生して音素コンフィデンススコアは62.5%と低く、各音素波形の継続長も不正確であり、継続長スコアは−1.696となった。このため、最終スコアは45.5%という低い評点になった。これは歌詞通りの言葉になっていない程度の歌唱の例である。
さて、図9(a)〜(c)を参照して説明したように、ある好ましい態様において正解歌詞特定部120は、1つの歌唱音声フレーズに対応する正解歌詞を複数種類特定する場合がある。この態様では、音素アライメント部130、音素コンフィデンス評価部140、継続長評価部150および総合評価部160は、それらの全ての種類の正解歌詞について各々の処理を実行する。
例えば図9(c)に示す3種類の正解歌詞が特定されたとする。この場合、最初の正解歌詞の音素記号列「imabokuno」の音素数が9個であるため、音素アライメント部130は、歌唱音声フレーズを9個の音素波形区間に分割する。そして、音素コンフィデンス評価部140は、それら9個の音素波形区間について音素コンフィデンスおよび音素コンフィデンススコアを算出する。また、継続長評価部150は、それら9個の音素波形区間について継続長確率密度および継続長スコアを算出する。そして、総合評価部160は、この音素コンフィデンススコアおよび継続長スコアに基づいて最終スコアを算出する。次に2番目の正解歌詞の音素記号列「imabokunome」の音素数が11個であるため、音素アライメント部130は、歌唱音声フレーズを11個の音素波形区間に分割する。音素コンフィデンス評価部140、継続長評価部150は、この11個の音素波形区間の処理を行って音素コンフィデンススコアおよび継続長スコアを算出する。そして、総合評価部160は、この音素コンフィデンススコアおよび継続長スコアに基づいて最終スコアを算出する。最後の正解歌詞の音素記号列「imabokunomeno」についても同様である。そして、総合評価部160は、正解歌詞の音素記号列「imabokuno」、「imabokunome」および「imabokunomeno」の各最終評価を比較し、最も高いものを最終評価として採用するのである。
この態様によれば、歌唱の評価の演算量は増えるが、より正確に歌詞の歌唱の評価を行うことができる利点がある。
以上のように本実施形態によれば、歌唱者がどの程度歌詞を正確に歌唱しているかを客観的に評価することができる。また、本実施形態によれば、無音区間により区切られた歌唱音声フレーズについて正解歌詞を特定し、歌詞をどの程度正確に歌唱しているかの評価を行うので、評価の演算処理のためにRAM9に記憶させるデータの量を少なくすることができ、小規模な装置構成により歌唱評価装置を実現することができる。また、本実施形態によれば、継続長モデルデータベース102を参照し、ワイプ文字の歌唱の継続長がどの程度正確かという観点での評価結果を最終スコアに反映させるので、歌詞をどの程度正確に歌唱しているかという観点での評価をより正確に行うことができる。継続長モデルデータベース102として、コンテキストによりクラスタリングされたワイプ文字の歌唱の継続長の確率密度分布の集合体を使用するので、ワイプ文字の実際の歌唱の継続長の確率密度を算出する処理を効率的に行うことができる。従って、最終スコアを得るための処理時間を短くすることができる。
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。
(1)上記実施形態では、歌唱評価プログラム100にモデル学習部170を設けたが、予め完成された音響モデルデータベース101および継続長モデルデータベース102をHDD10に格納する場合には、このモデル学習部170を省略してもよい。
(2)上記実施形態では、音素コンフィデンススコアと継続長スコアとに基づいて最終スコアを算出したが、ユーザからの指示に従い、最終スコアに継続長スコアを反映させるか否かを切り換えるようにしてもよい。
(3)上記実施形態では、文字の歌唱の継続長のみについてコンテキストに基づくクラスタリングを行って継続長モデルデータベース102に蓄積したが、学習データ中の音素波形についても同様なコンテキストに基づくクラスタリングを行った音響モデルデータベース101に蓄積してもよい。この場合、音素コンフィデンス評価部140は、歌唱音声フレーズ中の各音素波形と同じコンテキストに対応した音響モデルを音響モデルデータベース101から読み出して音素コンフィデンスの算出に使用することにより、より妥当な音素コンフィデンスを算出することが可能になる。
1……CPU、2……サウンドシステム、3……表示部、4……音声入力部、5……操作部、6……通信部、7……リモコン通信部、8……ROM、9……RAM、10……HDD、10A……カラオケ制御プログラム、100……歌唱評価プログラム、110……歌唱音声取得部、120……正解歌詞特定部、130……音素アライメント部、140……音素コンフィデンス評価部、150……継続長評価部、160……総合評価部、170……モデル学習部、101……音響モデルデータベース、102……継続長モデルデータベース。

Claims (5)

  1. 歌唱音声を取得する歌唱音声取得手段と、
    表示手段に表示された歌詞の文字のワイプタイミングを指示するワイプ時間情報に基づいて、前記歌唱音声取得手段により取得される歌唱音声に含まれる音素波形に対応する前記歌詞の音素記号を特定する正解歌詞特定手段と、
    前記歌詞の音素記号について定義された音素波形が前記歌唱音声に含まれる音素波形らしい程度を示す音素コンフィデンスを算出する音素コンフィデンス評価部を含み、前記音素コンフィデンスに基づいて前記歌詞の歌唱の正確さを評価する評価手段と
    を具備することを特徴とする歌唱評価装置。
  2. 前記歌唱音声取得手段は、前記歌唱音声を無音区間により区切ることにより歌唱音声フレーズに分割する手段を含み、
    前記正解歌詞特定手段は、前記歌詞の文字のうち前記歌唱音声フレーズの開始時刻および終了時刻の付近においてワイプされる文字に基づいて、前記歌唱音声フレーズに含まれる音素波形に対応した前記歌詞の文字列を特定することを特徴とする請求項1に記載の歌唱評価装置。
  3. 前記歌唱音声取得手段は、前記歌唱音声を無音区間により区切ることにより歌唱音声フレーズに分割する手段を含み、
    前記正解歌詞特定手段は、前記歌詞を構成する文字のうち前記歌唱音声フレーズの開始時刻および終了時刻の付近においてワイプされる文字に基づいて、前記歌唱音声フレーズに含まれる音素波形に対応した前記歌詞の文字列を1または複数種類特定し、
    前記評価手段は、前記正解歌詞特定手段が特定した全ての種類の歌詞の文字列について、前記歌詞の歌唱の正確さの評価を行い、最も高い評点の得られた文字列についての評点を採用することを特徴とする請求項1に記載の歌唱評価装置。
  4. 前記評価手段は、
    前記歌唱音声における歌詞の各文字の歌唱の継続長と各文字のコンテキストを求め、各種のコンテキストを有する文字の歌唱の継続長の確率密度分布をコンテキスト別にモデル化した各種の継続長モデルのうち前記各文字のコンテキストに対応した継続長モデルに基づいて、前記各文字の歌唱の継続長の尤度を求める継続長評価部を有し、
    前記歌唱音声の各音素が前記歌詞の各音素であると認められる程度と、前記歌詞の各文字の歌唱の継続長の尤度とに基づいて、前記歌詞の歌唱の正確さを評価することを特徴とする請求項1〜3のいずれか1の請求項に記載の歌唱評価装置。
  5. コンピュータを、
    歌唱音声を取得する歌唱音声取得手段と、
    表示手段に表示された歌詞の文字のワイプタイミングを指示するワイプ時間情報に基づいて、前記歌唱音声取得手段により取得される歌唱音声に含まれる音素波形に対応する前記歌詞の音素記号を特定する正解歌詞特定手段と、
    前記歌詞の音素記号について定義された音素波形が前記歌唱音声に含まれる音素波形らしい程度を示す音素コンフィデンスを算出する音素コンフィデンス評価部を含み、前記音素コンフィデンスに基づいて前記歌詞の歌唱の正確さを評価する評価手段と
    として機能させることを特徴とするプログラム。
JP2013216846A 2013-10-17 2013-10-17 歌唱評価装置およびプログラム Expired - Fee Related JP6217304B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216846A JP6217304B2 (ja) 2013-10-17 2013-10-17 歌唱評価装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216846A JP6217304B2 (ja) 2013-10-17 2013-10-17 歌唱評価装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2015079160A JP2015079160A (ja) 2015-04-23
JP6217304B2 true JP6217304B2 (ja) 2017-10-25

Family

ID=53010614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216846A Expired - Fee Related JP6217304B2 (ja) 2013-10-17 2013-10-17 歌唱評価装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6217304B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN112802456A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 一种语音评测打分方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215632B (zh) * 2018-09-30 2021-10-08 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
KR102258386B1 (ko) * 2019-04-10 2021-05-31 주식회사 엔씨소프트 음소 발음 차이를 이용한 가창 가능 여부 판단 방법 및 장치
CN111785299B (zh) * 2020-08-13 2023-11-28 腾讯科技(深圳)有限公司 一种语音测评方法、装置、设备及计算机存储介质
CN112786020B (zh) * 2021-01-21 2024-02-23 腾讯音乐娱乐科技(深圳)有限公司 一种歌词时间戳生成方法及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4862413B2 (ja) * 2006-01-31 2012-01-25 ヤマハ株式会社 カラオケ装置
JP4395493B2 (ja) * 2006-06-26 2010-01-06 株式会社タイトー カラオケ装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109036464B (zh) * 2018-09-17 2022-02-22 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN112802456A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 一种语音评测打分方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2015079160A (ja) 2015-04-23

Similar Documents

Publication Publication Date Title
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
US10453442B2 (en) Methods employing phase state analysis for use in speech synthesis and recognition
JP6217304B2 (ja) 歌唱評価装置およびプログラム
CN112397091B (zh) 中文语音综合评分及诊断系统和方法
US6961704B1 (en) Linguistic prosodic model-based text to speech
US8818813B2 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
US20070136062A1 (en) Method and apparatus for labelling speech
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2018533076A (ja) 音楽言語のコンピュータ支援教育のシステムおよび方法
CN106971743B (zh) 用户演唱数据处理方法和装置
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
Greenberg et al. Linguistic dissection of switchboard-corpus automatic speech recognition systems
Conkie et al. Prosody recognition from speech utterances using acoustic and linguistic based models of prosodic events
Wagner A comprehensive model of intonation for application in speech synthesis
Mertens Automatic labelling of pitch levels and pitch movements in speech corpora
JP2016142936A (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2009271117A (ja) 音声検索装置および音声検索方法
Formiga et al. Adaptation of the URL-TTS system to the 2010 Albayzin Evaluation Campaign
CN112687297B (zh) 嗓音状态分类方法、装置、电子设备和存储介质
Wilhelms-Tricarico et al. The lessac technologies hybrid concatenated system for blizzard challenge 2013
Alqadasi et al. Improving Automatic Forced Alignment for Phoneme Segmentation in Quranic Recitation
Dou An SVM ranking approach to stress assignment
ABDULGHAFOR et al. Improving Automatic Forced Alignment for Phoneme Segmentation in Quranic Recitation
Zhu et al. A preliminary exploration on tone error detection in Mandarin based on clustering
Nanyan An Intelligent Evaluation Model of English Pronunciation Quality Based on Sphinx

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161019

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170911

R151 Written notification of patent or utility model registration

Ref document number: 6217304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees