JP6056394B2

JP6056394B2 - 音声処理装置

Info

Publication number: JP6056394B2
Application number: JP2012248265A
Authority: JP
Inventors: 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-11-12
Filing date: 2012-11-12
Publication date: 2017-01-11
Anticipated expiration: 2032-11-12
Also published as: JP2014095856A

Description

本発明は、音声信号を解析する技術に関する。

利用者が任意に指定した歌詞を利用者が指定した旋律で歌唱した音声を合成する音声合成技術が従来から提案されている。合成対象となる旋律および歌詞の指定には多様な方式が採用され得る。例えば非特許文献１には、キーボード等の操作機器の操作で利用者が所望の歌詞を音符毎に指定する構成が開示されている。また、非特許文献２には、鍵盤と操作子とを併設し、鍵盤の演奏による旋律の指定と操作子の操作による歌詞の指定とを並列に実行可能な電子楽器が開示されている。

劔持秀樹，大下隼人，"歌声合成システムVOCALOID"，一般社団法人情報処理学会，情報処理学会研究報告［音楽情報科学］，2007(102)，p.25-28，2007-10-11 加々見翔太，濱野桂三，柏瀬一輝，山本和彦，"リアルタイム日本語歌唱鍵盤楽器‘VOCALOIDキーボード’の開発"，一般社団法人情報処理学会，インタラクション2012，2012-3-17

非特許文献１の技術では、音符毎に個別に歌詞を指定する必要があるから、利用者による作業の負担が大きいという問題がある。また、非特許文献２の技術において、鍵盤の演奏と操作子の操作とを並列に実行するのは実際には困難であり充分な習熟には相当の時間が必要であるという問題がある。以上の事情を考慮して、本発明は、各音符の発音内容を簡便に指定できるようにすることを目的とする。

本発明の音声処理装置は、音声信号を取得する音声取得手段と、利用者が指示した各音符の発音時点を指定する指示情報を取得する指示取得手段と、音声信号に対する音声認識で発音内容を特定する音声認識手段と、音声認識手段が特定した発音内容と指示情報が発音時点を指定する各音符との関係を示す発音情報を生成する情報生成手段とを具備する。以上の構成では、利用者が指示した各音符の発音時点を指定する指示情報と音声信号に対する音声認識で特定された発音内容とに応じて発音内容と各音符との関係を示す発音情報が生成される。したがって、任意の発音時点での発音内容を利用者が簡便に指定することが可能である。

本発明の好適な態様において、音声認識手段は、音素の配列または各音素の開始時点が相違する複数の認識候補の各々について、当該認識候補の各音素の開始時点と指示情報が指定する各発音時点との時間軸上の関係に応じて当該認識候補の棄却／維持を判別し、維持された複数の認識候補から音声信号の発音内容を特定する。以上の態様では、認識候補の各音素の開始時点と指示情報が指定する各発音時点との関係に応じて認識候補の棄却／維持が判別される。すなわち、指示情報を利用した認識候補の絞込が実行される。したがって、全部の認識候補を維持したまま発音内容を特定する構成と比較して、音声認識手段の処理負荷が軽減されるという利点がある。

本発明の好適な態様において、音声認識手段は、認識候補の複数の音素のうち持続的に発音可能な各音節内核音素（典型的には音節内で最初の持続可能な音素）の開始時点の最近傍に位置する発音時点を、指示情報が指定する複数の発音時点から特定し、何れかの発音時点に複数の音節内核音素が対応する場合に当該認識候補を棄却する。以上の態様では、１個の発音時点に複数の音節内核音素が対応する認識候補が棄却されるから、１個の音符に対する複数の音節の割当が防止されるという利点がある。情報生成手段は、例えば、指示情報が指定する各発音時点の音符に、音声認識手段が特定した発音内容の複数の音節のうち当該発音時点を最近傍とする音節内核音素を含む音節を割当て、何れの音節内核音素にとっても最近傍に該当しない発音時点の音符には、発音内容の複数の音節のうち当該発音時点に対応する音節を割当てる。

本発明の好適な態様において、音声認識手段は、認識候補の複数の音素のうち持続的に発音可能な各音節内核音素の開始時点の最近傍に位置する発音時点を、指示情報が指定する複数の発音時点から特定し、認識候補の各音節内核音素を、当該認識候補内で母音の直後に位置する結合候補音素と結合候補音素以外の優先割当音素とに選別し、指示情報が指定する何れかの発音時点に複数の優先割当音素が対応する場合に当該認識候補を棄却し、指示情報が指定する何れかの発音時点に１個の音節内核音素が対応する場合の当該音節内核音素と、何れかの発音時点に１個の優先割当音素と１個以上の結合候補音素とが対応する場合の当該優先割当音素とを確定音素としたとき、認識候補内で相前後する各確定音素の間に、Ｍ個（Ｍは２以上の自然数）を上回る結合候補音素が存在する場合に、当該認識候補を棄却する。情報生成手段は、例えば、指示情報が指定する各発音時点の音符に、音声認識手段が特定した発音内容の複数の音節のうち当該発音時点を最近傍とする確定音素を含む音節を割当て、各確定音素の間の結合候補音素を直前の音節と共通の音符に割当てる。以上の態様では、１個の発音時点に複数の優先割当音素が対応する認識候補が棄却されるから、１個の音符に対する複数の優先割当音素の割当が防止される一方、優先割当音素の音節と１個以上の結合候補音素の音節との結合を１個の音符に割当てることは許容される。したがって、複数の音節が１個のモーラ（拍）のように発音される言語（典型的には日本語）に好適な発音情報を生成できるという利点がある。他方、相前後する各確定音素の間にＭ個を上回る結合候補音素が存在する場合に認識候補は棄却されるから、過度に多数の音節が１個の音符に割当てられることは防止される。

以上の各態様に係る音声処理装置は、音声信号の処理に専用されるＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号を取得する音声取得処理と、利用者が指示した各音符の発音時点を指定する指示情報を取得する指示取得処理と、音素の配列または各音素の開始時点が相違する複数の認識候補の各々について、当該認識候補の各音素の開始時点と指示情報が指定する各発音時点との時間軸上の関係に応じて当該認識候補の棄却／維持を判別し、維持された複数の認識候補から音声信号の発音内容を特定する音声認識処理と、音声認識処理で特定した発音内容と指示情報が発音時点を指定する各音符との関係を示す発音情報を生成する情報生成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音声処理装置と同様の作用および効果が実現される。

なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

本発明の第１実施形態に係る音声処理装置のブロック図である。指示取得部の動作の説明図である。指示取得部の動作の説明図である。発音情報の模式図である。辞書情報に収録された登録単語の説明図である。認識候補の棄却／維持を判別する処理のフローチャートである。音声認識部の動作の説明図である。音声認識部の動作の説明図である。音声認識部の動作の説明図である。音声認識部の動作の説明図である。第２実施形態において認識候補の棄却／維持を判別する処理のフローチャートである。第２実施形態における音声認識部の動作の説明図である。第２実施形態における音声認識部の動作の説明図である。第３実施形態における音声合成部の動作の説明図である。第３実施形態における音声合成部の動作の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００のブロック図である。音声処理装置１００は、利用者が指定した旋律（複数の音符の時系列）を利用者が指定した歌詞で歌唱した音声の音声信号Ｖ2を生成する音声合成装置（信号処理装置）であり、演算処理装置１０と記憶装置１２と音声入力装置１４と指示入力装置１６と放音装置１８とを具備するコンピュータシステムで実現される。

音声入力装置１４は、利用者が発音した音声の波形を示す音声信号Ｖ1を生成する収音機器（マイクロホン）である。利用者は、合成対象となる所望の歌詞を音声入力装置１４に対して発音する。したがって、音声入力装置１４は、利用者が指定した歌詞の音声信号Ｖ1を生成する。なお、音声信号Ｖ1をアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略されている。

指示入力装置１６は、利用者からの指示を受付ける操作機器である。具体的には、指示入力装置１６は、合成対象となる各音符の音高Ｎと各音符の発音時点ｔNおよび消音時点ｔEとを時系列に指定する指示情報Ｕを利用者からの指示に応じて生成する。例えば、各音符の音高（ノートナンバ）Ｎおよび発音時点ｔNを指定するノートオンイベントと各音符の音高Ｎおよび消音時点ｔEを指定するノートオフイベントとが時系列に配列されたＭＩＤＩ（Musical Instrument Digital Interface）形式の時系列データを指示情報Ｕとして生成する電子楽器型の操作機器（ＭＩＤＩ楽器）が指示入力装置１６として好適に利用される。例えば鍵盤楽器型の操作機器が指示入力装置１６として好適である。

利用者は、所望の歌詞を音声入力装置１４に対して発音する動作と所望の旋律を指示入力装置１６に対して指示する動作とを並列に実行する。具体的には、利用者は、指示入力装置１６に対する各音符の指示に概略的に同期するように所望の歌詞を音声入力装置１４に対して発音する。演算処理装置１０は、音声信号Ｖ1に対する音声認識で特定される歌詞を指示情報Ｕで指定される旋律で歌唱した音声の音声信号Ｖ2を生成する。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成した音声信号Ｖ2に応じた音波を放射する。以上のように音声信号Ｖ2の旋律は指示入力装置１６の操作で指示されるから、利用者は、指示入力装置１６に指示する旋律とは無関係の音高の音声を音声入力装置１４に対して発音し得る。例えば、利用者は、指示入力装置１６に対する旋律の指示に同期して所望の歌詞を略一定の音高で発音する（例えば呟く）。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータ（例えば素片群ＤAや辞書情報ＤB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。なお、音声処理装置１００とは別体の外部装置（例えば外部サーバ装置）に記憶装置１２を設置し、音声処理装置１００がインターネット等の通信網を介して記憶装置１２に対する情報の書込や読出を実行する構成も採用され得る。すなわち、記憶装置１２は、音声処理装置１００の必須の要素ではない。

記憶装置１２に記憶された素片群ＤAは、音声合成の素材として使用される複数の音声素片の集合（音声合成ライブラリ）である。各音声素片は、言語的な意味の区別の最小単位である音素（例えば母音や子音）、または複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。辞書情報ＤBは、音声信号Ｖ1の音声認識に利用される音声認識辞書である。

演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで、音声入力装置１４が生成した音声信号Ｖ1と指示入力装置１６が生成した指示情報Ｕとを利用して音声信号Ｖ2を生成するための複数の機能（音声取得部２２，指示取得部２４，音声認識部３２，情報生成部３４，音声合成部３６）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、演算処理装置１０の一部の機能を専用の信号処理回路が分担する構成も採用され得る。図１の音声取得部２２は、音声入力装置１４が生成した音声信号Ｖ1を音声入力装置１４から取得する。

指示取得部２４は、指示入力装置１６が生成した指示情報Ｕを指示入力装置１６から取得する。なお、指示入力装置１６の操作で利用者は任意の音符を任意の時点で指示し得るから、指示入力装置１６が生成した指示情報Ｕで指定される複数の音符は時間軸上で相互に重複する可能性（利用者が複音を指示する可能性）がある。しかし、音声信号Ｖ2の音声（歌唱音）は単音である。そこで、指示取得部２４は、指示情報Ｕが指定する各音符を単音（時間軸上で他の音符と重複しない音符）に調整する。

図２および図３の各々の部分(A)には、音符ＮAと音符ＮBとが時間軸（横軸）上で相互に重複する場合（調整前）が例示されている。図２の部分(A)に示すように、音符ＮAの発音時点ｔNAから消音時点ｔEAまでの期間内に音符ＮBの発音時点ｔNBが位置するとともに音符ＮAの消音時点ｔEAの後方に音符ＮBの消音時点ｔEBが位置する場合（すなわち、音符ＮAの発音の途中で音符ＮBの発音が指示された場合）、指示取得部２４は、図２の部分(B)のように、音符ＮBの発音時点ｔNBにて音符ＮAを強制的に消音させる。また、図３の部分(A)の例示のように、音符ＮBの発音時点ｔNBが音符ＮAの発音時点ｔNAの後方に位置するとともに音符ＮBの消音時点ｔEBが音符ＮAの消音時点ｔEAの前方に位置する場合（すなわち、音符ＮAの区間内に音符ＮBが包含される場合）、指示取得部２４は、図３の部分(B)のように、音符ＮBの全体を強制的に消音させる。以上の処理により、指示情報Ｕが指定する各音符は単音に調整される。

図１の音声認識部３２は、音声取得部２２が取得した音声信号Ｖ1に対する音声認識で音声信号Ｖ1の発音内容Ｚを特定する。発音内容Ｚは、複数の音節の時系列として表現される。音声認識部３２による音声認識には、記憶装置１２に記憶された辞書情報ＤBが利用される。なお、音声認識部３２の具体的な動作については後述する。

情報生成部３４は、音声認識部３２による認識結果（発音内容Ｚ）を利用して発音情報Ｓを生成する。発音情報Ｓは、音声合成に適用される変数（音声信号Ｖ2の特性）を指示する情報である。図４に示すように、発音情報Ｓは、指示取得部２４が取得および調整した指示情報Ｕで指定される各音符（すなわち合成対象の各音符）に対応する単位情報Ｘを時系列に配列した時系列データ（スコアデータ）である。各単位情報Ｘは、音高ＸAと発音時点ＸBと継続長ＸCと音声符号ＸDとを指定する。

音高ＸAは、音声信号Ｖ2の音高を指示する情報であり、指示情報Ｕが指定する各音符の音高Ｎに設定される。発音時点ＸBは、音声信号Ｖ2にて各音符の発音が開始される時刻を指示する情報であり、指示情報Ｕで指定される各音符の発音時点ｔNに設定される。継続長ＸCは、音声信号Ｖ2にて各音符の発音が継続される時間長（音価）を指示する情報であり、指示情報Ｕで音符毎に指定される発音時点ｔNと消音時点ｔEとの間の時間長に設定される。なお、継続長ＸCを消音時点ｔEに置換することも可能である。音声符号ＸDは、音声信号Ｖ2における各音符の発音内容（歌詞）を指示する情報であり、音声認識部３２が音声信号Ｖ1から認識した発音内容Ｚの各音節（書記素）に設定される。なお、音声認識部３２による音声認識と情報生成部３４による発音情報Ｓの生成とは、利用者による指示情報Ｕおよび音声信号Ｖ1の入力の完了後に実行される。

音声合成部３６は、情報生成部３４が生成した発音情報Ｓで指定される音声信号Ｖ2を生成する。音声信号Ｖ2の生成には、記憶装置１２に記憶された素片群ＤAが利用される。具体的には、音声合成部３６は、発音情報Ｓが各音符に指定する音声符号ＸDに対応した音声素片を素片群ＤAから順次に選択し、発音時点ＸBおよび継続長ＸCに応じて音声素片の時刻および時間長を調整したうえで音高ＸAに変換（ピッチ変換）して各音声素片を相互に連結することで音声信号Ｖ2を生成する。音声符号ＸDに対応した音声素片（例えば母音が子音に後続する音声素片）のうち母音等の有声音の音素の発音が発音時点ＸBにて開始される（先行の子音の音素の発音は発音時点ＸBの到来前に開始される）ように各音声素片の時刻が調整される。以上が音声処理装置１００の概略的な構成である。

音声認識部３２による音声認識と情報生成部３４による発音情報Ｓの生成とについて以下に詳述する。第１実施形態の音声認識部３２が実行する音声認識は、認識候補となる各単語の音響モデルとして隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を利用した大語彙連続音声認識である。記憶装置１２に記憶された辞書情報ＤBが音声認識辞書として利用される。

辞書情報ＤBは、複数の登録単語Ｗ0を指定する。各登録単語Ｗ0は、図５に例示されるように複数の音節の時系列として記述される。１個の音節は、例えば、母音の音素を含む１個以上の音素（母音単体，子音＋母音，母音＋子音，子音＋母音＋子音）で構成される。図５に示すように、登録単語Ｗ0を構成する各音節の複数の音素のうち時間的に発音が持続され得る有声の音素（以下「音節内核音素」という）には所定の識別符号（図５の例示では記号“！”）が付加される。音節内核音素は、典型的には１個の音節内で唯１個の音素（例えば音節内で最初の持続可能な音素）であり、日本語の登録単語Ｗ0では、１個の音節のうち母音の音素（/ａ/，/ｉ/，/ｕ/，/ｅ/，/ｏ/）または撥音の音素（/Ｎ/）が音節内核音素に該当する。音節内核音素の抽出および識別符号の付加は、例えば辞書情報ＤBの提供者により事前に手動で実行される。ただし、所定のアルゴリズムで自動的に登録単語Ｗ0から音節内核音素を抽出して識別符号を付加することも可能である。

音声認識部３２は、辞書情報ＤB内の各登録単語Ｗ0に対応する複数の認識候補ＷCの各々について、音声信号Ｖ1から抽出される特徴量の時系列がその認識候補ＷCの音響モデルから観測される確率（尤度）Ｐを算定し、確率Ｐが最大となる１個の認識候補ＷCを音声信号Ｖ1の発音内容Ｚとして確定する。音声信号Ｖ1から抽出される特徴量としては、例えばＭＦＣＣ（Mel-Frequency Cepstral Coefficients）が好適である。

辞書情報ＤB内の複数の登録単語Ｗ0の各々について各音素の開始時点（相前後する各音素の境界位置）を相違させた複数の認識候補ＷCを対象として確率Ｐが算定される。すなわち、確率Ｐの算定対象となる複数の認識候補ＷCは、音素の配列（音素の種類および順序）が相違する複数の単語（すなわち、基礎となる登録単語Ｗ0が相違する複数の単語）に加えて、音素の配列（登録単語Ｗ0）は共通するが各音素の開始時点が相違する複数の単語を包含する。以上の説明から理解される通り、音声認識部３２は、音素の配列および各音素の開始時点の一方または双方が相違する複数の認識候補ＷCの各々について確率Ｐを算定する。

ところで、複数の認識候補ＷCのなかには、音素の個数や各音素の開始時点が、指示情報Ｕで指定される各音符の個数や発音時点ｔNとは明白に整合しない認識候補ＷC（すなわち、指示情報Ｕが指定する各音符の歌詞として不自然であることが明白な認識候補ＷC）も包含され得る。例えば、指示情報Ｕで指定される１個の音符に多数の音節が対応するような認識候補ＷCは認識結果として適切ではない。以上の傾向を考慮して、本実施形態の音声認識部３２は、指示情報Ｕで指定される旋律の歌詞として認識候補ＷCが妥当であるか否かを、指示情報Ｕを参照して認識候補ＷC毎に順次に評価し、旋律の歌詞として妥当性が高い認識候補ＷCのみについて確率Ｐを算定する。他方、妥当性が低い認識候補ＷCについては、確率Ｐの算定を含む以後の処理の対象から除外される。すなわち、音声認識部３２は、指示情報Ｕを手掛りとして各認識候補ＷCの棄却／維持を判別し（すなわち、指示情報Ｕを参照して認識候補ＷCを絞込み）、維持と判別された複数の認識候補ＷCから音声信号Ｖ1の発音内容Ｚを確定する。

図６は、任意の１個の認識候補ＷCについて音声認識部３２が棄却／維持を判別する処理のフローチャートである。図６の処理は、指示情報Ｕおよび音声信号Ｖ1の入力の完了後に実行され、辞書情報ＤB内の各登録単語Ｗ0に対応する複数の認識候補ＷCの各々について順次に実行される。図７および図８では、利用者が「咲いた［saita］」と発音した音声の音声信号Ｖ1を音声取得部２２が取得し、３個の音符の発音時点ｔN（ｔN1，ｔN2，ｔN3）を指定する指示情報Ｕを指示取得部２４が取得した場合を想定する。図７には、「鞘井田湾［saya-ida-wan］」という文字列（不正解）が認識候補ＷCである場合が例示され、図８には、「咲いた［saita］」という文字列（正解）が認識候補ＷCである場合が例示されている。

音声認識部３２は、図７および図８に示すように、認識候補ＷCを構成する複数の音素のうち識別符号が付加された複数の音節内核音素（図７および図８における網掛部）の各々について、指示情報Ｕが指定する複数の発音時点ｔNのうちその音節内核音素の開始時点ｔP（ｔP1，ｔP2，……）の最近傍に時間軸上で位置する発音時点ｔNを特定する（ＳA10）。すなわち、音声認識部３２は、認識候補ＷC内の各音節内核音素の開始時点ｔPを最近傍の発音時点ｔNに対応させる。

音声認識部３２は、指示情報Ｕが指定する何れかの発音時点ｔNに認識候補ＷC内の複数の音節内核音素の開始時点ｔPが対応するか否か（複数の音節内核音素からみて最近傍に位置する１個の発音時点ｔNが存在するか否か）を判定する（ＳA11）。すなわち、音節内核音素の開始時点ｔPの最近傍に位置する発音時点ｔNが複数の音節内核音素について共通（重複）するか否かが判定される。

１個の音符内で複数の音節内核音素を含む歌詞を発音した場合には合成音が聴感的に不自然な印象になるという傾向がある。以上の傾向を考慮して、指示情報Ｕが指定する１個の発音時点ｔNに認識候補ＷCの複数の音節内核音素の開始時点ｔPが対応する場合（ＳA11：YES）、音声認識部３２は、今回の認識候補ＷCを棄却する（ＳA12）。すなわち、複数の音節内核音素が１個の音符に付与されることになる認識候補ＷCは確率Ｐの算定対象から除外される。

例えば、図７の例示のように「鞘井田湾［saya-ida-wan］」という文字列（不正解）が認識候補ＷCである場合に着目する。指示情報Ｕが指定する発音時点ｔN2は、音節「や［ya］」の音節内核音素/ａ/の開始時点ｔP2と音節「い［i］」の音節内核音素/ｉ/の開始時点ｔP3との２個の開始時点ｔPにとって最近傍に位置する。また、指示情報Ｕが指定する発音時点ｔN3は、音節「だ［da］」の音節内核音素/ａ/の開始時点ｔP4と音節「わ［wa］」の音節内核音素/ａ/の開始時点ｔP5と音節「ん［N］」の音節内核音素/Ｎ/の開始時点ｔP6との３個の開始時点ｔPにとって最近傍に位置する。以上の通り、指示情報Ｕが指定する１個の発音時点ｔN（ｔN2，ｔN3）に複数の音節内核音素が対応するから、図７の認識候補ＷCは棄却される。

他方、指示情報Ｕが指定する１個の発音時点ｔNに認識候補ＷCの１個の音節内核音素の開始時点ｔPが対応する場合（ＳA11：NO）、音声認識部３２は、今回の認識候補ＷCを確率Ｐの算定対象として維持する（ＳA13）。例えば、図８の「咲いた［saita］」という文字列（正解）が認識候補ＷCである場合、認識候補ＷCの各音節内核音素の開始時点ｔP（ｔP1，ｔP2，ｔP3）の最近傍に位置する各発音時点ｔN（ｔN1，ｔN2，ｔN3）は相互に重複しない。すなわち、各発音時点ｔNと各音節内核音素の開始時点ｔPとが１対１に対応する。したがって、図８の認識候補ＷCは確率Ｐの算定対象として維持される。

以上に説明した手順で維持と判別された各認識候補ＷCを対象として確率Ｐが算定され、維持と判別された複数の認識候補ＷCのうち確率Ｐが最大となる１個の認識候補ＷCが音声信号Ｖ1の発音内容Ｚとして確定される。すなわち、音声認識部３２は、認識候補ＷCの各音素の開始時点ｔPと指示情報Ｕが指定する各発音時点ｔN（すなわち利用者が指示した発音時点ｔN）との時間軸上の関係に応じて各認識候補ＷCの棄却／維持を判別し、維持と判別された複数の認識候補ＷCから音声信号Ｖ1の発音内容Ｚを特定する要素として機能する。

情報生成部３４は、音声認識部３２が特定した発音内容Ｚ（認識候補ＷC）の各音節内核音素の開始時点ｔPと指示情報Ｕが指定する各発音時点ｔNとの対応関係が反映されるように、発音情報Ｓが指定する音符に発音内容Ｚの各音節を割当てる。具体的には、図８の例示のように、各音節内核音素の開始時点ｔP（ｔP1，ｔP2，ｔP3）が指示情報Ｕの各音符の発音時点ｔN（ｔN1，ｔN2，ｔN3）に１対１に対応する「咲いた［saita］」という認識候補ＷCを音声認識部３２が音声信号Ｖ1の発音内容Ｚとして確定した場合、情報生成部３４は、図８に破線の矢印で図示される通り、発音内容Ｚとして確定された認識候補ＷCの各音節内核音素の開始時点ｔPと指示情報Ｕの各音符の発音時点ｔNとの対応関係が維持されるように発音内容Ｚの各音節を発音情報Ｓの各音符に割当てる。具体的には、発音内容Ｚのうち開始時点ｔP1の音節内核音素/ａ/を含む音節「さ［sa］」は、開始時点ｔP1の最近傍に位置する発音時点ｔN1の音符に割当てられる。すなわち、情報生成部３４は、発音情報Ｓにおける発音時点ｔN1の音符の音声符号ＸDを音節「さ［sa］」に設定する。同様に、開始時点ｔP2の音節内核音素/ｉ/の音節「い［i］」は、開始時点ｔP2に対応する発音時点ｔN2の音符に割当てられ、開始時点ｔP3の音節内核音素/ａ/の音節「た［ta］」は、開始時点ｔP3に対応する発音時点ｔN3の音符に割当てられる。

ところで、図８では、指示情報Ｕが指定する全部の発音時点ｔNが発音内容Ｚ（認識候補ＷC）の各音節内核音素の開始時点ｔPに過不足なく１対１で対応する場合を例示したが、例えば指示情報Ｕが指定する音符の個数が発音内容Ｚの音節の個数に対して多い場合には、図９および図１０に例示される通り、発音内容Ｚ（認識候補ＷC）内の何れの音節内核音素の開始時点ｔPにも対応しない発音時点ｔN（すなわち、何れの音節内核音素にとっても最近傍には該当しない発音時点ｔN）の音符（以下「剰余音符」という）が存在する可能性がある。情報生成部３４は、音声認識部３２が認識した発音内容Ｚの複数の音節のうち、剰余音符の発音時点ｔNの最近傍に位置する音節内核音素を含む音節を剰余音符に割当てる。図９および図１０では、指示情報Ｕが５個の音符を順次に指定する場合を前提として、音声認識部３２が「あなたと［anatato］」という文字列を発音内容Ｚとして特定した場合が想定されている。

例えば、図９に示すように、剰余音符の発音時点ｔN3が発音内容Ｚのうち音節「な［na］」の音節内核音素/ａ/内に位置する場合、音節内核音素/ａ/を含む音節「な［na］」が剰余音符に割当てられる。すなわち、情報生成部３４は、発音情報Ｓにおける剰余音符の音声符号ＸDを音節「な［na］」に設定する。また、図１０に示すように、剰余音符の発音時点ｔN3が音節「た［ta］」の音素/ｔ/（音節内核音素には該当しない音素）内に位置する場合、発音時点ｔN3の最近傍に位置する音節内核音素/ａ/を含む直前の音節「な［na］」が剰余音符に割当てられる。すなわち、１個の音節を複数の音符で歌唱する歌唱法（メリスマ）が音声信号Ｖ2で実現される。

以上に説明した通り、第１実施形態では、指示入力装置１６に対する利用者からの指示に応じて各音符の発音時点ＸBが設定され、利用者が発音した音声の音声信号Ｖ1に対する音声認識で特定された発音内容Ｚに応じて各音符の音声符号ＸDが設定される。したがって、キーボード等の操作機器の操作で利用者が音符毎に歌詞を指定する非特許文献１の技術や、鍵盤の演奏による旋律の指定と操作子の操作による音声符号の指定とを利用者が実行する非特許文献２の技術と比較すると、指示入力装置１６に対する操作で各音符の発音時点ｔNを指示しながら歌詞を発音するという簡便な作業で利用者が各音符の発音内容を指定できるという利点がある。

また、本実施形態では、認識候補ＷCの各音素の開始時点ｔPと指示情報Ｕが指定する各発音時点ｔNとの時間軸上の関係に応じて各認識候補ＷCの棄却／維持が判別され、維持と判別された複数の認識候補ＷCから音声信号Ｖ1の発音内容Ｚが特定される。すなわち、指示情報Ｕを参照して認識候補ＷCの絞込が実行される。したがって、全部の認識候補ＷCについて確率Ｐを算定する構成と比較して音声認識部３２の処理負荷が軽減されるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、指示情報Ｕが指定する１個の発音時点ｔNに複数の音節内核音素の開始時点ｔPが対応する認識候補ＷCを棄却する場合を例示したが、例えば日本語では、複数の音節が１個のモーラ（拍）のように発音される場合がある。すなわち、複数の音節が１個の音符に割当てられる。例えば、「お」「お」「き」「な」という４個の音節で構成される「大きな［ookina］」という歌詞では、「おお」という２個の音節が１個の音符で発音され得る。また、「し」「ん」「ご」「う」という４個の音節で構成される「信号［shingou］」という歌詞では、「しん［shin］」という２個の音節が１個の音符で発音されるとともに、「ごう［gou］」という２個の音節が１個の音符で発音され得る。以上の傾向を考慮して、第２実施形態では、複数の音節を１個の音符に割当てることを許容する。

図１１は、任意の１個の認識候補ＷCについて音声認識部３２が棄却／維持を判別する処理のフローチャートである。図１１の処理は、第１実施形態で説明した図６の処理と同様に、指示情報Ｕおよび音声信号Ｖ1の入力の完了後に実行され、辞書情報ＤB内の各登録単語Ｗ0に対応する複数の認識候補ＷC（すなわち、音素の配列または開始時点ｔPが相違する複数の単語）の各々について順次に実行される。

図１２および図１３には、「相打ち［aiuchi］」という文字列が認識候補ＷCとして選択された場合が例示されている。第１実施形態と同様に、辞書情報ＤB内の各登録単語Ｗ0の識別符号を参照することで各認識候補ＷC内の音節内核音素が特定される。図１２および図１３に例示された認識候補ＷCでは、音節「あ[a]」の音素/ａ/と音節「い［i］」の音素/ｉ/と音節「う［u］」の音素/ｕ/と音節「ち［chi］」の音素/ｉ/とが音節内核音素に該当する。図１２では、利用者が２個の音符の発音時点ｔN（ｔN1，ｔN2）を指定した場合が想定され、図１３では、利用者が３個の音符の発音時点（ｔN1，ｔN2，ｔN3）を指定した場合が想定されている。

音声認識部３２は、図６のステップＳA10と同様に、認識候補ＷCを構成する複数の音素のうち識別符号が付加された複数の音節内核音素の各々について、指示情報Ｕが指定する複数の発音時点ｔNのうちその音節内核音素の開始時点ｔP（ｔP1，ｔP2，……）の最近傍に時間軸上で位置する発音時点ｔNを特定する（ＳB10）。

音声認識部３２は、認識候補ＷCに含まれる複数の音節内核音素の各々を、優先割当音素と結合候補音素とに選別する（ＳB11）。結合候補音素は、直前の音節内核音素（優先割当音素または結合候補音素）に結合されて１個の音符に割当てられる候補となる音素である。具体的には、認識候補ＷC内の複数の音節内核音素のうち、母音の音素（/ａ/，/ｉ/，/ｕ/，/ｅ/，/ｏ/）の直後に位置する母音または撥音（/Ｎ/）の音素が結合候補音素に選別される。例えば、「相打ち［aihchi］」という認識候補ＷCに着目すると、図１２および図１３に示すように、音節「い［i］」の音素/ｉ/と音節「う［u］」の音素/ｕ/とが結合候補音素に選別される。他方、認識候補ＷC内の複数の音節内核音素のうち結合候補音素以外の音素（具体的には認識候補ＷC内の最初の音節内核音素や子音の音素の直後の音節内核音素）が優先割当音素に選別される。例えば「相打ち［aihchi］」という認識候補ＷCに着目すると、音節「あ［a］」の音素/ａ/と音節「ち［chi］」の音素/ｉ/とが優先割当音素に選別される。なお、ステップＳB11の実行後にステップＳB10を実行することも可能である。

音声認識部３２は、指示情報Ｕが指定する何れかの発音時点ｔNに認識候補ＷC内の複数の優先割当音素の開始時点ｔPが対応するか否か（複数の優先割当音素からみて最近傍に位置する１個の発音時点ｔNが存在するか否か）を判定する（ＳB12）。すなわち、優先割当音素の開始時点ｔPの最近傍に位置する発音時点ｔNが複数の優先割当音素について共通するか否かが判定される。

複数の優先割当音素を１個の音符で発音した場合には合成音が聴感的に不自然な印象になるという傾向がある。以上の傾向を考慮して、指示情報Ｕが指定する１個の発音時点ｔNに複数の優先割当音素の開始時点ｔPが対応する場合（ＳB12：YES）、音声認識部３２は今回の認識候補ＷCを棄却する（ＳB13）。なお、第２実施形態では、前述のように複数の音節を１個の音符で発音することを許容するから、図１２および図１３に示すように、１個の優先割当音素の開始時点ｔPと１個以上の結合候補音素の開始時点ｔPとが１個の発音時点ｔNに対応することは許容される。

他方、各発音時点ｔNに対応する優先割当音素が１個である場合（ＳB12：NO）、音声認識部３２は、認識候補ＷCの複数の音節内核音素（優先割当音素および結合候補音素）のうち各音符の発音時点ｔNに対して確定的に割当てられる音節内核音素（以下「確定音素」という）を特定する（ＳB14）。

具体的には、音声認識部３２は、１個の音符の発音時点ｔNに１個の音節内核音素（優先割当音素または結合候補音素）が対応する場合のその音節内核音素を確定音素に選別する。例えば、図１３の１個の発音時点ｔN2には音節「う［u］」の１個の結合候補音素/ｕ/のみが対応し、１個の発音時点ｔN3には音節「ち［chi］」の１個の優先割当音素/ａ/のみが対応する。したがって、認識候補ＷCのうち音節「う［u］」の結合候補音素/ｕ/と音節「ち［chi］」の優先割当音素/ｉ/とが確定音素に選別される。

また、音声認識部３２は、１個の優先割当音素と１個以上の結合候補音素とが１個の発音時点ｔNに対応する場合のその優先割当音素を確定音素に設定する。例えば、図１２および図１３の１個の発音時点ｔN1には、音節「あ［a］」の１個の優先割当音素/ａ/と音節「い［i］」の１個の結合候補音素/ｉ/とが対応する。したがって、音節「あ［a］」の優先割当音素/ａ/が確定音素に選別される。同様に、図１２の１個の発音時点ｔN2には、音節「う［u］」の結合候補音素/ｕ/と音節「ち［chi］」の優先割当音素/ｉ/とが対応する。したがって、音節「ち［chi］」の優先割当音素/ｉ/が確定音素に選別される。

１個の音符に対する複数の音節の割当てを許容するとは言っても、過度に多数の音節を１個の音符に割当てた場合には合成音が聴感的に不自然な印象となる。以上の傾向を考慮して、本実施形態では、１個の音符に割当てる音節の個数をＭ個（Ｍは２以上の自然数）以内に制限する。具体的には、音声認識部３２は、認識候補ＷC内で相前後する各確定音素の間に、Ｍ個を上回る結合候補音素が存在するか否かを判定する（ＳB15）。以下の説明では、個数Ｍを２に設定した場合を想定するが、個数Ｍを３以上の数値に設定することも可能である。

認識候補ＷC内の各確定音素の間にＭ個を上回る結合候補音素が存在する場合（ＳB15：YES）、音声認識部３２は、今回の認識候補ＷCを棄却する（ＳB13）。例えば、図１２の例示では、相前後する確定音素/ａ/と確定音素/ｉ/との間に２個の結合候補音素（/ｉ/，/ｕ/）が存在するから、認識候補ＷCは棄却される。他方、認識候補ＷC内の各確定音素の間に存在する結合候補音素がＭ個未満である場合（ＳB15：NO）、音声認識部３２は、今回の認識候補ＷCを確率Ｐの算定対象として維持する（ＳB16）。例えば、図１３の例示では、相前後する確定音素/ａ/と確定音素/ｕ/との間には１個の結合候補音素/ｉ/が存在するから、認識候補ＷCは維持される。

以上に説明した手順で維持された各認識候補ＷCを対象として確率Ｐが算定され、確率Ｐが最大となる１個の認識候補ＷCが音声信号Ｖ1の発音内容Ｚとして確定される。すなわち、第２実施形態の音声認識部３２は、指示情報Ｕが指定する何れかの発音時点ｔNに複数の優先割当音素が対応する場合に認識候補ＷCを棄却する要素（ＳB12：YES，ＳB13）、および、認識候補ＷC内で相前後する各確定音素の間にＭ個を上回る結合候補音素が存在する場合に認識候補ＷCを棄却する要素（ＳB15：YES，ＳB13）として機能する。

第２実施形態の情報生成部３４は、音声認識部３２が特定した発音内容Ｚ（認識候補ＷC）の各確定音素の開始時点ｔPと指示情報Ｕが指定する各発音時点ｔNとの関係が反映されるように、発音情報Ｓが指定する各音符に発音内容Ｚの各音節を割当てる。具体的には、情報生成部３４は、指示情報Ｕが指定する各発音時点ｔNの音符に、発音内容Ｚの複数の音節のうちその発音時点ｔNに対応する確定音素を含む音節を割当てる。例えば、図１３の「相打ち［aiuchi］」という認識候補ＷCが音声信号Ｖ1の発音内容Ｚとして確定された場合、発音内容Ｚのうち開始時点ｔP1の確定音素/ａ/の音節「あ［a］」は、開始時点ｔP1の最近傍に位置する発音時点ｔN1の音符に割当てられる。すなわち、情報生成部３４は、発音情報Ｓにおける発音時点ｔN1の音符の音声符号ＸDを音節「あ［a］」に設定する。同様に、確定音素/ｕ/の音節「う［u］」は発音時点ｔN2の音符に割当てられ、確定音素/ｉ/の音節「ち［chi］」は発音時点ｔN3の音符に割当てられる。

また、情報生成部３４は、音声認識部３２が特定した発音内容Ｚのうち相前後する各確定音素の間に位置する結合候補音素の音節を、その音節の直前の音節と共通の音符に割当てる。すなわち、結合候補音素の音節とその直前の音節とが結合されて１個の音符に割当てられる。例えば、図１３に鎖線で図示される通り、発音内容Ｚのうち確定音素/ａ/と確定音素/ｕ/との間に位置する結合候補音素/ｉ/は、直前の確定音素/ａ/に結合されて発音時点ｔN1の１個の音符に割当てられる。すなわち、発音時点ｔN1の音符の音声符号ＸDは、確定音素/ａ/の音節「あ［a］」と結合候補音素/ｉ/の音節「い［i］」とを結合した「あい［ａｉ］」に設定され、発音時点ｔN1の１個の音符で発音される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、複数の音節（１個の確定音素と１個以上の結合候補音素との組合わせ）を１個の音符に割当てることが許容されるから、複数の音節が１個のモーラ（拍）のように発音され得る言語（典型的には日本語）について聴感的に自然な印象の合成音を生成できるという利点がある。

＜第３実施形態＞
第１実施形態では、指示入力装置１６に対する利用者からの指示に応じて各音符の音高ＸAを設定した。第３実施形態では、音声入力装置１４が生成した音声信号Ｖ1の音高（ピッチ）を音声信号Ｖ2の各音符の音高に反映させる。したがって、利用者は、指示入力装置１６に指示する旋律に対応する音高の音声を音声入力装置１４に対して発音する。

図１４には、発音情報Ｓで音符毎に指定される音高ＸAと、発音情報Ｓのみを音声合成に適用した場合に音声合成部３６で生成される音声信号Ｖ2の音高（基本周波数）ＦAと、利用者が発音した音声の音声信号Ｖ1の音高ＦBとが図示されている。音高ＦAは、発音情報Ｓが指定する音高ＸA（指示情報Ｕの音高Ｎ）に連動して時間的に変化するように発音情報Ｓの各音高ＸAに応じて設定される。第３実施形態の音声合成部３６は、図１５に示すように、音高ＦAと利用者が入力した音声信号Ｖ1の音高ＦBとの加重和で音高ＦCを算定し、音声符号ＸDに対応する各音声素片を音高ＦCに変換（ピッチ変換）することで音声信号Ｖ2を生成する。すなわち、音高ＦAおよび音高ＦBの双方の特徴を反映した中間的な音高ＦCの音声信号Ｖ2が生成される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、指示入力装置１６に指示された音高ＸAに応じた音高ＦAと利用者が発音した音声信号Ｖ1の音高ＦBとの双方が音声合成後の音声信号Ｖ2の音高ＦCに反映される。したがって、指示入力装置１６に指示された音高ＸAのみを音声信号Ｖ2の音高に反映させる構成（図１４の音高ＦA）と比較して、利用者の発音の微妙な表情を反映させた音声信号Ｖ2を生成できるという利点がある。また、音声信号Ｖ1の音高ＦAのみを音声信号Ｖ2の音高に反映させる構成では、利用者の歌唱の巧拙が直接的に音声信号Ｖ2に反映されるという問題がある。第３実施形態では、指示入力装置１６に指示された音高ＸAと音声信号Ｖ1の音高ＦBとの双方が音声信号Ｖ2の音高ＦCに反映されるから、例えば利用者が音痴である場合でも音高ＦCが適切に変化する音声信号Ｖ2を生成できるという利点がある。なお、第３実施形態の構成を第２実施形態に適用することも可能である。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、指示情報Ｕおよび音声信号Ｖ1に応じた発音情報Ｓを生成するとともに発音情報Ｓを適用した音声合成で音声信号Ｖ2を生成する音声処理装置１００（音声合成装置）を例示したが、発音情報Ｓを生成する音声処理装置１００（音声解析装置）としても本発明は実現され得る。すなわち、前述の各形態における音声合成部３６を省略することも可能である。発音情報Ｓは、利用者が指示した各音符と音声信号Ｖ1の各音節との関係を表現する譜面情報として利用され得る。また、例えば各音符と歌詞との対応を規定した楽曲情報（例えばカラオケ用に事前に用意された楽曲データ）と情報生成部３４が生成する発音情報Ｓとを対比することで、利用者による歌唱の巧拙を評価することも可能である。

（２）前述の各形態では、各音符の音高Ｎを利用者が指示入力装置１６に対して指示する構成を例示したが、音声入力装置１４が生成した音声信号Ｖ1の解析（ピッチ検出）で音声取得部２２が音声信号Ｖ1の各音符の音高Ｎを特定することも可能である。すなわち、発音情報Ｓが指定する各音符の音高ＸAは音声信号Ｖ1から特定された音高Ｎに設定される。例えば、打楽器型の電子楽器を指示入力装置１６に利用して各音符の発音時点ｔNを検出し、発音内容Ｚと各音符の音高Ｎとを音声信号Ｖ1から特定する構成が好適である。

（３）前述の各形態では、鍵盤楽器型の操作機器を指示入力装置１６として例示したが、指示入力装置１６の形態は任意である。例えば、利用者による弾弦の時点を発音時点ｔNとして検出するとともに音量が所定値を下回る時点を消音時点ｔEとして検出する弦楽器型の操作機器を指示入力装置１６として利用することも可能である。また、管楽器型の操作機器も指示入力装置１６として利用され得る。なお、管楽器型の操作機器を指示入力装置１６として利用する場合、ひとりの利用者が歌詞の発音と旋律の指示とを並列に実行することは困難である。したがって、ひとりの利用者が音声入力装置１４に対して歌詞を発音する動作に並行して他の利用者が指示入力装置１６を操作して所望の旋律を指示するという利用形態が想定される。また、ひとりの利用者が歌詞の発音と旋律の指示とを相異なる期間に分割して実行することも可能である。

（４）携帯電話機等の端末装置と通信するサーバ装置で音声処理装置１００（音声合成部３６の有無は不問）を実現することも可能である。例えば、音声入力装置１４と指示入力装置１６とを端末装置に設置し、音声入力装置１４が生成した音声信号Ｖ1と指示入力装置１６が生成した指示情報Ｕとを、音声処理装置１００が端末装置から受信する。音声処理装置１００は、端末装置から受信した音声信号Ｖ1および指示情報Ｕから発音情報Ｓを生成し、発音情報Ｓを適用した音声合成で生成した音声信号Ｖ2を端末装置に送信する。端末装置が音声合成部３６を具備する構成では、発音情報Ｓを音声処理装置１００から端末装置に送信することも可能である。

１００……音声処理装置、１０……演算処理装置、１２……記憶装置、１４……音声入力装置、１６……指示入力装置、１８……放音装置、２２……音声取得部、２４……指示取得部、３２……音声認識部、３４……情報生成部、３６……音声合成部。

Claims

音声信号を取得する音声取得手段と、
利用者が指示した各音符の発音時点を指定する指示情報を取得する指示取得手段と、
音素の配列または各音素の開始時点が相違する複数の認識候補の各々について、当該認識候補の各音素の開始時点と前記指示情報が指定する各発音時点との時間軸上の関係に応じて当該認識候補の棄却／維持を判別し、維持された複数の認識候補から音声信号の発音内容を特定する音声認識手段と、
前記音声認識手段が特定した発音内容と前記指示情報が発音時点を指定する各音符との関係を示す発音情報を生成する情報生成手段と
を具備する音声処理装置。
前記音声認識手段は、前記認識候補の複数の音素のうち持続的に発音可能な各音節内核音素の開始時点の最近傍に位置する発音時点を、前記指示情報が指定する複数の発音時点から特定し、何れかの発音時点に複数の音節内核音素が対応する場合に当該認識候補を棄却する
請求項１の音声処理装置。
前記情報生成手段は、前記指示情報が指定する各発音時点の音符に、前記音声認識手段が特定した発音内容の複数の音節のうち当該発音時点を最近傍とする音節内核音素を含む音節を割当て、何れの音節内核音素にとっても最近傍に該当しない発音時点の音符には、前記発音内容の複数の音節のうち当該発音時点に対応する音節を割当てる
請求項２の音声処理装置。
前記音声認識手段は、
前記認識候補の複数の音素のうち持続的に発音可能な各音節内核音素の開始時点の最近傍に位置する発音時点を、前記指示情報が指定する複数の発音時点から特定し、
前記認識候補の各音節内核音素を、当該認識候補内で母音の直後に位置する結合候補音素と前記結合候補音素以外の優先割当音素とに選別し、
前記指示情報が指定する何れかの発音時点に複数の優先割当音素が対応する場合に当該認識候補を棄却し、
前記指示情報が指定する何れかの発音時点に１個の音節内核音素が対応する場合の当該音節内核音素と、何れかの発音時点に１個の優先割当音素と１個以上の結合候補音素とが対応する場合の当該優先割当音素とを確定音素としたとき、前記認識候補内で相前後する各確定音素の間に、Ｍ個（Ｍは２以上の自然数）を上回る結合候補音素が存在する場合に、当該認識候補を棄却する
請求項１の音声処理装置。
前記情報生成手段は、前記指示情報が指定する各発音時点の音符に、前記音声認識手段が特定した発音内容の複数の音節のうち当該発音時点を最近傍とする確定音素を含む音節を割当て、各確定音素の間の結合候補音素を直前の音節と共通の音符に割当てる
請求項４の音声処理装置。