JP2018128607A

JP2018128607A - 音声処理方法および音声処理装置

Info

Publication number: JP2018128607A
Application number: JP2017022418A
Authority: JP
Inventors: 優樹瀬戸; Yuki Seto
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-02-09
Filing date: 2017-02-09
Publication date: 2018-08-16
Anticipated expiration: 2037-02-09
Also published as: JP6897132B2

Abstract

【課題】第１言語で表現された特定の文字列に第２言語の部分が含まれる場合でも、音韻および抑揚が聴感的に自然な音声を合成する。【解決手段】音声処理装置は、指定文字列のうちの第１部分を第１言語で発音した音声と、指定文字列のうち第１部分とは相違する第２部分を発音した音声とを表す音声信号Ｘを生成する音声合成部２４Aを具備し、音声合成部２４Aは、第２部分について、第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する。【選択図】図４

Description

本発明は、特定の文字列を発音した音声を合成する技術に関する。

例えば電車等の交通機関または店舗等の商業施設では、利用者を案内するための様々な音声が放音される。例えば特許文献１には、例えば素片接続型等の公知の音声合成処理により案内音声を生成して施設内の放音装置から再生する構成が開示されている。

特開２０１６−７６２０１号公報

ところで、特定の言語（以下「第１言語」という）で表現された案内音声には、他言語（以下「第２言語」という）に対応する音声が含まれる場合がある。例えば、日本語で表現された駅名または地名等の固有名詞が、英語で表現された案内音声に含まれ得る。しかし、第１言語を前提とした音声合成処理により、第２言語で表現された文字列の音声を合成した場合には、音韻（発音内容）および抑揚が聴感的に自然な音声を合成することは実際には困難である。例えば、「タテヤマ（tateyama）」という日本語の地名を発音した音声の合成に英語用の音声合成処理を利用した場合には、「タテイアマ（tateiama）」といった音声が生成される可能性がある。以上の事情を考慮して、本発明は、第１言語で表現された特定の文字列に第２言語の部分が含まれる場合でも音韻および抑揚が聴感的に自然な音声を合成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声処理方法は、指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成し、前記音声信号の生成においては、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する。
また、本発明の好適な態様に係る音声処理装置は、指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成する音声合成部を具備し、前記音声合成部は、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する。

本発明の第１実施形態に係る音声処理装置の構成図である。指定文字列と定型部分と非定型部分との関係の説明図である。非定型部分を入力する画面の説明図である。音声処理装置における制御装置の機能に着目した構成図である。制御装置が実行する信号生成処理のフローチャートである。第２実施形態に係る音声処理装置の構成図である。第２実施形態における制御装置の機能に着目した構成図である。第２実施形態の制御装置が実行する信号生成処理のフローチャートである。第３実施形態に係る音声処理装置の構成図である。第３実施形態における制御装置の機能に着目した構成図である。第３実施形態の制御装置が実行する音声合成処理のフローチャートである。第４実施形態の音声処理装置における制御装置の機能に着目した構成図である。第４実施形態における端末装置の構成図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００の構成図である。図１に例示される通り、第１実施形態の音声処理装置１００は、電車等の交通機関の施設内（例えば駅構内）に設置され、当該施設に関する案内を表す音声（以下「案内音声」という）Ｇを施設内の利用者に対して放音する音響システムである。

案内音声Ｇは、音声処理装置１００の管理者が指定した文字列（以下「指定文字列」という）Ｑを発音した音声である。図２には、“We have found a child, who tells us his name is Yuki Suzuki.”（スズキユウキちゃんという迷子のお子様がお待ちでございます）という英語の指定文字列Ｑが例示されている。図２に例示される通り、第１実施形態の指定文字列Ｑは、定型部分Ｑaと非定型部分Ｑbとを含んで構成される。

定型部分Ｑa（第１部分の例示）は、事前に内容が想定される定型的な文字列であり、特定の言語（以下「第１言語」という）の語句で構成される。図２では、第１言語の例示である英語で表現された定型部分Ｑaが例示されている。他方、非定型部分Ｑb（第２部分の例示）は、例えば施設内の状況に応じて変更される非定型の文字列である。例えば図２に例示される通り、施設内の迷子の子供の名前等の固有名詞の部分が非定型部分Ｑbの典型例である。非定型部分Ｑbは、第１言語とは相違する言語（以下「第２言語」という）の語句であり得る。図２に例示された指定文字列Ｑのうち名前を表す“Yuki Suzuki”という語句が非定型部分Ｑbである。すなわち、非定型部分Ｑbは、例えば通常は日本語として使用される固有名詞（例えば日本人の名前または日本国内の地名）である。定型部分Ｑaは、案内の概略的かつ基本的な内容を表現し、非定型部分Ｑbは、案内に関する個別的または具体的な内容を表現する、と換言することも可能である。なお、図２では１個の非定型部分Ｑbを含む指定文字列Ｑを例示したが、複数の非定型部分Ｑbを１個の指定文字列Ｑに含めてもよい。

図１に例示される通り、音声処理装置１００は、制御装置１１と記憶装置１２と表示装置１３と操作装置１４と放音装置１５とを具備するコンピュータシステムである。例えばタブレット端末またはパーソナルコンピュータ等の情報端末が音声処理装置１００として利用され得る。なお、例えば、鉄道事業者の施設内に設置される電光掲示板、または商業施設に設置される電子看板（例えばデジタルサイネージ）等の案内用の表示端末を、音声処理装置１００として利用することも可能である。また、音声処理装置１００は、単体の装置で実現されるほか、相互に別体で構成された複数の装置（すなわちシステム）でも実現され得る。

表示装置１３（例えば液晶表示パネル）は、制御装置１１による制御のもとで各種の画像を表示する。操作装置１４は、管理者からの指示を受付ける入力機器である。例えば、管理者が操作可能な複数の操作子、または、表示装置１３の表示面に対する接触を検知するタッチパネルが、操作装置１４として好適に利用される。第１実施形態では、音声処理装置１００の管理者は、操作装置１４を適宜に操作することで、事前に用意された複数の候補から指定文字列Ｑの定型部分Ｑaを選択するとともに、迷子の子供の名前等の任意の文字列を非定型部分Ｑbとして指定することが可能である。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、音声処理装置１００の各要素を統括的に制御する。具体的には、第１実施形態の制御装置１１は、指定文字列Ｑを発音した音声を表す音声信号Ｘを生成する。放音装置１５は、制御装置１１が生成した音声信号Ｘに応じた音声を再生する。なお、制御装置１１が生成した音声信号Ｘをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体が記憶装置１２として採用され得る。

第１実施形態の記憶装置１２は、相異なる定型部分Ｑaに対応する複数の収録信号Ｒを記憶する。任意の１個の定型部分Ｑaに対応する収録信号Ｒは、定型部分Ｑaを発音した音声（すなわち第１言語で表現された音声）を表す信号である。複数の定型部分Ｑaの各々を特定の発声者に順次に発音させ、当該発声音を収音機器により収録することで複数の収録信号Ｒが生成される。発声音の収録により生成された複数の収録信号Ｒが事前（すなわち音声信号Ｘの生成前）に記憶装置１２に格納される。

非定型部分Ｑbは、単発的に必要となる文字列であるから、収録信号Ｒを事前に用意することは困難である。また、新規に設置された店舗等の施設で使用される指定文字列Ｑについては収録信号Ｒが収録されていない場合が想定される。以上の事情を考慮して、第１実施形態では、非定型部分Ｑbを音声合成処理により生成する。

図１に例示される通り、第１実施形態の記憶装置１２は、第２言語用の音声合成プログラムＰ2および音声合成データＤ2とを記憶する。音声合成プログラムＰ2は、第２言語の任意の文字列に対応する音声を合成する音声合成処理を実現するためのソフトウェア（音声合成エンジン）である。第１実施形態では、複数の音声素片を時間軸上で相互に接続する素片接続型の音声合成処理を例示する。

音声合成データＤ2は、非定型部分Ｑbの音声合成処理に利用される。第１実施形態では、素片接続型の音声合成処理により非定型部分Ｑbの音声を合成する場合を想定する。図１に例示される通り、音声合成データＤ2は、発音規則データＤa2と音声素片データＤb2とを記憶する。発音規則データＤa2は、第２言語の文字列と発音記号との関係（すなわち、文字列を発音記号に変換する規則）を規定する。音声素片データＤb2は、複数の音声素片の集合（音声合成用ライブラリ）である。各音声素片は、例えば母音もしくは子音等の音素単体、または、複数の音素を連結した音素連鎖（例えばダイフォンまたはトライフォン）である。第１実施形態では、第２言語の語句を発音した音声から採取された複数の音声素片が音声素片データＤb2に登録される。

図４は、制御装置１１の機能に着目した構成図である。図４に例示される通り、第１実施形態の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、指定文字列Ｑの音声信号Ｘを生成するための複数の機能（文字列設定部２２および音声合成部２４A）を実現する。なお、制御装置１１の一部の機能を専用の電子回路で実現した構成、または、制御装置１１の機能を複数の装置に分散した構成も採用され得る。

文字列設定部２２は、定型部分Ｑaと非定型部分Ｑbとを含む指定文字列Ｑを設定する。具体的には、第１実施形態の文字列設定部２２は、操作装置１４に対する管理者からの指示に応じて定型部分Ｑaと非定型部分Ｑbとを設定する。例えば、文字列設定部２２は、操作装置１４に対する操作で管理者が複数の候補から選択した文字列を定型部分Ｑaとして設定する。また、文字列設定部２２は、操作装置１４に対する操作で管理者が指定した任意の文字列を非定型部分Ｑbとして設定する。例えば図３に例示される通り、表示装置１３に表示された入力欄１３２に管理者が入力した文字列が非定型部分Ｑbとして設定される。なお、非定型部分Ｑbを定型部分Ｑaとは別個の文字種（例えば片仮名）により指定することも可能である。例えば、外国人の名前を、日本人が聴取した通りの片仮名で非定型部分Ｑbとして指定する。

図４の音声合成部２４Aは、文字列設定部２２が設定した指定文字列Ｑを発音した案内音声Ｇを表す音声信号Ｘを生成する。図４に例示される通り、第１実施形態の音声合成部２４Aは、第１処理部３２Aと第２処理部３４と接続処理部３６とを含んで構成される。

第１処理部３２Aは、文字列設定部２２が設定した指定文字列Ｑの定型部分Ｑaの音声を表す第１信号Ｘ1を生成する。第１実施形態の第１処理部３２Aは、記憶装置１２に記憶された複数の収録信号Ｒのうち定型部分Ｑaに対応する１個の収録信号Ｒを第１信号Ｘ1として選択する。第２処理部３４は、文字列設定部２２が設定した指定文字列Ｑの非定型部分Ｑbに対応する音声を表す第２信号Ｘ2を生成する。第１実施形態の第２処理部３４は、制御装置１１が音声合成プログラムＰ2を実行することで実現され、記憶装置１２に記憶された第２言語用の音声合成データＤ2を利用した音声合成処理により第２信号Ｘ2を生成する。接続処理部３６は、第１処理部３２Aが生成した第１信号Ｘ1と第２処理部３４が生成した第２信号Ｘ2とを相互に接続することで音声信号Ｘを生成する。

図５は、第１実施形態の音声合成部２４Aが音声信号Ｘを生成する処理（以下「信号生成処理」という）のフローチャートである。文字列設定部２２による指定文字列Ｑの設定毎に信号生成処理が実行される。

信号生成処理を開始すると、第１処理部３２Aは、文字列設定部２２が設定した指定文字列Ｑの定型部分Ｑaに対応する音声を表す第１信号Ｘ1を複数の収録信号Ｒから選択する（Ｓa1：第１処理）。すなわち、複数の収録信号Ｒのうち指定文字列Ｑの定型部分Ｑaに対応する１個の収録信号Ｒが第１信号Ｘ1として選択される。第１信号Ｘ1は、定型部分Ｑaを発音した第１言語の音声を表す信号である。

第２処理部３４は、文字列設定部２２が設定した指定文字列Ｑの非定型部分Ｑbの音声を表す第２信号Ｘ2を音声合成処理により生成する（Ｓa2：第２処理）。第１実施形態の第２処理部３４は、以下に詳述する通り、記憶装置１２に記憶された第２言語用の音声合成データＤ2を利用した音声合成処理により第２信号Ｘ2を生成する（Ｓa21−Ｓa24）。

まず、第２処理部３４は、音声合成データＤ2の発音規則データＤa2を参照することで、非定型部分Ｑbに対応する発音記号を決定する（Ｓa21）。第１実施形態の発音規則データＤa2は、第２言語（例えば日本語）の文字列と発音記号との関係を規定する。したがって、ステップＳa21では、第２言語の語句として自然な読み方と認識される発音記号が非定型部分Ｑbから決定される。

また、第２処理部３４は、非定型部分Ｑbの発音記号に対応する複数の音声素片を音声素片データＤb2から選択する（Ｓa22）。そして、第２処理部３４は、音声素片データＤb2から選択した各音声素片の特性を適宜に調整する（Ｓa23）。例えば、案内音声Ｇの抑揚に影響する音高および音量が調整される。第２処理部３４は、調整後の複数の音声素片を時間軸上で相互に接続することで第２信号Ｘ2を生成する（Ｓa24）。前述の通り、第１実施形態の音声素片データＤb2には、第２言語（例えば日本語）を発音した音声から採取された複数の音声素片が登録される。したがって、ステップＳa24では、第２言語の音声として聴感的に自然な音声を表す第２信号Ｘ2が生成される。なお、第１処理Ｓa1と第２処理Ｓa2との先後を逆転することも可能である。

以上の処理が完了すると、接続処理部３６は、第１処理Ｓa1で生成した第１信号Ｘ1と第２処理Ｓa2（Ｓa21−Ｓa24）で生成した第２信号Ｘ2とを接続することで音声信号Ｘを生成する（Ｓa3：接続処理）。具体的には、第１信号Ｘ1のうち非定型部分Ｑbに対応した区間に第２信号Ｘ2を挿入することで音声信号Ｘが生成される。すなわち、第１実施形態の音声合成部２４Aは、指定文字列Ｑの定型部分Ｑaを第１言語で発音した音声と、指定文字列Ｑの非定型部分Ｑbを第２言語で発音した音声とを表す音声信号Ｘを生成する。音声合成部２４Aが生成した音声信号Ｘが放音装置１５に供給されることで、施設内の利用者に対して案内音声Ｇが再生される。

以上に説明した通り、第１実施形態では、指定文字列Ｑのうち非定型部分Ｑbについては第２言語用の音声合成データＤ2を利用した音声合成処理が実行される。したがって、非定型部分Ｑbについて音韻および抑揚が聴感的に自然な案内音声Ｇを再生することが可能である。

＜第２実施形態＞
本発明の第２実施形態について説明する。以下に例示する各構成において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図６は、第２実施形態に係る音声処理装置１００の構成図である。図６に例示される通り、第２実施形態の記憶装置１２は、第１実施形態で例示した第２言語用の音声合成プログラムＰ2および音声合成データＤ2のほか、第１言語用の音声合成プログラムＰ1および音声合成データＤ1を記憶する。音声合成プログラムＰ1は、第１言語の任意の文字列に対応する音声を合成する音声合成処理を実現するためのソフトウェア（音声合成エンジン）である。

音声合成データＤ1は、音声合成プログラムＰ1による音声合成処理に利用されるデータであり、発音規則データＤa1と音声素片データＤb1とを含んで構成される。発音規則データＤa1は、第１言語の文字列と発音記号との関係を規定する。音声素片データＤb1は、第１言語の語句を発音した音声から採取された複数の音声素片の集合である。なお、第１実施形態で例示した複数の収録信号Ｒは、第２実施形態では省略される。

図７は、制御装置１１の機能に着目した構成図である。図７に例示される通り、第２実施形態の制御装置１１は、文字列設定部２２および音声合成部２４Bとして機能する。文字列設定部２２は、第１実施形態と同様に、定型部分Ｑaと非定型部分Ｑbとを含む指定文字列Ｑを設定する。

音声合成部２４Bは、文字列設定部２２が設定した指定文字列Ｑを発音した案内音声Ｇを表す音声信号Ｘを生成する。第２実施形態の音声合成部２４Bは、第１実施形態の音声合成部２４Aにおける第１処理部３２Aを第１処理部３２Bに置換した構成である。第２実施形態の第１処理部３２Bは、第１言語用の音声合成プログラムＰ1を制御装置１１が実行することで実現され、記憶装置１２に記憶された第１言語用の音声合成データＤ1を利用した音声合成処理により第１信号Ｘ1を生成する。第２処理部３４および接続処理部３６の機能は第１実施形態と同様である。

図８は、第２実施形態の音声合成部２４Bが音声信号Ｘを生成する信号生成処理のフローチャートである。信号生成処理を開始すると、第１処理部３２Bは、指定文字列Ｑの定型部分Ｑaの音声を表す第１信号Ｘ1を音声合成処理により生成する（Ｓb1：第１処理）。第２実施形態の第１処理部３２Bは、以下に詳述する通り、記憶装置１２に記憶された第１言語用の音声合成データＤ1を利用した音声合成処理により第１信号Ｘ1を生成する（Ｓb11−Ｓb14）。

具体的には、第１処理部３２Bは、第１言語用の発音規則データＤa1を参照することで、定型部分Ｑaに対応する発音記号を決定する（Ｓb11）。したがって、第１言語の語句として自然な読み方と認識される発音記号が定型部分Ｑaから決定される。また、第１処理部３２Bは、定型部分Ｑaの発音記号に対応する複数の音声素片を第１言語用の音声素片データＤb1から選択し（Ｓb12）、各音声素片の特性を適宜に調整する（Ｓb13）。そして、第１処理部３２Bは、調整後の複数の音声素片を時間軸上で相互に接続することで第１信号Ｘ1を生成する（Ｓb14）。前述の通り、音声素片データＤb2には、第１言語を発音した音声から採取された複数の音声素片が登録されるから、第１言語の音声として聴感的に自然な音声を表す第１信号Ｘ1が生成される。

第２処理部３４は、第１実施形態と同様に、指定文字列Ｑの非定型部分Ｑbの音声を表す第２信号Ｘ2を、第２言語用の音声合成データＤ2を利用した音声合成処理により生成する（Ｓb2：第２処理）。第２処理部３４が第２信号Ｘ2を生成する第２処理Ｓb2の内容は、第１実施形態の第２処理Ｓa2（Ｓa21−Ｓa24）と同様である。すなわち、第２処理部３４は、第２言語用の発音規則データＤa2を利用して非定型部分Ｑbの発音記号を決定する処理（Ｓb21）と、発音記号に対応する複数の音声素片を第２言語用の音声素片データＤb2から選択する処理（Ｓb22）と、各音声素片の調整（Ｓb23）および接続（Ｓb24）により第２信号Ｘ2を生成する処理とを実行する。なお、第１処理Ｓb1と第２処理Ｓb2との先後を逆転することも可能である。

以上の処理が完了すると、接続処理部３６は、第１処理Ｓb1（Ｓb11−Ｓb14）で生成した第１信号Ｘ1と第２処理Ｓb2（Ｓb21−Ｓb24）で生成した第２信号Ｘ2とを接続することで音声信号Ｘを生成する（Ｓb3：接続処理）。すなわち、第２実施形態の音声合成部２４Bは、第１実施形態と同様に、指定文字列Ｑの定型部分Ｑaを第１言語で発音した音声と、指定文字列Ｑの非定型部分Ｑbを第２言語で発音した音声とを表す音声信号Ｘを生成する。音声合成部２４Bが生成した音声信号Ｘが放音装置１５に供給されることで、施設内の利用者に対して案内音声Ｇが再生される。

以上に説明した通り、第２実施形態では、指定文字列Ｑのうち非定型部分Ｑbについては第２言語用の音声合成データＤ2を利用した音声合成処理が実行される。したがって、第１実施形態と同様に、非定型部分Ｑbについて音韻および抑揚が聴感的に自然な案内音声Ｇを再生することが可能である。

また、第２実施形態では、定型部分Ｑaの音声を表す第１信号Ｘ1が、第１言語用の音声合成データＤ1を利用した音声合成処理により生成される。したがって、第１実施形態と比較して、複数の収録信号Ｒを事前に用意して記憶装置１２に格納する必要がないという利点がある。他方、収録信号Ｒの音質は、音声合成処理で生成される第１信号Ｘ1の音質を一般的には上回る。以上の事情を考慮すると、事前に用意された複数の収録信号Ｒを選択的に第１信号Ｘ1として利用する第１実施形態によれば、第２実施形態と比較して、定型部分Ｑaの音質が高い音声信号Ｘを生成できるという利点がある。また、第１実施形態では、第１言語用の音声合成処理（第１処理Ｓb1）が不要であるから、制御装置１１の処理負荷が軽減されるという利点もある。

＜第３実施形態＞
図９は、第３実施形態に係る音声処理装置１００の構成図である。図９に例示される通り、第３実施形態の記憶装置１２は、第１言語用の音声合成プログラムＰ1および音声合成データＤ1と、第２言語用の発音規則データＤa2（音声合成データＤ2）とを記憶する。第１言語用の音声合成データＤ1は、発音規則データＤa1と音声素片データＤb1とを含んで構成される。第２言語用の発音規則データＤa2は、第１実施形態で前述した通り、第２言語の文字列と発音記号との関係を規定する。

図１０は、制御装置１１の機能に着目した構成図である。図１０に例示される通り、第３実施形態の制御装置１１は、文字列設定部２２および音声合成部２４Cとして機能する。文字列設定部２２は、第１実施形態と同様に、定型部分Ｑaと非定型部分Ｑbとを含む指定文字列Ｑを設定する。

音声合成部２４Cは、文字列設定部２２が設定した指定文字列Ｑを発音した案内音声Ｇを表す音声信号Ｘを生成する。第３実施形態の音声合成部２４Cは、第１言語の音声合成プログラムＰ1により実現される。音声信号Ｘの生成において、音声合成部２４Cは、第１言語用の発音規則データＤa1により定型部分Ｑaの発音記号を決定し、第２言語用の発音規則データＤa2により非定型部分Ｑbの発音記号を決定する。

図１１は、第３実施形態の音声合成部２４Cが音声信号Ｘを生成する処理（音声合成処理）のフローチャートである。文字列設定部２２による指定文字列Ｑの設定毎に音声合成処理が実行される。

音声合成処理を開始すると、音声合成部２４Cは、文字列設定部２２が設定した指定文字列Ｑの定型部分Ｑaに対応する発音記号を、第１言語用の発音規則データＤa1を参照して決定する（Ｓc1）。したがって、第１言語の語句として自然な読み方と認識される発音記号が定型部分Ｑaから決定される。

また、音声合成部２４Cは、指定文字列Ｑの非定型部分Ｑbに対応する発音記号を、第２言語用の発音規則データＤa2を参照して決定する（Ｓc2）。したがって、第２言語の語句として自然な読み方と認識される発音記号が非定型部分Ｑbから決定される。なお、定型部分Ｑaの発音記号の決定（Ｓc1）と非定型部分Ｑbの発音記号の決定（Ｓc2）との先後を逆転することも可能である。

音声合成部２４Cは、定型部分Ｑaおよび非定型部分Ｑbについて決定した発音記号の音声を表す音声信号Ｘを生成する（Ｓc3）。具体的には、音声合成部２４Cは、まず、定型部分Ｑaおよび非定型部分Ｑbの発音記号に対応する複数の音声素片を音声素片データＤb1から選択する（Ｓc31）。そして、音声合成部２４Cは、音声素片データＤb1から選択した各音声素片の特性を適宜に調整し（Ｓc32）、調整後の複数の音声素片を時間軸上で相互に接続することで音声信号Ｘを生成する（Ｓc33）。音声合成部２４Cが生成した音声信号Ｘが放音装置１５に供給されることで、施設内の利用者に対して案内音声Ｇが再生される。

第３実施形態では、指定文字列Ｑのうち非定型部分Ｑbについては第２言語用の発音規則データＤa2（音声合成データＤ2）を利用した音声合成処理が実行される。したがって、第１実施形態と同様に、非定型部分Ｑbについて音韻および抑揚が聴感的に自然な案内音声Ｇを再生することが可能である。

また、第３実施形態では、音声合成プログラムＰ1および音声素片データＤb1を利用して音声信号Ｘが生成されるから、第１実施形態および第２実施形態で例示した第２言語用の音声合成プログラムＰ2および音声素片データＤb2は不要である。したがって、第１言語用の音声合成プログラムＰ1および音声素片データＤb1と第２言語用の音声合成プログラムＰ2および音声素片データＤb2とが必要な第２実施形態と比較して、記憶装置１２に必要な記憶容量が削減されるという利点もある。また、第３実施形態では、第１信号Ｘ1と第２信号Ｘ2とを接続する接続処理（Ｓa3，Ｓb3）が不要である。例えば、第１信号Ｘ1と第２信号Ｘ2との時間的な関係を調整する処理（すなわち、第１信号Ｘ1のうち非定型部分Ｑbに対応した区間に第２信号Ｘ2を移動する処理）が不要である。したがって、定型部分Ｑaと非定型部分Ｑbとが自然に連結された案内音声Ｇが再生されるという利点もある。

＜第４実施形態＞
図１２は、第４実施形態に係る音声処理装置１００の機能に着目した構成図である。図１２に例示される通り、第４実施形態の記憶装置１２は、相異なる指定文字列Ｑ（具体的には定型部分Ｑa）に対応する複数の配信情報Ｖを記憶する。任意の１種類の指定文字列Ｑに対応する配信情報Ｖは、当該指定文字列Ｑに関連する情報（以下「関連情報」という）Ｃを識別するための識別情報である。関連情報Ｃは、案内音声Ｇの再生とともに施設の利用者に提示すべき情報である。例えば指定文字列Ｑに関連する文字列、または、当該文字列を他言語に翻訳した文字列が、関連情報Ｃの好適例である。

第４実施形態の制御装置１１は、図１２に例示される通り、第１実施形態から第３実施形態の何れかと同様の文字列設定部２２および音声合成部２４（２４A−２４Cの何れか）に加えて、変調処理部２６および混合処理部２８として機能する。変調処理部２６は、文字列設定部２２が設定した指定文字列Ｑに応じた変調信号Ｍを生成する。変調信号Ｍは、指定文字列Ｑに対応した配信情報Ｖを音響成分として含む信号である。変調処理部２６は、記憶装置１２に記憶された複数の配信情報Ｖのうち指定文字列Ｑに対応する配信情報Ｖを検索し、当該配信情報Ｖを示す変調信号Ｍを生成する。具体的には、変調処理部２６は、例えば所定の周波数の正弦波等の搬送波を配信情報Ｖにより変調する周波数変調、または、拡散符号を利用した配信情報Ｖの拡散変調等の変調処理により変調信号Ｍを生成する。配信情報Ｖの音響成分の周波数帯域は、例えば、放音装置１５による再生が可能な周波数帯域であり、かつ、利用者が通常の環境で聴取する音の周波数帯域を上回る範囲（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）に包含される。

図１２の混合処理部２８は、音声合成部２４が生成した音声信号Ｘと変調処理部２６が生成した変調信号Ｍとを混合（例えば加算）することで音響信号Ｙを生成する。第４実施形態では、混合処理部２８が生成した音響信号Ｙが放音装置１５に供給される。放音装置１５は、音響信号Ｙが表す音を放音する。すなわち、音声信号Ｘが表す案内音声Ｇと変調信号Ｍが表す配信情報Ｖの音響成分とが放音装置１５から再生される。以上の説明から理解される通り、第１実施形態の放音装置１５は、指定文字列Ｑを表す案内音声Ｇを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信で配信情報Ｖを送信する送信部としても機能する。

施設内の利用者は、図１２の端末装置５０を携帯する。端末装置５０は、例えば携帯電話機またはスマートフォン等の可搬型の情報端末である。なお、例えば、鉄道事業者の施設内に設置される電光掲示板、または商業施設に設置される電子看板（例えばデジタルサイネージ）等の案内用の表示端末を端末装置５０として利用することも可能である。

図１３は、端末装置５０の構成図である。図１３に例示される通り、端末装置５０は、制御装置５１と記憶装置５２と収音装置５３と表示装置５４とを具備する。収音装置５３は、周囲の音を収音する音響機器（マイクロホン）である。具体的には、収音装置５３は、音声処理装置１００の放音装置１５による再生音を収音して音響信号Ｚを生成する。音響信号Ｚは、配信情報Ｖの音響成分を含み得る。以上の説明から理解される通り、収音装置５３は、端末装置５０の相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信で配信情報Ｖを受信する受信部としても機能する。

制御装置５１は、例えばＣＰＵ等の処理回路で構成され、端末装置５０の各要素を統括的に制御する。表示装置５４（例えば液晶表示パネル）は、制御装置５１による制御のもとで各種の画像を表示する。記憶装置５２は、制御装置５１が実行するプログラムと制御装置５１が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体が記憶装置５２として採用され得る。第４実施形態の記憶装置５２は、図１３に例示される通り、参照テーブルＴを記憶する。参照テーブルＴは、音声処理装置１００から送信され得る複数の配信情報Ｖ（Ｖ1，Ｖ2，…）の各々について関連情報Ｃ（Ｃ1，Ｃ2，…）が登録されたデータテーブルであり、配信情報Ｖに対応する関連情報Ｃを特定するために使用される。

制御装置５１は、記憶装置５２に記憶されたプログラムを実行することで、音声処理装置１００が送信した配信情報Ｖに関する処理を実行するための複数の機能（情報抽出部５１１および提示制御部５１３）を実現する。なお、制御装置５１の一部の機能を専用の電子回路で実現した構成、または、制御装置５１の機能を複数の装置に分散した構成も採用され得る。

情報抽出部５１１は、収音装置５３が生成した音響信号Ｚから配信情報Ｖを抽出する。具体的には、情報抽出部５１１は、音響信号Ｚのうち配信情報Ｖの音響成分を含む周波数帯域を強調するフィルタ処理と、配信情報Ｖに対する変調処理に対応した復調処理とを実行する。

提示制御部５１３は、表示装置５４による情報の表示を制御する。第４実施形態の提示制御部５１３は、情報抽出部５１１が抽出した配信情報Ｖに対応する関連情報Ｃを表示装置５４に表示させる。具体的には、提示制御部５１３は、参照テーブルＴに登録された複数の関連情報Ｃのうち情報抽出部５１１が抽出した配信情報Ｖに対応する関連情報Ｃを検索し、当該関連情報Ｃを表示装置５４に表示させる。したがって、音声処理装置１００の放音装置１５による案内音声Ｇの再生に並行して、当該案内音声Ｇに対応した関連情報Ｃが表示装置５４に表示される。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、関連情報Ｃを示す配信情報Ｖが音声処理装置１００から端末装置５０に送信される。したがって、案内音声Ｇに関連する関連情報Ｃを端末装置５０により利用者に提示することが可能である。

＜変形例＞
以上に例示した各形態は多様に変形され得る。前述の各形態に適用され得る具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、表示装置１３に表示された入力欄１３２に入力された文字列を非定型部分Ｑbとしたが、指定文字列Ｑのうちの非定型部分Ｑbを文字列設定部２２が設定する方法は以上の例示に限定されない。例えば、形態素解析等の自然言語処理を指定文字列Ｑに対して実行することで固有名詞を抽出し、指定文字列Ｑのうち固有名詞の部分を非定型部分Ｑbとして設定することも可能である。また、定型部分Ｑaとは別個の文字種を利用して管理者が非定型部分Ｑbを図３の入力欄１３２に入力することも可能である。また、指定文字列Ｑを管理者が音声入力できる構成も好適である。例えば、管理者が発生した音声に対する音声認識で指定文字列Ｑが特定される。

（２）移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置により音声処理装置１００を実現することも可能である。例えば、音声処理装置１００は、端末装置から通信網を介して受信した指定文字列Ｑから音声信号Ｘを生成し、当該音声信号Ｘを端末装置に送信する。音声処理装置１００が生成した音声信号Ｘのうちの非定型部分Ｑbを、第１実施形態の収録信号Ｒとして利用することも可能である。また、使用頻度が低い（あるいは低音質でよい）非定型部分Ｑbの第２信号Ｘ2を、スマートフォン等の情報端末で実現された音声処理装置１００により生成し、使用頻度が高い（あるいは高品質が要求される）非定型部分Ｑbの第２信号Ｘ2を、サーバ装置で実現された音声処理装置１００により生成することも可能である。

（３）第４実施形態では、音波を伝送媒体とする音響通信で音声処理装置１００から端末装置５０に配信情報Ｖを送信したが、音声処理装置１００から配信情報Ｖを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で音声処理装置１００から端末装置５０に配信情報Ｖを送信することも可能である。例えば、前述の各形態における放音装置１５が無線通信用の通信機器に置換される。具体的には、Bluetooth（登録商標）またはWiFi（登録商標）等の無線通信が配信情報Ｖの送信に好適である。

以上の例示から理解される通り、音声処理装置１００による配信情報Ｖの送信には、移動体通信網等の通信網が介在しない近距離無線通信が好適であり、音波を伝送媒体とする音響通信と電磁波を伝送媒体とする無線通信とは、近距離無線通信の例示である。なお、前述の各形態で例示した音響通信によれば、例えば遮音壁の設置により通信範囲を容易に制御できるという利点がある。

（４）前述の各形態では、関連情報Ｃの識別情報を配信情報Ｖとして例示したが、関連情報Ｃ自体を配信情報Ｖとして音声処理装置１００から送信することも可能である。関連情報Ｃを配信情報Ｖとして送信する構成では、端末装置５０に参照テーブルＴを保持する必要はない。以上の例示から理解される通り、配信情報Ｖは、関連情報Ｃを示す情報として包括的に表現される。

（５）前述の各形態では、関連情報Ｃを表示装置５４に表示したが、関連情報Ｃを端末装置５０の利用者に提示する方法は以上の例示に限定されない。例えば、関連情報Ｃが表す音声を放音装置１５により再生することで関連情報Ｃを利用者に提示することも可能である。関連情報Ｃが表す音声の生成には、例えば公知の音声合成技術が利用され得る。

（６）第１実施形態において、収録信号Ｒが表す音声の発声者と、音声素片データＤb2が表す音声素片の発声者とが相違する場合がある。この場合、第１信号Ｘ1と第２信号Ｘ2とで声質が相違するから、音声信号Ｘが表す音声が聴感的に不自然な印象となる可能性がある。そこで、第１信号Ｘ1および第２信号Ｘ2の一方または双方の声質を調整することで、第１信号Ｘ1と第２信号Ｘ2との声質を近付ける（理想的には一致させる）構成が好適である。声質の調整には、公知の声質変換技術が任意に採用され得る。

（７）音声合成処理に利用される音声合成データＤ（Ｄ1またはＤ2）の内容は、以上の例示に限定されない。例えば、音声の抑揚（例えば音高または音量の時間的な変化）を決定するための抑揚データを音声合成データＤに含ませてもよい。例えば、音声合成データＤ1には、第１言語の発音時の抑揚の傾向が反映された抑揚データが含まれ、音声合成データＤ2には、第２言語の発音時の抑揚の傾向が反映された抑揚データが含まれる。第１実施形態または第２実施形態において、第２処理（Ｓa2，Ｓb2）には音声合成データＤ2の抑揚データが適用される。また、第２実施形態の第１処理Ｓb1には音声合成データＤ1の抑揚データが適用される。

（８）前述の各形態に係る音声処理装置１００は、各形態での例示の通り、制御装置１１とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータに、指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成する音声合成処理を実行させ、音声合成処理では、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用する。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。

（９）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
本発明の好適な態様（態様１）に係る音声処理方法は、指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成し、前記音声信号の生成においては、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する。以上の態様では、指定文字列のうちの第１部分を第１言語で発音した音声と、指定文字列のうち第２部分を発音した音声とを表す音声信号を生成する過程において、第２部分については第２言語用の音声合成データを利用した音声合成処理が実行される。したがって、指定文字列の全体について第１言語用の音声合成データを利用した音声合成処理を実行する場合と比較して、第２部分について音韻および抑揚が聴感的に自然である音声の音声信号を生成できる。
＜態様２＞
態様１の好適例（態様２）において、前記音声信号の生成は、前記指定文字列のうち前記第１部分に対応する音声を表す第１信号を、事前に収録された音声を表す複数の収録信号から選択する第１処理と、前記指定文字列のうち前記第２部分に対応する音声を表す第２信号を、前記第２言語用の音声合成データを利用した音声合成処理により生成する第２処理と、前記第１処理で選択した前記第１信号と前記第２処理で生成した前記第２信号とを接続することで前記音声信号を生成する接続処理とを含む。以上の態様では、指定文字列のうち第１部分に対応する音声を表す第１信号が複数の収録信号から選択される。したがって、高音質な音声で第１部分が発音された音声信号を生成できるという利点がある。
＜態様３＞
態様１の好適例（態様３）において、前記音声信号の生成は、前記指定文字列のうち前記第１部分に対応する音声を表す第１信号を、前記第１言語用の音声合成データを利用した音声合成処理により生成する第１処理と、前記指定文字列のうち前記第２部分に対応する音声を表す第２信号を、前記第２言語用の音声合成データを利用した音声合成処理により生成する第２処理と、前記第１処理で生成した前記第１信号と前記第２処理で生成した前記第２信号とを接続することで前記音声信号を生成する接続処理とを含む。以上の態様では、指定文字列のうち第１部分に対応する音声を表す第１信号が、第１言語用の音声合成データを利用した音声合成処理により生成される。したがって、第１部分の音声を事前に収録する必要がないという利点がある。
＜態様４＞
態様１の好適例（態様４）では、前記音声信号の生成において、前記第１言語用の発音規則データにより前記第１部分の発音記号を決定し、前記第１言語用の発音規則データとは相違する前記第２言語用の発音規則データにより前記第２部分の発音記号を決定し、前記第１部分および前記第２部分について決定した発音記号の音声を表す前記音声信号を生成する。以上の態様では、第１部分の発音記号が第１言語用の発音規則データにより決定され、第２部分の発音記号が第２言語用の発音規則データにより決定されて、各発音記号の音声を表す音声信号が生成される。したがって、発音記号から音声信号を生成する処理を第１部分と第２部分とで共通化できるという利点がある。
＜態様５＞
態様１から態様４の何れかの好適例（態様５）において、前記第２部分は、前記指定文字列のうち固有名詞の部分である。指定文字列のうち固有名詞の部分は一般的に使用頻度が低いから、音声を事前に収録することは困難である。指定文字列のうち固有名詞の部分を第２部分とした構成によれば、使用頻度が低い第２部分についても音声を生成できるという利点がある。
＜態様６＞
態様１から態様５の何れかの好適例（態様６）において、前記音声信号と、当該音声信号が表す音声に対応した関連情報を示す配信情報を音響成分として含む変調信号とを混合して放音装置に供給する。以上の態様では、配信情報を音響成分として含む変調信号が音声信号に混合されたうえで放音装置から再生される。すなわち、音声信号が表す音声を放音するための放音装置が、配信情報を送信するための送信機として利用される。したがって、配信情報の送信に専用される送信機が必要である構成と比較して、装置構成が簡素化されるという利点がある。
＜態様７＞
本発明の好適な態様（態様７）に係る音声処理装置は、指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成する音声合成部を具備し、前記音声合成部は、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する。以上の態様では、指定文字列のうちの第１部分を第１言語で発音した音声と、指定文字列のうち第２部分を発音した音声とを表す音声信号を生成する音声合成部が、第２部分については第２言語用の音声合成データを利用した音声合成処理を実行する。したがって、指定文字列の全体について第１言語用の音声合成データを利用した音声合成処理を実行する構成と比較して、第２部分について音韻および抑揚が聴感的に自然である音声の音声信号を生成できる。

１００…音声処理装置、１１…制御装置、１２…記憶装置、１３…表示装置、１４…操作装置、１５…放音装置、２２…文字列設定部、２４A，２４B，２４C…音声合成部、２６…変調処理部、２８…混合処理部、３２A，３２B…第１処理部、３４…第２処理部、３６…接続処理部、５０…端末装置、５１…制御装置、５２…記憶装置、５３…収音装置、５４…表示装置。

Claims

指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成し、
前記音声信号の生成においては、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する
音声処理方法。
前記音声信号の生成は、
前記指定文字列のうち前記第１部分に対応する音声を表す第１信号を、事前に収録された音声を表す複数の収録信号から選択する第１処理と、
前記指定文字列のうち前記第２部分に対応する音声を表す第２信号を、前記第２言語用の音声合成データを利用した音声合成処理により生成する第２処理と、
前記第１処理で選択した前記第１信号と前記第２処理で生成した前記第２信号とを接続することで前記音声信号を生成する接続処理とを含む
請求項１の音声処理方法。
前記音声信号の生成は、
前記指定文字列のうち前記第１部分に対応する音声を表す第１信号を、前記第１言語用の音声合成データを利用した音声合成処理により生成する第１処理と、
前記指定文字列のうち前記第２部分に対応する音声を表す第２信号を、前記第２言語用の音声合成データを利用した音声合成処理により生成する第２処理と、
前記第１処理で生成した前記第１信号と前記第２処理で生成した前記第２信号とを接続することで前記音声信号を生成する接続処理とを含む
請求項１の音声処理方法。
前記音声信号の生成において、前記第１言語用の発音規則データにより前記第１部分の発音記号を決定し、前記第１言語用の発音規則データとは相違する前記第２言語用の発音規則データにより前記第２部分の発音記号を決定し、前記第１部分および前記第２部分について決定した発音記号の音声を表す前記音声信号を生成する
請求項１の音声処理方法。
前記第２部分は、前記指定文字列のうち固有名詞の部分である
請求項１から請求項４の何れかの音声処理方法。
前記音声信号と、当該音声信号が表す音声に対応した関連情報を示す配信情報を音響成分として含む変調信号とを混合して放音装置に供給する
請求項１から請求項５の何れかの音声処理方法。
指定文字列のうちの第１部分を第１言語で発音した音声と、前記指定文字列のうち前記第１部分とは相違する第２部分を発音した音声とを表す音声信号を生成する音声合成部を具備し、
前記音声合成部は、前記第２部分について、前記第１言語とは相違する第２言語用の音声合成データを利用した音声合成処理を実行する
音声処理装置。