JP6648805B2

JP6648805B2 - 音声制御方法、音声制御装置およびプログラム

Info

Publication number: JP6648805B2
Application number: JP2018206267A
Authority: JP
Inventors: 松原　弘明; 弘明松原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-07-02
Filing date: 2018-11-01
Publication date: 2020-02-14
Anticipated expiration: 2035-07-02
Also published as: JP6428774B2; US20170116978A1; EP3166104A4; EP3166104A1; CN106471569B; JP2019045867A; JPWO2016002879A1; WO2016002879A1; US10224021B2; CN106471569A; EP3166104B1

Description

本発明は、音声制御方法、音声制御装置およびプログラムに関する。

近年、音声合成技術として、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術（例えば特許文献１参照）や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術（例えば特許文献２参照）が提案されている。また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている（例えば特許文献３参照）。

特開２００３−２７１１９４号公報特許第４４９５９０７号公報特許第４８３２０９７号公報

ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声に対し、データを検索等して音声合成により出力する音声合成装置を想定する。このように想定した音声合成装置では、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えることが可能な音声制御方法、音声制御装置およびプログラムを提供することにある。

上記目的を達成するために、本発明の一態様に係る音声合成装置は、音声を入力する音声入力部と、前記音声入力部により入力された音声に対する一次回答を取得する取得部と、前記一次回答に、反復の対象が含まれるか否かを解析する解析部と、前記一次回答に反復の対象があると解析された場合に、当該対象を２回以上反復した二次回答を音声合成して出力する音声合成部と、を具備することを特徴とする。上記一態様に係る音声合成装置によれば、一次回答に反復の対象があれば、当該対象が反復されて音声合成で出力されるので、あたかも人と対話しているかのような自然な印象を与えることができる。

上記一態様に係る音声合成装置において、前記反復の対象は、音節数が２以下の感動詞であり、前記解析部は、前記一次回答に感動詞が含まれているか否かを判別し、感動詞が含まれていると判別した場合に、当該感動詞の音節数が２以下であるか否かを解析しても良い。

上記一態様に係る音声合成装置において、前記取得部は、前記音声入力部により入力された音声の意味を解析する言語解析部と、前記言語解析部により解析された意味に対応する一次回答を作成する一次回答作成部と、を含む構成としても良い。この構成によれば、入力された音声に対して適切な内容の回答が音声合成で出力される。

上記一態様に係る音声合成装置において、前記一次回答に反復の対象があると解析された場合に、当該対象を２回以上反復して出力する反復部を備える構成としても良い。この構成によれば、念押したり、共感を得ようとしたりするなど、実際に人と対話しているかのような印象を与えることができる。
上記反復部を備える場合、前記音声合成部は、前記一次回答に含まれる感動詞の音節数が２以下であれば、前記反復部により感動詞が反復された二次回答を音声合成し、前記一次回答に含まれる感動詞の音節数が３以上であれば、当該一次回答を二次回答として音声合成しても良い。一次回答に含まれる感動詞の音節数が２以下であれば、当該感動詞が反復されて二次回答として音声合成される一方、３以上であれば、一次回答がそのまま二次回答として音声合成される。
前記音声合成部は、前記回答から音声シーケンスを作成する音声シーケンス作成部と、前記音声シーケンスに基づいて音声合成した音声信号を出力する合成部と、を含んでも良い。

上記一態様に係る音声合成装置において、第１モードおよび第２モードを有し、前記一次回答作成部は、前記第１モードであれば、感動詞に具体的内容を加えた一次回答を作成し、前記第２モードであれば、感動詞のみの一次回答、または、具体的内容のみの一次回答を、作成する構成としても良い。第１モードであれば、感動詞に具体的内容を加えた二次回答が作成される一方で、当該感動詞の音節数が「２」以下であれば、当該感動詞が反復されるので、利用者への共感をさらに高めることができる。

上記一態様に係る音声合成装置において、禁止モードを有し、前記禁止モードであれば、前記音声合成部は、前記音節数が２以下の感動詞を反復しないで音声合成しても良い。感動詞の単なる反復は、状況によっては利用者に不快感を与えてしまう場合もあるが、この禁止モードによって、そのような不快感を与えてしまうことを防止することができる。この構成において、前記反復部は、前記禁止モードであれば、前記音節数が２以下の感動詞の反復機能をキャンセルする構成としても良い。
なお、本発明においては、音声合成装置のみならず、音声合成方法や、コンピュータを当該音声合成として機能させるためのプログラム、当該プログラムを記録したコンピュータ読み取り可能な記録媒体などでも概念することが可能である。

第１実施形態に係る音声合成装置の構成を示す図である。音声合成装置の機能構成を示すブロック図である。第１実施形態に係る音声合成装置の動作を示すフローチャートである。利用者による問い掛けの例を示す図である。音声合成装置により合成される回答の例を示す図である。利用者による問い掛けの例を示す図である。音声合成装置により合成される回答の例を示す図である。第２実施形態に係る音声合成装置の構成を示す図である。第２実施形態に係る音声合成装置の動作を示すフローチャートである。音声合成装置により合成される回答の例を示す図である。音声合成装置により合成される回答の例を示す図である。

まず、実施形態に係る音声合成装置の概要について説明する。
人同士の対話において、一方の人（ａとする）による問い（問い掛け）に対し、他方の人（ｂとする）が回答する場合について検討する。この場合において、人ｂは、人ａが発した問い掛けに対し、当該問い掛けに対する回答をそのまま発するのではなく、当該回答の一部または全部を反復するケースが見受けられる。例えば、人ａによる問い掛けに対して、人ｂが日本語で肯定的な意味である「はい」（音をローマ字で、音節で区切って表記した場合に［ｈａ−ｉ］、以下において（）内の［］は、音節で区切って表記したもの、図において同じ）と回答しようとする場合、そのまま「はい」（［ｈａ−ｉ］）と回答するのではなく、「はいはい」（［ｈａ−ｉ−ｈａ−ｉ］）などのように反復するケースがある。
一方で、人ａによる問い掛けに対して、人ｂが回答する場合、上記のように反復されないケースもある。例えば、人ａによる問い掛けに対して、人ｂが日本語で否定的な意味である「いいえ」（［ｉ−ｉ−ｅ］）と回答しようとする場合に、「いいえいいえ」（［ｉ−ｉ−ｅ−ｉ−ｉ−ｅ］）のように反復されることは少ない。

回答の意味内容が同じでも、言語が異なれば、反復が真逆の関係になることもある。例えば、人ｂが英語で肯定的な意味である「Ｙｅｓ」と回答する場合、「Ｙｅｓ、ｙｅｓ」と反復されることは少ない。一方で、人ｂが英語で否定的な意味である「Ｎｏ」と回答する場合、「Ｎｏ、ｎｏ」と反復されるケースが見受けられる。

また例えば、人ａが日本語で「明日は、晴れ？」（英語で「Ｗｉｌｌｉｔｂｅｓｕｎｎｙｔｏｍｏｒｒｏｗ？」）という問い掛けに対して、人ｂが日本語で「はい、はれです」（［ｈａ−ｉｈａ−ｒｅ−ｄｅ−ｓｕ］）という意味内容で回答しようとする場合、「はいはい、はれです」（［ｈａ−ｉ−ｈａ−ｉｈａ−ｒｅ−ｄｅ−ｓｕ］）などのように「はい」を反復して回答するケースもある。ただし、人ｂが同じ意味内容を英語で「Ｙｅｓ、ｉｔｗｉｌｌｂｅｓｕｎｎｙｔｏｍｏｒｒｏｗ．」）と回答しようとする場合、「Ｙｅｓ、ｙｅｓ、ｉｔｗｉｌｌｂｅｓｕｎｎｙｔｏｍｏｒｒｏｗ．」）のように「Ｙｅｓ」を反復して回答するケースは少ない。

ここで、本件発明者は、回答の一部または全部が反復されるか、反復されないか、の境として、当該回答に含まれる感動詞の音節数（音節の数）が「２」以下であるか、否かであるか、と考えた。
上記の例でいえば、感動詞であり、かつ、音節数が「２」以下である日本語の「はい」（「ｈａ−ｉ」）や英語の「Ｎｏ」については反復される。しかし、感動詞であるが、音節数が「３」以上である日本語の「いいえ」（［ｉ−ｉ−ｅ］）や、英語の「Ｙｅｓ」については反復されることは少ないからである。
このように、肯定的であるか否定的であるかのような意味内容は関係なく、また、言語にも関係なく、まず、感動詞の音節数に着目すべきと考えられる。

音節数が「２」以下である感動詞が反復される理由は、単純であるために無意識のうち念押しする、共感を得ようとする、相手の発言に共鳴している／寄り添いたいと思っていることを伝えようとする、相手に冷たい印象を与えないようにする、などが考えられる。

なお、感動詞とは、感動や、応答、呼び掛けなどを表し、活用がなく、単独で文になり得る語である。上記以外の例としては、日本語では、相槌の「ふむ」（［ｆｕ−ｍｕ］）や、「そう」（［ｓｏ−ｕ］）などが挙げられ、英語では、「Ａｈ」、「Ｏｈ」などが挙げられ、中国語では「是」（［ｓｈｉ］）、「明白」（［ｍiｎｇ−ｂａ−ｉ］）などが挙げられるほか、後述するように動物の鳴き声が含まれる。

また、音節とは、発声したときの音を区切る分節であり、典型的には次の１．〜４．のように１つの母音に対し、その母音単独で構成、または、当該母音の前後に１乃至複数の子音を伴って構成される音声（群）であって、音声を聞いたときのまとまりを言う。
１．母音（V）
２．子音＋母音（CV）
３．母音＋子音（VC）
４．子音＋母音＋子音（CVC）
日本語の音節には、上記１．および２．に該当する音節が存在するが、上記３．および４．に該当する音節は存在しない。
なお、上記１．〜４．については、音節を分類する上での例であり、言語によっては、音声を聞いたときのまとまりが、母音を中心とするのではなく、子音が中心となる場合がある。また、中国語などの声調言語（トーン言語）では、母音と子音の組合せに、さらに母音の音程の高低変化による声調を加えて音節を構成する場合もある。

このように、実際の人同士の対話においては、人ａによる問い掛けに対し、人ｂが２音節以下の感動詞を反復して回答するケースが見受けられる。本発明の実施形態に係る音声合成装置は、概略すれば、あたかも人と対話しているかのような感じを与えるために、問い掛けに対して、返事をしようとする回答のなかに含まれる感動詞の音節数が「２」以下であれば、当該感動詞を２回以上反復させて音声合成して出力する構成としている。
なお、音節数が「２」以下である感動詞が反復される理由は、上述したように単純であるために無意識のうち念押しする等であるので、音節数が「２」以下の単純な語であれば、感動詞でなくても、反復されやすい傾向がある。また、音節数が「３」以上の感動詞であっても、確認などで無意識に反復される場合もあり得る。この傾向を考慮した内容については後述することにする。
以下、実施形態に係る音声合成装置の詳細について図面を参照して説明する。

＜第１実施形態＞
図１は、第１実施形態に係る音声合成装置１０のハードウェアの構成を示す図である。
この音声合成装置１０は、例えば携帯電話機のような端末装置であり、図に示されるように、ＣＰＵ（Central Processing Unit）１１と、メモリ１２と、表示部１３と、タッチパネル１４と、音声入力部１０２と、通信部１２６と、音声出力部１４２と、を含む。

ＣＰＵ１１は、音声合成装置１０の全体を制御し、メモリ１２は、ＣＰＵ１１の主記憶部として用いられ、音声合成のアプリケーションプログラムや各種のデータなどを記憶する。表示部１３は、例えば液晶表示装置などであり、設定や操作などの各種画面を表示する。タッチパネル１４は、表示部１３による表示画面のタッチ位置を検出し、検出したタッチ位置を示す情報を出力する。

音声入力部１０２は、詳細については省略するが、音声を電気信号に変換するマイクロフォンや、変換された音声信号の高域成分をカットするＬＰＦ（ローパスフィルタ）、高域成分をカットした音声信号をデジタル信号に変換するＡ／Ｄ変換器などで構成される。通信部１２６は、インターネットなどを介して外部サーバと通信する。音声出力部１４２は、合成された音声信号をアナログ信号に変換するＤ／Ａ変換器や、アナログ信号に変換された音声信号を増幅する増幅器、増幅された信号を音響変換して出力するスピーカなどで構成される。

音声合成装置１０では、上記アプリケーションプログラムを実行することによって、利用者による問い掛けに対して回答を音声合成して出力する機能を実現する構成となっている。すなわち、音声合成装置１０は、ＣＰＵ等の演算処理装置とアプリケーションプログラムとの協働によって実現される。
なお、このアプリケーションプログラムは、例えば特定のサイトからインターネット経由でダウンロードされて、端末装置にインストールされても良いし、メモリーカードのような読取可能な記録媒体に格納された形態で提供されてインストールされても良い。

音声合成装置１０では、ＣＰＵ１１が、上記アプリケーションプログラムを実行することによって、次のような機能ブロックが構築される。

図２は、音声合成装置１０の構成を示すブロック図である。
この図に示されるように、音声合成装置１０では、取得部２２、音声合成部２４、解析部１１２、反復部１１４、言語データベース１２２、回答データベース１２４および音声ライブラリ１２８が構築される。このうち、取得部２２は、言語解析部１０８と、一次回答作成部１１０とを含み、音声合成部２４は、音声シーケンス作成部１１６と合成部１１８とを含む。なお、音声入力部１０２、通信部１２６および音声出力部１４２については上述した通りである。

言語解析部１０８は、音声入力部１０２に入力された音声の意味内容を、音声信号の処理により解析（特定）する。詳細には、言語解析部１０８は、音声信号がどの音素に近いのかを、言語データベース１２２に予め作成された音素モデルを参照することにより判定して、言葉の意味内容を解析する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。

一次回答作成部１１０は、言語解析部１０８によって解析された音声の意味内容に対応するテキストの一次回答を、回答データベース１２４および通信部１２６を参照して作成する。
例えば「今、何時？」という問い掛けに対しては、内蔵のリアルタイムクロック（図示省略）から時刻情報を取得するとともに、時刻情報以外の情報（例えば定型文）を回答データベース１２４から取得することで、「ただいま○○時○○分です」という一次回答を作成する。
一方で、「あすのてんきは？」という問い掛けに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置１０の単体では一次回答を作成することができない。このように、回答データベース１２４のみでは一次回答が作成できない場合、通信部１２６が、インターネットを介し外部サーバにアクセスして、一次回答に必要な情報を取得する構成となっている。このように、一次回答作成部１１０は、問い掛けに対する一次回答を、回答データベース１２４または外部サーバから取得する構成となっている。
なお、必要な情報を取得したとき、一次回答作成部１１０は、問い掛けに対して「○○です」という一次回答を、上記定型文を用いて作成する。また、一次回答作成部１１０は、問い掛けに対する回答として具体的内容でなく、例えば「はい」や「いいえ」のような単純な肯定／否定の返事や、「そう」、「いいね」のような相槌などの感動詞を一次回答として作成する場合もある。
なお、ここでいう一次回答とは、一次回答作成部１１０で作成されたものであって、感動詞を反復する前段階のものをいう。最終的に音声合成の対象とされる二次回答と区別するための措置である。

解析部１１２は、第１に、一次回答作成部１１０によって作成された一次回答に感動詞が含まれているか否かを判別するとともに、含まれていれば、第２に、当該感動詞の音節数を解析する。
解析部１１２は、一次回答に感動詞が含まれ、かつ、当該感動詞の音節数が「２」以下であると解析すれば、当該一次回答を反復部１１４に供給する。なお、解析部１１２は、一次回答に感動詞が含まれていないと判別した場合、または、含まれていても当該感動詞の音節数が「３」以上であると解析した場合、当該一次回答をそのまま二次回答として音声シーケンス作成部１１６に出力する。

さて、一次回答作成部１１０によって作成された一次回答が例えば「はれです」であれば、解析部１１２は、当該一次回答に感動詞が含まれていないと判別する。また、当該一次回答が日本語の「はい」（［ｈａ−ｉ］）であれば、解析部１１２は、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「２」以下であると解析する。なお、当該一次回答が日本語の「いいえ」（［ｉ−ｉ−ｅ］）であれば、解析部１１２は、当該一次回答に感動詞が含まれていると判別するが、当該感動詞の音節数は「３」以上であると解析する。
また、解析部１１２は、作成された一次回答が英語の「Ｙｅｓ」であれば、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「３」以上であると解析し、当該一次回答が英語の「Ｎｏ」であれば、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「２」以下であると解析する。

なお、一次回答に音節数が「２」以下の感動詞に含まれているか否かを判別することについては、解析部１１２が当該一次回答のテキストを解析しても良いし、例えば次のようにしても良い。詳細には、一次回答作成部１１０が一次回答について、感動詞を他の部分と識別可能にして作成し、解析部１１２が予め音節数が「２」以下の感動詞を複数登録しておくとともに、作成された一次回答のなかに識別される感動詞が存在し、かつ、登録しておいた感動詞とマッチすれば、当該一次回答に音節数が「２」以下の感動詞に含まれていると判別しても良い。一次回答のなかに識別される感動詞が存在せず、または、感動詞が存在しても、登録しておいた感動詞とマッチしなければ、解析部１１２は、当該一次回答に音節数が「２」以下の感動詞に含まれていないと判別しても良い。

反復部１１４は、音節数が「２」以下の感動詞を、複数回（第１実施形態では２回）反復して、音声合成すべき二次回答として出力する。上記の例でいえば、一次回答作成部１１０によって作成された一次回答が日本語の「はい」であれば、反復部１１４によって２回反復されて「はいはい」という二次回答を出力する。また、一次回答が英語の「Ｎｏ」であれば、反復部１１４によって２回反復されて「Ｎｏ、ｎｏ」という二次回答を出力する。

音声シーケンス作成部１１６は、反復部１１４により感動詞が反復された二次回答、または、解析部１１２から出力された二次回答から、音声シーケンスを作成して合成部１１８に供給する。
ここで、音声シーケンスとは、二次回答を音声合成するためのデータであって、詳細には、当該二次回答を、どのようなタイミングで、どのようなピッチで、どのような音量等で、発声すべきかを規定するデータである。

合成部１１８は、音声シーケンスに基づいて音声合成して、合成された音声信号をデジタル信号で出力する。
なお、合成部１１８は、例えば次のようにして音声を合成する。すなわち、合成部１１８は、音声シーケンスで規定される回答内容を音声素片の列に変換するとともに、各音声素片の列に対応する音声素片データを、音声ライブラリ１２８から選択するとともに、繋ぎ部分が連続するように修正しつつ、接続した音声素片データに対する各々のピッチと音量を、当該音声シーケンスで規定されるピッチと音量に合わせて変換して、音声を合成する。
なお、ここでいう音声ライブラリ１２８とは、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。

次に、音声合成装置１０の動作について説明する。図３は、音声合成装置１０における処理動作を示すフローチャートである。
利用者が所定の操作をしたとき、例えば表示部１３に表示されたメインメニュー画面において、利用者が対話処理に対応したアイコンなどを選択したとき、ＣＰＵ１１が当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムの実行によって、図２で示した機能ブロックが構築される。

まず、利用者が音声入力部１０２に対して音声で問い掛けると（音声を入力すると）、音声入力部１０２は、当該音声をデジタルの音声信号に変換して、言語解析部１０８に供給する（ステップＳａ１１）。
次に、言語解析部１０８は、問い掛けの音声信号を解析して、その意味（テキスト）を、一次回答作成部１１０に供給する（ステップＳａ１２）。
一次回答作成部１１０は、解析された音声に対応する一次回答を、回答データベース１２４を参照したり、必要に応じて通信部１２６を介し外部サーバから取得した情報を参照したりして、作成し、解析部１１２に供給する（ステップＳａ１３）。

解析部１１２は、作成された一次回答に感動詞が含まれ、かつ、当該感動詞の音節数が「２」以下であるか否かを判別する（ステップＳａ１４）。この判別の結果、解析部１１２は、この判別結果が「Ｙｅｓ」である場合、当該一次回答を反復部１１４に供給し、反復部１１４は、音節数が「２」以下の感動詞を２回反復させ、音声合成すべき二次回答として、音声シーケンス作成部１１６に供給する（ステップＳａ１５）。
一方、解析部１１２は、作成された一次回答に感動詞が含まれない場合、または、含まれていても当該感動詞の音節数が「３」以上である場合（ステップＳａ１４の判別結果が「Ｎｏ」である場合）、当該一次回答をそのまま音声合成すべき二次回答として、直接、音声シーケンス作成部１１６に供給する。

音声シーケンス作成部１１６は、一次回答作成部１１０または反復部１１４のいずれかから出力された二次回答に対応した音声シーケンスを作成して、合成部１１８に供給する（ステップＳａ１６）。なお、音声シーケンスで規定される回答の発声タイミングや、ピッチ、音量等については、モデルとなるデータを、図示省略したデータベースから取得しても良い。
そして、合成部１１８は、音声シーケンス作成部１１６により作成された音声シーケンスにしたがって二次回答を音声合成する（ステップＳａ１７）。なお、二次回答を音声合成して出力すると、特に図示しないが、ＣＰＵ１１は、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。

図４Ａは、利用者による問い掛けの例を示す図であり、図４Ｂは、当該問い掛けに対して音声合成装置１０により合成される回答の例を示す図である。
図４Ａに示されるように、利用者Ｗが「あすははれ？」という問い掛け、つまり、明日の天気が晴れであることの確認を求める内容の音声を、端末装置である音声合成装置１０に入力する場合を想定している。このとき、外部サーバを介して取得された天気情報が「晴れ」であるために、一次回答作成部１１０により作成された一次回答が当該問い掛けに対して肯定の意味である日本語の「はい」（［ｈａ−ｉ］）であれば、当該一次回答に感動詞が含まれ、かつ、感動詞の音節数が「２」であるので、図４Ｂに示されるように、当該「はい」（［ｈａ−ｉ］）が反復されて「はいはい」［ｈａ−ｉ−ｈａ−ｉ］）と音声合成される。このため、利用者Ｗは、自身の問い掛けに対して、機械的ではなく、あたかも人と対話しているかのように、自然な感じを得ることができる。また、利用者Ｗからすれば、感動詞が反復されることで、共感が高められる。

図５Ａは、利用者による問い掛けの別の例を示す図であり、図５Ｂは、当該問い掛けに対して音声合成装置１０により合成される回答の例を示す図である。
図５Ａでは、利用者Ｗが「あすのてんきは？」つまり、明日の天気が何であるのかを具体的な内容を求める問い掛けを、音声合成装置１０に入力する場合を想定している。この場合に、外部サーバを介して取得された天気情報が「晴れ」であるために、一次回答作成部１１０が一次回答として日本語の「はれです」（［ｈａ−ｒｅ−ｄｅ−ｓｕ］）を作成したとき、感動詞が含まれないので、図５Ｂに示されるように、そのまま「はれです」（［ｈａ−ｒｅ−ｄｅ−ｓｕ］）と音声合成される。
なお、日本語の「はれです」は、英語でいえば「Ｉｔｗｉｌｌｂｅｓｕｎｎｙ．」である。

＜第２実施形態＞
次に、第２実施形態について説明する。なお、以下において第１実施形態と同様な要素については、第１実施形態の説明で使用した符号を流用しつつ、詳細な説明を適宜省略する。

図６は、第２実施形態における音声合成装置１０の構成を示すブロック図である。図６が図２と相違する部分は、一次回答作成部１１０が言語解析部１０８によって解析された問い掛けに対応する一次回答のテキストを、モード設定部１３０に設定されたモードに応じて作成する点にある。なお、第２実施形態において、モード設定部１３０は、タッチパネル１４（図１参照）から出力される情報をＣＰＵ１１が処理することで、利用者によって設定されたモードを出力する。

第２実施形態において、一次回答作成部１１０に設定されるモードは２種類である。すなわち、利用者の問い掛けに対して感動詞だけの内容を作成すれば足りる場合であっても、敢えて当該感動詞の後に具体的内容を付加して一次回答を作成する第１モードと、利用者の問い掛けに対して感動詞だけの内容を作成すれば足りる場合であれば、当該感動詞のみの一次回答を作成し、利用者の問い掛けに対して感動詞では済まない内容を作成する必要がある場合であれば、当該問い掛けに対する具体的内容のみの一次回答を作成する第２モードとである。

例えば問い掛けが「あすははれ？」である場合に、第１モードであれば、一次回答作成部１１０が作成する一次回答は、例えば、肯定的かつ日本語であれば「はい、はれです」（［ｈａ−ｉｈａ−ｒｅ−ｄｅ−ｓｕ］）となる。すなわち、一次回答作成部１１０は、日本語の「はい」（［ｈａ−ｉ］）という感動詞に続けて、問い掛けに対する具体的内容であって日本語の「はれです」（［ｈａ−ｒｅ−ｄｅ−ｓｕ］）を付加したものを一次回答として作成する。
なお、この場合に、第２モードであれば、一次回答作成部１１０が作成する一次回答は、例えば肯定的かつ日本語であれば「はい」（［ｈａ−ｉ］）となり、感動詞のみとなる。また、第２モードにおいて、問い掛けが「あすの天気は？」である場合に、外部サーバを介して取得された天気情報が「晴れ」であれば、一次回答作成部１１０が作成する一次回答は、第１実施形態と同様に日本語であれば「はれです」（［ｈａ−ｒｅ−ｄｅ−ｓｕ］）となる。

次に、第２実施形態の動作について説明する。
図７は、音声合成装置１０における処理動作を示すフローチャートである。
図７が図３と相違する部分は、例えばステップＳａ１１の前のステップＳａ１０において、設定されたモードを一次回答作成部１１０が取得する点、および、ステップＳａ１３において、言語解析部１０８によって解析された音声の意味に対応する一次回答のテキストを、設定されたモードに応じて一次回答作成部１１０が作成する点にある。
なお、第２実施形態では、ステップＳａ１４において、解析部１１２が、第１モードまたは第２モードで作成された一次回答を解析し、上述したように一次回答作成部１１０によって作成された当該一次回答に感動詞が含まれ、かつ、含まれていれば当該感動詞の音節数が「２」以下であるか否かを解析部１１２が解析する点については第１実施形態と同様である。

図８は、第２実施形態に係る音声合成装置１０が合成する回答の例を示す図である。この例では、問い掛けとして図４Ａで示したように、利用者Ｗが「あすははれ？」と入力する場合を想定している。
この場合に、外部サーバを介して取得された天気情報が「晴れ」であって、第１モードが設定されていれば、上述したように日本語で「はい、はれです」（［ｈａ−ｉｈａ−ｒｅ−ｄｅ−ｓｕ］）が一次回答として作成される。ただし、第２実施形態では、当該一次回答に含まれる感動詞の「はい」（［ｈａ−ｉ］）が複数回、ここでは２回反復されるとともに、反復された感動詞の後に、問い掛けに対する具体的内容が続いた「はいはい、はれです」（［ｈａ−ｉ−ｈａ−ｉｈａ−ｒｅ−ｄｅ−ｓｕ］）と、音声合成される。
第２実施形態によれば、利用者Ｗは、自身の問い掛けに対して、音節数が「２」以下の感動詞が反復された後に、自身の問い掛けを確認するかのような具体的内容が加わった回答が音声合成されるので、当該利用者Ｗの共感をさらに高めることができる。

なお、第２実施形態において、外部サーバを介して取得された天気情報が「晴れ」であって、第２モードが設定されていれば、例えば感動詞のみの日本語の「はい」（［ｈａ−ｉ］）が作成される。このため、当該感動詞の「はい」（［ｈａ−ｉ］）が複数回、ここでは２回反復されて、図４Ｂに示されるように「はいはい」（［ｈａ−ｉ−ｈａ−ｉ］）と、音声合成されることになる。

＜応用例・変形例＞
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

＜反復の対象＞
実施形態では、一次回答に、音節数が２以下の感動詞が含まれていれば、当該感動詞を２回以上反復して音声合成したが、上述したように、音節数が「２」以下の単純な語であれば、感動詞でなくても反復されやすい傾向がある。また、音節数が「３」以上の感動詞であっても、反復される傾向がある。
このため、解析部１１２は、一次回答に、次のような反復の対象（語）が含まれるか否かを解析して、当該対象があると解析した場合に、当該一次回答を反復部１１４に供給しても良い。
反復の第１対象としては、実施形態のように、音節数が２以下の感動詞が挙げられるが、第２対象としては、感動詞に限られず、音節数が「２」以下の単純な語も挙げられ、さらに、第３対象として、音節数が「３」以上の感動詞も挙げられる。最も好ましいのは、第１対象であって、第２対象および第３対象は、第１対象の代替案となる。
なお、音節数が「２」以下の単純な語は、単純であるがゆえに解析しにくい場合があり、また、音節数が「３」以上であって、反復される可能性のある感動詞は限定的であると考えられる。そこで、解析部１１２は、例えば予め登録しておいた対象が、一次回答に含まれるか否かを解析しても良い。

＜音声入力部等＞
実施形態では、音声入力部１０２は、利用者の音声をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給された（または転送された）音声信号を入力する構成としても良い。すなわち、音声入力部１０２は、音声をなんらかの形で取得する構成であれば良い。
また、実施形態では、音声の意味内容に対応する一次回答をテキストで作成したが、テキスト以外のデータ、例えば音声波形データで作成しても良い。一次回答として音声波形データを用いる場合には、当該音声波形データを処理することにより、反復の対象の有無を解析すれば良い。この場合、二次回答についても音声波形データを用いることが好ましい。
なお、実施形態のよう一次回答をテキストで作成する構成の利点としては、反復の対象の解析精度が向上する点や、二次回答についてもテキストになるので、音声合成に際して都合が良い点などが挙げられる。
くわえて、一次回答作成部１１０は、入力された音声に対する一次回答を、回答データベース１２４の定型文を参照して作成するのではなく、外部サーバから直接取得しても良い。すなわち、一次回答作成部１１０は、入力された音声に対する一次回答を、なんらかの形で取得すれば足りる。

＜禁止モード＞
実施形態において、音節数が「２」以下の感動詞については２回反復しているが、例えば「はい」（［ｈａ−ｉ］）を反復して「はいはい」（［ｈａ−ｉ−ｈａ−ｉ］）と音声合成して出力すると、いわゆる二度返事になり、状況によっては、利用者に不快な感じを与えてしまう場合がある。
そこで、感動詞の反復を禁止する動作モード（禁止モード）を設け、禁止モードが設定されていれば、感動詞の反復機能をキャンセルさせる構成とする。キャンセルさせる構成の例としては、禁止モードに設定されていれば、反復部１１４が、感動詞の反復機能を禁止する構成としても良いし、解析部１１２が、一次回答作成部１１０による一次回答に含まれる感動詞の音節数が「２」以下であっても、当該一次回答を反復部１１４に供給するのではなく、直接、音声シーケンス作成部１１６に供給する構成としても良い。いずれにしても、音節数が「２」以下の感動詞が反復されないような構成とする。
これにより、一次回答作成部１１０により作成された一次回答が２音節以下の「はい」（［ｈａ−ｉ］）であっても、図９に示されるように、反復されることなく、一次回答の通り「はい」（［ｈａ−ｉ］）が音声合成されることになる。

なお、禁止モードや、上述した第１モードまたは第２モードについては、利用者が手動で設定しても良いし、入力された音声の内容や、音量、回答の内容、会話の履歴（状況）などを解析した結果に応じて装置が自動設定しても良い。

＜音声・回答＞
実施形態については、回答を、人の声で音声合成する構成としたが、人による声のほかにも、動物の鳴き声で音声合成しても良い。すなわち、反復の対象は、人の声に限られず、動物の鳴き声を含む概念である。
例えば、利用者が言語を問わず「いいてんきだね」という意味内容の問い掛けの音声を音声合成装置１０に入力した場合、音声合成装置１０は、猫の「ニャー」（英語で「Ｍｅｏｗ」）を反復して例えば「ニャーニャー」（英語で「Ｍｅｏｗ、ｍｅｏｗ」）というように音声合成する。

なお、動物の鳴き声を合成して出力する場合、利用者が望む情報を得ることはできない。つまり、利用者が問い掛けとして「あすのてんきは？」と質問しても、当該利用者は明日の天気情報を得ることはできない。しかしながら、利用者がなんらかの形で問い掛けたときに、当該問い掛けに対して、鳴き声で反応が返されると、当該利用者に対して、当該鳴き声を発する仮想的な動物とあたかも意志が通じているかのような、一種の癒しの効果を与えることが期待できるのである。
また、動物の鳴き声で音声合成する音声合成装置１０については、端末装置に限られず、当該動物を模したペットロボットや、縫いぐるみなどに適用しても良い。

＜その他＞
実施形態では、反復を２回としたが、３回以上であっても良い。
また、ＣＰＵ１１が、入力された音声の内容や、音量、回答の内容、会話の履歴（状況）などに基づいて反復回数を適宜決定して設定する構成としても良い。
実施形態にあっては、問い掛けに対する一次回答を取得するための構成である言語解析部１０８、言語データベース１２２および回答データベース１２４を音声合成装置１０の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置１０においては、問い掛けに対する一次回答をなんらかの形で取得する構成であれば足り、その一次回答を、音声合成装置１０の側で作成するのか、音声合成装置１０以外の他の構成（例えば外部サーバ）の側で作成するのか、については問われない。
なお、音声合成装置１０において、音声に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部１２６は不要である。

実施形態に係る音声合成装置１０としては、端末装置のほか、専用の電子回路や、汎用のパーソナルコンピュータによって実現しても良い。パーソナルコンピュータで実現する場合、マイクロフォンとスピーカと接続するとともに、予めインストールしたアプリケーションプログラムを実行することによって実現される。この場合、パーソナルコンピュータにインストールするアプリケーションプログラムについては、端末装置と同様にインターネット経由でダウンロードしても良いし、コンピュータが読取可能な記録媒体に格納された状態で提供されても良い。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体など任意である。
また、実施形態に係る音声合成装置は、音声を合成する音声合成方法としても実現可能である。

１０…音声合成装置、２２…取得部、２４…音声合成部、１０２…音声入力部、１０８…言語解析部、１１０…一次回答作成部、１１２…解析部、１１４…反復部、１１６…音声シーケンス作成部、１１８…合成部、１２６…通信部。

Claims

コンピュータが、
入力された音声に対して、音声合成すべき反応を取得し、
前記反応に、音節数が２以下の対象語が含まれるか否かを解析し、
前記反応に、前記対象語が含まれていると解析した場合に、当該対象語を２回以上反復した音声信号を出力するように制御する
音声制御方法。
前記対象語は、音節数が２以下で予め登録された語である
ことを特徴とする請求項１に記載の音声制御方法。
前記対象語は、音節数が２以下の感動詞であり、
前記解析において、
前記反応に感動詞が含まれているか否かを判別し、
感動詞が含まれていると判別した場合に、当該感動詞が、音節数が２以下の前記対象語である否かを解析する
ことを特徴とする請求項１に記載の音声制御方法。
前記取得において、
入力された音声の意味を解析し、
解析した意味に対応する反応を作成する
ことを特徴とする請求項３に記載の音声制御方法。
前記制御において、
前記解析によって、前記反応に含まれる感動詞の音節数が２以下の前記対象語であると解析した場合に、当該感動詞を前記対象語として２回以上反復した音声信号を出力するように制御する
ことを特徴とする請求項３または４に記載の音声制御方法。
前記制御において、
前記解析部によって、前記反応に含まれる感動詞が、音節数が３以上であり、前記対象語ではないと解析された場合には、当該反応の音声信号が出力するように制御する
ことを特徴とする請求項５に記載の音声制御方法。
前記制御において、
取得した反応から音声シーケンスを作成し、
当該音声シーケンスにより前記音声信号を出力するように制御する
ことを特徴とする請求項６に記載の音声制御方法。
第１モードおよび第２モードを有し、
前記反応の作成において、
前記第１モードであれば、感動詞に具体的内容を加えた反応を作成し、
前記第２モードであれば、感動詞のみの反応、または、具体的内容のみの反応を、作成する
ことを特徴とする請求項４に記載の音声制御方法。
禁止モードを有し、
前記禁止モードであれば、
前記解析において、前記音節数が２以下の感動詞を前記対象語ではないと解析し、
前記制御において、前記反応の音声信号を出力するように制御する
ことを特徴とする請求項６または８に記載の音声制御方法。
入力された音声に対して、音声合成すべき反応を取得する取得部と、
前記反応に、音節数が２以下の対象語が含まれるか否かを解析する解析部と、
前記反応に、前記対象語が含まれていると解析された場合に、当該対象語を２回以上反復した音声信号を出力するように制御する制御部と、
を具備する音声制御装置。
コンピュータを、
入力された音声に対して、音声合成すべき反応を取得する取得部、
前記反応に、音節数が２以下の対象語が含まれるか否かを解析する解析部、および、
前記反応に、前記対象語が含まれていると解析された場合に、当該対象語を２回以上反復した音声信号を出力するように制御する制御部、
として機能させることを特徴とするプログラム。