JP2006330060A

JP2006330060A - 音声合成装置、音声処理装置、およびプログラム

Info

Publication number: JP2006330060A
Application number: JP2005149423A
Authority: JP
Inventors: Yoshinori Kosaka; 芳典匂坂; Greenberg Yoko; 陽子グリーンバーグ; Minoru Tsuzaki; 実津崎; Hiroaki Kato; 宏明加藤
Original assignee: Waseda University; ATR Advanced Telecommunications Research Institute International
Current assignee: Waseda University; ATR Advanced Telecommunications Research Institute International
Priority date: 2005-05-23
Filing date: 2005-05-23
Publication date: 2006-12-07

Abstract

【課題】従来の音声合成装置においては、場面に適した韻律が付与された音声の出力ができない、という課題があった。
【解決手段】語彙情報と、語彙の印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している印象付語彙情報格納部と、印象情報と、語彙の韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、１以上の語彙情報を有する出力情報を格納している出力情報格納部と、前記出力情報が有する語彙情報と対になる印象群情報を、前記語彙情報格納部から取得する印象群情報取得部と、前記印象韻律関係情報と前記印象群情報に基づいて、語彙の韻律情報を決定する韻律情報決定部と、前記韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置により、場面に適した韻律が付与された音声を出力できる。
【選択図】図１

Description

本発明は、音声合成装置等に関するものである。

従来の音声合成装置において、コーパスベース音声合成装置があった（非特許文献１、非特許文献２、非特許文献３、非特許文献４参照）。かかる音声合成装置では、読み上げ音声としての音声品質は向上している。
Riley M.D., Tree-based modeling of segmental durations, Talking Machines edited by G.Bailly et al, North-Holland, ,1992， pp.265-274 Sagisaka Y., On the prediction of global F0 shape for Japanese text-to-speech, Proc. ICASSP, 1990, pp.325-328 Tokuda, K., Masuko, T., Miyazaki, N., and Kobayashi, T., Hidden Markov models based on multispace probability distribution for pitch pattern modeling, Proc. ICASSP, 1999, pp.229-232 Traber C., SVOX: The implementation of a Text-to-Speech System for German, 1992, TIK-Schriftenreihe Nr 7

しかしながら、従来の音声合成装置においては、与えられたテキストを読み上げるだけである。そのため、音声自体の品質は満たされたとしても、その使用場面は限られる。また、従来の音声合成装置においては、音韻明瞭度などで考慮される音声品質が向上している分、対話音声としての韻律の不備はより顕著に認識される。

一方、現在、ゲームやコールセンターなど、利用者に対して親近感を持たせる事が必要となってくるような、双方向の情報伝達が不可欠な場面に適した韻律が付与された音声の出力が求められている。しかしながら、どのような入力制御因子が存在し、また、それらが、どのように韻律を変動させているのかを解明することは、困難である。そのため、従来の音声合成装置においては、場面に適した韻律が付与された音声の出力ができなかった。

上記課題を解決するために、韻律のバリエーションが、「何」によって、「どのように」制御されているかを解明した。そして、本発明の音声合成装置、音声処理装置等は、かかる解明の結果を用いた装置である。具体的には、本発明の音声合成装置等は、以下の構成である。

本第一の発明の音声合成装置は、語彙を示す情報である語彙情報と、前記語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している印象付語彙情報格納部と、印象情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、音声出力する対象であり、１以上の語彙情報を有する出力情報を格納している出力情報格納部と、前記出力情報が有する語彙情報と対になる印象群情報を、前記語彙情報格納部から取得する印象群情報取得部と、前記印象韻律関係情報と、前記印象群情報取得部が取得した印象群情報に基づいて、前記１以上の語彙情報が示す１以上の語彙の韻律情報を決定する韻律情報決定部と、前記韻律情報決定部が決定した１以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第二の発明の音声合成装置は、第一の発明に対して、印象群情報は、確信または疑念の度合いを示す情報、否定または肯定の度合いを示す情報、好印象または悪印象の度合いを示す情報のうち１以上の情報である音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第三の発明の音声合成装置は、第一、第二いずれかの発明に対して、前記韻律情報は、基本周波数の平均的高さに関する情報である周波数高低情報、基本周波数の時間変化形状に関する情報である時間変化情報、発話時間長に関する情報である発話時間情報のうちの１以上の情報である音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第四の発明の音声合成装置は、第三の発明に対して、前記韻律情報決定部は、印象群情報が確信または疑念の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または／および発話時間情報を決定する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第五の発明の音声合成装置は、第三の発明に対して、前記韻律情報決定部は、印象群情報が否定または肯定の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または／および発話時間情報を決定する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第六の発明の音声合成装置は、第三の発明に対して、前記韻律情報決定部は、印象群情報が好印象または悪印象の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の周波数高低情報を決定する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第七の発明の音声合成装置は、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納しており、前記印象群情報に基づいて決定される語彙の韻律情報を用いて、前記語彙情報を出力する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。

また、本第八の発明の音声処理装置は、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している印象付語彙情報格納部と、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声を認識し、音声情報を取得する音声認識部と、前記音声情報が有する語彙情報に対応する印象群情報を取得する印象群情報取得部と、前記印象群情報取得部が取得した印象群情報に基づいて、所定の処理を行う処理部と、を具備する音声処理装置である。
かかる構成により、受け付けた音声の語彙から受ける印象に応じた処理ができる。
また、本第九の発明の音声処理装置は、第八の発明に対して、前記処理部は、前記印象群情報が示す印象に対応する情報を視覚的に出力する音声処理装置である。
かかる構成により、受け付けた音声の語彙から受ける印象を示すことができる。
また、本第十の発明の音声処理装置は、第八の発明に対して、前記処理部は、前記印象群情報が示す印象に対応する情報を音出力する音声処理装置である。
かかる構成により、受け付けた音声の語彙から受ける印象を示すことができる。

また、本第十一の発明は、音声処理に利用する語彙に関する情報のデータ構造であって、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報とが対になる印象付語彙情報のデータ構造である。ここで、「対になる」とは、両情報がポインタでリンク付けられていても良いし、一つの配列やテーブルの一レコードに格納されていても良い。その他、対になっている態様は問わない。また、かかるデータ構造を有するデータを記録媒体に記録しておいても良い。かかる記憶媒体は、例えば、音声合成装置の辞書となり得る。
かかるデータ構造は、音声処理に適したデータ構造である。

本発明による音声合成装置によれば、場面に適した韻律が付与された音声の出力ができる。

以下、音声合成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）
本実施の形態において、場面に適した韻律が付与された音声の出力ができる音声合成装置について説明する。
図１は、本実施の形態における音声合成装置のブロック図である。
音声合成装置は、印象付語彙情報格納部１１、印象韻律関係情報格納部１２、出力情報格納部１３、印象群情報取得部１４、韻律情報決定部１５、音声出力部１６を具備する。

印象付語彙情報格納部１１は、語彙を示す情報である語彙情報と、語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している。印象情報は、例えば、確信または疑念の度合いを示す情報、否定または肯定の度合いを示す情報、好印象または悪印象の度合いを示す情報である。度合いを示す情報は、数値でも、「Ａ」「Ｂ」「Ｃ」などのランク等でも良い。印象情報が確信等の度合いを示す情報である場合、通常、印象群情報は、ベクトルデータとなる。また、印象情報は、例えば、語彙をその印象から分類する情報、例えば、「確信」、「疑念」、「否定」、「肯定」、「好印象」、「悪印象」などである。印象情報が分類を示す情報の場合には、印象群情報と印象情報は同じであると考えられる。なお、印象群情報は、２以上の印象情報（例えば、「確信」と「肯定」）を有しても良い。語彙情報、印象群情報、印象付語彙情報のデータ構造は問わない。印象付語彙情報格納部１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

印象韻律関係情報格納部１２は、印象情報または印象群情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している。ここでの印象情報は、１以上の印象情報である印象群情報でも良い。韻律情報は、例えば、基本周波数の平均的高さに関する情報である周波数高低情報、基本周波数の時間変化形状に関する情報である時間変化情報、発話時間長に関する情報である発話時間情報のうちの１以上の情報である。また、韻律情報は、例えば、最高周波数を示す最高周波数情報や、最低周波数を示す最低周波数情報等でも良い。印象韻律関係情報は、例えば、印象情報と、当該印象情報に対応する印象韻律関係情報を有するレコードを１以上有する。印象韻律関係情報のデータ構造は、問わない。印象韻律関係情報格納部は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

出力情報格納部１３は、音声出力する対象であり、１以上の語彙情報を有する出力情報を格納している。出力情報は、印象付語彙情報格納部１１に格納されている１以上の語彙情報のみから構成されていても良いし、印象付語彙情報格納部１１に格納されていない語彙情報を含んでも良い。出力情報格納部１３に格納されている出力情報は、例えば、キーボード２１２や、マウス２１３等の入力手段により入力される。出力情報は、音声出力される情報であり、その構造は問わない。出力情報格納部１３は、不揮発性の記録媒体、または揮発性の記録媒体で実現され得る。

印象群情報取得部１４は、出力情報が有する語彙情報と対になる印象群情報を、印象付語彙情報格納部１１から取得する。印象群情報取得部１４は、通常、出力情報を１以上の語彙情報に分解し、当該語彙情報と対になる印象群情報を、印象付語彙情報格納部１１から取得する。なお、かかる場合、印象群情報取得部１４が出力情報を分解して得た語彙情報の全てが、印象付語彙情報格納部１１に格納されている必要はない。また、出力情報を１以上の語彙情報に分解する技術は公知技術であるので、詳細な説明は省略する。印象群情報取得部１４は、通常、ＭＰＵやメモリ等から実現され得る。印象群情報取得部の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

韻律情報決定部１５は、印象韻律関係情報格納部１２の印象韻律関係情報と、印象群情報取得部１４が取得した印象群情報に基づいて、１以上の語彙情報が示す１以上の語彙の韻律情報を決定する。韻律情報決定部１５は、印象群情報が確信または疑念の度合いを示す情報である場合、または、確信または疑念を示す場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または／および発話時間情報を決定することは好適である。韻律情報決定部１５は、印象群情報が否定または肯定の度合いを示す情報である場合、または、否定または肯定を示す場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または／および発話時間情報を決定することは好適である。韻律情報決定部１５は、印象群情報が好印象または悪印象の度合いを示す情報である場合、または、好印象または悪印象を示す場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の周波数高低情報を決定することは好適である。韻律情報決定部１５は、印象群情報取得部１４が印象群情報を取得しなかった語彙の韻律情報を、例えば、デフォルトの韻律情報（例えば、読み上げ調）に決定しても良い。韻律情報決定部１５は、一の語彙ごとに韻律情報を決定しても良いし、２以上の語彙の韻律情報を、一の情報として取得しても良い。かかる場合、例えば、韻律情報決定部１５は、２以上の語彙の各韻律情報を演算して、一の韻律情報を決定する。かかる演算式は問わない。韻律情報決定部１５は、通常、ＭＰＵやメモリ等から実現され得る。韻律情報決定部１５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声出力部１６は、韻律情報決定部１５が決定した語彙の韻律情報に基づいて、出力情報を音声出力する。音声出力部１６は、出力情報が有するすべての語彙情報が示す語彙に対して、韻律情報決定部１５が決定した韻律情報を用いる必要はない。韻律情報決定部１５は、出力情報が有するすべての語彙の韻律情報を決定しない場合もある。すべての語彙の韻律情報を決定しない場合、音声出力部１６は、当該語彙の韻律を、例えば、デフォルトの韻律（例えば、読み上げ調）で、音声出力する。ここで、出力とは、音出力、音出力を行う外部装置への送信等を含む概念である。音声出力部１６は、スピーカー２１６等の出力デバイスを含むと考えても含まないと考えても良い。音声出力部１６は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声合成装置の動作について図２のフローチャートを用いて説明する。
（ステップＳ２０１）印象群情報取得部１４は、出力情報格納部１３の出力情報を取得する。

（ステップＳ２０２）印象群情報取得部１４は、ステップＳ２０１で取得した出力情報を語彙情報に分解し、１以上の語彙情報を得る。文章などの出力情報を、語彙情報に分解する（区分する）技術は公知技術であるので、詳細は省略する。
（ステップＳ２０３）印象群情報取得部１４は、カウンタｉに１を代入する。

（ステップＳ２０４）印象群情報取得部１４は、ステップＳ２０２で得られた語彙情報の中に、ｉ番目の語彙情報が存在するか否かを判断する。ｉ番目の語彙情報が存在すればステップＳ２０５に行き、ｉ番目の語彙情報が存在しなければ処理を終了する。
（ステップＳ２０５）印象群情報取得部１４は、ｉ番目の語彙情報に対応する印象群情報を、印象付語彙情報格納部１１から取得する。

（ステップＳ２０６）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が存在するか（ＮＵＬＬでないか）否かを判断する。印象群情報が存在すればステップＳ２０７に行き、印象群情報が存在しなければステップＳ２１０に行く。
（ステップＳ２０７）韻律情報決定部１５は、ｉ番目の語彙情報が示す語彙の韻律情報を決定する。韻律情報を決定するアルゴリズムの詳細は、図３のフローチャートを用いて説明する。
（ステップＳ２０８）音声出力部１６は、ステップＳ２０７またはステップＳ２１０で決定した韻律情報に基づいて、ｉ番目の語彙情報を音声出力する。
（ステップＳ２０９）音声出力部１６は、カウンタｉを１、インクリメントする。ステップＳ２０４に行く。
（ステップＳ２１０）韻律情報決定部１５は、デフォルトの韻律情報を取得する。デフォルトの韻律情報は、例えば、韻律情報決定部１５が予め保持している。
次に、上記のステップＳ２０７の韻律情報を決定するアルゴリズムの具体例について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が、「確信」または「疑念」を示す情報であるか否かを判断する。印象群情報が「確信」または「疑念」を示す情報である場合ステップＳ３０２に行き、印象群情報が「確信」または「疑念」を示す情報でない場合ステップＳ３０５に行く。

（ステップＳ３０２）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が示す情報（「確信」または「疑念」）に対応する時間変化情報（韻律情報の一種）を、印象韻律関係情報格納部１２から取得する。

（ステップＳ３０３）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が示す情報（「確信」または「疑念」）に対応する発話時間情報（韻律情報の一種）を、印象韻律関係情報格納部１２から取得する。

（ステップＳ３０４）韻律情報決定部１５は、周波数情報（韻律情報の一種）をデフォルト値に設定する。なお、ここでは、韻律情報は、時間変化情報、発話時間情報、および周波数情報である、とする。また、時間変化情報、発話時間情報、および周波数情報のデフォルト値は、例えば、韻律情報決定部１５が予め保持している、とする。上位関数にリターンする。

（ステップＳ３０５）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が、「肯定」または「否定」を示す情報であるか否かを判断する。印象群情報が「肯定」または「否定」を示す情報である場合ステップＳ３０６に行き、印象群情報が「肯定」または「否定」を示す情報でない場合ステップＳ３０８に行く。なお、ステップＳ３０５で、ステップＳ２０５で取得した印象群情報が、「肯定」または「否定」を示す情報でない場合、ここでは、ステップＳ２０５で取得した印象群情報は、「好印象」または「悪印象」を示す情報である。

（ステップＳ３０６）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が示す情報（「肯定」または「否定」）に対応する時間変化情報（韻律情報の一種）を、印象韻律関係情報格納部１２から取得する。

（ステップＳ３０７）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が示す情報（「肯定」または「否定」）に対応する発話時間情報（韻律情報の一種）を、印象韻律関係情報格納部１２から取得する。ステップＳ３０４に行く。

（ステップＳ３０８）韻律情報決定部１５は、ステップＳ２０５で取得した印象群情報が示す情報（「好印象」または「悪印象」）に対応する周波数高低情報（韻律情報の一種）を、印象韻律関係情報格納部１２から取得する。
（ステップＳ３０９）韻律情報決定部１５は、時間変化情報（韻律情報の一種）をデフォルト値に設定する。
（ステップＳ３１０）韻律情報決定部１５は、発話時間情報（韻律情報の一種）をデフォルト値に設定する。上位関数にリターンする。

なお、図３のフローチャートにおいて、例えば、以下のようにして韻律情報を決定しても良い。印象群情報が、（確信，疑念，肯定，否定，好印象，悪印象）のベクトルデータの構造を有する、とする。そして、例えば、印象群情報が、（６，０，０，０，４，０）の場合つまり、「確信」の度合いが「６」、好印象の度合いが「４」）である場合）、韻律情報決定部１５は、「「確信」に対応する時間変化情報の影響度合いを「０．６」、「好印象」に対応する時間変化情報の影響度合いを「０．４」」として、語彙情報の時間変化情報を決定しても良い。また、かかる場合、韻律情報決定部１５は、算出式「「確信」に対応する発話時間情報×０．６＋「好印象」に対応する発話時間情報×０．４」により、語彙情報の発話時間情報を決定しても良い。つまり、韻律情報決定部１５は、ベクトルデータである印象群情報と、印象韻律関係情報が有する韻律情報を用いて、語彙情報の韻律情報を決定しても良い。
以下、本実施の形態における音声合成装置の具体的な動作について説明する。
図４は、印象群情報のデータ構造例を説明する図である。図４（ａ）は印象群情報のデータ構造例であり、図４（ｂ）はデータ構造例が示すデータの意義を説明する図である。

図４（ａ）において、各語彙に関して、「確信」の度合い、「疑念」の度合い、「肯定」の度合い、「否定」の度合い、「好印象」の度合い、「悪印象」の度合いを数値で示している。また、「確信」の度合いは、（１）「納得」の度合い、（２）「確信」の度合いの情報からなる。かかることは、図４（ｂ）に示されている。また、「疑念」の度合いは、（１）「迷い」の度合い、（２）「疑い」の度合いの情報からなる。かかることも、図４（ｂ）に示されている。また、「肯定」の度合いは、（１）「同意」の度合い、（２）「賛成」の度合いの情報からなる。また、「否定」の度合いは、（１）「反対」の度合い、（２）「反論」の度合いの情報からなる。また、「好印象」の度合いは、（１）「楽しみ」の度合い、（２）「明るい」の度合い、（３）「嬉しい」の度合い、（４）「軽い」の度合いの情報からなる。さらに、「悪印象」の度合いは、（１）「落胆」の度合い、（２）「暗い」の度合い、（３）「悲しい」の度合い、（４）「重い」の度合いの情報からなる。以上のことも、図４（ｂ）に示されている。

そして、図４（ａ）において、語彙情報「絶対」の印象群情報は、（４．７，６，０，０，１，１，１，１，１，０，０，０，０，０，０，２）のベクトルデータである。かかるベクトルデータは、発話印象「確信」を示す。また、図４（ａ）のベクトルデータ（印象群情報）は、１６の印象情報を有する。また、発話印象とは、語彙情報が示す語彙の印象を示す情報である。発話印象は、ここでは、印象群情報と考えても良い。つまり、印象群情報は、ベクトルデータでも良いし、ベクトルデータから抽象される一の印象を示す情報等でも良い。また、印象群情報が一の印象を示す情報である場合、印象群情報は印象情報と同じである。ここで、発話印象を印象情報として説明する。

図５は、第一の印象韻律関係情報管理表である。第一の印象韻律関係情報管理表は、印象情報（印象群情報）と、時間変化情報を有するレコード（印象韻律関係情報）を１以上有する。図５において、時間変化情報はグラフで表されているが、データ構造は問わない。時間変化情報は、例えば、グラフを構成する数字列でも良い。つまり、時間変化情報は、基本周波数の時間変化形状に関する情報であれば良い。なお、図５において、時間変化情報のグラフの横軸は時間（ｍｓｅｃ）、縦軸は基本周波数（Ｈｚ）である。図５において、印象群情報「確信」、「疑念」、「肯定」、「否定」、「好印象」に対応する時間変化情報が管理されている。

図６は、第二の印象韻律関係情報管理表である。第二の印象韻律関係情報管理表は、印象情報（印象群情報）と、発話時間情報を有するレコード（印象韻律関係情報）を１以上有する。図６において、印象情報「確信」の場合の発話時間情報は「７０」である。

図７は、第三の印象韻律関係情報管理表である。第三の印象韻律関係情報管理表は、印象情報（印象群情報）と、周波数高低情報を有するレコード（印象韻律関係情報）を１以上有する。図６において、印象情報「好印象」の場合の周波数高低情報は「９０」である。

図８は、印象付語彙情報格納部１１の印象付語彙辞書である。図８において、「絶対（４．７，６，０，０，１，１，１，１，１，０，０，０，０，０，０，２）」が、一つの印象付語彙情報である。図８の印象付語彙辞書は、５の印象付語彙情報を有する。
かかる場合、本音声合成装置は、図示しない手段により、出力情報「それは、絶対違う。」の入力を受け付けた、とする。かかる出力情報は、例えば、キーボードにより、入力された情報である。
そして、音声合成装置の出力情報格納部１３は、出力情報「それは、絶対違う。」を格納している、とする。
次に、印象群情報取得部１４は、出力情報格納部１３の出力情報「それは、絶対違う。」を読み出す。
次に、印象群情報取得部１４は、出力情報「それは、絶対違う。」を語彙情報に分解し、１以上の語彙情報（「それは」「絶対」「違う」）を得る。

次に、印象群情報取得部１４は、１番目の語彙情報「それは」に対応する印象群情報を、図８の印象付語彙辞書から取得しようとする。図８の印象付語彙辞書に、語彙情報「それは」を有する印象付語彙情報は存在しないので、印象群情報取得部１４は、１番目の語彙情報「それは」に対応する印象群情報を取得できない。次に、韻律情報決定部１５は、１番目の語彙情報「それは」に対応する韻律情報をデフォルトの韻律情報（例えば、読み上げ調）とする。
次に、音声出力部１６は、読み上げ調で、１番目の語彙情報「それは」を出力する。

次に、印象群情報取得部１４は、２番目の語彙情報「絶対」に対応する印象群情報「絶対（４．７，６，０，０，１，１，１，１，１，０，０，０，０，０，０，２）」を、図８の印象付語彙辞書から取得する。そして、印象群情報取得部１４は、印象群情報「絶対（４．７，６，０，０，１，１，１，１，１，０，０，０，０，０，０，２）」に基づいて、発話印象「確信」（これを印象情報または印象群情報と考えても良い）を得る。

次に、韻律情報決定部１５は、「確信」をキーとして、図５の印象韻律関係情報管理表を検索し、語彙情報「絶対」に対応する時間変化情報（図５の第一レコードの時間変化情報）を取得する。次に、韻律情報決定部１５は、「確信」をキーとして、図６の印象韻律関係情報管理表を検索し、語彙情報「絶対」に対応する発話時間情報「７０」を取得する。次に、韻律情報決定部１５は、デフォルトの周波数高低情報を取得する。以上より、語彙情報「絶対」に対応する韻律情報（時間変化情報、発話時間情報、周波数高低情報）が得られた。
次に、音声出力部１６は、取得した韻律情報（時間変化情報、発話時間情報、周波数高低情報）に基づいて、２番目の語彙情報「絶対」を出力する。

次に、印象群情報取得部１４は、３番目の語彙情報「違う」に対応する印象群情報「違う（０，０，０．３，０．６，０，０，５，５，０，０，０，０，０，０，０，０）」を、図８の印象付語彙辞書から取得する。そして、印象群情報取得部１４は、印象群情報「違う（０，０，０．３，０．６，０，０，５，５，０，０，０，０，０，０，０，０）」に基づいて、発話印象「否定」（これを印象情報または印象群情報と考えても良い）を得る。

次に、韻律情報決定部１５は、韻律情報決定部１５は、「否定」をキーとして、図５の印象韻律関係情報管理表を検索し、語彙情報「違う」に対応する時間変化情報（図５の第四レコードの時間変化情報）を取得する。次に、韻律情報決定部１５は、「否定」をキーとして、図６の印象韻律関係情報管理表を検索し、語彙情報「違う」に対応する発話時間情報「１１０」を取得する。次に、韻律情報決定部１５は、デフォルトの周波数高低情報を取得する。以上より、語彙情報「違う」に対応する韻律情報（時間変化情報、発話時間情報、周波数高低情報）が得られた。
次に、音声出力部１６は、取得した韻律情報（時間変化情報、発話時間情報、周波数高低情報）に基づいて、３番目の語彙情報「違う」を出力する。
以上の処理により、本音声合成装置は、出力情報「それは、絶対違う。」を、場面に適した韻律が付与された音声で出力できた。
以上、本実施の形態によれば、場面に適した韻律が付与された音声を出力する音声合成装置を提供できる。

なお、本実施の形態によれば、印象付語彙辞書は、語彙情報と、ベクトルデータである印象群情報を有した（図８参照）が、図９に示すように、印象付語彙辞書は、語彙情報と印象情報（一の印象情報を有する印象群情報）を有するレコードを１以上有するものでも良い。つまり、印象付語彙情報は、語彙情報と印象情報を有する情報でも良い。

また、本実施の形態によれば、出力情報格納部１３の出力情報を出力したが、印象付語彙情報が有する語彙情報を、印象付語彙情報が有する印象群情報に対応する韻律情報が示す韻律で音声出力すれば良い。つまり、本音声合成装置は、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納しており、前記印象群情報に基づいて決定される語彙の韻律情報を用いて、前記語彙情報を出力する音声合成装置、である。
また、本実施の形態において、音声合成装置は、２以上の語彙に対応する２以上の印象群情報から、文や句などの所定の語彙群の情報の印象群情報を構成し、当該構成した印象群情報に基づいて文や句の韻律情報を決定し、文や句を出力しても良い。つまり、本音声合成装置は、語彙を示す情報である語彙情報と、前記語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している印象付語彙情報格納部と、印象群情報または印象情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、音声出力する対象であり、１以上の語彙情報を有する出力情報を格納している出力情報格納部と、前記出力情報が有する語彙情報と対になる印象群情報を、前記印象付語彙情報格納部から取得する印象群情報取得部と、前記印象韻律関係情報と、前記印象群情報取得部が取得した印象群情報に基づいて、前記１以上の語彙情報が示す１以上の語彙の韻律情報を決定する韻律情報決定部と、前記韻律情報決定部が決定した１以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置、である。ここで、韻律情報決定部の処理である「前記１以上の語彙情報が示す１以上の語彙の韻律情報を決定する」とは、語彙ごとに韻律情報を決定する必要はなく、２以上の語彙からなる文や句の韻律情報を決定することも含む。また、「韻律情報決定部が決定した１以上の語彙の韻律情報に基づいて、前記出力情報を出力する」とは、文や句全体の韻律情報に基づいて、出力情報を出力することも含む。
また、本実施の形態の具体例によれば、印象韻律関係情報は、印象情報（印象群情報）と、時間変化情報等を有するレコード（事例の情報）であったが、印象情報（印象群情報）を適用して韻律情報を生成するためのルールや演算式等でも良い。印象韻律関係情報がルールや演算式等の場合、韻律情報決定部は、取得した印象情報（印象群情報）に、ルールや演算式を適用して韻律情報を得る。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、格納している出力情報が有する語彙情報と対になる印象群情報を、格納している印象付語彙情報から取得する印象群情報取得ステップと、格納している印象韻律関係情報と、前記印象群情報取得ステップで取得した印象群情報に基づいて、前記語彙情報が示す語彙の韻律情報を決定する韻律情報決定ステップと、前記韻律情報決定ステップで決定した語彙の韻律情報に基づいて、前記出力情報を出力する音声出力ステップと、を実行するためのプログラム、である。
（実施の形態２）
本実施の形態において、受け付けた音声から受ける印象に対応した処理ができる音声処理装置について説明する。
図１０は、本実施の形態における音声処理装置のブロック図である。
音声処理装置は、印象付語彙情報格納部１１、音声受付部１０１、音声認識部１０２、印象群情報取得部１４、処理部１０３を具備する。
音声受付部１０１は、音声を受け付ける。音声の入力手段は、例えば、マイク２１５である。音声受付部１０１は、マイク２１５等の入力手段のデバイスドライバー等で実現され得る。

音声認識部１０２は、音声受付部１０１が受け付けた音声を認識し、音声情報を取得する。なお、音声情報は、１以上の語彙情報を有する。音声情報は、例えば、実施の形態１における出力情報と同様のデータ構造である。音声認識部１０２は、公知技術であるので詳細な説明は省略する。音声認識部１０２は、通常、ＭＰＵやメモリ等から実現され得る。音声認識部１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

処理部１０３は、印象群情報取得部１４が取得した印象群情報に基づいて、所定の処理を行う。処理部１０３は、例えば、印象群情報取得部１４が取得した印象群情報が示す印象に対応する情報を視覚的に出力する。処理部１０３は、例えば、印象群情報が示す印象が「確信」であれば、「青」の背景色をディスプレイ２１４に表示する。処理部１０３は、例えば、印象群情報取得部１４が取得した印象群情報が示す印象に対応する情報を音出力する。処理部１０３は、例えば、印象群情報が示す印象が「疑念」であれば、ベートーベンの「運命」をバックグラウンドミュージックとして出力する。処理部１０３は、通常、ＭＰＵやメモリ等から実現され得る。処理部１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、音声処理装置の動作について図１１のフローチャートを用いて説明する。
（ステップＳ１１０１）音声受付部１０１は、音声を受け付けたか否かを判断する。音声を受け付ければステップＳ１１０２に行き、音声を受け付けなければステップＳ１１０１に戻る。
（ステップＳ１１０２）音声認識部１０２は、ステップＳ１１０１で受け付けた音声を認識し、音声情報を取得する。音声情報は、例えば、文字コードの集合である。
（ステップＳ１１０３）印象群情報取得部１４は、ステップＳ１１０２で取得した音声情報を語彙情報に分解し、１以上の語彙情報を得る。
（ステップＳ１１０４）印象群情報取得部１４は、カウンタｉに１を代入する。

（ステップＳ１１０５）印象群情報取得部１４は、ステップＳ１１０３で得た語彙情報の中で、ｉ番目の語彙情報が存在するか否かを判断する。ｉ番目の語彙情報が存在すればステップＳ１１０６に行き、ｉ番目の語彙情報が存在しなければステップＳ１１０１に戻る。
（ステップＳ１１０６）印象群情報取得部１４は、ｉ番目の語彙情報に対応する印象群情報を、印象付語彙情報格納部１１から取得する。

（ステップＳ１１０７）処理部１０３は、ステップＳ１１０６で取得した印象群情報が存在するか否か（ＮＵＬＬでないか否か）を判断する。印象群情報が存在すればステップＳ１１０８に行き、印象群情報が存在しなければステップＳ１１１０に行く。
（ステップＳ１１０８）処理部１０３は、ステップＳ１１０６で取得した印象群情報に対応する処理を決定する。
（ステップＳ１１０９）処理部１０３は、ステップＳ１１０８で決定した処理を実行する。
（ステップＳ１１１０）処理部１０３は、カウンタｉを１、インクリメントする。ステップＳ１１０５に行く。
なお、図１１のフローチャートにおいて、印象群情報が存在しない場合、例えば、処理部１０３は、デフォルトの処理を行っても良い。
なお、図１１のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声処理装置の具体的な動作について説明する。

図１２は、処理部１０３が保持している出力イメージ管理表である。出力イメージ管理表は、「印象情報」と「出力イメージ」を有するレコードを１以上保持している。「出力イメージ」は、「印象情報」に対応するイメージである。
かかる場合、ユーザは、本音声処理装置に対して、「それは、絶対違う。」と音声入力した、とする。
次に、音声受付部１０１は、音声「それは、絶対違う。」を受け付ける。
次に、音声認識部１０２は、音声「それは、絶対違う。」を音声認識し、音声情報「それは、絶対違う。」を得る。
次に、印象群情報取得部１４は、取得した音声情報「それは、絶対違う。」を語彙情報に分解し、１以上の語彙情報（「それは」「絶対」「違う」）を得る。

次に、印象群情報取得部１４は、１番目の語彙情報「それは」に対応する印象群情報を、図８の印象付語彙辞書から取得しようとする。図８の印象付語彙辞書に、語彙情報「それは」を有する印象付語彙情報は存在しないので、印象群情報取得部１４は、１番目の語彙情報「それは」に対応する印象群情報を取得できない。この段階では、処理部１０３は、何ら動作しない。

次に、処理部１０３は、「確信」をキーとして、図１２の出力イメージ管理表を検索する。そして、語彙情報「絶対」に対応する出力イメージ（図１２の第一レコードの出力イメージ）を取得する。そして、処理部１０３は、ディスプレイに出力イメージを出力する（図１３（ａ）参照）。

次に、処理部１０３は、「否定」をキーとして、図１２の出力イメージ管理表を検索する。そして、語彙情報「違う」に対応する出力イメージ（図１２の第四レコードの出力イメージ）を取得する。そして、処理部１０３は、ディスプレイに出力イメージを出力する（図１３（ｂ）参照）。

以上、本実施の形態によれば、受け付けた音声から受ける印象に対応した処理ができる。本具体例において、例えば、受け付けた音声から受ける印象に対応したイメージが表示され、例えば、聴覚に障害を有する人でも、他の人が発した音声のイメージを掴むことができる。
なお、本実施の形態の具体例によれば、処理部はイメージを出力したが、音声の印象を色で出力しても良い。
また、本実施の形態の具体例によれば、処理部はイメージを出力したが、語彙が示す印象に対応した韻律で音声出力しても良い。かかる場合、例えば、外国人が発声した音声をより自然に補正できる。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を認識し、音声情報を取得する音声認識ステップと、前記音声情報が有する語彙情報に対応する印象群情報を、格納されている印象付語彙情報から取得する印象群情報取得ステップと、前記印象群情報取得ステップで取得した印象群情報に基づいて、所定の処理を行う処理ステップと、を実行するためのプログラム、である。
（実施の形態３）

本実施の形態において、言語内容に表出されない発話態度に対する韻律制御の可能性を探るために行った各種実験の内容に関して説明する。上記実施の形態１、２における装置等は、本実験により明らかになった事項に基づいている。
（実験概要)

まず、言語内容として陽に表せない韻律情報の規定を目的として、基本周波数（Ｆ０）パタンの分析を行った。発話内容情報による直接的な影響を除いた分析を行うため、会話に頻繁に用いられ、韻律情報による受け渡しに大きな役割を果たしていると考えられる一語発話「ん」を分析対象とした。さらに、発話内容の語彙特性による韻律制御の可能性を探るために、韻律によって伝達される発話態度によって規定される語彙を用いて、会話音声における韻律制御の可能性を調べた。
（Ｆ０の平均的高さと時間変化形状に基づく発話印象の分類)
以下、まず、実際の対話場面音声で観察された一語発話「ん」を対象としたＦ０の平均的高さと時間変化形状に基づく発話印象表現の分類について述べる。

発話語彙そのものが内在的に持つ情報による制御だけではなく、会話状況に応じてあらわされる発話言語表現に独立な韻律制御が必要である。発話言語表現外の音声情報が伝達する情報の規定を目指して、友人同士の親しい関係である成人女性４名の３０分間弱にわたる実際の対話を録音し、分析した。この対話中では一語発話「ん」が多用され（４２サンプル）対話を進めてゆく上での種々の情報を伝達していることが観察された。とりわけ、話者が聞き手に対して意識的・無意識的に示す「驚き」、「聞き返し」、「否定（いいえ）」、「了承（はい）」、「躊躇」、「相槌」といった、相手の発言に対しての返答、心的状況、問いかけなどを伝達しており、これらの情報は他の発話内容でも共通に用いられている。これらの伝達情報は共通に用いられる韻律的特徴により分類され、文脈や、次発話の言語内容から推察できることが期待される。４２サンプルのＦ０を観察した結果、Ｆ０の平均的高さ・時間変化形状によってこれらの情報が担われていることが判明した。以上の観察に基づく伝達情報の印象表現を、図１４に示す。これらの観察結果の妥当性を確認し、より一般的、定量的な記述を目指して以降に示す検討を行った。
（韻律伝達情報を示す印象基本表現の規定)
ここで、図１４に示す分類の妥当性を検証するために行う主観評価実験のための印象表現語についての検討を述べる。

対話音声の韻律により言語表現として表出されない情報を伝達するためには、まず、韻律によって伝達される情報の規定が必要である。伝達内容のより一般的で精確な規定を行うため、聞き手が受ける発話態度・意図に関する主観に基づく印象表現を調べた。まず、先の分析でみられたＦ０の平均的高さと時間変化形状だけを制御対象として考えるため、平均的高さと時間変化形状だけが異なる一語発話「ん」を１２種類（平均的高さ３種類（高・中・低）×時間変化形状４種類（上昇・平坦・下降・上昇＋下降））用意した。音声発話は第１著者が行い、Ｆ０の平均的高さと時間変化形状が１２種類の典型例になるように注意し、また意図的な感情表出を避けるため、特定の発話状況を意識しない発話を心掛けた。
これらのＦ０の平均的高さと時間変化形状の異なる１２種類の異なる音声を用いて評定実験を行った。評定は日本語母語話者の成人５名（男性２名、女性３名）が行った。評定実験では、図１４の表の作成時の経験を参考に、次に続く事が予想される句表現、またそれらから想定される発話者の発話態度を、極力、形容詞または副詞で直感的に表現してもらうように指示した。

印象評定実験で得られた全６７表現の中から複数回答のあった２６表現を、印象基本表現として選択した。次に示すようにこれらを、「確信−疑念」「肯定−否定」「好印象−悪印象」の３グループに分けた。具体的には、「確信−疑念」のカテゴリとして、「納得、了承、疑い、迷い、疑問」、「肯定−否定」のカテゴリとして、「同意、否定、反論」、「好印象−悪印象」のカテゴリとして、「元気な、楽しい、優しそう、機嫌が良い、わくわく、嬉しい、軽い、興味がある、明るい、暗い、弱々しい、興味がない、機嫌が悪い、重い、面倒くさい、ふてぶてしい、怒っている、うざい」の印象基本表現語を用意した。
（印象基本表現による伝達情報ベクトル表示)

ここでは、主観評価実験の詳細と結果を述べる。つまり、上記で得られた２６の印象基本表現により、伝達内容を近似的にベクトル表示し、制御対象として考えたＦ０の平均的な高さと時間変化形状との関係を求める。このため、前章で用いたものと同一の一語発話「ん」を用いた評定実験を行った。１２サンプルの一語発話「ん」の各々に対し、２６基本表現に、０（全く当てはまらない）〜７（非常に良く当てはまっている）の８段階評定、計３１２評定を求めた。被験者としては先の評定者とは異なる、聴覚レベルに問題のない、日本語を母語とする、成人５名（男性１名、女性４名）を用いた。また、評定に際しては、反復聴取可能な形で刺激提示した。
（Ｆ０の平均的高さ・時間変化形状と韻律伝達情報のＭＤＳ分析)

ここでは、多次元尺度構成法を用いた実験結果の解析を行う。つまり、各刺激間の評定値差によって得られる距離行列を入力データとして、多次元尺度構成法（ＭＤＳ）分析を行った。ＭＤＳを用いることにより、類似度を表すデータを基に独立な次元を求め、各サンプルが従う構造や制約の多次元表現・理解を期待した。また、評定者が複数の場合に有効である、個人差を考慮に入れたＩＮＤＳＣＡＬアルゴリズムによってＭＤＳを実施した。

本分析では、比較的低次元で説明できる分散の割合（ＶＡＦ）が高く、印象基本表現との対応が良い、３次元を採用した。また各軸の解釈を行うために、重回帰分析を用いて、それぞれの印象基本表現語に対する平均評定値を、３次元空間に射影させた。図１５に結果を示す。分析の結果、「確信−疑念」「好印象−悪印象」の軸が、第１次元，第２次元による平面上、「肯定−否定」「確信−疑念」の軸が、第１次元，第３次元による平面上、「肯定−否定」「好印象−悪印象」の軸が、第２次元，第３次元による平面上へ、それぞれ投影可能であった。つまり、評定は、それぞれ単独の印象基本表現に対して行われたにも関わらず、先に３分類した印象基本表現が、それぞれ対となって出現した。またＦ０の平均的高さと時間変化形状は、それらの印象基本表現語の組によって特徴付けられる印象軸と相関していた。
音声刺激の分布については、「疑念」を表す発話態度の方向から、「確信」の方に向かって、上昇，平坦，上昇＋下降，下降の順に配置されている。またＦ０の平均的高さが高くなるにつれて「好印象」を、また低くなるにつれて「悪印象」を表す事が分かる。更に、「否定」を示す方向から、「肯定」に向けて、上昇＋下降，上昇，平坦，下降の時間変化形状をもつ刺激が布置されている。
以上の結果を、基本周波数の制御の観点から見直すと、「確信−疑念」、「肯定−否定」といった発話態度はＦ０の時間変化形状により、「好印象−悪印象」はＦ０の平均的高さにより制御する事が考えられる。
（対話音声データ)
ここでは、得られた発話態度を示す語彙と、出力された韻律特徴の関係性を探るために行う、対話音声の分析に用いるサンプル収集のための手続きについて述べる。

これまでの分析から、対話音声生成における、入力としての語彙特性の有効性と、出力される韻律特徴を特定する聴覚印象が明らかとなった。そこで、対話音声合成の韻律制御において、これら聴覚印象で表現される語彙特性を直接用いる事が出来る可能性を調べるために、対話音声サンプルの収集を行った。発話内容には、発話態度を示す３次元（好印象／悪印象、疑念／確信、否定／肯定）の発話態度を表す、日常よく使用される日本語の語句を選んだ。これらの語句自体が、発話態度の３次元を、それぞれ確実に表現出来ているかどうかを確認するために、評価実験を行った。２５の語句の各々に対して、１６の基本印象語に、０（全く当てはまらない）〜６（非常に良く当てはまっている）の７段階で、計４００評定を求めた。１６の印象基本表現としては、好印象／悪印象として、「落胆」、「暗い」、「悲しい」、「重い」、「楽しみ」、「明るい」、「嬉しい」、「軽い」、疑念／確信として、「迷い」、「疑い」、「納得」、「確信」、否定／肯定として、「反論」、「反対」、「同意」、「賛成」を設定した。被験者としては、日本語を母語とする、成人４名（男性１名、女性３名）を用いた。実験に用いた語句を、それぞれの語句が属する３次元の分類と平均評価得点を被験者間相関と共に、図１６に示す。図１６が示すように、それぞれの語句が属する分類に対して高い得点が得られ、また被験者間の相関も高かった。従って、これらの語句は３次元の発話態度を示していると言える。

出来るだけ自然な対話音声を収集する為に、それぞれの発話語句に適した状況の設定を行った。発話者が発話内容に沿った状況を十分に想像する事により、自発的に自然な対話音声を発話する事を期待した。例えば、「絶対」という語句に対しては、「相手の不安を払拭するための発話」というような発話状況を提示した。発話者は、日本語を母語とする成人４名（男性２名、女性２名）で、それぞれの発話は静かな環境で録音された。また、対話音声の録音後に、同一発話内容で読み上げ調発話の録音も行った。

次に、得られた対話音声が、自然な発話であったかを確認するために、自然評価実験を行った。それぞれの発話から、どれくらい、またどのような発話者態度が知覚されるかを、０（全く当てはまらない）〜６（とても良く当てはまっている）の７段階評定を求めた。評定項目としては、６．１と同様に１６の印象表現を用いた。被験者は、先の発話者とは異なる、日本語母語話者の成人５名（男性３名、女性２名）を用いた。また刺激は、反復聴取可能な形で提示した。その結果、得られた１００発話のうち、２４発話において、高い被験者間相関（０．７０以上）が見られた。従って、次の分析では、この２４発話を自然な対話音声サンプルとして用いる事にした。
（韻律特徴と語彙特性)

ここでは、収集した対話音声の分析結果について述べる。つまり、語彙特性による韻律変化を調べるために、対話調と読み上げ調の発話を比較した。その結果、Ｆ０の平均的高さ、発話時間長、そしてＦ０の時間変化形状の３要因が、対話における韻律特性と関わっている事が分かった。
Ｆ０の平均的高さ：図１７に示すように、Ｆ０の平均的高さは「好印象」な発話態度を示す際に用いられるようであった。今回の対話音声収集では、「悪印象」が知覚された発話を得る事が出来なかった。作られた一時的な状況では、「悪印象」を表出する事が困難であったと考えられる。しかしながら、先の分析結果［８］を考慮すると、「悪印象」は、「好印象」と反対の符号を付与すると想像される。
発話時間長：図１８に示すように、疑念／確信、否定／肯定の２次元の発話者態度が、発話時間長に影響を与えているようであった。発話時間長が長いほど、より「疑念」、「否定」な発話態度を示すようで、「確信」、「肯定」は、短い時間長で表現されるようであった。一方、「好印象」を表す発話態度には、あまり影響していないようであった。人々は、長い時間長で躊躇を、短い時間長で寛容を表現すると考えられる。
Ｆ０時間変化形状：Ｆ０時間変化形状を比較するために、同一発話内容のサンプル内で、発話時間長の短い発話を、長いものに合せた。図１９に示すように、Ｆ０時間変化形状は、２次元の発話態度（疑念／確信、否定／肯定）と関わっているようである事が分かった。一方、「好印象」では、Ｆ０時間変化形状に一貫した変化は認められなかった。「疑念」を示す発話態度に関しては、質問として発話された場合、文末が常に上がっていた（上昇）。その他の「疑念」を示す発話に関しては、読み上げ調発話と比較して、平坦になっているようであった（平坦）。また、「確信」は、下降、もしくは上昇＋下降、「否定」は、上昇＋下降、そして、「肯定」は、下降へと、それぞれのＦ０時間変化形状を変化させているようであった。

以上の本実験によれば、「疑念／確信」、「否定／肯定」といった発話態度が、Ｆ０の時間形状および発話時間長を、「好印象／悪印象」な発話態度がＦ０の高さを、それぞれ制御していると考えられる。また入力語彙が、それぞれの発話態度を直接表していた事から、語彙特性による対話音声の韻律制御の可能性が示唆されたと言える。

なお、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図２０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声合成装置または音声処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図２０は、このコンピュータシステム２１０の概観図であり、図２１は、システム２１０のブロック図である。

図２０において、コンピュータシステム２１０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ２１１と、キーボード２１２と、マウス２１３と、モニタ２１４と、マイク２１５と、スピーカー２１６とを含む。

図２１において、コンピュータ２１１は、ＦＤドライブ２１１１、ＣＤ−ＲＯＭドライブ２１１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１１３と、ＣＰＵ２１１３、ＣＤ−ＲＯＭドライブ２１１２及びＦＤドライブ２１１１に接続されたバス２１１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）２１１５と、ＣＰＵ２１１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク２１１７とを含む。ここでは、図示しないが、コンピュータ２１１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム２１０に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ２２０１、またはＦＤ２２０２に記憶されて、ＣＤ−ＲＯＭドライブ２１１２またはＦＤドライブ２１１１に挿入され、さらにハードディスク２１１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ２１１に送信され、ハードディスク２１１７に記憶されても良い。プログラムは実行の際にＲＡＭ２１１６にロードされる。プログラムは、ＣＤ−ＲＯＭ２２０１、ＦＤ２２０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ２１１に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム２１０がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音声合成装置は、場面に適した韻律が付与された音声を出力という効果を有し、優れた音声合成装置等として有用である。

実施の形態１における音声合成装置のブロック図同音声合成装置の動作について説明するフローチャート同音声合成装置の動作について説明するフローチャート同印象群情報のデータ構造例を説明する図同印象韻律関係情報管理表を示す図同印象韻律関係情報管理表を示す図同印象韻律関係情報管理表を示す図同印象付語彙辞書を示す図同印象付語彙辞書を示す図実施の形態２における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同出力イメージ管理表を示す図同処理部における処理例を説明する図同伝達情報の印象表現を示す図同３次元空間における印象基本表現の投影を示す図同対話音声サンプル収集に用いた発話語句に関する情報を示す図同読み上げ調と比較した際のＦ０の平均的高さの違いを示す図同読み上げ調と比較した際の発話時間長の違いを示す図同読み上げ調と比較した際のＦ０時間変化形状の違いを示す図同音声合成装置または音声処理装置を実現するコンピュータの外観を示す図同音声合成装置等のブロック図

符号の説明

１１印象付語彙情報格納部
１２印象韻律関係情報格納部
１３出力情報格納部
１４印象群情報取得部
１５韻律情報決定部
１６音声出力部
１０１音声受付部
１０２音声認識部
１０３処理部

Claims

語彙を示す情報である語彙情報と、前記語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している印象付語彙情報格納部と、
印象群情報または印象情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、
音声出力する対象であり、１以上の語彙情報を有する出力情報を格納している出力情報格納部と、
前記出力情報が有する語彙情報と対になる印象群情報を、前記印象付語彙情報格納部から取得する印象群情報取得部と、
前記印象韻律関係情報と、前記印象群情報取得部が取得した印象群情報に基づいて、前記１以上の語彙情報が示す１以上の語彙の韻律情報を決定する韻律情報決定部と、
前記韻律情報決定部が決定した１以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置。
印象群情報は、
確信または疑念の度合いを示す情報、否定または肯定の度合いを示す情報、好印象または悪印象の度合いを示す情報のうち１以上の情報である請求項１記載の音声合成装置。
前記韻律情報は、
基本周波数の平均的高さに関する情報である周波数高低情報、基本周波数の時間変化形状に関する情報である時間変化情報、発話時間長に関する情報である発話時間情報のうちの１以上の情報である請求項１または請求項２記載の音声合成装置。
前記韻律情報決定部は、
印象群情報が確信または疑念の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または／および発話時間情報を決定する請求項３記載の音声合成装置。
前記韻律情報決定部は、
印象群情報が否定または肯定の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または／および発話時間情報を決定する請求項３記載の音声合成装置。
前記韻律情報決定部は、
印象群情報が好印象または悪印象の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の周波数高低情報を決定する請求項３記載の音声合成装置。
語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納しており、前記印象群情報に基づいて決定される語彙の韻律情報を用いて、前記語彙情報を出力する音声合成装置。
語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報を含む印象付語彙情報を１以上格納している印象付語彙情報格納部と、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を認識し、音声情報を取得する音声認識部と、
前記音声情報が有する語彙情報に対応する印象群情報を、前記印象付語彙情報格納部から取得する印象群情報取得部と、
前記印象群情報取得部が取得した印象群情報に基づいて、所定の処理を行う処理部と、を具備する音声処理装置。
前記処理部は、
前記印象群情報が示す印象に対応する情報を視覚的に出力する請求項８記載の音声処理装置。
前記処理部は、
前記印象群情報が示す印象に対応する情報を音出力する請求項８記載の音声処理装置。
音声処理に利用する語彙に関する情報のデータ構造であって、
語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を１以上有する印象群情報とが対になる印象付語彙情報のデータ構造。
コンピュータに、
格納されている出力情報が有する語彙情報と対になる印象群情報を、格納されている印象付語彙情報から取得する印象群情報取得ステップと、
格納されている印象韻律関係情報と、前記印象群情報取得ステップで取得した印象群情報に基づいて、前記１以上の語彙情報が示す１以上の語彙の韻律情報を決定する韻律情報決定ステップと、
前記韻律情報決定ステップで決定した１以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力ステップと、を実行するためのプログラム。
コンピュータに、
音声を受け付ける音声受付ステップと、
前記音声受付ステップで受け付けた音声を認識し、音声情報を取得する音声認識ステップと、
前記音声情報が有する語彙情報に対応する印象群情報を、格納されている印象付語彙情報から取得する印象群情報取得ステップと、
前記印象群情報取得ステップで取得した印象群情報に基づいて、所定の処理を行う処理ステップと、を実行するためのプログラム。