JP2008139438A

JP2008139438A - 音声処理装置、端末装置、音声情報管理装置、および、プログラム

Info

Publication number: JP2008139438A
Application number: JP2006323978A
Authority: JP
Inventors: Ryosuke Miyata; 亮介宮田; Toshiyuki Fukuoka; 俊之福岡; Kiyouko Okuyama; 鏡子奥山; Hideshi Kitagawa; 英志北川; Takuo Ikeda; 拓郎池田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-11-30
Filing date: 2006-11-30
Publication date: 2008-06-19
Anticipated expiration: 2026-11-30
Also published as: US20080133240A1; JP4859642B2

Abstract

【課題】音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができる音声処理装置、端末装置、音声情報管理装置、および、プログラムを提供する。
【解決手段】ユーザデータを格納する端末装置２と通信可能な通信処理部３１と、合成音声を生成する音声合成部３８、および、入力音声を認識する音声認識部３７の少なくとも１つとを備えた音声処理装置３において、通信処理部３１は、ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、端末装置２から取得し、音声合成部３８は、通信処理部３１が取得した読み情報を用いて、合成音声を生成し、音声認識部３７は、通信処理部３１が取得した文法情報を用いて、入力音声を認識する。
【選択図】図１

Description

本発明は、ユーザデータを格納する端末装置に通信可能であって、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも１つを備えた音声処理装置、端末装置、音声情報管理装置、および、プログラムに関する。

近年、自動車などの移動体の運転者に、運行に関わる位置情報および交通情報などのナビゲーション情報を提供するカーナビゲーションシステム（音声処理装置）が普及してきている。特に、近年では、カーナビゲーションシステムの中でも、音声対話機能を備えたカーナビゲーションシステムが普及してきている。音声対話機能を備えたカーナビゲーションシステムに、携帯電話あるいは音楽プレーヤなどの端末装置を接続することによって、携帯電話を手に持つことなく通話（ハンズフリー通話）し、あるいは、音楽プレーヤを手で操作することなく楽曲を再生することができる（例えば、特許文献１または２参照）。

ところで、携帯電話には、電話帳の氏名やスケジュールなどのユーザデータが格納されている。一般に、携帯電話のユーザデータには、フリガナが含まれている。例えば、携帯電話に、「山田太郎」のユーザデータが格納されている場合、フリガナとして、「ヤマダタロウ」も併せて格納されている。このため、携帯電話がカーナビゲーションシステムに接続された場合、このカーナビゲーションシステムでは、フリガナを用いることにより、合成音声を生成し、あるいは、入力音声を認識することができる。例えば、カーナビゲーションシステムは、携帯電話に着信があった場合に、発信者の名前を、フリガナを用いることにより、合成音声にて読み上げる。また、カーナビゲーションシステムは、運転者が通話を所望する相手方の名前を発話した場合に、フリガナを用いてこの発話を認識し、その相手方に発信するように携帯電話に指示する。

また、音楽プレーヤには、楽曲名やアーティスト名などのユーザデータが格納されている。一般に、音楽プレーヤのユーザデータには、携帯電話と異なって、フリガナが含まれていない。このため、カーナビゲーションシステムに、ユーザデータの韻律情報を含む読み情報、および、ユーザデータの認識文法を示す文法情報を格納した音声情報データベースを備えておく。これにより、音楽プレーヤがカーナビゲーションシステムに接続された場合、このカーナビゲーションシステムでは、カーナビゲーションシステムに備えられている音声情報データベースを用いることにより、合成音声を生成し、あるいは、入力音声を認識することができる。例えば、カーナビゲーションシステムは、音楽プレーヤが楽曲を再生する場合に、再生する楽曲名を、読み情報を用いることにより、合成音声にて読み上げる。また、カーナビゲーションシステムは、運転者が再生を所望する楽曲名を発話した場合に、文法情報を用いてこの発話を認識し、その楽曲名を再生するように音楽プレーヤに指示する。
特開平５−９２７４１号公報特開２００１−９５６４６号公報

しかしながら、フリガナを用いて合成音声を生成し、あるいは、フリガナを用いて入力音声を認識する場合、以下のような問題を生じる。

すなわち、フリガナにはユーザデータの韻律情報を含む読み情報が含まれていないので、フリガナを用いて生成された合成音声は、音の区切りやイントネーションなどの韻律が不自然な音声となる。また、フリガナは、ユーザデータの読み方を単に示しているに過ぎないので、例えば、運転者がユーザデータの略称や俗称を発話した場合のように、正式名称以外の言い方で発話した場合、この発話を認識することができない。

一方、カーナビゲーションシステムに、読み情報および文法情報を格納した音声情報データベースを備えることにより、音声情報データベースに格納されている読み情報を用いて合成音声を生成し、あるいは、音声情報データベースに格納されている文法情報を用いて入力音声を認識する場合、上記の問題が生じない代わりに、新たに以下のような問題を生じる。

すなわち、音声情報データベースには、音楽プレーヤあるいは携帯電話に格納される可能性のあるユーザデータの読み情報および文法情報を全て格納する必要があるので、音声情報データベースの情報量が膨大になる。また、膨大な情報量を持つ音声情報データベースの中から、所望の読み情報および文法情報を抽出するための検索手段をカーナビゲーションシステムに備える必要がある。このため、カーナビゲーションシステムのコストが増大する。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができる音声処理装置、端末装置、音声情報管理装置、および、プログラムを提供することにある。

上記目的を達成するために本発明における音声処理装置は、ユーザデータを格納する端末装置と通信可能な通信処理部と、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも１つとを備えた音声処理装置において、前記通信処理部は、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、前記端末装置から取得し、前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する。

本発明の音声処理装置によれば、通信処理部は、ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、端末装置から取得する。音声合成部は、通信処理部が取得した読み情報を用いて、合成音声を生成する。音声認識部は、通信処理部が取得した文法情報を用いて、入力音声を認識する。これにより、上記従来の構成のように、音声処理装置に音声情報データベースおよび検索手段を備えなくとも、音声合成部は、韻律情報を含む読み情報を用いて合成音声を生成し、音声認識部は、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも１項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話（入力音声）を認識することができる。

なお、ユーザデータは、端末装置のデータであって、例えば、電話帳、スケジュール、楽曲などのデータである。

また、韻律情報は、アクセント、イントネーション、リズム、ポーズ、速さ、強弱などの情報である。

上記目的を達成するために本発明における端末装置は、合成音声を生成する機能、および、入力音声を認識する機能の少なくとも１つの機能を有する音声処理装置と通信可能なインタフェース部と、ユーザデータを格納するデータ記憶部とを備えた端末装置において、前記データ記憶部には、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されており、前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御部を備え、前記インタフェース部は、前記制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信する。

本発明の端末装置によれば、制御部は、端末装置のイベントまたは音声処理装置からのイベントを検知し、検知したイベントに基づいて、データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。インタフェース部は、制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、音声処理装置に送信する。これにより、上記従来の構成のように、音声処理装置に音声情報データベースおよび検索手段を備えなくとも、韻律情報を含む読み情報を用いて合成音声を生成し、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも１項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話（入力音声）を認識することができる。

上記目的を達成するために本発明における対話制御システムは、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも１つを有する音声処理装置に、ユーザデータを格納するデータ記憶部を有する端末装置が通信可能な対話制御システムにおいて、前記データ記憶部には、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されており、前記端末装置が、前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御部と、前記制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信するインタフェース部とを備え、前記音声処理装置が、前記インタフェース部が送信した読み情報および文法情報の少なくとも１つの情報を取得する通信処理部を備え、前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する。

本発明の対話制御システムによれば、制御部は、端末装置のイベントまたは音声処理装置からのイベントを検知し、検知したイベントに基づいて、データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。インタフェース部は、制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、音声処理装置に送信する。通信処理部は、インタフェース部が送信した読み情報および文法情報の少なくとも１つの情報を取得する。音声合成部は、通信処理部が取得した読み情報を用いて、合成音声を生成する。音声認識部は、通信処理部が取得した文法情報を用いて、入力音声を認識する。これにより、上記従来の構成のように、音声処理装置に音声情報データベースおよび検索手段を備えなくとも、音声合成部は、韻律情報を含む読み情報を用いて合成音声を生成し、音声認識部は、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも１項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話（入力音声）を認識することができる。

上記目的を達成するために本発明における音声情報管理装置は、端末装置と通信可能なデータ伝送部を備えた音声情報管理装置において、前記音声情報管理装置のイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記音声情報管理装置または前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理部と、前記ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報を格納する音声情報データベースと、前記データ管理部が抽出したユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報を抽出するデータ抽出部とを備え、前記データ管理部は、前記ユーザデータの項目値に、前記データ抽出部が抽出した読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成し、前記データ伝送部は、前記データ管理部が生成した音声データを、前記端末装置に送信する。

本発明の音声情報管理装置によれば、データ管理部は、音声情報管理装置のイベントまたは端末装置からのイベントを検知し、検知したイベントに基づいて、ユーザデータ記憶部からユーザデータを抽出する。データ抽出部は、データ管理部が抽出したユーザデータの項目値に基づいて、音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。データ管理部は、ユーザデータの項目値に、データ抽出部が抽出した読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成する。これにより、データ伝送部は、データ管理部が生成した音声データを、端末装置に送信することができる。それゆえ、端末装置には、読み情報および文法情報の少なくとも１つの情報が格納される。

本発明の音声情報管理装置において、前記データ抽出部は、前記ユーザデータの住所の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する態様とするのが好ましい。

上記構成によれば、データ抽出部は、ユーザデータの住所の項目値に基づいて、音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する。これにより、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、データ抽出部は、所望の読み情報および文法情報を抽出することができる。

本発明の音声情報管理装置において、前記データ抽出部は、前記ユーザデータの緯度および経度の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する態様とするのが好ましい。

上記構成によれば、データ抽出部は、ユーザデータの緯度および経度の項目値に基づいて、音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する。これにより、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、データ抽出部は、所望の読み情報および文法情報を抽出することができる。

本発明の音声情報管理装置において、前記読み情報および前記文法情報の少なくとも１つの情報の種類がそれぞれ異なる複数の音声情報データベースと、前記データ管理部が抽出したユーザデータの種類に基づいて、前記音声情報データベースを選択する選択部とをさらに備える態様とするのが好ましい。

上記構成によれば、音声情報管理装置には、読み情報および文法情報の少なくとも１つの情報の種類がそれぞれ異なる複数の音声情報データベースが備えられている。選択部は、データ管理部が抽出したユーザデータの種類に基づいて、音声情報データベースを選択する。これにより、音声情報管理装置のユーザは、例えば、人名、地名、スケジュール、楽曲など、種類がそれぞれ異なる複数の音声情報データベースに分類することができるので、音声情報データベースを容易に管理することができる。

本発明の音声情報管理装置において、サーバ装置と通信可能な通信部をさらに備え、前記サーバ装置が、前記読み情報および前記文法情報の少なくとも１つの情報を格納する音声情報データベースを備え、前記選択部は、前記データ管理部が抽出したユーザデータの種類に基づいて、前記サーバ装置に備えられている音声情報データベースを選択する態様とするのが好ましい。

上記構成によれば、選択部は、データ管理部が抽出したユーザデータの種類に基づいて、サーバ装置に備えられている音声情報データベースを選択する。これにより、データ管理部は、ユーザデータに、サーバ装置に備えられている音声情報データベースの読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成することができる。

上記目的を達成するために本発明におけるプログラムは、ユーザデータを格納する端末装置と通信可能な通信処理と、合成音声を生成する音声合成処理、および、入力音声を認識する音声認識処理の少なくとも１つの処理とをコンピュータに実行させるプログラムにおいて、前記通信処理は、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、前記端末装置から取得する処理を前記コンピュータに実行させ、前記音声合成処理は、前記通信処理で取得された読み情報を用いて、合成音声を生成する処理を前記コンピュータに実行させ、前記音声認識処理は、前記通信処理で取得された文法情報を用いて、入力音声を認識する処理を前記コンピュータに実行させる。

上記目的を達成するために本発明におけるプログラムは、ユーザデータを格納するデータ記憶部を備えたコンピュータに、合成音声を生成する機能、および、入力音声を認識する機能の少なくとも１つの機能を有する音声処理装置と通信可能なインタフェース処理を実行させるプログラムにおいて、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されている前記データ記憶部に、前記コンピュータがアクセス可能であって、前記コンピュータのイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御処理を前記コンピュータに実行させ、前記インタフェース処理は、前記制御処理で抽出された読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信する処理を前記コンピュータに実行させる。

上記目的を達成するために本発明におけるプログラムは、ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報を格納する音声情報データベースを備えたコンピュータに、端末装置と通信可能なデータ伝送処理を実行させるプログラムにおいて、前記コンピュータのイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記コンピュータまたは前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理処理と、前記データ管理処理で抽出されたユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報を抽出するデータ抽出処理とを前記コンピュータに実行させ、前記データ管理処理は、前記ユーザデータの項目値に、前記データ抽出処理で抽出された読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成する処理を前記コンピュータに実行させ、前記データ伝送処理は、前記データ管理処理で生成された音声データを、前記端末装置に送信する処理を前記コンピュータに実行させる。

なお、本発明におけるプログラムは、上記の音声処理装置、端末装置、および、音声情報管理装置と同様の効果を得る。

以上のように、本発明の音声処理装置、端末装置、音声情報管理装置、および、プログラムは、音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができるという効果を奏する。

以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。

（実施の形態１）
図１は、本実施形態に係る対話制御システム１の概略構成を示すブロック図である。すなわち、本実施形態に係る対話制御システム１は、端末装置２および音声処理装置３を備えている。端末装置２は、携帯電話、ＰＨＳ（Personal Handyphone System）、ＰＤＡ（Personal Digital Assistance）、音楽プレーヤなどの携帯端末である。音声処理装置３は、カーナビゲーションシステム、パーソナルコンピュータなどの装置である。端末装置２と音声処理装置３とは、有線Ｌにより互いに接続されている。なお、端末装置２と音声処理装置３とは、無線により互いにアクセス可能であっても良い。図１では、説明の簡略化のために、端末装置２および音声処理装置３を１台ずつ図示したが、対話制御システム１を構成する端末装置２および音声処理装置３の数は任意である。また、１台の音声処理装置３に、複数台の端末装置２が接続されていても良い。

本実施形態においては、一例として、端末装置２が携帯電話であり、音声処理装置３が車両に搭載されるカーナビゲーションシステムである場合について説明する。

（端末装置の構成）
端末装置２は、インタフェース部（図中、ＩＦ部）２１、データ記憶部２２、および、制御部２３を備えている。

インタフェース部２１は、音声処理装置３と制御部２３との間のインタフェース部である。具体的には、インタフェース部２１は、音声処理装置３へ送信するデータを通信に適したデータに変換し、音声処理装置３からのデータを内部で処理するのに適したデータに変換する。

データ記憶部２２は、ユーザデータを格納する。また、データ記憶部２２は、ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報を格納する。図２は、データ記憶部２２のデータ構造の一例を示す図である。図２に示すように、データ記憶部２２は、項目名、項目値、フリガナ、発音、および、文法を、エントリ２２ａにて格納する。項目名は、項目の名称を示す。項目値は、項目名に対応する内容を示す。フリガナは、項目値の読み方を示す。発音は、項目値のアクセントを示す。文法は、項目値の認識文法を示す。なお、本実施形態においては、ユーザデータは、上記の項目値を示す。また、読み情報は、上記の発音を示す。但し、読み情報には、上記の発音以外に、イントネーション、リズム、ポーズ、速さ、強弱など、その他の韻律情報が含まれていても良い。文法情報は、上記の文法を示す。

図２に示すように、エントリ２２ａの１行目Ｒ１には、項目名「ＩＤ」、項目値「００２４６」が格納されている。「ＩＤ」は、エントリ２２ａを一意に識別するための識別符号である。２行目Ｒ２には、項目名「姓」、項目値「山田」、フリガナ「ヤマダ」、発音「やま‘だ」、文法「やまだ」が格納されている。３行目Ｒ３には、項目名「名」、項目値「太郎」、フリガナ「タロウ」、発音「‘たろー」、文法「たろー」が格納されている。なお、発音の「‘」記号は、「‘」の部分で高い発音をするためのアクセント記号である。また、１項目の項目値に複数の発音が格納されていても良い。４行目Ｒ４には、項目名「自宅電話番号」、項目値「０１２−３４−５６７８」が格納されている。５行目Ｒ５には、項目名「自宅メールアドレス」、項目値「ｔａｒｏ＠ｐｒｏｖｉｄｅｒ．ｎｅ．ｊｐ」が格納されている。６行目Ｒ６には、項目名「携帯電話番号」、項目値「０８０−１２３４−５６７８」が格納されている。７行目Ｒ７には、項目名「携帯メールアドレス」、項目値「ｔａｒｏ＠ｋｅｉｔａｉ．ｎｅ．ｊｐ」が格納されている。すなわち、データ記憶部２２には、端末装置２の電話帳のユーザデータが格納されているが、これはあくまでも一例に過ぎない。

制御部２３は、端末装置２のイベントまたは音声処理装置３からのイベントを検知すると、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータを抽出する。また、制御部２３は、端末装置２のイベントまたは音声処理装置３からのイベントを検知すると、予め定められている抽出規則に従って、データ記憶部２２に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。なお、抽出規則は、エントリに格納されている全ての読み情報および文法情報を抽出する規則であっても良いし、所定の読み情報および文法情報を抽出する規則であっても良い。すなわち、抽出規則は任意である。制御部２３は、抽出したユーザデータをインタフェース部２１に出力する。また、制御部２３は、抽出した読み情報および文法情報の少なくとも１つの情報をインタフェース部２１に出力する。インタフェース部２１は、制御部２３から出力されたユーザデータを音声処理装置３に送信する。また、インタフェース部２１は、制御部２３から出力された読み情報および文法情報の少なくとも１つの情報を音声処理装置３に送信する。

一例として、端末装置２に発信者から着信があると、制御部２３は、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータ、および、このユーザデータの読み情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「姓」および「名」の読み情報を抽出する規則であるものとする。具体的には、制御部２３は、発信データが示す発信者の電話番号「０１２−３４−５６７８」に基づいて、データ記憶部２２に格納されているユーザデータ「山田」および「太郎」、読み情報「やま‘だ」および「‘たろー」を抽出する。制御部２３は、抽出したこれらの情報をインタフェース部２１に出力する。インタフェース部２１は、制御部２３から出力されたユーザデータ「山田」および「太郎」、読み情報「やま‘だ」および「‘たろー」を音声処理装置３に送信する。これにより、音声処理装置３においては、端末装置２に着信のあった発信者の名前を、「やま‘だ」「‘たろー」と自然な韻律により合成音声にて読み上げることができる。

他の例として、音声処理装置３から文法情報を取得するための要求があると、制御部２３は、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータ、および、このユーザデータの文法情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「姓」および「名」の文法情報を抽出する規則であるものとする。具体的には、制御部２３は、音声処理装置３からの要求に基づいて、データ記憶部２２に格納されているユーザデータ「山田」および「太郎」、文法情報「やまだ」および「たろー」を抽出する。制御部２３は、抽出したこれらの情報を、インタフェース部２１に出力する。インタフェース部２１は、制御部２３から出力されたユーザデータ「山田」および「太郎」、文法情報「やまだ」および「たろー」を音声処理装置３に送信する。これにより、例えば、ユーザが「やまだたろー」と発話すると、音声処理装置３は、この発話を認識し、山田太郎の携帯電話に発信するように端末装置２に指示することができる。

ところで、上記の端末装置２は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のインタフェース部２１および制御部２３は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、インタフェース部２１および制御部２３の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、データ記憶部２２は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

（音声処理装置の構成）
音声処理装置３は、通信処理部３１、対話制御部３２、キー入力部３３、画面表示部３４、音声入力部３５、音声出力部３６、音声認識部３７、および、音声合成部３８を備えている。

通信処理部３１は、端末装置２と対話制御部３２との間の通信を処理する。具体的には、通信処理部３１は、端末装置２から送信されたユーザデータを取得する。また、通信処理部３１は、端末装置２から送信された読み情報および文法情報の少なくとも１つの情報を取得する。すなわち、通信処理部３１は、対話制御部３２からの要求に従い能動的に読み情報および文法情報の少なくとも１つの情報を取得し、あるいは、対話制御部３２からの要求に関わらず受動的に読み情報および文法情報の少なくとも１つの情報を取得する。通信処理部３１は、取得したこれらの情報をメモリに格納しても良い。通信処理部３１は、取得したユーザデータを対話制御部３２に出力する。また、通信処理部３１は、読み情報および文法情報の少なくとも１つの情報を対話制御部３２に出力する。

対話制御部３２は、音声処理装置３のイベントまたは端末装置２からのイベントを検知し、検知したイベントに対する応答を決定する。すなわち、対話制御部３２は、通信処理部３１、キー入力部３３、音声認識部３７のイベントを検知し、検知したイベントに対する応答を決定し、決定した応答を、通信処理部３１、画面表示部３４、音声合成部３８に出力する。なお、対話制御部３２は、通信処理部３１、キー入力部３３、音声認識部３７のイベントの他に、対話制御部３２自身のイベントも検知することができる。例えば、対話制御部３２は、音声処理装置３が搭載される車両が、右折あるいは左折すべき地点に近づいた場合、あるいは、音声処理装置３の電源が投入された場合などを対話制御部３７自身のイベントとして検知することができる。

一例として、対話制御部３２は、キー入力部３３のイベントを検知し、データ記憶部２２に格納されているユーザデータと、データ記憶部２２に格納されている読み情報および文法情報の少なくとも１つの情報とを取得するように、通信処理部３１に指示する。本実施形態においては、ユーザが、キー入力部３３を用いて、データ記憶部２２に格納されている全てのユーザデータおよび文法情報を取得するための操作を行ったものとする。この場合、対話制御部３２は、データ記憶部２２に格納されている全てのユーザデータおよび文法情報を取得するように、通信処理部３１に指示する。なお、ユーザが発話することにより、端末装置２から相手方の携帯電話に発信する場合、対話制御部３２は、頻繁に通話する相手方の電話帳のユーザデータおよび文法情報を取得するように、通信処理部３１に指示しても良い。これにより、データ記憶部２２に格納されている全てのユーザデータおよび文法情報を取得し、音声認識部３７が入力音声を認識する態様と比較して、音声認識部３７による認識処理の速度を向上することができる。

他の例として、対話制御部３２は、通信処理部３１のイベントを検知し、通信処理部３１から出力されたユーザデータを画面表示部３４に出力する。具体的には、対話制御部３２は、予め用意されている画面表示用のテンプレートに、通信処理部３１から出力されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部３４に出力する。また、対話制御部３２は、通信処理部３１から出力されたユーザデータおよび文法情報を音声認識部３７に出力する。さらに、対話制御部３２は、通信処理部３１から出力された読み情報を音声合成部３８に出力する。具体的には、対話制御部３２は、予め用意されている音声合成用のテンプレートに、通信処理部３１から出力された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部３８に出力する。

図３（ａ）は、画面表示用のテンプレートの一例を示す図である。本実施形態においては、図３（ａ）のテンプレートの「ｆａｍｉｌｙｎａｍｅ」には、「姓」のユーザデータが関連付けられている。また、「ｇｉｖｅｎｎａｍｅ」には、「名」のユーザデータが関連付けられている。対話制御部３２は、図３（ａ）のテンプレートの「ｆａｍｉｌｙｎａｍｅ」にユーザデータ「山田」を挿入し、「ｇｉｖｅｎｎａｍｅ」にユーザデータ「太郎」を挿入する。対話制御部３２は、「山田太郎さんから電話です」を示す文字列を画面表示部３４に出力する。

図３（ｂ）は、音声合成用のテンプレートの一例を示す図である。本実施形態においては、図３（ｂ）のテンプレートの「ｆａｍｉｌｙｎａｍｅ」には、「姓」の読み情報が関連付けられている。また、「ｇｉｖｅｎｎａｍｅ」には、「名」の読み情報が関連付けられている。対話制御部３２は、図３（ｂ）のテンプレートの「ｆａｍｉｌｙｎａｍｅ」に読み情報「やま‘だ」を挿入し、「ｇｉｖｅｎｎａｍｅ」に読み情報「‘たろー」を挿入する。対話制御部３２は、「やま‘だ‘たろーさんから電話です」を示す文字列を音声合成部３８に出力する。

キー入力部３３は、スイッチ、テンキー、リモコン、タブレット、タッチパネル、キーボード、マウスなどの任意の入力デバイスから構成される。キー入力部３３は、入力情報を対話制御部３２に出力する。対話制御部３２は、キー入力部３３から出力された入力情報をイベントとして検知する。

画面表示部３４は、液晶ディスプレイ、有機ＥＬディスプレイ、プラズマディスプレイ、ＣＲＴディスプレイなどの任意の表示デバイスから構成される。画面表示部３４には、対話制御部３２から出力された文字列が表示される。本実施形態においては、画面表示部３４には、「山田太郎さんから電話です」が表示される。

音声入力部３５は、ユーザの発話を、入力音声として入力する。なお、音声入力部３５は、マイクロフォンなどの音声入力デバイスから構成される。

音声出力部３６は、音声合成部３８から出力された合成音声を出力する。音声出力部３６は、スピーカなどの出力デバイスから構成される。

音声認識部３７は、音声入力部３５に入力された入力音声を認識する。具体的には、音声認識部３７は、入力音声と、対話制御部３２から出力された文法情報とを音響解析により比較を行い、対話制御部３２から出力された文法情報の中から最も特性が一致する文法情報を抽出し、抽出した文法情報のユーザデータを認識結果とする。音声認識部３７は、認識結果を対話制御部３２に出力する。対話制御部３２は、音声認識部３７から出力された認識結果をイベントとして検知する。なお、音声認識部３７は、対話制御部３２から出力されたユーザデータおよび文法情報を格納する認識単語辞書を備えていても良い。

一例として、対話制御部３２から文法情報「やまだ」および「たろー」が音声認識部３７に出力されたものとする。この場合、ユーザが「やまだたろー」と発話すると、音声認識部３７は、この発話を認識し、文法情報「やまだ」および「たろー」のユーザデータ「山田太郎」を認識結果とする。音声認識部３７は、認識結果となる「山田太郎」を対話制御部３２に出力する。これにより、対話制御部３２は、例えば、山田太郎の携帯電話に発信するように、通信処理部３１に指示することができる。通信処理部３１は、対話制御部３２からの指示を、端末装置２に送信する。

音声合成部３８は、対話制御部３２から出力された読み情報に基づいて合成音声を生成する。本実施形態においては、音声合成部３８は、「やま‘だ‘たろーさんから電話です」を示す合成音声を生成する。音声合成部３８は、生成した合成音声を音声出力部３６に出力する。

ところで、上記の音声処理装置３は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の通信処理部３１、対話制御部３２、キー入力部３３、画面表示部３４、音声入力部３５、音声出力部３６、音声認識部３７および音声合成部３８は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、通信処理部３１、対話制御部３２、キー入力部３３、画面表示部３４、音声入力部３５、音声出力部３６、音声認識部３７および音声合成部３８の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。

（対話制御システムの動作）
次に、上記の構成に係る対話制御システム１の処理について、図４および図５を参照しながら説明する。

図４は、音声処理装置３が、端末装置２からユーザデータおよび読み情報を取得する処理の概要を示すフローチャートである。すなわち、図４に示すように、制御部２３が、端末装置２のイベントまたは音声処理装置３からのイベントを検知すれば（工程Ｏｐ１にてＹＥＳ）、制御部２３は、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータおよび読み情報を抽出する（工程Ｏｐ２）。一方、制御部２３が、端末装置２のイベントまたは音声処理装置３からのイベントを検知しなければ（工程Ｏｐ１にてＮＯ）、工程Ｏｐ１に戻る。

インタフェース部２１は、工程Ｏｐ２にて抽出されたユーザデータおよび読み情報を、音声処理装置３に送信する（工程Ｏｐ３）。音声処理装置３の通信処理部３１は、工程Ｏｐ３にて送信されたユーザデータおよび読み情報を取得する（工程Ｏｐ４）。対話制御部３２は、予め用意されている画面表示用のテンプレートに、工程Ｏｐ４にて取得されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部３４に出力する（工程Ｏｐ５）。また、対話制御部３２は、予め用意されている音声合成用のテンプレートに、工程Ｏｐ４にて取得された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部３８に出力する（工程Ｏｐ６）。なお、図４においては、工程Ｏｐ５と工程Ｏｐ６との処理が直列的に実行される態様としているが、工程Ｏｐ５と工程Ｏｐ６とが並列的に実行される態様であっても良い。

画面表示部３４は、工程Ｏｐ５にて出力された文字列を表示する（工程Ｏｐ７）。音声合成部３８は、工程Ｏｐ６にて出力された文字列の合成音声を生成する（工程Ｏｐ８）。音声出力部３６は、工程Ｏｐ８にて生成された合成音声を出力する（工程Ｏｐ９）。なお、図４においては、工程Ｏｐ７において、工程Ｏｐ５にて出力された文字列を表示する態様としているが、画面表示部３４に文字列を表示しない場合は、工程Ｏｐ５および工程Ｏｐ７の処理を省略しても良い。

図５は、音声処理装置３が、端末装置２からユーザデータおよび文法情報を取得する処理の概要を示すフローチャートである。すなわち、図５に示すように、制御部２３が、端末装置２のイベントまたは音声処理装置３からのイベントを検知すれば（工程Ｏｐ１１にてＹＥＳ）、制御部２３は、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータおよび文法情報を抽出する（工程Ｏｐ１２）。一方、制御部２３が、端末装置２のイベントまたは音声処理装置３からのイベントを検知しなければ（工程Ｏｐ１１にてＮＯ）、工程Ｏｐ１１に戻る。

インタフェース部２１は、工程Ｏｐ１２にて抽出されたユーザデータおよび文法情報を、音声処理装置３に送信する（工程Ｏｐ１３）。音声処理装置３の通信処理部３１は、工程Ｏｐ１３にて送信されたユーザデータおよび文法情報を取得する（工程Ｏｐ１４）。対話制御部３２は、工程Ｏｐ１４にて取得されたユーザデータおよび文法情報を音声認識部３７に出力する（工程Ｏｐ１５）。

ここで、音声入力部３５が、ユーザの発話を、入力音声として入力すれば（工程Ｏｐ１６にてＹＥＳ）、音声認識部３７は、この入力音声と、工程Ｏｐ１５にて出力された文法情報とを音響解析により比較を行い、工程Ｏｐ１５にて出力された文法情報の中から最も特性が一致する文法情報を抽出し、抽出した文法情報のユーザデータを認識結果とする。音声認識部３７は、認識結果を対話制御部３２に出力する（工程Ｏｐ１７）。一方、音声入力部３５が、入力音声を入力しなければ（工程Ｏｐ１６にてＮＯ）、工程Ｏｐ１６に戻る。

以上のように、本実施形態に係る対話制御システム１によれば、制御部２３は、端末装置２のイベントまたは音声処理装置３からのイベントを検知し、検知したイベントに基づいて、データ記憶部２２に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。インタフェース部２１は、制御部２３が抽出した読み情報および文法情報の少なくとも１つの情報を、音声処理装置３に送信する。通信処理部３１は、インタフェース部２１が送信した読み情報および文法情報の少なくとも１つの情報を取得する。音声合成部３８は、通信処理部３１が取得した読み情報を用いて、合成音声を生成する。音声認識部３７は、通信処理部３１が取得した文法情報を用いて、入力音声を認識する。これにより、上記従来の構成のように、音声処理装置３に音声情報データベースおよび検索手段を備えなくとも、音声合成部３８は、韻律情報を含む読み情報を用いて合成音声を生成し、音声認識部３７は、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置３のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも１項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話（入力音声）を認識することができる。

なお、図４においては、音声処理装置３が、端末装置２からユーザデータおよび読み情報を取得する処理、図５においては、音声処理装置３が、端末装置２からユーザデータおよび文法情報を取得する処理について説明したが、これに限定されない。すなわち、音声処理装置３が、端末装置２からユーザデータ、読み情報および文法情報を取得しても良い。

また、上記した具体例は、本発明に係る対話制御システム１の好適な実施形態に過ぎず、例えば、データ記憶部２２に格納されているエントリの内容や、対話制御部３２が用いるテンプレートなどについて、種々の変更が可能である。

（第１の変形例）
一例として、端末装置２がＰＤＡである場合の第１の変形例を説明する。図６は、第１の変形例におけるデータ記憶部２２のデータ構造の一例を示す図である。図６に示すように、データ記憶部２２は、項目名、項目値、フリガナ、発音、および、文法を、エントリ２２ｂにて格納する。エントリ２２ｂの１行目Ｒ１には、項目名「ＩＤ」、項目値「００１２３」が格納されている。「ＩＤ」は、エントリ２２ｂを一意に識別するための識別符号である。２行目Ｒ２には、項目名「タイトル」、項目値「グループ会議」、フリガナ「グループカイギ」、発音「ぐ‘るーぷかいぎ」、文法「ぐるーぷかいぎ」および「ぐるーぷみーてぃんぐ」が格納されている。すなわち、項目値「グループ会議」には、「ぐるーぷかいぎ」および「ぐるーぷみーてぃんぐ」の２つの認識文法を示す文法情報が格納されている。３行目Ｒ３には、項目名「開始日時」、項目値「８月１０日９時３０分」、発音「く‘じさん‘じゅっぷん」が格納されている。４行目Ｒ４には、項目名「終了日時」、項目値「８月１０日１２時００分」、発音「じゅう‘にじ」が格納されている。５行目Ｒ５には、項目名「繰り返し」、項目値「毎週」が格納されている。６行目Ｒ６には、項目名「場所」、項目値「Ａ会議室」、フリガナ「エーカイギシツ」、発音「‘えーかいぎしつ」、文法「えーかいぎしつ」が格納されている。７行目Ｒ７には、項目名「説明」、項目値「いつもの進捗会議」が格納されている。すなわち、第１の変形例におけるデータ記憶部２２には、端末装置２のスケジュールのユーザデータが格納されているが、これはあくまでも一例に過ぎない。

ここで、例えば、音声処理装置３から読み情報および文法情報を取得するための要求があると、制御部２３は、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータ、および、このユーザデータの読み情報ならびに文法情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「タイトル」、「開始日時」、「終了日時」および「場所」の項目値の読み情報および文法情報を抽出する規則であるものとする。具体的には、制御部２３は、音声処理装置３からの要求に基づいて、データ記憶部２２に格納されているユーザデータ「グループ会議」、開始日時「８月１０日９時３０分」、終了日時「８月１０日１２時００分」および場所「Ａ会議室」を抽出する。また、制御部２３は、読み情報「ぐ‘るーぷかいぎ」、「く‘じさん‘じゅっぷん」、「じゅう‘にじ」および「‘えーかいぎしつ」を抽出する。さらに、制御部２３は、文法情報「ぐるーぷかいぎ」、「ぐるーぷみーてぃんぐ」および「えーかいぎしつ」を抽出する。制御部２３は、抽出したこれらの情報をインタフェース部２１に出力する。インタフェース部２１は、制御部２３から出力されたユーザデータ「グループ会議」、開始日時「８月１０日９時３０分」、終了日時「８月１０日１２時００分」および場所「Ａ会議室」、読み情報「ぐ‘るーぷかいぎ」、「く‘じさん‘じゅっぷん」、「じゅう‘にじ」および「‘えーかいぎしつ」、文法情報「ぐるーぷかいぎ」、「ぐるーぷみーてぃんぐ」および「えーかいぎしつ」を音声処理装置３に送信する。これにより、例えば、ユーザが「ぐるーぷかいぎ」あるいは「ぐるーぷみーてぃんぐ」と発話すると、音声処理装置３は、この発話を認識し、例えば、グループ会議のスケジュールを自然な韻律により合成音声にて読み上げることができる。

なお、音声処理装置３から読み情報および文法情報を取得するための要求は、データ記憶部２２に格納されている全ての読み情報および文法情報を取得するための要求であっても良いし、音声処理装置３のユーザにより指定されたスケジュール（例えば、本日のスケジュール、１週間のスケジュール）の読み情報および文法情報を取得するための要求であっても良い。

対話制御部３２は、予め用意されている画面表示用のテンプレートに、通信処理部３１から出力されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部３４に出力する。また、対話制御部３２は、通信処理部３１から出力されたユーザデータおよび文法情報を音声認識部３７に出力する。さらに、対話制御部３２は、予め用意されている音声合成用のテンプレートに、通信処理部３１から出力された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部３８に出力する。

図７（ａ）は、第１の変形例における画面表示用のテンプレートの一例を示す図である。本実施形態においては、図７（ａ）のテンプレートの「ｄａｔｅ」には、「開始日時」のユーザデータが関連付けられている。また、「ｐｌａｃｅ」には、「場所」のユーザデータが関連付けられている。対話制御部３２は、図７（ａ）のテンプレートの「ｄａｔｅ」にユーザデータ「８月１０日９時３０分」を挿入し、「ｐｌａｃｅ」にユーザデータ「Ａ会議室」を挿入する。対話制御部３２は、「日時：８月１０日９時３０分、場所：Ａ会議室」を示す文字列を画面表示部３４に出力する。これにより、画面表示部３４には、「日時：８月１０日９時３０分、場所：Ａ会議室」が表示される。

図７（ｂ）は、第１の変形例における音声合成用のテンプレートの一例を示す図である。本実施形態においては、図７（ｂ）のテンプレートの「ｄａｔｅ」には、「開始日時」の読み情報が関連付けられている。また、「ｐｌａｃｅ」には、「場所」の読み情報が関連付けられている。対話制御部３２は、図７（ｂ）のテンプレートの「ｄａｔｅ」に読み情報「く‘じさん‘じゅっぷん」を挿入し、「ｐｌａｃｅ」に読み情報「‘えーかいぎしつ」を挿入する。対話制御部３２は、「く‘じさん‘じゅっぷんから予定があります。場所は‘えーかいぎしつです」を示す文字列を音声合成部３８に出力する。これにより、音声合成部３８は、「く‘じさん‘じゅっぷんから予定があります。場所は‘えーかいぎしつです」を示す合成音声を生成する。

音声認識部３７は、音声入力部３５に入力された入力音声を認識する。例えば、対話制御部３２から文法情報「ぐるーぷかいぎ」、「ぐるーぷみーてぃんぐ」および「えーかいぎしつ」が出力されたものとする。この場合、ユーザが「ぐるーぷかいぎ」と発話すると、音声認識部３７は、この発話を認識し、文法情報「ぐるーぷかいぎ」のユーザデータ「グループ会議」を認識結果とする。また、ユーザが「ぐるーぷみーてぃんぐ」と発話しても、音声認識部３７は、この発話を認識し、文法情報「ぐるーぷみーてぃんぐ」のユーザデータ「グループ会議」を認識結果とする。すなわち、ユーザが、ユーザデータの正式名称以外に、例えば、略称や俗称を発話した場合であっても、音声認識部３７は、この発話を認識することができる。音声認識部３７は、認識結果となる「グループ会議」を対話制御部３２に出力する。これにより、対話制御部３２は、例えば、グループ会議のスケジュールを取得するように、通信処理部３１に指示することができる。通信処理部３１は、対話制御部３２からの指示を、端末装置２に送信する。

（第２の変形例）
他の例として、端末装置２が音楽プレーヤである場合の第２の変形例を説明する。図８は、第２の変形例におけるデータ記憶部２２のデータ構造の一例を示す図である。図８に示すように、データ記憶部２２は、項目名、項目値、フリガナ、発音、および、文法を、エントリ２２ｃにて格納する。エントリ２２ｃの１行目Ｒ１には、項目名「ＩＤ」、項目値「０１３５７」が格納されている。「ＩＤ」は、エントリ２２ｃを一意に識別するための識別符号である。２行目Ｒ２には、項目名「楽曲名」、項目値「赤いブランコ」、フリガナ「アカイブランコ」、発音「あ‘かいぶらんこ」、文法「あかいぶらんこ」が格納されている。３行目Ｒ３には、項目名「アーティスト名」、項目値「山崎次郎」、フリガナ「ヤマザキジロウ」、発音「や‘まざき‘じろう」、文法「やまざきじろう」および「やまさきじろう」が格納されている。４行目Ｒ４には、項目名「アルバム名」、項目値「チューリップ」、フリガナ「チューリップ」、発音「‘ちゅーりっぷ」、文法「ちゅーりっぷ」が格納されている。５行目Ｒ５には、項目名「楽曲番号」、項目値「１」が格納されている。６行目Ｒ６には、項目名「ファイル名」、項目値「０１３５７．ｍｐ３」が格納されている。すなわち、図８のエントリ２２ｃには、端末装置２の楽曲のユーザデータが格納されているが、これはあくまでも一例に過ぎない。

ここで、例えば、音声処理装置３から読み情報および文法情報を取得するための要求があると、制御部２３は、予め定められている抽出規則に従って、データ記憶部２２に格納されているユーザデータ、および、このユーザデータの読み情報ならびに文法情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「楽曲名」および「アーティスト名」の項目値の読み情報および文法情報を抽出する規則であるものとする。具体的には、制御部２３は、音声処理装置３からの要求に基づいて、データ記憶部２２に格納されているユーザデータ「赤いブランコ」および「山崎次郎」、読み情報「あ‘かいぶらんこ」および「や‘まざき‘じろう」、文法情報「あかいぶらんこ」、「やまざきじろう」および「やまさきじろう」を抽出する。制御部２３は、抽出したこれらの情報をインタフェース部２１に出力する。インタフェース部２１は、制御部２３から出力されたユーザデータ「赤いブランコ」および「山崎次郎」、読み情報「あ‘かいぶらんこ」および「や‘まざき‘じろう」、文法情報「あかいぶらんこ」、「やまざきじろう」および「やまさきじろう」を音声処理装置３に送信する。これにより、例えば、ユーザが「あかいぶらんこ」と発話すると、音声処理装置３は、この発話を認識し、赤いブランコの楽曲を再生するように端末装置２に指示することができる。また、音声処理装置３は、端末装置２が再生した楽曲名およびアーティスト名を自然な韻律により合成音声にて読み上げることができる。

なお、音声処理装置３から読み情報および文法情報を取得するための要求は、データ記憶部２２に格納されている全ての読み情報および文法情報を取得するための要求であっても良いし、音声処理装置３のユーザによって指定された楽曲名あるいはアーティスト名の読み情報および文法情報を取得するための要求であっても良い。また、再生回数の多い楽曲の読み情報および文法情報を取得するための要求であっても良い。

図９（ａ）は、第２の変形例における画面表示用のテンプレートの一例を示す図である。本実施形態においては、図９（ａ）のテンプレートの「ｔｕｎｅｎａｍｅ」には、「楽曲名」のユーザデータが関連付けられている。また、「ａｒｔｉｓｔｎａｍｅ」には、「アーティスト名」のユーザデータが関連付けられている。対話制御部３２は、図９（ａ）のテンプレートの「ｔｕｎｅｎａｍｅ」にユーザデータ「赤いブランコ」を挿入し、「ａｒｔｉｓｔｎａｍｅ」にユーザデータ「山崎次郎」を挿入する。対話制御部３２は、「曲名：赤いブランコ、アーティスト：山崎次郎」を示す文字列を画面表示部３４に出力する。これにより、画面表示部３４には、「曲名：赤いブランコ、アーティスト：山崎次郎」が表示される。

図９（ｂ）は、第２の変形例における音声合成用のテンプレートの一例を示す図である。本実施形態においては、図９（ｂ）のテンプレートの「ｔｕｎｅｎａｍｅ」には、「楽曲名」の読み情報が関連付けられている。また、「ａｒｔｉｓｔｎａｍｅ」には、「アーティスト名」の読み情報が関連付けられている。対話制御部３２は、図９（ｂ）のテンプレートの「ａｒｔｉｓｔｎａｍｅ」に読み情報「や‘まざき‘じろう」を挿入し、「ｔｕｎｅｎａｍｅ」に読み情報「あ‘かいぶらんこ」を挿入する。対話制御部３２は、「や‘まざき‘じろうのあ‘かいぶらんこを再生します」を示す文字列を音声合成部３８に出力する。これにより、音声合成部３８は、「や‘まざき‘じろうのあ‘かいぶらんこを再生します」を示す合成音声を生成する。

音声認識部３７は、音声入力部３５に入力された入力音声を認識する。例えば、対話制御部３２から文法情報「あかいぶらんこ」、「やまざきじろう」および「やまさきじろう」が出力されたものとする。この場合、ユーザが「あかいぶらんこ」と発話すると、音声認識部３７は、この発話を認識し、文法情報「あかいぶらんこ」のユーザデータ「赤いブランコ」を認識結果とする。音声認識部３７は、認識結果となる「赤いブランコ」を対話制御部３２に出力する。これにより、対話制御部３２は、例えば、赤いブランコの楽曲を再生するように、通信処理部３１に指示することができる。通信処理部３１は、対話制御部３２からの指示を、端末装置２に送信する。

（実施の形態２）
実施の形態１では、音声処理装置に端末装置が接続されることにより、音声処理装置が、端末装置のデータ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を取得し、取得した読み情報に基づいて合成音声を生成し、取得した文法情報に基づいて入力音声を認識する例について説明した。これに対して、実施の形態２では、音声情報管理装置に端末装置が接続されることにより、端末装置が、音声情報管理装置のユーザデータ記憶部に格納されているユーザデータと、音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報とを音声データとして取得し、取得した音声データをデータ記憶部に格納する例について説明する。

図１０は、本実施形態に係る対話制御システム１０の概略構成を示すブロック図である。図１０において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

すなわち、本実施形態に係る対話制御システム１０は、図１に示す音声処理装置３の代わりに、音声情報管理装置４を備えている。端末装置２と音声情報管理装置４とは、有線Ｌにより互いに接続されている。なお、端末装置２と音声情報管理装置４とは、無線により互いにアクセス可能であっても良い。

本実施形態においては、一例として、端末装置２が携帯電話であり、音声情報管理装置４がパーソナルコンピュータである場合について説明する。

（音声情報管理装置の構成）
音声情報管理装置４は、ユーザデータ記憶部４１、入力部４２、音声情報データベース４３、読取部４４、データ管理部４５、データ抽出部４６、および、データ伝送部４７を備えている。

ユーザデータ記憶部４１は、ユーザデータを格納する。図１１は、ユーザデータ記憶部４１のデータ構造の一例を示す図である。図１１に示すように、ユーザデータ記憶部４１は、項目名、項目値、および、フリガナを、エントリ４１ａにて格納する。項目名は、項目の名称を示す。項目値は、項目名に対応する内容を示す。フリガナは、項目値の読み方を示す。

図１１に示すように、エントリ４１ａの１行目Ｒ１には、項目名「ＩＤ」、項目値「００２４６」が格納されている。「ＩＤ」は、エントリ４１ａを一意に識別するための識別符号である。２行目Ｒ２には、項目名「姓」、項目値「山田」、フリガナ「ヤマダ」が格納されている。３行目Ｒ３には、項目名「名」、項目値「太郎」、フリガナ「タロウ」が格納されている。４行目Ｒ４には、項目名「自宅電話番号」、項目値「０１２−３４−５６７８」が格納されている。５行目Ｒ５には、項目名「自宅メールアドレス」、項目値「ｔａｒｏ＠ｐｒｏｖｉｄｅｒ．ｎｅ．ｊｐ」が格納されている。６行目Ｒ６には、項目名「携帯電話番号」、項目値「０８０−１２３４−５６７８」が格納されている。７行目Ｒ７には、項目名「携帯メールアドレス」、項目値「ｔａｒｏ＠ｋｅｉｔａｉ．ｎｅ．ｊｐ」が格納されている。すなわち、ユーザデータ記憶部４１には、電話帳のユーザデータが格納されているが、これはあくまでも一例に過ぎない。

入力部４２は、ユーザデータを、音声情報管理装置４のユーザに入力させる。入力部４２から入力されたユーザデータは、ユーザデータ記憶部４１に格納される。なお、入力部４２は、キーボード、マウス、テンキー、タブレット、タッチパネル、音声認識装置などの任意の入力デバイスから構成される。

音声情報データベース４３は、ユーザデータの項目値の韻律情報を含む読み情報、および、ユーザデータの項目値の１または複数の認識文法を示す文法情報を格納する。図１２〜図１４は、音声情報データベース４３のデータ構造の一例を示す図である。図１２〜図１４に示すように、音声情報データベース４３は、項目名、項目値、フリガナ、発音、および、文法を、エントリ４３ａ〜４３ｃにて格納する。すなわち、音声情報データベース４３には、エントリ４３ａ、エントリ４３ｂ、エントリ４３ｃが格納されている。なお、発音は、項目値の発音（韻律）を示す。文法は、項目値の認識文法を示す。

図１２に示すように、エントリ４３ａの１行目Ｒ１には、項目名「ＩＤ」、項目値「１１２２３３４４５５」が格納されている。「ＩＤ」は、エントリ４３ａを一意に識別するための識別符号である。２行目Ｒ２には、項目名「姓」、項目値「山田」、フリガナ「ヤマダ」、発音「やま‘だ」、文法「やまだ」が格納されている。３行目Ｒ３には、項目名「名」、項目値「太郎」、フリガナ「タロウ」、発音「‘たろー」、文法「たろー」が格納されている。

図１３に示すように、エントリ４３ｂの１行目Ｒ１には、項目名「ＩＤ」、項目値「１１２２３３４４６６」が格納されている。「ＩＤ」は、エントリ４３ｂを一意に識別するための識別符号である。２行目Ｒ２には、項目名「タイトル」、項目値「グループ会議」、フリガナ「グループカイギ」、発音「ぐ‘るーぷかいぎ」、文法「ぐるーぷかいぎ」および「ぐるーぷみーてぃんぐ」が格納されている。３行目Ｒ３には、項目名「開始日時」、項目値「８月１０日９時３０分」、発音「く‘じさん‘じゅっぷん」が格納されている。４行目Ｒ４には、項目名「終了日時」、項目値「８月１０日１２時００分」、発音「じゅう‘にじ」が格納されている。５行目Ｒ５には、項目名「場所」、項目値「Ａ会議室」、フリガナ「エーカイギシツ」、発音「‘えーかいぎしつ」、文法「えーかいぎしつ」が格納されている。

図１４に示すように、エントリ４３ｃの１行目Ｒ１には、項目名「ＩＤ」、項目値「１１２２３３４４７７」が格納されている。「ＩＤ」は、エントリ４３ｃを一意に識別するための識別符号である。２行目Ｒ２には、項目名「楽曲名」、項目値「赤いブランコ」、フリガナ「アカイブランコ」、発音「あ‘かいぶらんこ」、文法「あかいぶらんこ」が格納されている。３行目Ｒ３には、項目名「アーティスト名」、項目値「山崎次郎」、フリガナ「ヤマザキジロウ」、発音「や‘まざき‘じろう」、文法「やまざきじろう」および「やまさきじろう」が格納されている。４行目Ｒ４には、項目名「アルバム名」、項目値「チューリップ」、フリガナ「チューリップ」、発音「‘ちゅーりっぷ」、文法「ちゅーりっぷ」が格納されている。

読取部４４は、ＦＤ（Flexible Disk）、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＭＯ（Magneto Optical disk）、あるいは、ＤＶＤ（Digital Versatile Disk）などの記録媒体を読み取る。音声情報管理装置４のユーザが、読み情報および文法情報を記録した記録媒体を読取部４４により読み取らせることにより、音声情報データベース４３には、図１２〜図１４に示すように、読み情報および文法情報が格納される。

データ管理部４５は、音声情報管理装置４に端末装置２が接続されると、ユーザデータ記憶部４１に格納されているユーザデータを抽出する。本実施形態においては、データ管理部４５は、図１１に示すエントリ４１ａを抽出する。データ管理部４５は、抽出したユーザデータをデータ抽出部４６に出力する。なお、データ管理部４５は、音声情報管理装置４に端末装置２が接続されてから一定時間が経過した場合、ユーザによる指示があった場合、あるいは、ユーザが指定した時刻になった場合などに、ユーザデータ記憶部４１に格納されているユーザデータを抽出しても良い。

データ抽出部４６は、データ管理部４５から出力されたユーザデータの項目値に基づいて、音声情報データベース４３に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。本実施形態においては、データ抽出部４６は、データ管理部４５から出力されたユーザデータ「山田」および「太郎」に一致するレコードを検索することにより、音声情報データベース４３のエントリ４３ａに格納されている読み情報「やま‘だ」および「‘たろー」、文法情報「やまだ」および「たろー」を抽出する。データ抽出部４６は、抽出した読み情報および文法情報をデータ管理部４５に出力する。なお、データ抽出部４６は、ユーザデータおよびフリガナに基づいて、音声情報データベース４３に格納されている読み情報および文法情報を抽出しても良い。これにより、ユーザデータの項目値の表記が共通しているが、フリガナ（読み方）が異なっている場合であっても、データ抽出部４６は、所望の読み情報および文法情報を抽出することができる。

データ管理部４５は、ユーザデータの項目値に、データ抽出部４６から出力された読み情報および文法情報の少なくとも１つの情報を関連付けることにより、音声データを生成する。本実施形態においては、図１１に示すエントリ４１ａのユーザデータ「山田」に、読み情報「やま‘だ」および文法情報「やまだ」を関連付け、ユーザデータ「太郎」に、読み情報「‘たろー」および文法情報「たろー」を関連付けることにより、音声データを生成する。データ管理部４５は、生成した音声データをデータ伝送部４７に出力する。

データ伝送部４７は、端末装置２とデータ管理部４５との間の通信を処理する。具体的には、データ伝送部４７は、データ管理部４５から出力された音声データを端末装置２に送信する。

ところで、上記の音声情報管理装置４は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の入力部４２、読取部４４、データ管理部４５、データ抽出部４６およびデータ伝送部４７は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、入力部４２、読取部４４、データ管理部４５、データ抽出部４６およびデータ伝送部４７の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、ユーザデータ記憶部４１および音声情報データベース４３は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

（端末装置の構成）
端末装置２は、図１に示すインタフェース部２１および制御部２３の代わりに、インタフェース部２４および制御部２５を備えている。

インタフェース部２４は、音声情報管理装置４と制御部２５との間のインタフェース部である。具体的には、インタフェース部２４は、音声情報管理装置４から送信された音声データを取得する。インタフェース部２１は、取得した音声データを制御部２５に出力する。

制御部２５は、インタフェース部２４から出力された音声データを、データ記憶部２２に格納する。これにより、データ記憶部２２には、図２に示すように、ユーザデータ、読み情報および文法情報が格納される。

（対話制御システムの動作）
次に、上記の構成に係る対話制御システム１０の処理について、図１５を参照しながら説明する。

図１５は、端末装置２が、音声情報管理装置４からユーザデータ、読み情報および文法情報を取得する処理の概要を示すフローチャートである。すなわち、図１５に示すように、音声情報管理装置４に端末装置２が接続されていれば（工程Ｏｐ２１にてＹＥＳ）、データ管理部４５は、ユーザデータ記憶部４１に格納されているユーザデータを抽出する（工程Ｏｐ２２）。一方、音声情報管理装置４に端末装置２が接続されていなければ（工程Ｏｐ２１にてＮＯ）、工程Ｏｐ２１に戻る。

データ抽出部４６は、工程Ｏｐ２２にて抽出されたユーザデータの項目値に基づいて、音声情報データベース４３に格納されている読み情報および文法情報を抽出する（工程ＯＰ２３）。データ管理部４５は、工程Ｏｐ２３にて抽出された読み情報および文法情報を、ユーザデータの項目値に関連付けることにより、音声データを生成する（工程Ｏｐ２４）。データ伝送部４７は、工程Ｏｐ２４にて生成された音声データを端末装置２に送信する（工程Ｏｐ２５）。

端末装置２のインタフェース部２４は、工程Ｏｐ２５にて送信された音声データを取得する（工程Ｏｐ２６）。制御部２５は、工程Ｏｐ２６にて取得された音声データを、データ記憶部２２に格納する（工程Ｏｐ２７）。これにより、データ記憶部２２には、図２に示すように、ユーザデータ、読み情報および文法情報が格納される。

以上のように、本実施形態に係る対話制御システム１０によれば、データ管理部４５は、音声情報管理装置４のイベントまたは端末装置２からのイベントを検知し、検知したイベントに基づいて、ユーザデータ記憶部４１からユーザデータを抽出する。データ抽出部４６は、データ管理部４５が抽出したユーザデータの項目値に基づいて、音声情報データベース４３に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する。データ管理部４５は、ユーザデータの項目値に、データ抽出部４６が抽出した読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成する。これにより、データ伝送部４７は、データ管理部４５が生成した音声データを、端末装置２に送信することができる。それゆえ、端末装置２のデータ記憶部２２には、読み情報および文法情報の少なくとも１つの情報が格納される。

なお、図１５においては、端末装置２が、音声情報管理装置４からユーザデータ、読み情報および文法情報を取得する処理について説明したが、これに限定されない。すなわち、端末装置２が、音声情報管理装置４からユーザデータを取得し、音声情報管理装置４から読み情報および文法情報の少なくとも１つの情報を取得すれば良い。

また、上記では、音声情報管理装置にユーザデータ記憶部が備えられている例について説明したが、これに限定されない。すなわち、端末装置にユーザデータ記憶部が備えられていても良い。この場合、音声情報管理装置は、端末装置のユーザデータ記憶部からユーザデータを取得し、取得したユーザデータの項目値に基づいて、音声情報管理装置の音声情報データベースから読み情報および文法情報を抽出する。音声情報管理装置は、ユーザデータの項目値に、読み情報および文法情報を関連付けることにより、音声データを生成する。音声情報管理装置は、音声データを端末装置に送信する。

また、上記した具体例は、本発明に係る対話制御システム１０の好適な実施形態に過ぎず、例えば、データ抽出部４６による読み情報および文法情報の抽出処理などについて、種々の変更が可能である。

（データ抽出部による抽出処理の変形例）
一例として、図１５に示した工程Ｏｐ２３において、データ抽出部４６による抽出処理の変形例を説明する。すなわち、本変形例は、データ抽出部４６が、ユーザデータの住所の項目値に基づいて、音声情報データベース４３に格納されている場所の読み情報および文法情報を抽出する例である。

図１６は、本変形例におけるユーザデータ記憶部４１のデータ構造の一例を示す図である。図１６に示すように、ユーザデータ記憶部４１は、項目名および項目値を、エントリ４１ｂにて格納する。エントリ４１ｂの１行目Ｒ１には、項目名「ＩＤ」、項目値「００１２４」が格納されている。「ＩＤ」は、エントリ４１ｂを一意に識別するための識別符号である。２行目Ｒ２には、項目名「タイトル」、項目値「飲み会＠○○屋」が格納されている。３行目Ｒ３には、項目名「開始日時」、項目値「１１月２日１８時３０分」が格納されている。４行目Ｒ４には、項目名「終了日時」、項目値「１１月２日２１時００分」が格納されている。５行目Ｒ５には、項目名「繰り返し」、項目値「なし」が格納されている。６行目Ｒ６には、項目名「場所名」、項目値「神戸」が格納されている。７行目Ｒ７には、項目名「住所」、項目値「兵庫県神戸市」が格納されている。８行目Ｒ８には、項目名「緯度」、項目値「３４．６７８１４７」が格納されている。９行目Ｒ９には、項目名「経度」、項目値「１３５．１８１８３２」が格納されている。１０行目Ｒ１０には、項目名「説明」、項目値「同期で集まる」が格納されている。

図１７は、本変形例における音声情報データベース４３のデータ構造の一例を示す図である。図１７に示すように、音声情報データベース４３は、ＩＤ、場所、住所、フリガナ、読み、および、文法を、エントリ４３ｄにて格納する。エントリ４３ｄの１行目Ｒ１には、ＩＤ「１２３４５６０１」、場所「神戸」、住所「兵庫県神戸市」、フリガナ「コウベ」、読み「‘こうべ」、文法「こうべ」が格納されている。２行目Ｒ２には、ＩＤ「１２３４５６０２」、場所「神戸」、住所「岡山県津山市」、フリガナ「ジンゴ」、読み「‘じんご」、文法「じんご」が格納されている。３行目Ｒ３には、ＩＤ「１２３４５６０３」、場所「神戸」、住所「東京都西多摩檜原村」、フリガナ「カノト」、読み「‘かのと」、文法「かのと」が格納されている。４行目Ｒ４には、ＩＤ「１３５７９１０１」、場所「大山」、住所「東京都板橋区」、フリガナ「オオヤマ」、読み「お‘おやま」、文法「おおやま」が格納されている。５行目Ｒ５には、ＩＤ「１３５７９１０２」、場所「大山」、住所「鳥取県西伯郡大山町」、フリガナ「ダイセン」、読み「‘だいせん」、文法「だいせん」が格納されている。すなわち、エントリ４３ｄの１行目Ｒ１〜３行目Ｒ３は、場所の表記は「神戸」で共通しているが、読み方がそれぞれ異なっている。また、エントリ４３ｄの４行目Ｒ４および５行目Ｒ５は、場所の表記は「大山」で共通しているが、読み方がそれぞれ異なっている。

ここで、データ管理部４５は、音声情報管理装置４に端末装置２が接続されると、ユーザデータ記憶部４１のエントリ４１ｂに格納されているユーザデータの住所「兵庫県神戸市」を抽出する。データ管理部４５は、抽出したユーザデータ「兵庫県神戸市」をデータ抽出部４６に出力する。

データ抽出部４６は、データ管理部４５から出力されたユーザデータ「兵庫県神戸市」に一致するレコードを検索することにより、音声情報データベース４３のエントリ４３ｄに格納されている読み情報「‘こうべ」、文法情報「こうべ」を抽出する。すなわち、データ抽出部４６が、ユーザデータの住所の項目値に基づいて、音声情報データベース４３に格納されている場所の読み情報および文法情報を抽出するので、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、所望の読み情報および文法情報を抽出することができる。データ抽出部４６は、抽出した読み情報「‘こうべ」および文法情報「こうべ」をデータ管理部４５に出力する。

データ管理部４５は、図１６に示すエントリ４１ｂにおけるユーザデータの場所「神戸」に、データ抽出部４６から出力された読み情報「‘こうべ」および文法情報「こうべ」を関連付けることにより、音声データを生成する。データ管理部４５は、生成した音声データをデータ伝送部４７に出力する。データ伝送部４７は、データ管理部４５から出力された音声データを端末装置２に送信する。

ところで、上記では、データ抽出部４６が、ユーザデータの住所の項目値に基づいて、音声情報データベース４３に格納されている場所の読み情報および文法情報を抽出する例を説明したが、これに限定されない。例えば、データ抽出部４６が、ユーザデータの緯度および経度の項目値に基づいて、音声情報データベース４３に格納されている場所の読み情報および文法情報を抽出しても良い。これにより、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、データ抽出部４６は、所望の読み情報および文法情報を抽出することができる。

また、データ抽出部４６は、ユーザデータの場所の項目値に基づいて、音声情報データベース４３に格納されている場所の読み情報および文法情報を抽出しても良い。例えば、図１６のエントリ４１ｂにおける場所のユーザデータに、「神戸の○○屋」と格納されているものとする。このような場合、データ管理部４５は、場所のユーザデータ「神戸の○○屋」を形態素解析することにより、名詞となる「神戸」および「○○屋」を抽出する。データ抽出部４６は、「神戸」および「○○屋」に基づいて、音声情報データベース４３に格納されている場所の読み情報および文法情報を抽出する。

（実施の形態３）
実施の形態２では、音声情報管理装置に、１つの音声情報データベースを備える例について説明した。これに対して、実施の形態３では、音声情報管理装置に、複数の音声情報データベースを備える例について説明する。

図１８は、本実施形態に係る対話制御システム１１の概略構成を示すブロック図である。図１８において、図１０と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

すなわち、本実施形態に係る対話制御システム１１は、図１０に示す音声情報管理装置４の代わりに、音声情報管理装置５を備えている。また、本実施形態に係る音声情報管理装置５は、図１０に示す音声情報データベース４３の代わりに、音声情報データベース５１ａ〜５１ｃを備えている。また、本実施形態に係る音声情報管理装置５は、図１０に示す音声情報管理装置４に加えて、選択部５２を備えている。さらに、本実施形態に係る音声情報管理装置５は、図１０に示すデータ抽出部４６の代わりに、データ抽出部５３ａ〜５３ｃを備えている。なお、図１８では、説明の簡略化のために、音声情報データベース５１ａ〜５１ｃを３つ図示したが、音声情報管理装置５を構成する音声情報データベースの数は任意である。

音声情報データベース５１ａ〜５１ｃは、図１０に示す音声情報データベース４３と同様、ユーザデータの項目値の韻律情報を含む読み情報、および、ユーザデータの項目値の１または複数の認識文法を示す文法情報を格納する。音声情報データベース５１ａ〜５１ｃは、読み情報および文法情報の種類がそれぞれ異なる複数のデータベースである。本実施形態においては、一例として、音声情報データベース５１ａには、人名の読み情報および文法情報が格納されている。音声情報データベース５１ｂには、スケジュールの読み情報および文法情報が格納されている。音声情報データベース５１ｃには、楽曲の読み情報および文法情報が格納されている。

選択部５２は、データ管理部４５から出力されたユーザデータの種類に基づいて、読み情報および文法情報を抽出するための音声情報データベース５１ａ〜５１ｃを選択する。本実施形態においては、ユーザデータの種類が人名である場合、選択部５２は、音声情報データベース５２ａを選択する。また、ユーザデータの種類がスケジュールである場合、選択部５２は、音声情報データベース５２ｂを選択する。さらに、ユーザデータの種類が楽曲である場合、選択部５２は、音声情報データベース５２ｃを選択する。選択部５２は、音声情報データベース５１ａ〜５１ｃのいずれかを選択した場合、選択した音声情報データベース５１ａ〜５１ｃに対応するデータ抽出部５３ａ〜５３ｃに、データ管理部４５から出力されたユーザデータを出力する。

一例として、データ管理部４５から出力されたユーザデータが、「山田」および「太郎」である場合、選択部５２は、人名の読み情報および文法情報が格納されている音声情報データベース５１ａを選択する。選択部５２は、選択した音声情報データベース５１ａに対応するデータ抽出部５３ａに、データ管理部４５から出力されたユーザデータ「山田」および「太郎」を出力する。

データ抽出部５３ａ〜５３ｃは、選択部５２から出力されたユーザデータの項目値に基づいて、音声情報データベース５１ａ〜５１ｃに格納されている読み情報および文法情報を抽出する。データ抽出部５３ａ〜５３ｃは、抽出した読み情報および文法情報を選択部５２に出力する。選択部５２は、データ抽出部５３ａ〜５３ｃから出力された読み情報および文法情報をデータ管理部４５に出力する。

ところで、上記の音声情報管理装置５は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の選択部５２およびデータ抽出部５３ａ〜５３ｃは、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、選択部５２およびデータ抽出部５３ａ〜５３ｃの機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、音声情報データベース５１ａ〜５１ｃは、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

以上のように、本実施形態に係る対話制御システム１１によれば、読み情報および文法情報の少なくとも１つの情報の種類がそれぞれ異なる複数の音声情報データベース５１ａ〜５１ｃが備えられている。選択部５２は、データ管理部４５が抽出したユーザデータの種類に基づいて、音声情報データベース５１ａ〜５１ｃを選択する。これにより、音声情報管理装置５のユーザは、例えば、人名、地名、スケジュール、楽曲など、種類がそれぞれ異なる複数の音声情報データベース５１ａ〜５１ｃに分類することができるので、音声情報データベース５１ａ〜５１ｃを容易に管理することができる。

（実施の形態４）
実施の形態３では、音声情報管理装置に、複数の音声情報データベースを備える例について説明した。これに対して、実施の形態４では、音声情報管理装置に、複数の音声情報データベースを備え、さらにサーバ装置においても、音声情報データベースを備える例について説明する。

図１９は、本実施形態に係る対話制御システム１２の概略構成を示すブロック図である。図１９において、図１８と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

すなわち、本実施形態に係る対話制御システム１２は、図１８に示す音声情報管理装置５の代わりに、音声情報管理装置６を備えている。また、本実施形態に係る対話制御システム１２は、図１８に示す対話制御システム１１に加えて、サーバ装置７を備えている。音声情報管理装置６とサーバ装置７とは、インターネットＮにより互いに接続されている。なお、音声情報管理装置６とサーバ装置７とは、有線により互いに接続されていても良いし、無線により互いにアクセス可能であっても良い。

本実施形態に係る音声情報管理装置６は、図１８に示す選択部５２の代わりに、選択部６１を備えている。また、本実施形態に係る音声情報管理装置６は、図１８に示す音声情報管理装置５に加えて、通信部６２を備えている。

選択部６１は、データ管理部４５から出力されたユーザデータの種類に基づいて、読み情報および文法情報を抽出するための音声情報データベース５１ａ〜５１ｃ，７２を選択する。選択部６１は、声情報データベース５１ａ〜５１ｃのいずれかを選択した場合、選択した音声情報データベース５１ａ〜５１ｃに対応するデータ抽出部５３ａ〜５３ｃに、データ管理部４５から出力されたユーザデータを出力する。また、選択部６１は、音声情報データベース７２を選択した場合、通信処理部６２に、データ管理部４５から出力されたユーザデータを出力する。

通信部６２は、サーバ装置７と選択部６１との間の通信を処理する。具体的には、通信部６２は、選択部６１から出力されたユーザデータを、インターネットＮを介してサーバ装置７に送信する。

ところで、上記の音声情報管理装置６は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の選択部６１および通信部６２は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、選択部６１および通信部６２の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。

サーバ装置７は、通信部７１、音声情報データベース７２、および、データ抽出部７３を備えている。サーバ装置７は、サーバマシン、パーソナルコンピュータ、ワークステーションなどのコンピュータ１台または複数台で構成される。本実施形態においては、サーバ装置７は、Ｗｅｂサーバとして機能する。なお、図１９では、説明の簡略化のために、音声情報データベース７２を１つ図示したが、サーバ装置７を構成する音声情報データベースの数は任意である。

通信部７１は、音声情報管理装置６とデータ抽出部７３との間の通信を処理する。具体的には、通信部７１は、音声情報管理装置６から送信されたユーザデータをデータ抽出部７３に出力する。

音声情報データベース７２は、音声情報データベース５１ａ〜５１ｃと同様、ユーザデータの項目値の韻律情報を含む読み情報、および、ユーザデータの項目値の１または複数の認識文法を示す文法情報を格納する。本実施形態においては、一例として、音声情報データベース７２には、地名の読み情報および文法情報が格納されている。

データ抽出部７３は、通信部７１から出力されたユーザデータに基づいて、音声情報データベース７２に格納されている読み情報および文法情報を抽出する。データ抽出部７３は、抽出した読み情報および文法情報を通信部７１に出力する。通信部７１は、データ抽出部７３から出力された読み情報および文法情報を、インターネットＮを介して音声情報管理装置６に送信する。通信部６２は、通信部７１から送信された読み情報および文法情報を選択部６１に出力する。選択部６２は、通信部６２から出力された読み情報および文法情報をデータ管理部４５に出力する。

以上のように、本実施形態に係る対話制御システム１２によれば、選択部６１は、データ管理部４５が抽出したユーザデータの種類に基づいて、サーバ装置７に備えられている音声情報データベース７２を選択する。これにより、データ管理部４５は、ユーザデータに、サーバ装置７に備えられている音声情報データベース７２の読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成することができる。

なお、第１の実施形態において、制御装置が、音声認識部および音声合成部を備える例について説明したが、これに限定されるものではない。すなわち、制御装置には、音声認識部および音声合成部の少なくとも１つが備えられていれば良い。

また、第２〜第４の実施形態において、音声情報データベースが、読み情報および文法情報を格納する例について説明したが、これに限定されるものではない。すなわち、音声情報データベースには、読み情報および文法情報の少なくとも１つの情報が格納されていれば良い。

さらに、第１〜第４の実施形態において、データ記憶部、ユーザデータ記憶部、および、音声情報データベースが各情報をエントリにて格納する例について説明したが、これに限定されるものではない。すなわち、格納形式については、任意である。

本発明は上述した第１〜第４の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

以上の実施の形態に関し、更に以下の付記を開示する。

（付記１）
ユーザデータを格納する端末装置と通信可能な通信処理部と、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも１つとを備えた音声処理装置において、
前記通信処理部は、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、前記端末装置から取得し、
前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、
前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する、音声処理装置。

（付記２）
合成音声を生成する機能、および、入力音声を認識する機能の少なくとも１つの機能を有する音声処理装置と通信可能なインタフェース部と、ユーザデータを格納するデータ記憶部とを備えた端末装置において、
前記データ記憶部には、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されており、
前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御部を備え、
前記インタフェース部は、前記制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信する、端末装置。

（付記３）
合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも１つを有する音声処理装置に、ユーザデータを格納するデータ記憶部を有する端末装置が通信可能な対話制御システムにおいて、
前記データ記憶部には、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されており、
前記端末装置が、
前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御部と、
前記制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信するインタフェース部とを備え、
前記音声処理装置が、
前記インタフェース部が送信した読み情報および文法情報の少なくとも１つの情報を取得する通信処理部を備え、
前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、
前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する、対話制御システム。

（付記４）
端末装置と通信可能なデータ伝送部を備えた音声情報管理装置において、
前記音声情報管理装置のイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記音声情報管理装置または前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理部と、
前記ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報を格納する音声情報データベースと、
前記データ管理部が抽出したユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報を抽出するデータ抽出部とを備え、
前記データ管理部は、前記ユーザデータの項目値に、前記データ抽出部が抽出した読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成し、
前記データ伝送部は、前記データ管理部が生成した音声データを、前記端末装置に送信する、音声情報管理装置。

（付記５）
前記データ抽出部は、前記ユーザデータの住所の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する、付記４に記載の音声情報管理装置。

（付記６）
前記データ抽出部は、前記ユーザデータの緯度および経度の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する、付記４に記載の音声情報管理装置。

（付記７）
前記読み情報および前記文法情報の少なくとも１つの情報の種類がそれぞれ異なる複数の音声情報データベースと、
前記データ管理部が抽出したユーザデータの種類に基づいて、前記音声情報データベースを選択する選択部とをさらに備える、付記４〜６のいずれか一項に記載の音声情報管理装置。

（付記８）
サーバ装置と通信可能な通信部をさらに備え、
前記サーバ装置が、
前記読み情報および前記文法情報の少なくとも１つの情報を格納する音声情報データベースを備え、
前記選択部は、前記データ管理部が抽出したユーザデータの種類に基づいて、前記サーバ装置に備えられている音声情報データベースを選択する、付記７に記載の音声情報管理装置。

（付記９）
ユーザデータを格納する端末装置と通信可能な通信処理と、合成音声を生成する音声合成処理、および、入力音声を認識する音声認識処理の少なくとも１つの処理とをコンピュータに実行させるプログラムにおいて、
前記通信処理は、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、前記端末装置から取得する処理を前記コンピュータに実行させ、
前記音声合成処理は、前記通信処理で取得された読み情報を用いて、合成音声を生成する処理を前記コンピュータに実行させ、
前記音声認識処理は、前記通信処理で取得された文法情報を用いて、入力音声を認識する処理を前記コンピュータに実行させる、プログラム。

（付記１０）
ユーザデータを格納するデータ記憶部を備えたコンピュータに、合成音声を生成する機能、および、入力音声を認識する機能の少なくとも１つの機能を有する音声処理装置と通信可能なインタフェース処理を実行させるプログラムにおいて、
前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されている前記データ記憶部に、前記コンピュータがアクセス可能であって、
前記コンピュータのイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御処理を前記コンピュータに実行させ、
前記インタフェース処理は、前記制御処理で抽出された読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信する処理を前記コンピュータに実行させる、プログラム。

（付記１１）
ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報を格納する音声情報データベースを備えたコンピュータに、端末装置と通信可能なデータ伝送処理を実行させるプログラムにおいて、
前記コンピュータのイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記コンピュータまたは前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理処理と、
前記データ管理処理で抽出されたユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報を抽出するデータ抽出処理とを前記コンピュータに実行させ、
前記データ管理処理は、前記ユーザデータの項目値に、前記データ抽出処理で抽出された読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成する処理を前記コンピュータに実行させ、
前記データ伝送処理は、前記データ管理処理で生成された音声データを、前記端末装置に送信する処理を前記コンピュータに実行させる、プログラム。

以上のように、本発明は、音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができる音声処理装置、端末装置、音声情報管理装置、および、プログラムとして有用である。

本発明の第１の実施形態に係る対話制御システムの概略構成を示すブロック図である。上記対話制御システムの端末装置におけるデータ記憶部のデータ構造の一例を示す図である。上記対話制御システムの音声処理装置における対話制御部が用いるテンプレートの一例をそれぞれ示す図である。音声処理装置が、端末装置からユーザデータおよび読み情報を取得する処理の一例を示すフローチャートである。音声処理装置が、端末装置からユーザデータおよび文法情報を取得する処理の一例を示すフローチャートである。上記データ記憶部におけるデータ構造の第１の変形例を示す図である。上記対話制御部が用いるテンプレートの第１の変形例をそれぞれ示す図である。上記データ記憶部におけるデータ構造の第２の変形例を示す図である。上記対話制御部が用いるテンプレートの第２の変形例をそれぞれ示す図である。本発明の第２の実施形態に係る対話制御システムの概略構成を示すブロック図である。上記対話制御システムの音声情報管理装置におけるユーザデータ記憶部のデータ構造の一例を示す図である。上記音声情報管理装置における音声情報データベースのデータ構造の一例を示す図である。上記音声情報データベースのデータ構造の一例を示す図である。上記音声情報データベースのデータ構造の一例を示す図である。端末装置が、音声情報管理装置からユーザデータ、読み情報および文法情報を取得する動作の一例を示すフローチャートである。上記ユーザデータ記憶部のデータ構造の変形例を示す図である。上記音声情報データベースのデータ構造の変形例を示す図である。本発明の第３の実施形態に係る対話制御システムの概略構成を示すブロック図である。本発明の第４の実施形態に係る対話制御システムの概略構成を示すブロック図である。

符号の説明

１、１０、１１、１２対話制御システム
２端末装置
３音声処理装置
４、５、６音声情報管理装置
７サーバ装置
２１、２４インタフェース部
２２データ記憶部
２３、２５制御部
３１通信処理部
３７音声認識部
３８音声合成部
４１ユーザデータ記憶部
４３、５１ａ〜５１ｃ、７２音声情報データベース
４５データ管理部
４６、５３ａ〜５３ｃ、７３データ抽出部
４７データ伝送部
５２、６１選択部
６２通信部

Claims

ユーザデータを格納する端末装置と通信可能な通信処理部と、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも１つとを備えた音声処理装置において、
前記通信処理部は、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、前記端末装置から取得し、
前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、
前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する、音声処理装置。
合成音声を生成する機能、および、入力音声を認識する機能の少なくとも１つの機能を有する音声処理装置と通信可能なインタフェース部と、ユーザデータを格納するデータ記憶部とを備えた端末装置において、
前記データ記憶部には、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報がさらに格納されており、
前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも１つの情報を抽出する制御部を備え、
前記インタフェース部は、前記制御部が抽出した読み情報および文法情報の少なくとも１つの情報を、前記音声処理装置に送信する、端末装置。
端末装置と通信可能なデータ伝送部を備えた音声情報管理装置において、
前記音声情報管理装置のイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記音声情報管理装置または前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理部と、
前記ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の１または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも１つの情報を格納する音声情報データベースと、
前記データ管理部が抽出したユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも１つの情報を抽出するデータ抽出部とを備え、
前記データ管理部は、前記ユーザデータの項目値に、前記データ抽出部が抽出した読み情報および文法情報の少なくとも１つの情報を関連付けた音声データを生成し、
前記データ伝送部は、前記データ管理部が生成した音声データを、前記端末装置に送信する、音声情報管理装置。
前記データ抽出部は、前記ユーザデータの住所の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する、請求項３に記載の音声情報管理装置。
前記データ抽出部は、前記ユーザデータの緯度および経度の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも１つの情報を抽出する、請求項３に記載の音声情報管理装置。
前記読み情報および前記文法情報の少なくとも１つの情報の種類がそれぞれ異なる複数の音声情報データベースと、
前記データ管理部が抽出したユーザデータの種類に基づいて、前記音声情報データベースを選択する選択部とをさらに備える、請求項３〜５のいずれか一項に記載の音声情報管理装置。
サーバ装置と通信可能な通信部をさらに備え、
前記サーバ装置が、
前記読み情報および前記文法情報の少なくとも１つの情報を格納する音声情報データベースを備え、
前記選択部は、前記データ管理部が抽出したユーザデータの種類に基づいて、前記サーバ装置に備えられている音声情報データベースを選択する、請求項６に記載の音声情報管理装置。
ユーザデータを格納する端末装置と通信可能な通信処理と、合成音声を生成する音声合成処理、および、入力音声を認識する音声認識処理の少なくとも１つの処理とをコンピュータに実行させるプログラムにおいて、
前記通信処理は、前記ユーザデータの少なくとも１項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも１項目の項目値の１または複数の認識文法を示す文法情報の少なくとも１つの情報を、前記端末装置から取得する処理を前記コンピュータに実行させ、
前記音声合成処理は、前記通信処理で取得された読み情報を用いて、合成音声を生成する処理を前記コンピュータに実行させ、
前記音声認識処理は、前記通信処理で取得された文法情報を用いて、入力音声を認識する処理を前記コンピュータに実行させる、プログラム。