JP2008139438A - 音声処理装置、端末装置、音声情報管理装置、および、プログラム - Google Patents

音声処理装置、端末装置、音声情報管理装置、および、プログラム Download PDF

Info

Publication number
JP2008139438A
JP2008139438A JP2006323978A JP2006323978A JP2008139438A JP 2008139438 A JP2008139438 A JP 2008139438A JP 2006323978 A JP2006323978 A JP 2006323978A JP 2006323978 A JP2006323978 A JP 2006323978A JP 2008139438 A JP2008139438 A JP 2008139438A
Authority
JP
Japan
Prior art keywords
information
unit
voice
speech
user data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006323978A
Other languages
English (en)
Other versions
JP4859642B2 (ja
Inventor
Ryosuke Miyata
亮介 宮田
Toshiyuki Fukuoka
俊之 福岡
Kiyouko Okuyama
鏡子 奥山
Hideshi Kitagawa
英志 北川
Takuo Ikeda
拓郎 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006323978A priority Critical patent/JP4859642B2/ja
Priority to US11/902,490 priority patent/US20080133240A1/en
Publication of JP2008139438A publication Critical patent/JP2008139438A/ja
Application granted granted Critical
Publication of JP4859642B2 publication Critical patent/JP4859642B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Abstract

【課題】音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができる音声処理装置、端末装置、音声情報管理装置、および、プログラムを提供する。
【解決手段】ユーザデータを格納する端末装置2と通信可能な通信処理部31と、合成音声を生成する音声合成部38、および、入力音声を認識する音声認識部37の少なくとも1つとを備えた音声処理装置3において、通信処理部31は、ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、端末装置2から取得し、音声合成部38は、通信処理部31が取得した読み情報を用いて、合成音声を生成し、音声認識部37は、通信処理部31が取得した文法情報を用いて、入力音声を認識する。
【選択図】図1

Description

本発明は、ユーザデータを格納する端末装置に通信可能であって、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも1つを備えた音声処理装置、端末装置、音声情報管理装置、および、プログラムに関する。
近年、自動車などの移動体の運転者に、運行に関わる位置情報および交通情報などのナビゲーション情報を提供するカーナビゲーションシステム(音声処理装置)が普及してきている。特に、近年では、カーナビゲーションシステムの中でも、音声対話機能を備えたカーナビゲーションシステムが普及してきている。音声対話機能を備えたカーナビゲーションシステムに、携帯電話あるいは音楽プレーヤなどの端末装置を接続することによって、携帯電話を手に持つことなく通話(ハンズフリー通話)し、あるいは、音楽プレーヤを手で操作することなく楽曲を再生することができる(例えば、特許文献1または2参照)。
ところで、携帯電話には、電話帳の氏名やスケジュールなどのユーザデータが格納されている。一般に、携帯電話のユーザデータには、フリガナが含まれている。例えば、携帯電話に、「山田太郎」のユーザデータが格納されている場合、フリガナとして、「ヤマダタロウ」も併せて格納されている。このため、携帯電話がカーナビゲーションシステムに接続された場合、このカーナビゲーションシステムでは、フリガナを用いることにより、合成音声を生成し、あるいは、入力音声を認識することができる。例えば、カーナビゲーションシステムは、携帯電話に着信があった場合に、発信者の名前を、フリガナを用いることにより、合成音声にて読み上げる。また、カーナビゲーションシステムは、運転者が通話を所望する相手方の名前を発話した場合に、フリガナを用いてこの発話を認識し、その相手方に発信するように携帯電話に指示する。
また、音楽プレーヤには、楽曲名やアーティスト名などのユーザデータが格納されている。一般に、音楽プレーヤのユーザデータには、携帯電話と異なって、フリガナが含まれていない。このため、カーナビゲーションシステムに、ユーザデータの韻律情報を含む読み情報、および、ユーザデータの認識文法を示す文法情報を格納した音声情報データベースを備えておく。これにより、音楽プレーヤがカーナビゲーションシステムに接続された場合、このカーナビゲーションシステムでは、カーナビゲーションシステムに備えられている音声情報データベースを用いることにより、合成音声を生成し、あるいは、入力音声を認識することができる。例えば、カーナビゲーションシステムは、音楽プレーヤが楽曲を再生する場合に、再生する楽曲名を、読み情報を用いることにより、合成音声にて読み上げる。また、カーナビゲーションシステムは、運転者が再生を所望する楽曲名を発話した場合に、文法情報を用いてこの発話を認識し、その楽曲名を再生するように音楽プレーヤに指示する。
特開平5−92741号公報 特開2001−95646号公報
しかしながら、フリガナを用いて合成音声を生成し、あるいは、フリガナを用いて入力音声を認識する場合、以下のような問題を生じる。
すなわち、フリガナにはユーザデータの韻律情報を含む読み情報が含まれていないので、フリガナを用いて生成された合成音声は、音の区切りやイントネーションなどの韻律が不自然な音声となる。また、フリガナは、ユーザデータの読み方を単に示しているに過ぎないので、例えば、運転者がユーザデータの略称や俗称を発話した場合のように、正式名称以外の言い方で発話した場合、この発話を認識することができない。
一方、カーナビゲーションシステムに、読み情報および文法情報を格納した音声情報データベースを備えることにより、音声情報データベースに格納されている読み情報を用いて合成音声を生成し、あるいは、音声情報データベースに格納されている文法情報を用いて入力音声を認識する場合、上記の問題が生じない代わりに、新たに以下のような問題を生じる。
すなわち、音声情報データベースには、音楽プレーヤあるいは携帯電話に格納される可能性のあるユーザデータの読み情報および文法情報を全て格納する必要があるので、音声情報データベースの情報量が膨大になる。また、膨大な情報量を持つ音声情報データベースの中から、所望の読み情報および文法情報を抽出するための検索手段をカーナビゲーションシステムに備える必要がある。このため、カーナビゲーションシステムのコストが増大する。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができる音声処理装置、端末装置、音声情報管理装置、および、プログラムを提供することにある。
上記目的を達成するために本発明における音声処理装置は、ユーザデータを格納する端末装置と通信可能な通信処理部と、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも1つとを備えた音声処理装置において、前記通信処理部は、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、前記端末装置から取得し、前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する。
本発明の音声処理装置によれば、通信処理部は、ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、端末装置から取得する。音声合成部は、通信処理部が取得した読み情報を用いて、合成音声を生成する。音声認識部は、通信処理部が取得した文法情報を用いて、入力音声を認識する。これにより、上記従来の構成のように、音声処理装置に音声情報データベースおよび検索手段を備えなくとも、音声合成部は、韻律情報を含む読み情報を用いて合成音声を生成し、音声認識部は、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも1項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話(入力音声)を認識することができる。
なお、ユーザデータは、端末装置のデータであって、例えば、電話帳、スケジュール、楽曲などのデータである。
また、韻律情報は、アクセント、イントネーション、リズム、ポーズ、速さ、強弱などの情報である。
上記目的を達成するために本発明における端末装置は、合成音声を生成する機能、および、入力音声を認識する機能の少なくとも1つの機能を有する音声処理装置と通信可能なインタフェース部と、ユーザデータを格納するデータ記憶部とを備えた端末装置において、前記データ記憶部には、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されており、前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御部を備え、前記インタフェース部は、前記制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信する。
本発明の端末装置によれば、制御部は、端末装置のイベントまたは音声処理装置からのイベントを検知し、検知したイベントに基づいて、データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。インタフェース部は、制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、音声処理装置に送信する。これにより、上記従来の構成のように、音声処理装置に音声情報データベースおよび検索手段を備えなくとも、韻律情報を含む読み情報を用いて合成音声を生成し、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも1項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話(入力音声)を認識することができる。
上記目的を達成するために本発明における対話制御システムは、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも1つを有する音声処理装置に、ユーザデータを格納するデータ記憶部を有する端末装置が通信可能な対話制御システムにおいて、前記データ記憶部には、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されており、前記端末装置が、前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御部と、前記制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信するインタフェース部とを備え、前記音声処理装置が、前記インタフェース部が送信した読み情報および文法情報の少なくとも1つの情報を取得する通信処理部を備え、前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する。
本発明の対話制御システムによれば、制御部は、端末装置のイベントまたは音声処理装置からのイベントを検知し、検知したイベントに基づいて、データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。インタフェース部は、制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、音声処理装置に送信する。通信処理部は、インタフェース部が送信した読み情報および文法情報の少なくとも1つの情報を取得する。音声合成部は、通信処理部が取得した読み情報を用いて、合成音声を生成する。音声認識部は、通信処理部が取得した文法情報を用いて、入力音声を認識する。これにより、上記従来の構成のように、音声処理装置に音声情報データベースおよび検索手段を備えなくとも、音声合成部は、韻律情報を含む読み情報を用いて合成音声を生成し、音声認識部は、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも1項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話(入力音声)を認識することができる。
上記目的を達成するために本発明における音声情報管理装置は、端末装置と通信可能なデータ伝送部を備えた音声情報管理装置において、前記音声情報管理装置のイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記音声情報管理装置または前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理部と、前記ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報を格納する音声情報データベースと、前記データ管理部が抽出したユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報を抽出するデータ抽出部とを備え、前記データ管理部は、前記ユーザデータの項目値に、前記データ抽出部が抽出した読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成し、前記データ伝送部は、前記データ管理部が生成した音声データを、前記端末装置に送信する。
本発明の音声情報管理装置によれば、データ管理部は、音声情報管理装置のイベントまたは端末装置からのイベントを検知し、検知したイベントに基づいて、ユーザデータ記憶部からユーザデータを抽出する。データ抽出部は、データ管理部が抽出したユーザデータの項目値に基づいて、音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。データ管理部は、ユーザデータの項目値に、データ抽出部が抽出した読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成する。これにより、データ伝送部は、データ管理部が生成した音声データを、端末装置に送信することができる。それゆえ、端末装置には、読み情報および文法情報の少なくとも1つの情報が格納される。
本発明の音声情報管理装置において、前記データ抽出部は、前記ユーザデータの住所の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する態様とするのが好ましい。
上記構成によれば、データ抽出部は、ユーザデータの住所の項目値に基づいて、音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する。これにより、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、データ抽出部は、所望の読み情報および文法情報を抽出することができる。
本発明の音声情報管理装置において、前記データ抽出部は、前記ユーザデータの緯度および経度の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する態様とするのが好ましい。
上記構成によれば、データ抽出部は、ユーザデータの緯度および経度の項目値に基づいて、音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する。これにより、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、データ抽出部は、所望の読み情報および文法情報を抽出することができる。
本発明の音声情報管理装置において、前記読み情報および前記文法情報の少なくとも1つの情報の種類がそれぞれ異なる複数の音声情報データベースと、前記データ管理部が抽出したユーザデータの種類に基づいて、前記音声情報データベースを選択する選択部とをさらに備える態様とするのが好ましい。
上記構成によれば、音声情報管理装置には、読み情報および文法情報の少なくとも1つの情報の種類がそれぞれ異なる複数の音声情報データベースが備えられている。選択部は、データ管理部が抽出したユーザデータの種類に基づいて、音声情報データベースを選択する。これにより、音声情報管理装置のユーザは、例えば、人名、地名、スケジュール、楽曲など、種類がそれぞれ異なる複数の音声情報データベースに分類することができるので、音声情報データベースを容易に管理することができる。
本発明の音声情報管理装置において、サーバ装置と通信可能な通信部をさらに備え、前記サーバ装置が、前記読み情報および前記文法情報の少なくとも1つの情報を格納する音声情報データベースを備え、前記選択部は、前記データ管理部が抽出したユーザデータの種類に基づいて、前記サーバ装置に備えられている音声情報データベースを選択する態様とするのが好ましい。
上記構成によれば、選択部は、データ管理部が抽出したユーザデータの種類に基づいて、サーバ装置に備えられている音声情報データベースを選択する。これにより、データ管理部は、ユーザデータに、サーバ装置に備えられている音声情報データベースの読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成することができる。
上記目的を達成するために本発明におけるプログラムは、ユーザデータを格納する端末装置と通信可能な通信処理と、合成音声を生成する音声合成処理、および、入力音声を認識する音声認識処理の少なくとも1つの処理とをコンピュータに実行させるプログラムにおいて、前記通信処理は、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、前記端末装置から取得する処理を前記コンピュータに実行させ、前記音声合成処理は、前記通信処理で取得された読み情報を用いて、合成音声を生成する処理を前記コンピュータに実行させ、前記音声認識処理は、前記通信処理で取得された文法情報を用いて、入力音声を認識する処理を前記コンピュータに実行させる。
上記目的を達成するために本発明におけるプログラムは、ユーザデータを格納するデータ記憶部を備えたコンピュータに、合成音声を生成する機能、および、入力音声を認識する機能の少なくとも1つの機能を有する音声処理装置と通信可能なインタフェース処理を実行させるプログラムにおいて、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されている前記データ記憶部に、前記コンピュータがアクセス可能であって、前記コンピュータのイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御処理を前記コンピュータに実行させ、前記インタフェース処理は、前記制御処理で抽出された読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信する処理を前記コンピュータに実行させる。
上記目的を達成するために本発明におけるプログラムは、ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報を格納する音声情報データベースを備えたコンピュータに、端末装置と通信可能なデータ伝送処理を実行させるプログラムにおいて、前記コンピュータのイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記コンピュータまたは前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理処理と、前記データ管理処理で抽出されたユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報を抽出するデータ抽出処理とを前記コンピュータに実行させ、前記データ管理処理は、前記ユーザデータの項目値に、前記データ抽出処理で抽出された読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成する処理を前記コンピュータに実行させ、前記データ伝送処理は、前記データ管理処理で生成された音声データを、前記端末装置に送信する処理を前記コンピュータに実行させる。
なお、本発明におけるプログラムは、上記の音声処理装置、端末装置、および、音声情報管理装置と同様の効果を得る。
以上のように、本発明の音声処理装置、端末装置、音声情報管理装置、および、プログラムは、音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができるという効果を奏する。
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
(実施の形態1)
図1は、本実施形態に係る対話制御システム1の概略構成を示すブロック図である。すなわち、本実施形態に係る対話制御システム1は、端末装置2および音声処理装置3を備えている。端末装置2は、携帯電話、PHS(Personal Handyphone System)、PDA(Personal Digital Assistance)、音楽プレーヤなどの携帯端末である。音声処理装置3は、カーナビゲーションシステム、パーソナルコンピュータなどの装置である。端末装置2と音声処理装置3とは、有線Lにより互いに接続されている。なお、端末装置2と音声処理装置3とは、無線により互いにアクセス可能であっても良い。図1では、説明の簡略化のために、端末装置2および音声処理装置3を1台ずつ図示したが、対話制御システム1を構成する端末装置2および音声処理装置3の数は任意である。また、1台の音声処理装置3に、複数台の端末装置2が接続されていても良い。
本実施形態においては、一例として、端末装置2が携帯電話であり、音声処理装置3が車両に搭載されるカーナビゲーションシステムである場合について説明する。
(端末装置の構成)
端末装置2は、インタフェース部(図中、IF部)21、データ記憶部22、および、制御部23を備えている。
インタフェース部21は、音声処理装置3と制御部23との間のインタフェース部である。具体的には、インタフェース部21は、音声処理装置3へ送信するデータを通信に適したデータに変換し、音声処理装置3からのデータを内部で処理するのに適したデータに変換する。
データ記憶部22は、ユーザデータを格納する。また、データ記憶部22は、ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報を格納する。図2は、データ記憶部22のデータ構造の一例を示す図である。図2に示すように、データ記憶部22は、項目名、項目値、フリガナ、発音、および、文法を、エントリ22aにて格納する。項目名は、項目の名称を示す。項目値は、項目名に対応する内容を示す。フリガナは、項目値の読み方を示す。発音は、項目値のアクセントを示す。文法は、項目値の認識文法を示す。なお、本実施形態においては、ユーザデータは、上記の項目値を示す。また、読み情報は、上記の発音を示す。但し、読み情報には、上記の発音以外に、イントネーション、リズム、ポーズ、速さ、強弱など、その他の韻律情報が含まれていても良い。文法情報は、上記の文法を示す。
図2に示すように、エントリ22aの1行目R1には、項目名「ID」、項目値「00246」が格納されている。「ID」は、エントリ22aを一意に識別するための識別符号である。2行目R2には、項目名「姓」、項目値「山田」、フリガナ「ヤマダ」、発音「やま‘だ」、文法「やまだ」が格納されている。3行目R3には、項目名「名」、項目値「太郎」、フリガナ「タロウ」、発音「‘たろー」、文法「たろー」が格納されている。なお、発音の「‘」記号は、「‘」の部分で高い発音をするためのアクセント記号である。また、1項目の項目値に複数の発音が格納されていても良い。4行目R4には、項目名「自宅電話番号」、項目値「012−34−5678」が格納されている。5行目R5には、項目名「自宅メールアドレス」、項目値「taro@provider.ne.jp」が格納されている。6行目R6には、項目名「携帯電話番号」、項目値「080−1234−5678」が格納されている。7行目R7には、項目名「携帯メールアドレス」、項目値「taro@keitai.ne.jp」が格納されている。すなわち、データ記憶部22には、端末装置2の電話帳のユーザデータが格納されているが、これはあくまでも一例に過ぎない。
制御部23は、端末装置2のイベントまたは音声処理装置3からのイベントを検知すると、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータを抽出する。また、制御部23は、端末装置2のイベントまたは音声処理装置3からのイベントを検知すると、予め定められている抽出規則に従って、データ記憶部22に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。なお、抽出規則は、エントリに格納されている全ての読み情報および文法情報を抽出する規則であっても良いし、所定の読み情報および文法情報を抽出する規則であっても良い。すなわち、抽出規則は任意である。制御部23は、抽出したユーザデータをインタフェース部21に出力する。また、制御部23は、抽出した読み情報および文法情報の少なくとも1つの情報をインタフェース部21に出力する。インタフェース部21は、制御部23から出力されたユーザデータを音声処理装置3に送信する。また、インタフェース部21は、制御部23から出力された読み情報および文法情報の少なくとも1つの情報を音声処理装置3に送信する。
一例として、端末装置2に発信者から着信があると、制御部23は、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータ、および、このユーザデータの読み情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「姓」および「名」の読み情報を抽出する規則であるものとする。具体的には、制御部23は、発信データが示す発信者の電話番号「012−34−5678」に基づいて、データ記憶部22に格納されているユーザデータ「山田」および「太郎」、読み情報「やま‘だ」および「‘たろー」を抽出する。制御部23は、抽出したこれらの情報をインタフェース部21に出力する。インタフェース部21は、制御部23から出力されたユーザデータ「山田」および「太郎」、読み情報「やま‘だ」および「‘たろー」を音声処理装置3に送信する。これにより、音声処理装置3においては、端末装置2に着信のあった発信者の名前を、「やま‘だ」「‘たろー」と自然な韻律により合成音声にて読み上げることができる。
他の例として、音声処理装置3から文法情報を取得するための要求があると、制御部23は、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータ、および、このユーザデータの文法情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「姓」および「名」の文法情報を抽出する規則であるものとする。具体的には、制御部23は、音声処理装置3からの要求に基づいて、データ記憶部22に格納されているユーザデータ「山田」および「太郎」、文法情報「やまだ」および「たろー」を抽出する。制御部23は、抽出したこれらの情報を、インタフェース部21に出力する。インタフェース部21は、制御部23から出力されたユーザデータ「山田」および「太郎」、文法情報「やまだ」および「たろー」を音声処理装置3に送信する。これにより、例えば、ユーザが「やまだたろー」と発話すると、音声処理装置3は、この発話を認識し、山田太郎の携帯電話に発信するように端末装置2に指示することができる。
ところで、上記の端末装置2は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のインタフェース部21および制御部23は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、インタフェース部21および制御部23の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、データ記憶部22は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
(音声処理装置の構成)
音声処理装置3は、通信処理部31、対話制御部32、キー入力部33、画面表示部34、音声入力部35、音声出力部36、音声認識部37、および、音声合成部38を備えている。
通信処理部31は、端末装置2と対話制御部32との間の通信を処理する。具体的には、通信処理部31は、端末装置2から送信されたユーザデータを取得する。また、通信処理部31は、端末装置2から送信された読み情報および文法情報の少なくとも1つの情報を取得する。すなわち、通信処理部31は、対話制御部32からの要求に従い能動的に読み情報および文法情報の少なくとも1つの情報を取得し、あるいは、対話制御部32からの要求に関わらず受動的に読み情報および文法情報の少なくとも1つの情報を取得する。通信処理部31は、取得したこれらの情報をメモリに格納しても良い。通信処理部31は、取得したユーザデータを対話制御部32に出力する。また、通信処理部31は、読み情報および文法情報の少なくとも1つの情報を対話制御部32に出力する。
対話制御部32は、音声処理装置3のイベントまたは端末装置2からのイベントを検知し、検知したイベントに対する応答を決定する。すなわち、対話制御部32は、通信処理部31、キー入力部33、音声認識部37のイベントを検知し、検知したイベントに対する応答を決定し、決定した応答を、通信処理部31、画面表示部34、音声合成部38に出力する。なお、対話制御部32は、通信処理部31、キー入力部33、音声認識部37のイベントの他に、対話制御部32自身のイベントも検知することができる。例えば、対話制御部32は、音声処理装置3が搭載される車両が、右折あるいは左折すべき地点に近づいた場合、あるいは、音声処理装置3の電源が投入された場合などを対話制御部37自身のイベントとして検知することができる。
一例として、対話制御部32は、キー入力部33のイベントを検知し、データ記憶部22に格納されているユーザデータと、データ記憶部22に格納されている読み情報および文法情報の少なくとも1つの情報とを取得するように、通信処理部31に指示する。本実施形態においては、ユーザが、キー入力部33を用いて、データ記憶部22に格納されている全てのユーザデータおよび文法情報を取得するための操作を行ったものとする。この場合、対話制御部32は、データ記憶部22に格納されている全てのユーザデータおよび文法情報を取得するように、通信処理部31に指示する。なお、ユーザが発話することにより、端末装置2から相手方の携帯電話に発信する場合、対話制御部32は、頻繁に通話する相手方の電話帳のユーザデータおよび文法情報を取得するように、通信処理部31に指示しても良い。これにより、データ記憶部22に格納されている全てのユーザデータおよび文法情報を取得し、音声認識部37が入力音声を認識する態様と比較して、音声認識部37による認識処理の速度を向上することができる。
他の例として、対話制御部32は、通信処理部31のイベントを検知し、通信処理部31から出力されたユーザデータを画面表示部34に出力する。具体的には、対話制御部32は、予め用意されている画面表示用のテンプレートに、通信処理部31から出力されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部34に出力する。また、対話制御部32は、通信処理部31から出力されたユーザデータおよび文法情報を音声認識部37に出力する。さらに、対話制御部32は、通信処理部31から出力された読み情報を音声合成部38に出力する。具体的には、対話制御部32は、予め用意されている音声合成用のテンプレートに、通信処理部31から出力された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部38に出力する。
図3(a)は、画面表示用のテンプレートの一例を示す図である。本実施形態においては、図3(a)のテンプレートの「familyname」には、「姓」のユーザデータが関連付けられている。また、「givenname」には、「名」のユーザデータが関連付けられている。対話制御部32は、図3(a)のテンプレートの「familyname」にユーザデータ「山田」を挿入し、「givenname」にユーザデータ「太郎」を挿入する。対話制御部32は、「山田太郎さんから電話です」を示す文字列を画面表示部34に出力する。
図3(b)は、音声合成用のテンプレートの一例を示す図である。本実施形態においては、図3(b)のテンプレートの「familyname」には、「姓」の読み情報が関連付けられている。また、「givenname」には、「名」の読み情報が関連付けられている。対話制御部32は、図3(b)のテンプレートの「familyname」に読み情報「やま‘だ」を挿入し、「givenname」に読み情報「‘たろー」を挿入する。対話制御部32は、「やま‘だ‘たろーさんから電話です」を示す文字列を音声合成部38に出力する。
キー入力部33は、スイッチ、テンキー、リモコン、タブレット、タッチパネル、キーボード、マウスなどの任意の入力デバイスから構成される。キー入力部33は、入力情報を対話制御部32に出力する。対話制御部32は、キー入力部33から出力された入力情報をイベントとして検知する。
画面表示部34は、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイ、CRTディスプレイなどの任意の表示デバイスから構成される。画面表示部34には、対話制御部32から出力された文字列が表示される。本実施形態においては、画面表示部34には、「山田太郎さんから電話です」が表示される。
音声入力部35は、ユーザの発話を、入力音声として入力する。なお、音声入力部35は、マイクロフォンなどの音声入力デバイスから構成される。
音声出力部36は、音声合成部38から出力された合成音声を出力する。音声出力部36は、スピーカなどの出力デバイスから構成される。
音声認識部37は、音声入力部35に入力された入力音声を認識する。具体的には、音声認識部37は、入力音声と、対話制御部32から出力された文法情報とを音響解析により比較を行い、対話制御部32から出力された文法情報の中から最も特性が一致する文法情報を抽出し、抽出した文法情報のユーザデータを認識結果とする。音声認識部37は、認識結果を対話制御部32に出力する。対話制御部32は、音声認識部37から出力された認識結果をイベントとして検知する。なお、音声認識部37は、対話制御部32から出力されたユーザデータおよび文法情報を格納する認識単語辞書を備えていても良い。
一例として、対話制御部32から文法情報「やまだ」および「たろー」が音声認識部37に出力されたものとする。この場合、ユーザが「やまだたろー」と発話すると、音声認識部37は、この発話を認識し、文法情報「やまだ」および「たろー」のユーザデータ「山田太郎」を認識結果とする。音声認識部37は、認識結果となる「山田太郎」を対話制御部32に出力する。これにより、対話制御部32は、例えば、山田太郎の携帯電話に発信するように、通信処理部31に指示することができる。通信処理部31は、対話制御部32からの指示を、端末装置2に送信する。
音声合成部38は、対話制御部32から出力された読み情報に基づいて合成音声を生成する。本実施形態においては、音声合成部38は、「やま‘だ‘たろーさんから電話です」を示す合成音声を生成する。音声合成部38は、生成した合成音声を音声出力部36に出力する。
ところで、上記の音声処理装置3は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の通信処理部31、対話制御部32、キー入力部33、画面表示部34、音声入力部35、音声出力部36、音声認識部37および音声合成部38は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、通信処理部31、対話制御部32、キー入力部33、画面表示部34、音声入力部35、音声出力部36、音声認識部37および音声合成部38の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。
(対話制御システムの動作)
次に、上記の構成に係る対話制御システム1の処理について、図4および図5を参照しながら説明する。
図4は、音声処理装置3が、端末装置2からユーザデータおよび読み情報を取得する処理の概要を示すフローチャートである。すなわち、図4に示すように、制御部23が、端末装置2のイベントまたは音声処理装置3からのイベントを検知すれば(工程Op1にてYES)、制御部23は、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータおよび読み情報を抽出する(工程Op2)。一方、制御部23が、端末装置2のイベントまたは音声処理装置3からのイベントを検知しなければ(工程Op1にてNO)、工程Op1に戻る。
インタフェース部21は、工程Op2にて抽出されたユーザデータおよび読み情報を、音声処理装置3に送信する(工程Op3)。音声処理装置3の通信処理部31は、工程Op3にて送信されたユーザデータおよび読み情報を取得する(工程Op4)。対話制御部32は、予め用意されている画面表示用のテンプレートに、工程Op4にて取得されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部34に出力する(工程Op5)。また、対話制御部32は、予め用意されている音声合成用のテンプレートに、工程Op4にて取得された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部38に出力する(工程Op6)。なお、図4においては、工程Op5と工程Op6との処理が直列的に実行される態様としているが、工程Op5と工程Op6とが並列的に実行される態様であっても良い。
画面表示部34は、工程Op5にて出力された文字列を表示する(工程Op7)。音声合成部38は、工程Op6にて出力された文字列の合成音声を生成する(工程Op8)。音声出力部36は、工程Op8にて生成された合成音声を出力する(工程Op9)。なお、図4においては、工程Op7において、工程Op5にて出力された文字列を表示する態様としているが、画面表示部34に文字列を表示しない場合は、工程Op5および工程Op7の処理を省略しても良い。
図5は、音声処理装置3が、端末装置2からユーザデータおよび文法情報を取得する処理の概要を示すフローチャートである。すなわち、図5に示すように、制御部23が、端末装置2のイベントまたは音声処理装置3からのイベントを検知すれば(工程Op11にてYES)、制御部23は、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータおよび文法情報を抽出する(工程Op12)。一方、制御部23が、端末装置2のイベントまたは音声処理装置3からのイベントを検知しなければ(工程Op11にてNO)、工程Op11に戻る。
インタフェース部21は、工程Op12にて抽出されたユーザデータおよび文法情報を、音声処理装置3に送信する(工程Op13)。音声処理装置3の通信処理部31は、工程Op13にて送信されたユーザデータおよび文法情報を取得する(工程Op14)。対話制御部32は、工程Op14にて取得されたユーザデータおよび文法情報を音声認識部37に出力する(工程Op15)。
ここで、音声入力部35が、ユーザの発話を、入力音声として入力すれば(工程Op16にてYES)、音声認識部37は、この入力音声と、工程Op15にて出力された文法情報とを音響解析により比較を行い、工程Op15にて出力された文法情報の中から最も特性が一致する文法情報を抽出し、抽出した文法情報のユーザデータを認識結果とする。音声認識部37は、認識結果を対話制御部32に出力する(工程Op17)。一方、音声入力部35が、入力音声を入力しなければ(工程Op16にてNO)、工程Op16に戻る。
以上のように、本実施形態に係る対話制御システム1によれば、制御部23は、端末装置2のイベントまたは音声処理装置3からのイベントを検知し、検知したイベントに基づいて、データ記憶部22に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。インタフェース部21は、制御部23が抽出した読み情報および文法情報の少なくとも1つの情報を、音声処理装置3に送信する。通信処理部31は、インタフェース部21が送信した読み情報および文法情報の少なくとも1つの情報を取得する。音声合成部38は、通信処理部31が取得した読み情報を用いて、合成音声を生成する。音声認識部37は、通信処理部31が取得した文法情報を用いて、入力音声を認識する。これにより、上記従来の構成のように、音声処理装置3に音声情報データベースおよび検索手段を備えなくとも、音声合成部38は、韻律情報を含む読み情報を用いて合成音声を生成し、音声認識部37は、認識文法を示す文法情報を用いて入力音声を認識することができる。それゆえ、音声処理装置3のコストを増大することなく、自然な合成音声を生成し、入力音声を認識することができる。なお、文法情報は、ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示しているので、例えば、ユーザデータの少なくとも1項目の項目値に複数の言い方がある場合、この複数の言い方を認識文法としていれば、複数の言い方で発話した場合であっても、この発話(入力音声)を認識することができる。
なお、図4においては、音声処理装置3が、端末装置2からユーザデータおよび読み情報を取得する処理、図5においては、音声処理装置3が、端末装置2からユーザデータおよび文法情報を取得する処理について説明したが、これに限定されない。すなわち、音声処理装置3が、端末装置2からユーザデータ、読み情報および文法情報を取得しても良い。
また、上記した具体例は、本発明に係る対話制御システム1の好適な実施形態に過ぎず、例えば、データ記憶部22に格納されているエントリの内容や、対話制御部32が用いるテンプレートなどについて、種々の変更が可能である。
(第1の変形例)
一例として、端末装置2がPDAである場合の第1の変形例を説明する。図6は、第1の変形例におけるデータ記憶部22のデータ構造の一例を示す図である。図6に示すように、データ記憶部22は、項目名、項目値、フリガナ、発音、および、文法を、エントリ22bにて格納する。エントリ22bの1行目R1には、項目名「ID」、項目値「00123」が格納されている。「ID」は、エントリ22bを一意に識別するための識別符号である。2行目R2には、項目名「タイトル」、項目値「グループ会議」、フリガナ「グループカイギ」、発音「ぐ‘るーぷかいぎ」、文法「ぐるーぷかいぎ」および「ぐるーぷみーてぃんぐ」が格納されている。すなわち、項目値「グループ会議」には、「ぐるーぷかいぎ」および「ぐるーぷみーてぃんぐ」の2つの認識文法を示す文法情報が格納されている。3行目R3には、項目名「開始日時」、項目値「8月10日9時30分」、発音「く‘じさん‘じゅっぷん」が格納されている。4行目R4には、項目名「終了日時」、項目値「8月10日12時00分」、発音「じゅう‘にじ」が格納されている。5行目R5には、項目名「繰り返し」、項目値「毎週」が格納されている。6行目R6には、項目名「場所」、項目値「A会議室」、フリガナ「エーカイギシツ」、発音「‘えーかいぎしつ」、文法「えーかいぎしつ」が格納されている。7行目R7には、項目名「説明」、項目値「いつもの進捗会議」が格納されている。すなわち、第1の変形例におけるデータ記憶部22には、端末装置2のスケジュールのユーザデータが格納されているが、これはあくまでも一例に過ぎない。
ここで、例えば、音声処理装置3から読み情報および文法情報を取得するための要求があると、制御部23は、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータ、および、このユーザデータの読み情報ならびに文法情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「タイトル」、「開始日時」、「終了日時」および「場所」の項目値の読み情報および文法情報を抽出する規則であるものとする。具体的には、制御部23は、音声処理装置3からの要求に基づいて、データ記憶部22に格納されているユーザデータ「グループ会議」、開始日時「8月10日9時30分」、終了日時「8月10日12時00分」および場所「A会議室」を抽出する。また、制御部23は、読み情報「ぐ‘るーぷかいぎ」、「く‘じさん‘じゅっぷん」、「じゅう‘にじ」および「‘えーかいぎしつ」を抽出する。さらに、制御部23は、文法情報「ぐるーぷかいぎ」、「ぐるーぷみーてぃんぐ」および「えーかいぎしつ」を抽出する。制御部23は、抽出したこれらの情報をインタフェース部21に出力する。インタフェース部21は、制御部23から出力されたユーザデータ「グループ会議」、開始日時「8月10日9時30分」、終了日時「8月10日12時00分」および場所「A会議室」、読み情報「ぐ‘るーぷかいぎ」、「く‘じさん‘じゅっぷん」、「じゅう‘にじ」および「‘えーかいぎしつ」、文法情報「ぐるーぷかいぎ」、「ぐるーぷみーてぃんぐ」および「えーかいぎしつ」を音声処理装置3に送信する。これにより、例えば、ユーザが「ぐるーぷかいぎ」あるいは「ぐるーぷみーてぃんぐ」と発話すると、音声処理装置3は、この発話を認識し、例えば、グループ会議のスケジュールを自然な韻律により合成音声にて読み上げることができる。
なお、音声処理装置3から読み情報および文法情報を取得するための要求は、データ記憶部22に格納されている全ての読み情報および文法情報を取得するための要求であっても良いし、音声処理装置3のユーザにより指定されたスケジュール(例えば、本日のスケジュール、1週間のスケジュール)の読み情報および文法情報を取得するための要求であっても良い。
対話制御部32は、予め用意されている画面表示用のテンプレートに、通信処理部31から出力されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部34に出力する。また、対話制御部32は、通信処理部31から出力されたユーザデータおよび文法情報を音声認識部37に出力する。さらに、対話制御部32は、予め用意されている音声合成用のテンプレートに、通信処理部31から出力された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部38に出力する。
図7(a)は、第1の変形例における画面表示用のテンプレートの一例を示す図である。本実施形態においては、図7(a)のテンプレートの「date」には、「開始日時」のユーザデータが関連付けられている。また、「place」には、「場所」のユーザデータが関連付けられている。対話制御部32は、図7(a)のテンプレートの「date」にユーザデータ「8月10日9時30分」を挿入し、「place」にユーザデータ「A会議室」を挿入する。対話制御部32は、「日時:8月10日9時30分、場所:A会議室」を示す文字列を画面表示部34に出力する。これにより、画面表示部34には、「日時:8月10日9時30分、場所:A会議室」が表示される。
図7(b)は、第1の変形例における音声合成用のテンプレートの一例を示す図である。本実施形態においては、図7(b)のテンプレートの「date」には、「開始日時」の読み情報が関連付けられている。また、「place」には、「場所」の読み情報が関連付けられている。対話制御部32は、図7(b)のテンプレートの「date」に読み情報「く‘じさん‘じゅっぷん」を挿入し、「place」に読み情報「‘えーかいぎしつ」を挿入する。対話制御部32は、「く‘じさん‘じゅっぷんから予定があります。場所は‘えーかいぎしつです」を示す文字列を音声合成部38に出力する。これにより、音声合成部38は、「く‘じさん‘じゅっぷんから予定があります。場所は‘えーかいぎしつです」を示す合成音声を生成する。
音声認識部37は、音声入力部35に入力された入力音声を認識する。例えば、対話制御部32から文法情報「ぐるーぷかいぎ」、「ぐるーぷみーてぃんぐ」および「えーかいぎしつ」が出力されたものとする。この場合、ユーザが「ぐるーぷかいぎ」と発話すると、音声認識部37は、この発話を認識し、文法情報「ぐるーぷかいぎ」のユーザデータ「グループ会議」を認識結果とする。また、ユーザが「ぐるーぷみーてぃんぐ」と発話しても、音声認識部37は、この発話を認識し、文法情報「ぐるーぷみーてぃんぐ」のユーザデータ「グループ会議」を認識結果とする。すなわち、ユーザが、ユーザデータの正式名称以外に、例えば、略称や俗称を発話した場合であっても、音声認識部37は、この発話を認識することができる。音声認識部37は、認識結果となる「グループ会議」を対話制御部32に出力する。これにより、対話制御部32は、例えば、グループ会議のスケジュールを取得するように、通信処理部31に指示することができる。通信処理部31は、対話制御部32からの指示を、端末装置2に送信する。
(第2の変形例)
他の例として、端末装置2が音楽プレーヤである場合の第2の変形例を説明する。図8は、第2の変形例におけるデータ記憶部22のデータ構造の一例を示す図である。図8に示すように、データ記憶部22は、項目名、項目値、フリガナ、発音、および、文法を、エントリ22cにて格納する。エントリ22cの1行目R1には、項目名「ID」、項目値「01357」が格納されている。「ID」は、エントリ22cを一意に識別するための識別符号である。2行目R2には、項目名「楽曲名」、項目値「赤いブランコ」、フリガナ「アカイブランコ」、発音「あ‘かいぶらんこ」、文法「あかいぶらんこ」が格納されている。3行目R3には、項目名「アーティスト名」、項目値「山崎次郎」、フリガナ「ヤマザキジロウ」、発音「や‘まざき‘じろう」、文法「やまざきじろう」および「やまさきじろう」が格納されている。4行目R4には、項目名「アルバム名」、項目値「チューリップ」、フリガナ「チューリップ」、発音「‘ちゅーりっぷ」、文法「ちゅーりっぷ」が格納されている。5行目R5には、項目名「楽曲番号」、項目値「1」が格納されている。6行目R6には、項目名「ファイル名」、項目値「01357.mp3」が格納されている。すなわち、図8のエントリ22cには、端末装置2の楽曲のユーザデータが格納されているが、これはあくまでも一例に過ぎない。
ここで、例えば、音声処理装置3から読み情報および文法情報を取得するための要求があると、制御部23は、予め定められている抽出規則に従って、データ記憶部22に格納されているユーザデータ、および、このユーザデータの読み情報ならびに文法情報を抽出する。なお、この場合の抽出規則は、ユーザデータの「楽曲名」および「アーティスト名」の項目値の読み情報および文法情報を抽出する規則であるものとする。具体的には、制御部23は、音声処理装置3からの要求に基づいて、データ記憶部22に格納されているユーザデータ「赤いブランコ」および「山崎次郎」、読み情報「あ‘かいぶらんこ」および「や‘まざき‘じろう」、文法情報「あかいぶらんこ」、「やまざきじろう」および「やまさきじろう」を抽出する。制御部23は、抽出したこれらの情報をインタフェース部21に出力する。インタフェース部21は、制御部23から出力されたユーザデータ「赤いブランコ」および「山崎次郎」、読み情報「あ‘かいぶらんこ」および「や‘まざき‘じろう」、文法情報「あかいぶらんこ」、「やまざきじろう」および「やまさきじろう」を音声処理装置3に送信する。これにより、例えば、ユーザが「あかいぶらんこ」と発話すると、音声処理装置3は、この発話を認識し、赤いブランコの楽曲を再生するように端末装置2に指示することができる。また、音声処理装置3は、端末装置2が再生した楽曲名およびアーティスト名を自然な韻律により合成音声にて読み上げることができる。
なお、音声処理装置3から読み情報および文法情報を取得するための要求は、データ記憶部22に格納されている全ての読み情報および文法情報を取得するための要求であっても良いし、音声処理装置3のユーザによって指定された楽曲名あるいはアーティスト名の読み情報および文法情報を取得するための要求であっても良い。また、再生回数の多い楽曲の読み情報および文法情報を取得するための要求であっても良い。
対話制御部32は、予め用意されている画面表示用のテンプレートに、通信処理部31から出力されたユーザデータを挿入し、挿入したユーザデータを含む文字列を画面表示部34に出力する。また、対話制御部32は、通信処理部31から出力されたユーザデータおよび文法情報を音声認識部37に出力する。さらに、対話制御部32は、予め用意されている音声合成用のテンプレートに、通信処理部31から出力された読み情報を挿入し、挿入した読み情報を含む文字列を音声合成部38に出力する。
図9(a)は、第2の変形例における画面表示用のテンプレートの一例を示す図である。本実施形態においては、図9(a)のテンプレートの「tunename」には、「楽曲名」のユーザデータが関連付けられている。また、「artistname」には、「アーティスト名」のユーザデータが関連付けられている。対話制御部32は、図9(a)のテンプレートの「tunename」にユーザデータ「赤いブランコ」を挿入し、「artistname」にユーザデータ「山崎次郎」を挿入する。対話制御部32は、「曲名:赤いブランコ、アーティスト:山崎次郎」を示す文字列を画面表示部34に出力する。これにより、画面表示部34には、「曲名:赤いブランコ、アーティスト:山崎次郎」が表示される。
図9(b)は、第2の変形例における音声合成用のテンプレートの一例を示す図である。本実施形態においては、図9(b)のテンプレートの「tunename」には、「楽曲名」の読み情報が関連付けられている。また、「artistname」には、「アーティスト名」の読み情報が関連付けられている。対話制御部32は、図9(b)のテンプレートの「artistname」に読み情報「や‘まざき‘じろう」を挿入し、「tunename」に読み情報「あ‘かいぶらんこ」を挿入する。対話制御部32は、「や‘まざき‘じろうのあ‘かいぶらんこを再生します」を示す文字列を音声合成部38に出力する。これにより、音声合成部38は、「や‘まざき‘じろうのあ‘かいぶらんこを再生します」を示す合成音声を生成する。
音声認識部37は、音声入力部35に入力された入力音声を認識する。例えば、対話制御部32から文法情報「あかいぶらんこ」、「やまざきじろう」および「やまさきじろう」が出力されたものとする。この場合、ユーザが「あかいぶらんこ」と発話すると、音声認識部37は、この発話を認識し、文法情報「あかいぶらんこ」のユーザデータ「赤いブランコ」を認識結果とする。音声認識部37は、認識結果となる「赤いブランコ」を対話制御部32に出力する。これにより、対話制御部32は、例えば、赤いブランコの楽曲を再生するように、通信処理部31に指示することができる。通信処理部31は、対話制御部32からの指示を、端末装置2に送信する。
(実施の形態2)
実施の形態1では、音声処理装置に端末装置が接続されることにより、音声処理装置が、端末装置のデータ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を取得し、取得した読み情報に基づいて合成音声を生成し、取得した文法情報に基づいて入力音声を認識する例について説明した。これに対して、実施の形態2では、音声情報管理装置に端末装置が接続されることにより、端末装置が、音声情報管理装置のユーザデータ記憶部に格納されているユーザデータと、音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報とを音声データとして取得し、取得した音声データをデータ記憶部に格納する例について説明する。
図10は、本実施形態に係る対話制御システム10の概略構成を示すブロック図である。図10において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
すなわち、本実施形態に係る対話制御システム10は、図1に示す音声処理装置3の代わりに、音声情報管理装置4を備えている。端末装置2と音声情報管理装置4とは、有線Lにより互いに接続されている。なお、端末装置2と音声情報管理装置4とは、無線により互いにアクセス可能であっても良い。
本実施形態においては、一例として、端末装置2が携帯電話であり、音声情報管理装置4がパーソナルコンピュータである場合について説明する。
(音声情報管理装置の構成)
音声情報管理装置4は、ユーザデータ記憶部41、入力部42、音声情報データベース43、読取部44、データ管理部45、データ抽出部46、および、データ伝送部47を備えている。
ユーザデータ記憶部41は、ユーザデータを格納する。図11は、ユーザデータ記憶部41のデータ構造の一例を示す図である。図11に示すように、ユーザデータ記憶部41は、項目名、項目値、および、フリガナを、エントリ41aにて格納する。項目名は、項目の名称を示す。項目値は、項目名に対応する内容を示す。フリガナは、項目値の読み方を示す。
図11に示すように、エントリ41aの1行目R1には、項目名「ID」、項目値「00246」が格納されている。「ID」は、エントリ41aを一意に識別するための識別符号である。2行目R2には、項目名「姓」、項目値「山田」、フリガナ「ヤマダ」が格納されている。3行目R3には、項目名「名」、項目値「太郎」、フリガナ「タロウ」が格納されている。4行目R4には、項目名「自宅電話番号」、項目値「012−34−5678」が格納されている。5行目R5には、項目名「自宅メールアドレス」、項目値「taro@provider.ne.jp」が格納されている。6行目R6には、項目名「携帯電話番号」、項目値「080−1234−5678」が格納されている。7行目R7には、項目名「携帯メールアドレス」、項目値「taro@keitai.ne.jp」が格納されている。すなわち、ユーザデータ記憶部41には、電話帳のユーザデータが格納されているが、これはあくまでも一例に過ぎない。
入力部42は、ユーザデータを、音声情報管理装置4のユーザに入力させる。入力部42から入力されたユーザデータは、ユーザデータ記憶部41に格納される。なお、入力部42は、キーボード、マウス、テンキー、タブレット、タッチパネル、音声認識装置などの任意の入力デバイスから構成される。
音声情報データベース43は、ユーザデータの項目値の韻律情報を含む読み情報、および、ユーザデータの項目値の1または複数の認識文法を示す文法情報を格納する。図12〜図14は、音声情報データベース43のデータ構造の一例を示す図である。図12〜図14に示すように、音声情報データベース43は、項目名、項目値、フリガナ、発音、および、文法を、エントリ43a〜43cにて格納する。すなわち、音声情報データベース43には、エントリ43a、エントリ43b、エントリ43cが格納されている。なお、発音は、項目値の発音(韻律)を示す。文法は、項目値の認識文法を示す。
図12に示すように、エントリ43aの1行目R1には、項目名「ID」、項目値「1122334455」が格納されている。「ID」は、エントリ43aを一意に識別するための識別符号である。2行目R2には、項目名「姓」、項目値「山田」、フリガナ「ヤマダ」、発音「やま‘だ」、文法「やまだ」が格納されている。3行目R3には、項目名「名」、項目値「太郎」、フリガナ「タロウ」、発音「‘たろー」、文法「たろー」が格納されている。
図13に示すように、エントリ43bの1行目R1には、項目名「ID」、項目値「1122334466」が格納されている。「ID」は、エントリ43bを一意に識別するための識別符号である。2行目R2には、項目名「タイトル」、項目値「グループ会議」、フリガナ「グループカイギ」、発音「ぐ‘るーぷかいぎ」、文法「ぐるーぷかいぎ」および「ぐるーぷみーてぃんぐ」が格納されている。3行目R3には、項目名「開始日時」、項目値「8月10日9時30分」、発音「く‘じさん‘じゅっぷん」が格納されている。4行目R4には、項目名「終了日時」、項目値「8月10日12時00分」、発音「じゅう‘にじ」が格納されている。5行目R5には、項目名「場所」、項目値「A会議室」、フリガナ「エーカイギシツ」、発音「‘えーかいぎしつ」、文法「えーかいぎしつ」が格納されている。
図14に示すように、エントリ43cの1行目R1には、項目名「ID」、項目値「1122334477」が格納されている。「ID」は、エントリ43cを一意に識別するための識別符号である。2行目R2には、項目名「楽曲名」、項目値「赤いブランコ」、フリガナ「アカイブランコ」、発音「あ‘かいぶらんこ」、文法「あかいぶらんこ」が格納されている。3行目R3には、項目名「アーティスト名」、項目値「山崎次郎」、フリガナ「ヤマザキジロウ」、発音「や‘まざき‘じろう」、文法「やまざきじろう」および「やまさきじろう」が格納されている。4行目R4には、項目名「アルバム名」、項目値「チューリップ」、フリガナ「チューリップ」、発音「‘ちゅーりっぷ」、文法「ちゅーりっぷ」が格納されている。
読取部44は、FD(Flexible Disk)、CD−ROM(Compact Disk Read Only Memory)、MO(Magneto Optical disk)、あるいは、DVD(Digital Versatile Disk)などの記録媒体を読み取る。音声情報管理装置4のユーザが、読み情報および文法情報を記録した記録媒体を読取部44により読み取らせることにより、音声情報データベース43には、図12〜図14に示すように、読み情報および文法情報が格納される。
データ管理部45は、音声情報管理装置4に端末装置2が接続されると、ユーザデータ記憶部41に格納されているユーザデータを抽出する。本実施形態においては、データ管理部45は、図11に示すエントリ41aを抽出する。データ管理部45は、抽出したユーザデータをデータ抽出部46に出力する。なお、データ管理部45は、音声情報管理装置4に端末装置2が接続されてから一定時間が経過した場合、ユーザによる指示があった場合、あるいは、ユーザが指定した時刻になった場合などに、ユーザデータ記憶部41に格納されているユーザデータを抽出しても良い。
データ抽出部46は、データ管理部45から出力されたユーザデータの項目値に基づいて、音声情報データベース43に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。本実施形態においては、データ抽出部46は、データ管理部45から出力されたユーザデータ「山田」および「太郎」に一致するレコードを検索することにより、音声情報データベース43のエントリ43aに格納されている読み情報「やま‘だ」および「‘たろー」、文法情報「やまだ」および「たろー」を抽出する。データ抽出部46は、抽出した読み情報および文法情報をデータ管理部45に出力する。なお、データ抽出部46は、ユーザデータおよびフリガナに基づいて、音声情報データベース43に格納されている読み情報および文法情報を抽出しても良い。これにより、ユーザデータの項目値の表記が共通しているが、フリガナ(読み方)が異なっている場合であっても、データ抽出部46は、所望の読み情報および文法情報を抽出することができる。
データ管理部45は、ユーザデータの項目値に、データ抽出部46から出力された読み情報および文法情報の少なくとも1つの情報を関連付けることにより、音声データを生成する。本実施形態においては、図11に示すエントリ41aのユーザデータ「山田」に、読み情報「やま‘だ」および文法情報「やまだ」を関連付け、ユーザデータ「太郎」に、読み情報「‘たろー」および文法情報「たろー」を関連付けることにより、音声データを生成する。データ管理部45は、生成した音声データをデータ伝送部47に出力する。
データ伝送部47は、端末装置2とデータ管理部45との間の通信を処理する。具体的には、データ伝送部47は、データ管理部45から出力された音声データを端末装置2に送信する。
ところで、上記の音声情報管理装置4は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の入力部42、読取部44、データ管理部45、データ抽出部46およびデータ伝送部47は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、入力部42、読取部44、データ管理部45、データ抽出部46およびデータ伝送部47の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、ユーザデータ記憶部41および音声情報データベース43は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
(端末装置の構成)
端末装置2は、図1に示すインタフェース部21および制御部23の代わりに、インタフェース部24および制御部25を備えている。
インタフェース部24は、音声情報管理装置4と制御部25との間のインタフェース部である。具体的には、インタフェース部24は、音声情報管理装置4から送信された音声データを取得する。インタフェース部21は、取得した音声データを制御部25に出力する。
制御部25は、インタフェース部24から出力された音声データを、データ記憶部22に格納する。これにより、データ記憶部22には、図2に示すように、ユーザデータ、読み情報および文法情報が格納される。
(対話制御システムの動作)
次に、上記の構成に係る対話制御システム10の処理について、図15を参照しながら説明する。
図15は、端末装置2が、音声情報管理装置4からユーザデータ、読み情報および文法情報を取得する処理の概要を示すフローチャートである。すなわち、図15に示すように、音声情報管理装置4に端末装置2が接続されていれば(工程Op21にてYES)、データ管理部45は、ユーザデータ記憶部41に格納されているユーザデータを抽出する(工程Op22)。一方、音声情報管理装置4に端末装置2が接続されていなければ(工程Op21にてNO)、工程Op21に戻る。
データ抽出部46は、工程Op22にて抽出されたユーザデータの項目値に基づいて、音声情報データベース43に格納されている読み情報および文法情報を抽出する(工程OP23)。データ管理部45は、工程Op23にて抽出された読み情報および文法情報を、ユーザデータの項目値に関連付けることにより、音声データを生成する(工程Op24)。データ伝送部47は、工程Op24にて生成された音声データを端末装置2に送信する(工程Op25)。
端末装置2のインタフェース部24は、工程Op25にて送信された音声データを取得する(工程Op26)。制御部25は、工程Op26にて取得された音声データを、データ記憶部22に格納する(工程Op27)。これにより、データ記憶部22には、図2に示すように、ユーザデータ、読み情報および文法情報が格納される。
以上のように、本実施形態に係る対話制御システム10によれば、データ管理部45は、音声情報管理装置4のイベントまたは端末装置2からのイベントを検知し、検知したイベントに基づいて、ユーザデータ記憶部41からユーザデータを抽出する。データ抽出部46は、データ管理部45が抽出したユーザデータの項目値に基づいて、音声情報データベース43に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する。データ管理部45は、ユーザデータの項目値に、データ抽出部46が抽出した読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成する。これにより、データ伝送部47は、データ管理部45が生成した音声データを、端末装置2に送信することができる。それゆえ、端末装置2のデータ記憶部22には、読み情報および文法情報の少なくとも1つの情報が格納される。
なお、図15においては、端末装置2が、音声情報管理装置4からユーザデータ、読み情報および文法情報を取得する処理について説明したが、これに限定されない。すなわち、端末装置2が、音声情報管理装置4からユーザデータを取得し、音声情報管理装置4から読み情報および文法情報の少なくとも1つの情報を取得すれば良い。
また、上記では、音声情報管理装置にユーザデータ記憶部が備えられている例について説明したが、これに限定されない。すなわち、端末装置にユーザデータ記憶部が備えられていても良い。この場合、音声情報管理装置は、端末装置のユーザデータ記憶部からユーザデータを取得し、取得したユーザデータの項目値に基づいて、音声情報管理装置の音声情報データベースから読み情報および文法情報を抽出する。音声情報管理装置は、ユーザデータの項目値に、読み情報および文法情報を関連付けることにより、音声データを生成する。音声情報管理装置は、音声データを端末装置に送信する。
また、上記した具体例は、本発明に係る対話制御システム10の好適な実施形態に過ぎず、例えば、データ抽出部46による読み情報および文法情報の抽出処理などについて、種々の変更が可能である。
(データ抽出部による抽出処理の変形例)
一例として、図15に示した工程Op23において、データ抽出部46による抽出処理の変形例を説明する。すなわち、本変形例は、データ抽出部46が、ユーザデータの住所の項目値に基づいて、音声情報データベース43に格納されている場所の読み情報および文法情報を抽出する例である。
図16は、本変形例におけるユーザデータ記憶部41のデータ構造の一例を示す図である。図16に示すように、ユーザデータ記憶部41は、項目名および項目値を、エントリ41bにて格納する。エントリ41bの1行目R1には、項目名「ID」、項目値「00124」が格納されている。「ID」は、エントリ41bを一意に識別するための識別符号である。2行目R2には、項目名「タイトル」、項目値「飲み会@○○屋」が格納されている。3行目R3には、項目名「開始日時」、項目値「11月2日18時30分」が格納されている。4行目R4には、項目名「終了日時」、項目値「11月2日21時00分」が格納されている。5行目R5には、項目名「繰り返し」、項目値「なし」が格納されている。6行目R6には、項目名「場所名」、項目値「神戸」が格納されている。7行目R7には、項目名「住所」、項目値「兵庫県神戸市」が格納されている。8行目R8には、項目名「緯度」、項目値「34.678147」が格納されている。9行目R9には、項目名「経度」、項目値「135.181832」が格納されている。10行目R10には、項目名「説明」、項目値「同期で集まる」が格納されている。
図17は、本変形例における音声情報データベース43のデータ構造の一例を示す図である。図17に示すように、音声情報データベース43は、ID、場所、住所、フリガナ、読み、および、文法を、エントリ43dにて格納する。エントリ43dの1行目R1には、ID「12345601」、場所「神戸」、住所「兵庫県神戸市」、フリガナ「コウベ」、読み「‘こうべ」、文法「こうべ」が格納されている。2行目R2には、ID「12345602」、場所「神戸」、住所「岡山県津山市」、フリガナ「ジンゴ」、読み「‘じんご」、文法「じんご」が格納されている。3行目R3には、ID「12345603」、場所「神戸」、住所「東京都西多摩檜原村」、フリガナ「カノト」、読み「‘かのと」、文法「かのと」が格納されている。4行目R4には、ID「13579101」、場所「大山」、住所「東京都板橋区」、フリガナ「オオヤマ」、読み「お‘おやま」、文法「おおやま」が格納されている。5行目R5には、ID「13579102」、場所「大山」、住所「鳥取県西伯郡大山町」、フリガナ「ダイセン」、読み「‘だいせん」、文法「だいせん」が格納されている。すなわち、エントリ43dの1行目R1〜3行目R3は、場所の表記は「神戸」で共通しているが、読み方がそれぞれ異なっている。また、エントリ43dの4行目R4および5行目R5は、場所の表記は「大山」で共通しているが、読み方がそれぞれ異なっている。
ここで、データ管理部45は、音声情報管理装置4に端末装置2が接続されると、ユーザデータ記憶部41のエントリ41bに格納されているユーザデータの住所「兵庫県神戸市」を抽出する。データ管理部45は、抽出したユーザデータ「兵庫県神戸市」をデータ抽出部46に出力する。
データ抽出部46は、データ管理部45から出力されたユーザデータ「兵庫県神戸市」に一致するレコードを検索することにより、音声情報データベース43のエントリ43dに格納されている読み情報「‘こうべ」、文法情報「こうべ」を抽出する。すなわち、データ抽出部46が、ユーザデータの住所の項目値に基づいて、音声情報データベース43に格納されている場所の読み情報および文法情報を抽出するので、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、所望の読み情報および文法情報を抽出することができる。データ抽出部46は、抽出した読み情報「‘こうべ」および文法情報「こうべ」をデータ管理部45に出力する。
データ管理部45は、図16に示すエントリ41bにおけるユーザデータの場所「神戸」に、データ抽出部46から出力された読み情報「‘こうべ」および文法情報「こうべ」を関連付けることにより、音声データを生成する。データ管理部45は、生成した音声データをデータ伝送部47に出力する。データ伝送部47は、データ管理部45から出力された音声データを端末装置2に送信する。
ところで、上記では、データ抽出部46が、ユーザデータの住所の項目値に基づいて、音声情報データベース43に格納されている場所の読み情報および文法情報を抽出する例を説明したが、これに限定されない。例えば、データ抽出部46が、ユーザデータの緯度および経度の項目値に基づいて、音声情報データベース43に格納されている場所の読み情報および文法情報を抽出しても良い。これにより、ユーザデータの場所の表記が共通しているが、読み情報および文法情報が異なる場合であっても、データ抽出部46は、所望の読み情報および文法情報を抽出することができる。
また、データ抽出部46は、ユーザデータの場所の項目値に基づいて、音声情報データベース43に格納されている場所の読み情報および文法情報を抽出しても良い。例えば、図16のエントリ41bにおける場所のユーザデータに、「神戸の○○屋」と格納されているものとする。このような場合、データ管理部45は、場所のユーザデータ「神戸の○○屋」を形態素解析することにより、名詞となる「神戸」および「○○屋」を抽出する。データ抽出部46は、「神戸」および「○○屋」に基づいて、音声情報データベース43に格納されている場所の読み情報および文法情報を抽出する。
(実施の形態3)
実施の形態2では、音声情報管理装置に、1つの音声情報データベースを備える例について説明した。これに対して、実施の形態3では、音声情報管理装置に、複数の音声情報データベースを備える例について説明する。
図18は、本実施形態に係る対話制御システム11の概略構成を示すブロック図である。図18において、図10と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
すなわち、本実施形態に係る対話制御システム11は、図10に示す音声情報管理装置4の代わりに、音声情報管理装置5を備えている。また、本実施形態に係る音声情報管理装置5は、図10に示す音声情報データベース43の代わりに、音声情報データベース51a〜51cを備えている。また、本実施形態に係る音声情報管理装置5は、図10に示す音声情報管理装置4に加えて、選択部52を備えている。さらに、本実施形態に係る音声情報管理装置5は、図10に示すデータ抽出部46の代わりに、データ抽出部53a〜53cを備えている。なお、図18では、説明の簡略化のために、音声情報データベース51a〜51cを3つ図示したが、音声情報管理装置5を構成する音声情報データベースの数は任意である。
音声情報データベース51a〜51cは、図10に示す音声情報データベース43と同様、ユーザデータの項目値の韻律情報を含む読み情報、および、ユーザデータの項目値の1または複数の認識文法を示す文法情報を格納する。音声情報データベース51a〜51cは、読み情報および文法情報の種類がそれぞれ異なる複数のデータベースである。本実施形態においては、一例として、音声情報データベース51aには、人名の読み情報および文法情報が格納されている。音声情報データベース51bには、スケジュールの読み情報および文法情報が格納されている。音声情報データベース51cには、楽曲の読み情報および文法情報が格納されている。
選択部52は、データ管理部45から出力されたユーザデータの種類に基づいて、読み情報および文法情報を抽出するための音声情報データベース51a〜51cを選択する。本実施形態においては、ユーザデータの種類が人名である場合、選択部52は、音声情報データベース52aを選択する。また、ユーザデータの種類がスケジュールである場合、選択部52は、音声情報データベース52bを選択する。さらに、ユーザデータの種類が楽曲である場合、選択部52は、音声情報データベース52cを選択する。選択部52は、音声情報データベース51a〜51cのいずれかを選択した場合、選択した音声情報データベース51a〜51cに対応するデータ抽出部53a〜53cに、データ管理部45から出力されたユーザデータを出力する。
一例として、データ管理部45から出力されたユーザデータが、「山田」および「太郎」である場合、選択部52は、人名の読み情報および文法情報が格納されている音声情報データベース51aを選択する。選択部52は、選択した音声情報データベース51aに対応するデータ抽出部53aに、データ管理部45から出力されたユーザデータ「山田」および「太郎」を出力する。
データ抽出部53a〜53cは、選択部52から出力されたユーザデータの項目値に基づいて、音声情報データベース51a〜51cに格納されている読み情報および文法情報を抽出する。データ抽出部53a〜53cは、抽出した読み情報および文法情報を選択部52に出力する。選択部52は、データ抽出部53a〜53cから出力された読み情報および文法情報をデータ管理部45に出力する。
ところで、上記の音声情報管理装置5は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の選択部52およびデータ抽出部53a〜53cは、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、選択部52およびデータ抽出部53a〜53cの機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、音声情報データベース51a〜51cは、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
以上のように、本実施形態に係る対話制御システム11によれば、読み情報および文法情報の少なくとも1つの情報の種類がそれぞれ異なる複数の音声情報データベース51a〜51cが備えられている。選択部52は、データ管理部45が抽出したユーザデータの種類に基づいて、音声情報データベース51a〜51cを選択する。これにより、音声情報管理装置5のユーザは、例えば、人名、地名、スケジュール、楽曲など、種類がそれぞれ異なる複数の音声情報データベース51a〜51cに分類することができるので、音声情報データベース51a〜51cを容易に管理することができる。
(実施の形態4)
実施の形態3では、音声情報管理装置に、複数の音声情報データベースを備える例について説明した。これに対して、実施の形態4では、音声情報管理装置に、複数の音声情報データベースを備え、さらにサーバ装置においても、音声情報データベースを備える例について説明する。
図19は、本実施形態に係る対話制御システム12の概略構成を示すブロック図である。図19において、図18と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
すなわち、本実施形態に係る対話制御システム12は、図18に示す音声情報管理装置5の代わりに、音声情報管理装置6を備えている。また、本実施形態に係る対話制御システム12は、図18に示す対話制御システム11に加えて、サーバ装置7を備えている。音声情報管理装置6とサーバ装置7とは、インターネットNにより互いに接続されている。なお、音声情報管理装置6とサーバ装置7とは、有線により互いに接続されていても良いし、無線により互いにアクセス可能であっても良い。
本実施形態に係る音声情報管理装置6は、図18に示す選択部52の代わりに、選択部61を備えている。また、本実施形態に係る音声情報管理装置6は、図18に示す音声情報管理装置5に加えて、通信部62を備えている。
選択部61は、データ管理部45から出力されたユーザデータの種類に基づいて、読み情報および文法情報を抽出するための音声情報データベース51a〜51c,72を選択する。選択部61は、声情報データベース51a〜51cのいずれかを選択した場合、選択した音声情報データベース51a〜51cに対応するデータ抽出部53a〜53cに、データ管理部45から出力されたユーザデータを出力する。また、選択部61は、音声情報データベース72を選択した場合、通信処理部62に、データ管理部45から出力されたユーザデータを出力する。
通信部62は、サーバ装置7と選択部61との間の通信を処理する。具体的には、通信部62は、選択部61から出力されたユーザデータを、インターネットNを介してサーバ装置7に送信する。
ところで、上記の音声情報管理装置6は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の選択部61および通信部62は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、選択部61および通信部62の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。
サーバ装置7は、通信部71、音声情報データベース72、および、データ抽出部73を備えている。サーバ装置7は、サーバマシン、パーソナルコンピュータ、ワークステーションなどのコンピュータ1台または複数台で構成される。本実施形態においては、サーバ装置7は、Webサーバとして機能する。なお、図19では、説明の簡略化のために、音声情報データベース72を1つ図示したが、サーバ装置7を構成する音声情報データベースの数は任意である。
通信部71は、音声情報管理装置6とデータ抽出部73との間の通信を処理する。具体的には、通信部71は、音声情報管理装置6から送信されたユーザデータをデータ抽出部73に出力する。
音声情報データベース72は、音声情報データベース51a〜51cと同様、ユーザデータの項目値の韻律情報を含む読み情報、および、ユーザデータの項目値の1または複数の認識文法を示す文法情報を格納する。本実施形態においては、一例として、音声情報データベース72には、地名の読み情報および文法情報が格納されている。
データ抽出部73は、通信部71から出力されたユーザデータに基づいて、音声情報データベース72に格納されている読み情報および文法情報を抽出する。データ抽出部73は、抽出した読み情報および文法情報を通信部71に出力する。通信部71は、データ抽出部73から出力された読み情報および文法情報を、インターネットNを介して音声情報管理装置6に送信する。通信部62は、通信部71から送信された読み情報および文法情報を選択部61に出力する。選択部62は、通信部62から出力された読み情報および文法情報をデータ管理部45に出力する。
以上のように、本実施形態に係る対話制御システム12によれば、選択部61は、データ管理部45が抽出したユーザデータの種類に基づいて、サーバ装置7に備えられている音声情報データベース72を選択する。これにより、データ管理部45は、ユーザデータに、サーバ装置7に備えられている音声情報データベース72の読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成することができる。
なお、第1の実施形態において、制御装置が、音声認識部および音声合成部を備える例について説明したが、これに限定されるものではない。すなわち、制御装置には、音声認識部および音声合成部の少なくとも1つが備えられていれば良い。
また、第2〜第4の実施形態において、音声情報データベースが、読み情報および文法情報を格納する例について説明したが、これに限定されるものではない。すなわち、音声情報データベースには、読み情報および文法情報の少なくとも1つの情報が格納されていれば良い。
さらに、第1〜第4の実施形態において、データ記憶部、ユーザデータ記憶部、および、音声情報データベースが各情報をエントリにて格納する例について説明したが、これに限定されるものではない。すなわち、格納形式については、任意である。
本発明は上述した第1〜第4の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
ユーザデータを格納する端末装置と通信可能な通信処理部と、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも1つとを備えた音声処理装置において、
前記通信処理部は、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、前記端末装置から取得し、
前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、
前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する、音声処理装置。
(付記2)
合成音声を生成する機能、および、入力音声を認識する機能の少なくとも1つの機能を有する音声処理装置と通信可能なインタフェース部と、ユーザデータを格納するデータ記憶部とを備えた端末装置において、
前記データ記憶部には、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されており、
前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御部を備え、
前記インタフェース部は、前記制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信する、端末装置。
(付記3)
合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも1つを有する音声処理装置に、ユーザデータを格納するデータ記憶部を有する端末装置が通信可能な対話制御システムにおいて、
前記データ記憶部には、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されており、
前記端末装置が、
前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御部と、
前記制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信するインタフェース部とを備え、
前記音声処理装置が、
前記インタフェース部が送信した読み情報および文法情報の少なくとも1つの情報を取得する通信処理部を備え、
前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、
前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する、対話制御システム。
(付記4)
端末装置と通信可能なデータ伝送部を備えた音声情報管理装置において、
前記音声情報管理装置のイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記音声情報管理装置または前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理部と、
前記ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報を格納する音声情報データベースと、
前記データ管理部が抽出したユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報を抽出するデータ抽出部とを備え、
前記データ管理部は、前記ユーザデータの項目値に、前記データ抽出部が抽出した読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成し、
前記データ伝送部は、前記データ管理部が生成した音声データを、前記端末装置に送信する、音声情報管理装置。
(付記5)
前記データ抽出部は、前記ユーザデータの住所の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する、付記4に記載の音声情報管理装置。
(付記6)
前記データ抽出部は、前記ユーザデータの緯度および経度の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する、付記4に記載の音声情報管理装置。
(付記7)
前記読み情報および前記文法情報の少なくとも1つの情報の種類がそれぞれ異なる複数の音声情報データベースと、
前記データ管理部が抽出したユーザデータの種類に基づいて、前記音声情報データベースを選択する選択部とをさらに備える、付記4〜6のいずれか一項に記載の音声情報管理装置。
(付記8)
サーバ装置と通信可能な通信部をさらに備え、
前記サーバ装置が、
前記読み情報および前記文法情報の少なくとも1つの情報を格納する音声情報データベースを備え、
前記選択部は、前記データ管理部が抽出したユーザデータの種類に基づいて、前記サーバ装置に備えられている音声情報データベースを選択する、付記7に記載の音声情報管理装置。
(付記9)
ユーザデータを格納する端末装置と通信可能な通信処理と、合成音声を生成する音声合成処理、および、入力音声を認識する音声認識処理の少なくとも1つの処理とをコンピュータに実行させるプログラムにおいて、
前記通信処理は、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、前記端末装置から取得する処理を前記コンピュータに実行させ、
前記音声合成処理は、前記通信処理で取得された読み情報を用いて、合成音声を生成する処理を前記コンピュータに実行させ、
前記音声認識処理は、前記通信処理で取得された文法情報を用いて、入力音声を認識する処理を前記コンピュータに実行させる、プログラム。
(付記10)
ユーザデータを格納するデータ記憶部を備えたコンピュータに、合成音声を生成する機能、および、入力音声を認識する機能の少なくとも1つの機能を有する音声処理装置と通信可能なインタフェース処理を実行させるプログラムにおいて、
前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されている前記データ記憶部に、前記コンピュータがアクセス可能であって、
前記コンピュータのイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御処理を前記コンピュータに実行させ、
前記インタフェース処理は、前記制御処理で抽出された読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信する処理を前記コンピュータに実行させる、プログラム。
(付記11)
ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報を格納する音声情報データベースを備えたコンピュータに、端末装置と通信可能なデータ伝送処理を実行させるプログラムにおいて、
前記コンピュータのイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記コンピュータまたは前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理処理と、
前記データ管理処理で抽出されたユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報を抽出するデータ抽出処理とを前記コンピュータに実行させ、
前記データ管理処理は、前記ユーザデータの項目値に、前記データ抽出処理で抽出された読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成する処理を前記コンピュータに実行させ、
前記データ伝送処理は、前記データ管理処理で生成された音声データを、前記端末装置に送信する処理を前記コンピュータに実行させる、プログラム。
以上のように、本発明は、音声処理装置のコストを増大することなく、自然な合成音声を生成し、複数の言い方で発話した場合であっても、この発話を認識することができる音声処理装置、端末装置、音声情報管理装置、および、プログラムとして有用である。
本発明の第1の実施形態に係る対話制御システムの概略構成を示すブロック図である。 上記対話制御システムの端末装置におけるデータ記憶部のデータ構造の一例を示す図である。 上記対話制御システムの音声処理装置における対話制御部が用いるテンプレートの一例をそれぞれ示す図である。 音声処理装置が、端末装置からユーザデータおよび読み情報を取得する処理の一例を示すフローチャートである。 音声処理装置が、端末装置からユーザデータおよび文法情報を取得する処理の一例を示すフローチャートである。 上記データ記憶部におけるデータ構造の第1の変形例を示す図である。 上記対話制御部が用いるテンプレートの第1の変形例をそれぞれ示す図である。 上記データ記憶部におけるデータ構造の第2の変形例を示す図である。 上記対話制御部が用いるテンプレートの第2の変形例をそれぞれ示す図である。 本発明の第2の実施形態に係る対話制御システムの概略構成を示すブロック図である。 上記対話制御システムの音声情報管理装置におけるユーザデータ記憶部のデータ構造の一例を示す図である。 上記音声情報管理装置における音声情報データベースのデータ構造の一例を示す図である。 上記音声情報データベースのデータ構造の一例を示す図である。 上記音声情報データベースのデータ構造の一例を示す図である。 端末装置が、音声情報管理装置からユーザデータ、読み情報および文法情報を取得する動作の一例を示すフローチャートである。 上記ユーザデータ記憶部のデータ構造の変形例を示す図である。 上記音声情報データベースのデータ構造の変形例を示す図である。 本発明の第3の実施形態に係る対話制御システムの概略構成を示すブロック図である。 本発明の第4の実施形態に係る対話制御システムの概略構成を示すブロック図である。
符号の説明
1、10、11、12 対話制御システム
2 端末装置
3 音声処理装置
4、5、6 音声情報管理装置
7 サーバ装置
21、24 インタフェース部
22 データ記憶部
23、25 制御部
31 通信処理部
37 音声認識部
38 音声合成部
41 ユーザデータ記憶部
43、51a〜51c、72 音声情報データベース
45 データ管理部
46、53a〜53c、73 データ抽出部
47 データ伝送部
52、61 選択部
62 通信部

Claims (8)

  1. ユーザデータを格納する端末装置と通信可能な通信処理部と、合成音声を生成する音声合成部、および、入力音声を認識する音声認識部の少なくとも1つとを備えた音声処理装置において、
    前記通信処理部は、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、前記端末装置から取得し、
    前記音声合成部は、前記通信処理部が取得した読み情報を用いて、合成音声を生成し、
    前記音声認識部は、前記通信処理部が取得した文法情報を用いて、入力音声を認識する、音声処理装置。
  2. 合成音声を生成する機能、および、入力音声を認識する機能の少なくとも1つの機能を有する音声処理装置と通信可能なインタフェース部と、ユーザデータを格納するデータ記憶部とを備えた端末装置において、
    前記データ記憶部には、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報がさらに格納されており、
    前記端末装置のイベントまたは前記音声処理装置からのイベントを検知し、検知したイベントに基づいて、前記データ記憶部に格納されている読み情報および文法情報の少なくとも1つの情報を抽出する制御部を備え、
    前記インタフェース部は、前記制御部が抽出した読み情報および文法情報の少なくとも1つの情報を、前記音声処理装置に送信する、端末装置。
  3. 端末装置と通信可能なデータ伝送部を備えた音声情報管理装置において、
    前記音声情報管理装置のイベントまたは前記端末装置からのイベントを検知し、検知したイベントに基づいて、前記音声情報管理装置または前記端末装置に設けられているユーザデータ記憶部からユーザデータを抽出するデータ管理部と、
    前記ユーザデータの項目値の韻律情報を含み、合成音声を生成するために用いられる読み情報、および、前記ユーザデータの項目値の1または複数の認識文法を示し、入力音声を認識するために用いられる文法情報の少なくとも1つの情報を格納する音声情報データベースと、
    前記データ管理部が抽出したユーザデータの項目値に基づいて、前記音声情報データベースに格納されている読み情報および文法情報の少なくとも1つの情報を抽出するデータ抽出部とを備え、
    前記データ管理部は、前記ユーザデータの項目値に、前記データ抽出部が抽出した読み情報および文法情報の少なくとも1つの情報を関連付けた音声データを生成し、
    前記データ伝送部は、前記データ管理部が生成した音声データを、前記端末装置に送信する、音声情報管理装置。
  4. 前記データ抽出部は、前記ユーザデータの住所の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する、請求項3に記載の音声情報管理装置。
  5. 前記データ抽出部は、前記ユーザデータの緯度および経度の項目値に基づいて、前記音声情報データベースに格納されている場所の読み情報および文法情報の少なくとも1つの情報を抽出する、請求項3に記載の音声情報管理装置。
  6. 前記読み情報および前記文法情報の少なくとも1つの情報の種類がそれぞれ異なる複数の音声情報データベースと、
    前記データ管理部が抽出したユーザデータの種類に基づいて、前記音声情報データベースを選択する選択部とをさらに備える、請求項3〜5のいずれか一項に記載の音声情報管理装置。
  7. サーバ装置と通信可能な通信部をさらに備え、
    前記サーバ装置が、
    前記読み情報および前記文法情報の少なくとも1つの情報を格納する音声情報データベースを備え、
    前記選択部は、前記データ管理部が抽出したユーザデータの種類に基づいて、前記サーバ装置に備えられている音声情報データベースを選択する、請求項6に記載の音声情報管理装置。
  8. ユーザデータを格納する端末装置と通信可能な通信処理と、合成音声を生成する音声合成処理、および、入力音声を認識する音声認識処理の少なくとも1つの処理とをコンピュータに実行させるプログラムにおいて、
    前記通信処理は、前記ユーザデータの少なくとも1項目の項目値の韻律情報を含む読み情報、および、前記ユーザデータの少なくとも1項目の項目値の1または複数の認識文法を示す文法情報の少なくとも1つの情報を、前記端末装置から取得する処理を前記コンピュータに実行させ、
    前記音声合成処理は、前記通信処理で取得された読み情報を用いて、合成音声を生成する処理を前記コンピュータに実行させ、
    前記音声認識処理は、前記通信処理で取得された文法情報を用いて、入力音声を認識する処理を前記コンピュータに実行させる、プログラム。
JP2006323978A 2006-11-30 2006-11-30 音声情報管理装置 Expired - Fee Related JP4859642B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006323978A JP4859642B2 (ja) 2006-11-30 2006-11-30 音声情報管理装置
US11/902,490 US20080133240A1 (en) 2006-11-30 2007-09-21 Spoken dialog system, terminal device, speech information management device and recording medium with program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006323978A JP4859642B2 (ja) 2006-11-30 2006-11-30 音声情報管理装置

Publications (2)

Publication Number Publication Date
JP2008139438A true JP2008139438A (ja) 2008-06-19
JP4859642B2 JP4859642B2 (ja) 2012-01-25

Family

ID=39476899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006323978A Expired - Fee Related JP4859642B2 (ja) 2006-11-30 2006-11-30 音声情報管理装置

Country Status (2)

Country Link
US (1) US20080133240A1 (ja)
JP (1) JP4859642B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010060720A (ja) * 2008-09-02 2010-03-18 Denso Corp 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297272A1 (en) * 2013-04-02 2014-10-02 Fahim Saleh Intelligent interactive voice communication system and method

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258785A (ja) * 1996-03-22 1997-10-03 Sony Corp 情報処理方法および情報処理装置
JPH10229449A (ja) * 1996-11-29 1998-08-25 Northern Telecom Ltd 電話帳の登録項目から話を認識した語彙を自動的に生成する方法および装置、並びに、話認識システムにおいて使用される、話を認識した語彙を生成するためにコンピュータに命令をするためのプログラム要素を記録したコンピュータ読み取り可能な記録媒体
JPH1132105A (ja) * 1997-07-10 1999-02-02 Sony Corp 携帯情報端末およびその着信報知方法
JPH11296791A (ja) * 1998-04-10 1999-10-29 Daihatsu Motor Co Ltd 情報提供システム
JPH11296189A (ja) * 1998-04-08 1999-10-29 Alpine Electronics Inc 車載電子機器
JPH11344997A (ja) * 1998-06-02 1999-12-14 Sanyo Electric Co Ltd 音声合成方法
JP2000056789A (ja) * 1998-06-02 2000-02-25 Sanyo Electric Co Ltd 音声合成装置及び電話機
JP2002197351A (ja) * 2000-12-25 2002-07-12 Nec Corp 情報提供システムおよび方法並びに情報提供プログラムを記録した記録媒体
JP2002221979A (ja) * 2001-01-24 2002-08-09 Matsushita Electric Ind Co Ltd 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置
JP2003125454A (ja) * 2001-10-12 2003-04-25 Honda Motor Co Ltd 運転状況依存通話制御システム
EP1600942A1 (en) * 2004-05-21 2005-11-30 Harman Becker Automotive Systems GmbH Automatic word pronunciation generation for speech recognition
JP2006014216A (ja) * 2004-06-29 2006-01-12 Toshiba Corp 通信端末及び辞書作成方法
JP2006292918A (ja) * 2005-04-08 2006-10-26 Denso Corp ナビゲーション装置およびナビゲーション装置用プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
JP3573907B2 (ja) * 1997-03-10 2004-10-06 株式会社リコー 音声合成装置
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6418440B1 (en) * 1999-06-15 2002-07-09 Lucent Technologies, Inc. System and method for performing automated dynamic dialogue generation
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
GB0113581D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP3589216B2 (ja) * 2001-11-02 2004-11-17 日本電気株式会社 音声合成システム及び音声合成方法
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
WO2004008434A1 (en) * 2002-07-17 2004-01-22 Nokia Corporation Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
US7376645B2 (en) * 2004-11-29 2008-05-20 The Intellection Group, Inc. Multimodal natural language query system and architecture for processing voice and proximity-based queries
US7689423B2 (en) * 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
US7991607B2 (en) * 2005-06-27 2011-08-02 Microsoft Corporation Translation and capture architecture for output of conversational utterances
US7584104B2 (en) * 2006-09-08 2009-09-01 At&T Intellectual Property Ii, L.P. Method and system for training a text-to-speech synthesis system using a domain-specific speech database

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258785A (ja) * 1996-03-22 1997-10-03 Sony Corp 情報処理方法および情報処理装置
JPH10229449A (ja) * 1996-11-29 1998-08-25 Northern Telecom Ltd 電話帳の登録項目から話を認識した語彙を自動的に生成する方法および装置、並びに、話認識システムにおいて使用される、話を認識した語彙を生成するためにコンピュータに命令をするためのプログラム要素を記録したコンピュータ読み取り可能な記録媒体
JPH1132105A (ja) * 1997-07-10 1999-02-02 Sony Corp 携帯情報端末およびその着信報知方法
JPH11296189A (ja) * 1998-04-08 1999-10-29 Alpine Electronics Inc 車載電子機器
JPH11296791A (ja) * 1998-04-10 1999-10-29 Daihatsu Motor Co Ltd 情報提供システム
JP2000056789A (ja) * 1998-06-02 2000-02-25 Sanyo Electric Co Ltd 音声合成装置及び電話機
JPH11344997A (ja) * 1998-06-02 1999-12-14 Sanyo Electric Co Ltd 音声合成方法
JP2002197351A (ja) * 2000-12-25 2002-07-12 Nec Corp 情報提供システムおよび方法並びに情報提供プログラムを記録した記録媒体
JP2002221979A (ja) * 2001-01-24 2002-08-09 Matsushita Electric Ind Co Ltd 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置
JP2003125454A (ja) * 2001-10-12 2003-04-25 Honda Motor Co Ltd 運転状況依存通話制御システム
EP1600942A1 (en) * 2004-05-21 2005-11-30 Harman Becker Automotive Systems GmbH Automatic word pronunciation generation for speech recognition
JP2006014216A (ja) * 2004-06-29 2006-01-12 Toshiba Corp 通信端末及び辞書作成方法
JP2006292918A (ja) * 2005-04-08 2006-10-26 Denso Corp ナビゲーション装置およびナビゲーション装置用プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010060720A (ja) * 2008-09-02 2010-03-18 Denso Corp 音声認識装置、端末機器、音声認識装置用プログラム及び端末機器用プログラム

Also Published As

Publication number Publication date
US20080133240A1 (en) 2008-06-05
JP4859642B2 (ja) 2012-01-25

Similar Documents

Publication Publication Date Title
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US7957972B2 (en) Voice recognition system and method thereof
KR101788500B1 (ko) 이름 발음을 위한 시스템 및 방법
US9640175B2 (en) Pronunciation learning from user correction
US8949133B2 (en) Information retrieving apparatus
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
CN1196105C (zh) 给用户提供声音反馈的可扩展语音识别系统
EP2259252B1 (en) Speech recognition method for selecting a combination of list elements via a speech input
JP2007011380A (ja) 自動車インターフェース
CN1692403A (zh) 具有个人化语音段的语音合成设备
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
KR20010076508A (ko) Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP4859642B2 (ja) 音声情報管理装置
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP2004053620A (ja) 音声認識装置
JP2000056789A (ja) 音声合成装置及び電話機
JP3179370B2 (ja) おしゃべりオウム発声装置
EP1895748B1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP4286583B2 (ja) 波形辞書作成支援システムおよびプログラム
JPH11275205A (ja) 自動ダイヤル用音声コマンドシステム
CN1979636A (zh) 一种音标到语音的转换方法
KR20120041051A (ko) 초성 기반의 음성검색 기능을 갖는 단말장치 및 그 동작 방법
JP2004295017A (ja) マルチモーダルシステムおよび音声入力方法
JP2004234095A (ja) 携帯端末装置及び情報検索提供方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees