JP4585759B2 - 音声合成装置、音声合成方法、プログラム、及び記録媒体 - Google Patents

音声合成装置、音声合成方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP4585759B2
JP4585759B2 JP2003403364A JP2003403364A JP4585759B2 JP 4585759 B2 JP4585759 B2 JP 4585759B2 JP 2003403364 A JP2003403364 A JP 2003403364A JP 2003403364 A JP2003403364 A JP 2003403364A JP 4585759 B2 JP4585759 B2 JP 4585759B2
Authority
JP
Japan
Prior art keywords
text information
operation parameter
speech
state
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003403364A
Other languages
English (en)
Other versions
JP2005164944A5 (ja
JP2005164944A (ja
Inventor
賢一郎 中川
誠 廣田
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003403364A priority Critical patent/JP4585759B2/ja
Priority to US10/999,787 priority patent/US20050120046A1/en
Publication of JP2005164944A publication Critical patent/JP2005164944A/ja
Publication of JP2005164944A5 publication Critical patent/JP2005164944A5/ja
Application granted granted Critical
Publication of JP4585759B2 publication Critical patent/JP4585759B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Description

本発明は、カーナビゲーションシステムや自動チケット予約システム等に適用される音声合成装置及び音声合成方法、並びに前記音声合成方法を実現するためのプログラム、前記プロクラムを記録した記録媒体に関する。
音声を用いた対話は、人間にとって使いなれたものである。このため、音声対話を用いた機器の操作は、子供からお年寄りまで機器に不慣れなユーザにも自然な操作を提供することが可能となる。また、音声対話が必要とするデバイスはマイクとスピーカだけであり、これはマウスやキーボードと比較して機器の小型化に貢献するメリットもある。
近年、音声を用いた対話システムは、カーナビゲーションシステムや自動コールセンター等で実現され始めている。また、VoiceXML(http://www.w3.org/TR/voicexml20/)やMultimodal Interaction(http://www.w3.org/TR/mmi−framework/)のような音声を用いた対話の標準仕様も策定中であり、この標準化が進むにつれ、多くの音声対話製品が世の中に出回ると考えられる。
この種の対話システムでは、システムが完全に対話の主導権を握る“システム主導型”で実装されることが多い。これは、システムが質問し、ユーザが答えることで、タスクを遂行する形式である。例えば、次のような経路案内システムの例が挙げられる。(Sはシステムの出力、Uはユーザの入力とする)。
S:「こちらは経路案内システムです。」
S:「出発駅を発声してください。」
U:「東京」
S:「到着駅を発声してください。」
U:「大阪」
S:「東京から大阪でよろしいですか?」
U:「はい」

このようなシステム主導型の対話システムにおいては、ユーザが適切な場所で適切な入力を行うように、対話を組み上げていくことが大切である。しかし、どこで、どのような入力を行うかをユーザに適切に通知することは意外に難しく、結果として次のような入力ミスが生じることが多い。
(1)システムアナウンスがまだ続くと勘違いすることにより、入力を躊躇してしまう。
(2)入力可能位置と勘違いすることにより、システムアナウンス中に無駄な入力をしてしまう。
(3)入力を急に促されることにより、入力内容を頭の中で整理しきれない、あるいは喉の調子を整えられていないため、「えー」「あのー」等の不要語の入力や、咳払いをしてしまう。
これらの入力ミスを回避するため、ユーザが入力可能となる前にガイド音(ピー音)を付けることが行われている(第1の従来手法)。その一例を次に示す。
S:「こちらは経路案内システムです。」
S:「発信音の後に出発駅を発声してください。」(ピー)
U:「東京」

また、従来技術には、ユーザの対話モードに合わせて音声合成パラメータを変更するようにしたものがある(例えば特許文献1を参照:第2の従来手法)。これにより、ユーザはシステムアナウンスを聞くだけで、どのような対話状況であるかが判るようになる。
特開2002−123385号公報
しかしながら、上記第1及び第2の従来手法では、上記の問題(1)と(2)を回避することができるものの、(3)の問題は回避することができなかった。さらに、現在どのような種類の入力(音声、プッシュボタン等)が行えるかをユーザに伝えることはできなかった。
本発明は上記従来の問題点に鑑み、ユーザとの対話状態に応じた動作パラメータを利用して、音声入力するタイミングや種類をユーザに的確に知らせることができる音声合成装置、音声合成方法、プログラム、及び記録媒体を提供することを目的とする。
上記目的を達成するために、本発明の音声合成装置は、音声出力する際の音声の種類を決定する動作パラメータとテキスト情報とを用いて、システムアナウンスとして当該テキスト情報の内容を示す合成音声を出力する音声合成装置であって、前記システムアナウンスがユーザの音声入力に対してどのような状況にあるかを示す対話状態と前記テキスト情報とを対応付けたセットを1セット以上有するコンテンツから、注目するテキスト情報に対応する対話状態を判断する判断手段と、前記判断手段により、前記注目するテキスト情報に対応する前記対話状態がないと判断された場合、予め設定された第1の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が音声を入力する直前のシステムアナウンスを出力している状態にあることを示す第2の対話状態と判断された場合、対話状態と動作パラメータとを対応付けて保持するテーブルから、前記第2の対話状態に対応する動作パラメータとして前記第1の動作パラメータと異なる第2の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が前記第2の対話状態と判断され、かつ前記注目するテキスト情報に対応する対話状態がバージイン可能なシステムアナウンスを出力している状態にあることを示す第3の対話状態と判断された場合、前記テーブルから、前記第2の対話状態に対応する前記第2の動作パラメータと前記第3の対話状態に対応する動作パラメータとして前記第1の動作パラメータ及び前記第2の動作パラメータと異なる第3の動作パラメータとを検索する検索手段と、前記検索手段により、前記第1の動作パラメータが検索された場合、前記注目するテキスト情報と前記第1の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声として第1の合成音声を生成し、前記検索手段により、前記第2の動作パラメータのみが検索された場合、前記注目するテキスト情報と前記第2の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第1の合成音声とは識別可能な第2の合成音声を生成し、前記検索手段により、前記第2の動作パラメータと前記第3の動作パラメータとが検索された場合、前記注目するテキスト情報と前記第2及び第3の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第1及び第2の合成音声と識別可能な第3の合成音声を生成する音声合成手段とを有する。
本発明によれば、外部との対話状態に応じた動作パラメータを出力することが可能になる。
また、外部との対話状態に応じて決定された動作パラメータを利用して、入力するタイミングや種類をユーザに的確に知らせることが可能になる。
まず、例えばカーナビゲーションシステムや自動チケット予約システムに適用される本実施形態の動作パラメータ決定装置について説明する。
[実施の形態]
図1は、本発明の実施の形態に係る動作パラメータ決定装置の機能構成図である。
この動作パラメータ決定装置101は、問い合わせシグナルが入力された瞬間に検知した対話状態よって、動作パラメータを生成し出力する機能を有し、装置外部に、ユーザとの対話を管理する対話管理装置100と、装置101から出力された動作パラメータを受信する動作パラメータ受信部103と、動作パラメータを問い合わせる場合に問い合わせシグナルを装置101内に入力する問い合わせシグナル入力部104とが接続されている。対話管理装置100は、現在の対話状態を検出する対話状態検出部102を有している。
動作パラメータ決定装置101の内部には、問い合わせシグナル受付部110が設けられている。問い合わせシグナル受付部110は、装置外部から入力される問い合わせシグナルを監視し、問い合わせシグナル入力部104から問い合わせシグナルが入力された場合に、その後の処理を開始する。問い合わせシグナルは、押しボタン等から送られるボタンイベントでもよいし、前もって決まったメモリ領域に、特定のメモリイメージがセットされることでもよい。
問い合わせシグナルが入力されると、問い合わせシグナル受付部110は、対話状態取り込み部107と動作パラメータ統合部109にその旨を通知する。対話状態取り込み部107は、装置外部の対話状態検出部102を動作させ、これによって現在の対話状態を検知するようになっている。
取り込まれた対話状態は、動作パラメータ検索部106へ送られる。動作パラメータ検索部106は、対話状態と動作パラメータとが対となって格納された対話状態/動作パラメータ対応テーブル105(例えば後述の図5参照)にアクセスし、対話状態に対応する動作パラメータを検索する。
検索された全動作パラメータは、動作パラメータ統合部109へ送られる。この動作パラメータ統合部109では、選択された動作パラメータが複数の場合に、これらが互いに矛盾したパラメータとならないように統合処理を施す。そして、動作パラメータ群は、動作パラメータ出力部108へ送られ、ここから装置外部の動作パラメータ受信部103に動作パラメータが出力される。
図2は、図1に示した動作パラメータ決定装置の詳細な動作を示すフローチャートである。本装置101が立ち上がると、このフローに入るものとする。
まず、終了シグナルを受信したかどうかの判定を行う(ステップS201)。終了シグナルは、例えば装置101に設置された終了ボタン(図示省略)が押された場合などに発行されるものである。終了シグナルが検出されない場合は、そのまま処理を続け、検出された場合は処理を終了する。
次に、問い合わせシグナル受付部110で問い合わせシグナルが受信されたかどうかの判定を行う(ステップS202)。この問い合わせシグナルは、本装置101の外部の問い合わせシグナル入力部104から送信されるものである。このシグナルを受信するまで、本処理は待機することになる。
問い合わせシグナルを受信すると、問い合わせシグナル受付部110は、対話状態取り込み部107と動作パラメータ統合部109にその旨を通知し、対話状態取り込み部107は、装置外部の対話状態検出部102を動作させ、現在の対話状態を検知し、現在の対話状態の取り込みを行う(ステップS203)。ここで、対話状態とは、“ユーザ入力待ち”、“システム出力中”等、何らかの対話の状態を表す情報である。場合によっては、複数の状態が検出されることもあり得る。
次に、検知された全対話状態に対応する動作パラメータを対話状態/動作パラメータ対応テーブル105から検索する(ステップS204)。検知された対話状態に対応する動作パラメータがテーブル105に存在した場合は(ステップS205)、その検索された動作パラメータを全て選択する(ステップS206)。もし、検知された対話状態に対応する動作パラメータがない場合は、デフォルトの動作パラメータを選択する(ステップS207)。
そして、選択された動作パラメータが複数の場合は、動作パラメータ統合部109において、互いに矛盾したパラメータとならないように統合処理がなされる(ステップS208)。この動作パラメータ統合部109の統合処理では、動作パラメータ検索部106により互いに相容れないパラメータが検索された場合に、例えば、“Aに10を加えよ”という動作パラメータと“Aに30を加えよ”という動作パラメータが得られた場合は、“Aに40を加えよ”という1つの動作パラメータに変換される。また、“A=10とせよ”という動作パラメータと、“A=30とせよ”という動作パラメータが検索された場合は、その間を採り“A=20とせよ”という1つの動作パラメータに変換される。
こうして、互いに相容れないものが解消された動作パラメータ群は、動作パラメータ出力部108より装置外部に出力される(ステップS209)。出力後は処理の先頭に戻り、再び問い合わせシグナルを受信するまで待機する。
このように本実施形態では、ユーザとの対話状態に応じた動作パラメータを出力することが可能となる。
<第1の実施例>
次に、図1に示した動作パラメータ決定装置をカーナビゲーションシステムに利用した例について、図3〜図6を参照して説明する。
図3は、本発明の第1の実施例を示すブロック図であり、図1に示した動作パラメータ決定装置101を組み込んだカーナビゲーションシステム(以下、単にカーナビと記す)を示している。また、図4は、本実施例のカーナビの概観とGUI画面の例を示す図である。
このカーナビ401は、前述した動作パラメータ決定装置101を搭載しており、動作パラメータ決定装置101から出力された動作パラメータは、動作パラメータ受信部103を介して表示制御部302に供給される。本例では、一定間隔で問い合わせシグナルを送信し、動作パラメータを得るものとする。
表示制御部302は、ナビゲーション本体部301からの地図データ等の画像データを入力してGUI画面405に表示する機能を有すると共に、動作パラメータ決定装置101から得た動作パラメータに応じて、GUI画面405に表示するアイコン等の形状を変更するGUI変更機能やマイクランプ403の点灯状態を制御する機能を有する。また、ナビゲーション本体部301には、スピーカ404やマイク408が接続されている。
カーナビは、一般的に混合主導のシステムとして構築されている。混合主導とは、システムが主導権を持つ場合とユーザが主導権を持つ場合とが混ざった対話である。例えば、次のような対話が想定される。
U01:(ボタンを押しながら)「近くのコンビニ」
S02:「進行方向5分圏内に、4軒あります。」
S03:「最も近いコンビニはABCです。」
S04:「こちらでよろしいですか?」
U05:「はい」

(Sはシステムの出力アナウンス、Uはユーザの入力)
システムからのアナウンス(問いかけ)に対し、ユーザがどのアナウンス後に入力すべきかは、そのシステムアナウンスの内容により判断することが可能である。しかし、運転により対話に気が回らない場合やシステム自体に不慣れな場合には、入力すべきタイミングを適切に判断することができないことがある。そこで、発声のガイドとして、本例では、図4に示すようなアニメーションアイコン402を表示する。
本実施例の動作パラメータ決定装置105が利用する対話状態/動作パラメータ対応テーブル105は、例えば図5に示すような内容の、対話状態と動作パラメータとが対となったデータが格納されている。
その結果、例えば、ユーザが音声入力可能となる直前のアナウンス出力時(上の例ではS04のシステムアナウンス出力時)は、“アニメーションAを出力、マイクランプ点滅”という動作パラメータを得る。これにより、カーナビ401内のGUI画面405には、図6(a)に示すようなアニメーションアイコンA(406)が表示され、マイクランプ403が点滅する。
さらに、システムアナウンスS04が終わり、ユーザの音声入力可能時になると、図5のテーブル105の内容から、“アニメーションBを出力、マイクランプ点灯”という動作パラメータが得られるようになる。これにより、GUI画面405には、図6(b)に示すようなアニメーションアイコンB(407)が表示され、マイクランプ403が点灯状態となる。
このような見た目の変化により、ユーザは、このシステムアナウンスの終了後に音声入力が可能になること、あるいは現在音声入力が可能であることが判断できるようになる。これにより、運転中でシステムアナウンスに気が回らなかった場合や、周囲の騒音等で一時的にシステムアナウンスが聞こえなかった場合でも、入力のタイミングが的確に判るようになる。
<第2の実施例>
本実施例では、図1に示した動作パラメータ決定装置を利用した音声合成装置の例について、図7〜図12を参照して説明する。
図7は、本発明の第2の実施例を示すブロック図であり、図1に示した動作パラメータ決定装置を組み込んだ音声合成装置の機能構成を示している。
この音声合成装置501は、図1に示した動作パラメータ決定装置101を備えるほか、図1中の動作パラメータ受信部103及び問い合わせシグナル入力部104にそれぞれ相当する音声合成パラメータ受信部502及び問い合わせシグナル送信部504と、装置外部からテキスト情報を取り込むテキスト情報取り込み部507と、音声合成用データを格納する音声合成用データ格納部503と、音声合成処理を行う音声合成部506と、音声合成部506で生成された合成音声を出力する合成音出力部505とを備えている。
そして、装置外部には、テキスト情報取り込み部507に対してテキスト情報を供給するテキスト入力部509と、合成音出力部505からの合成音を出力するスピーカ等の音声出力装置508とが接続されている。テキスト入力部509は、対話管理装置100内に設けられている。
図8は、本実施例に係る音声合成装置の動作を示すフローチャートである。
音声合成装置501は、外部のテキスト入力部509からテキスト情報取り込み部507を介してテキスト情報を取り込む(ステップS601)。テキスト情報が取り込まれると、その旨が問い合わせシグナル送信部504へ送られる。
問い合わせシグナル送信部504は、動作パラメータ決定装置101内の問い合わせシグナル受付部110に対し、動作パラメータの問い合わせシグナルを発行する(ステップS602)。これにより、現在の対話状態に応じた動作パラメータが決定され、音声合成パラメータ受信部(502)に動作パラメータ(この場合は音声合成パラメータ)が戻される(ステップS603)。
一方、テキスト情報取り込み部507に取り込まれたテキスト情報は、音声合成部506にも送られる。音声合成部506では、動作パラメータ決定装置101によって得られた音声合成パラメータと、テキスト情報と、音声合成用データとを用いて音声合成処理を行う(ステップS604)。音声合成処理に関しては公知の技術を使う。
音声合成部506で作成された合成音声は、合成音出力部505を介して装置外部の音声出力装置508へ送られて外部へ出力される(ステップS605)。
図9は、本実施例で使用する対話状態/動作パラメータ対応テーブル105の一例を示す図であり、検知した対話状態と、それに対応する音声合成用の動作パラメータとが対になって格納されている。
このように本実施例では、音声合成装置において、検知された対話状態により、合成音声のパラメータを変えることが可能になる。
以下に、上記音声合成装置501を自動コールセンター(自動チケット予約システム)に応用した例を説明する。
この例では、ユーザは電話を通じてシステムと対話を行う。従って、ユーザが用いることができる入力デバイスは音声とプッシュボタンであり、システムからの出力は全て音声情報である。本実施例の対話内容の一例を図10に示す。
図11は、本実施例の対話コンテンツをVoiceXMLで記述した一部分を示す図である。
対話管理装置100は、図11に示したような対話コンテンツ901を読み込み、ユーザとシステムの対話を管理する。対話管理装置100は、各システムアナウンスを出力する際に、テキスト入力部509を用いて上記の音声合成装置501にテキスト情報を入力する。例えば、図11の記述部分903のシステムアナウンス(図10のS02に相当)を出力する際の処理は、次のようになる。
対話管理装置100が、このシステムアナウンス(S02)を出力するために、テキスト入力部509を用いて上記の音声合成装置501に、当該アナウンス(S02)に相当するテキスト情報を入力する。音声合成装置501のテキスト情報取り込み部507は、このテキスト情報を取り込み、問い合わせシグナル送信部504は、動作パラメータ決定装置101へ問い合わせシグナルを発行する。
動作パラメータ決定装置101は、問い合わせシグナル受付部110によって問い合わせシグナルを受信すると、対話状態取り込み部107を用いて装置外部の対話管理装置100にアクセスし、対話状態検出部102から現在の対話状態の取り込みを行う。
ここで、対話状態とは、音声入力直前のシステムアナウンス出力状態、プッシュボタン入力直前のシステムアナウンス出力状態、及びバージイン可能なシステムアナウンス出力状態、のいずれかの状態を示す。場合によっては、複数の状態が検出されることもあり得る。また、バージイン可能とは、システムアナウンスをユーザ入力により中断できることであり、VoiceXMLでは<prompt>タグのbargein属性で指定することができる。また、VoiceXMLでは、<prompt>の兄弟要素の<grammar>や<dtmf>を調べることにより、そのアナウンスが音声入力直前のアナウンスであるか、プッシュボタン入力直前のアナウンスであるかを判断可能である。
動作パラメータ決定装置101は、システムの内部状態や対話コンテンツ901を解釈することにより、903の部分で記述されたシステムアナウンス(S02)の出力時は、“バージイン可能なシステムアナウンス出力時”、及び“ユーザが音声入力可能となる直前アナウンスの出力時”であると判断する。従って、この対話状態に対応する動作パラメータは、図9に示したテーブル105から、“ピッチ周波数+40”、“合成話者=A”となる。
動作パラメータ決定装置101は、得られた2つの動作パラメータを出力し、音声合成装置501は、これらの動作パラメータとテキスト情報「ご希望の日を仰って下さい。」とを用いて、合成波形を生成する。ここでは、合成音の話者をAに設定し、基本となるピッチ周波数を40Hz分高く設定し、合成音を生成する。
生成された合成音声は、電話回線を介してユーザ側に出力される。ユーザは、このシステムアナウンスの合成音を聞くだけで、そのアナウンスが終了した後に例えば音声入力が可能になることが予測でき、さらにそのシステムアナウンス中にバージイン可能であることが判るようになる。
なお、タスク(チケット予約等)が終了するまでに必要な対話数により、動作パラメータを変更することも可能である。例えば図9のテーブルには、タスク完了までの対話数に合わせて、合成音に特定の音声データを重畳させる指示が記述されている。これにより、ユーザは合成音に重畳された音声データにより、タスクの完了までにどれくらいの対話を行わなければならないかを知ることができる。
<第3の実施例>
本実施例は、図1に示した動作パラメータ決定装置を、GUIと音声によるフォーム入力に利用したものである。
図12は、本発明の第3の実施例を示す図であり、第2の実施例で説明した自動チケット予約システムのタスクを一般的なフォーム入力画面で表した例を示している。
同図に示すようなフォーム入力画面1001において、ユーザは、マウスとキーボードで各フォーム内容を埋めていってもよいし、マイクからの音声入力によってフォームを埋めてもよい。
このような音声入力を許すフォーム入力画面1001においては、ユーザが音声入力できないデータを延々と発声し続ける恐れがあるため、どのデータが音声入力可能であるのかをユーザに示すことが効果的である。図12においては、現時点で音声入力可能なフォーム近傍に、アニメーションアイコン1002を付けている。
このアニメーションアイコン1002は、ユーザとの対話状態に応じて形態や動作を変更する。例えば、システムアナウンス中であるか、そうでないかに応じてアイコンの形態や動作を変えてもよい。また、同じシステムアナウンス中であっても、そのアナウンス終了後に音声入力が可能になるか、そうでないかに応じてアイコンの形態や動作を変更してもよい。
本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の実施形態に係る動作パラメータ決定装置の機能構成図である。 図1に示した動作パラメータ決定装置の詳細な動作を示すフローチャートである。 本発明の第1の実施例を示す構成ブロック図である。 カーナビの概観とGUI画面の例を示す図である。 第1の実施例に係る対話状態/動作パラメータ対応テーブルの一例を示す図である。 GUI画面に表示されるアニメーションアイコンの一例を示す図である。 本発明の第2の実施例を示す構成ブロック図である。 第2の実施例に係る音声合成装置の動作を示すフローチャートである。 第2の実施例で使用する対話状態/動作パラメータ対応テーブル105の一例を示す図である。 第2の実施例の対話内容の一例を示す図である。 第2の実施例の対話コンテンツをVoiceXMLで記述した一部分を示す図である。 本発明の第3の実施例を示す図である。
符号の説明
100 対話管理装置
101 動作パラメータ決定装置
102 対話状態検出部
103 動作パラメータ受信部
104 問い合わせシグナル入力部
105 対話状態/動作パラメータ対応テーブル
106 動作パラメータ検索部
107 対話状態取り込み部
108 動作パラメータ出力部
109 動作パラメータ統合部
110 問い合わせシグナル受付部

Claims (4)

  1. 音声出力する際の音声の種類を決定する動作パラメータとテキスト情報とを用いて、システムアナウンスとして当該テキスト情報の内容を示す合成音声を出力する音声合成装置であって、
    前記システムアナウンスがユーザの音声入力に対してどのような状況にあるかを示す対話状態と前記テキスト情報とを対応付けたセットを1セット以上有するコンテンツから、注目するテキスト情報に対応する対話状態を判断する判断手段と、
    前記判断手段により、前記注目するテキスト情報に対応する前記対話状態がないと判断された場合、予め設定された第1の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が音声を入力する直前のシステムアナウンスを出力している状態にあることを示す第2の対話状態と判断された場合、対話状態と動作パラメータとを対応付けて保持するテーブルから、前記第2の対話状態に対応する動作パラメータとして前記第1の動作パラメータと異なる第2の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が前記第2の対話状態と判断され、かつ前記注目するテキスト情報に対応する対話状態がバージイン可能なシステムアナウンスを出力している状態にあることを示す第3の対話状態と判断された場合、前記テーブルから、前記第2の対話状態に対応する前記第2の動作パラメータと前記第3の対話状態に対応する動作パラメータとして前記第1の動作パラメータ及び前記第2の動作パラメータと異なる第3の動作パラメータとを検索する検索手段と、
    前記検索手段により、前記第1の動作パラメータが検索された場合、前記注目するテキスト情報と前記第1の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声として第1の合成音声を生成し、前記検索手段により、前記第2の動作パラメータのみが検索された場合、前記注目するテキスト情報と前記第2の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第1の合成音声とは識別可能な第2の合成音声を生成し、前記検索手段により、前記第2の動作パラメータと前記第3の動作パラメータとが検索された場合、前記注目するテキスト情報と前記第2及び第3の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第1及び第2の合成音声と識別可能な第3の合成音声を生成する音声合成手段とを有する音声合成装置。
  2. 判断手段、検索手段、及び音声合成手段を有し、音声出力する際の音声の種類を決定する動作パラメータとテキスト情報とを用いて、システムアナウンスとして当該テキスト情報の内容を示す合成音声を出力する音声合成装置の音声合成方法であって、
    前記システムアナウンスがユーザの音声入力に対してどのような状況にあるかを示す対話状態と前記テキスト情報とを対応付けたセットを1セット以上有するコンテンツから、前記判断手段が、注目するテキスト情報に対応する対話状態を判断する判断工程と、
    前記検索手段が、前記判断工程により、前記注目するテキスト情報に対応する前記対話状態がないと判断された場合、予め設定された第1の動作パラメータを検索し、前記判断工程により、前記注目するテキスト情報に対応する対話状態が音声を入力する直前のシステムアナウンスを出力している状態にあることを示す第2の対話状態と判断された場合、対話状態と動作パラメータとを対応付けて保持するテーブルから、前記第2の対話状態に対応する動作パラメータとして前記第1の動作パラメータと異なる第2の動作パラメータを検索し、前記判断工程により、前記注目するテキスト情報に対応する対話状態が前記第2の対話状態と判断され、かつ前記注目するテキスト情報に対応する対話状態がバージイン可能なシステムアナウンスを出力している状態にあることを示す第3の対話状態と判断された場合、前記テーブルから、前記第2の対話状態に対応する前記第2の動作パラメータと前記第3の対話状態に対応する動作パラメータとして前記第1の動作パラメータ及び前記第2の動作パラメータと異なる第3の動作パラメータとを検索する検索工程と、
    前記音声合成手段が、前記検索工程により前記第1の動作パラメータが検索された場合、前記注目するテキスト情報と前記第1の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声として第1の合成音声を生成し、前記検索工程により前記第2の動作パラメータのみが検索された場合、前記注目するテキスト情報と前記第2の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第1の合成音声とは識別可能な第2の合成音声を生成し、前記検索工程により前記第2の動作パラメータと前記第3の動作パラメータとが検索された場合、前記注目するテキスト情報と前記第2及び第3の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第1及び第2の合成音声と識別可能な第3の合成音声を生成する音声合成工程とを有する音声合成装置の音声合成方法。
  3. 請求項に記載の音声合成方法をコンピュータに実行させるプログラム。
  4. 請求項に記載のプログラムが記録されたことを特徴とするコンピュータが読み取り可能な記録媒体。
JP2003403364A 2003-12-02 2003-12-02 音声合成装置、音声合成方法、プログラム、及び記録媒体 Expired - Fee Related JP4585759B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003403364A JP4585759B2 (ja) 2003-12-02 2003-12-02 音声合成装置、音声合成方法、プログラム、及び記録媒体
US10/999,787 US20050120046A1 (en) 2003-12-02 2004-11-29 User interaction and operation-parameter determination system and operation-parameter determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003403364A JP4585759B2 (ja) 2003-12-02 2003-12-02 音声合成装置、音声合成方法、プログラム、及び記録媒体

Publications (3)

Publication Number Publication Date
JP2005164944A JP2005164944A (ja) 2005-06-23
JP2005164944A5 JP2005164944A5 (ja) 2007-01-25
JP4585759B2 true JP4585759B2 (ja) 2010-11-24

Family

ID=34616776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003403364A Expired - Fee Related JP4585759B2 (ja) 2003-12-02 2003-12-02 音声合成装置、音声合成方法、プログラム、及び記録媒体

Country Status (2)

Country Link
US (1) US20050120046A1 (ja)
JP (1) JP4585759B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006044867A2 (en) * 2004-10-19 2006-04-27 Web Bindery Llc System and method for dynamic e-commerce shopping icons
US20060122916A1 (en) * 2004-10-19 2006-06-08 Peter Kassan System and method for dynamic e-commerce shopping icons
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
JP4810343B2 (ja) * 2006-07-20 2011-11-09 キヤノン株式会社 音声処理装置およびその制御方法
JP5790238B2 (ja) * 2011-07-22 2015-10-07 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
JP7319639B1 (ja) * 2022-08-24 2023-08-02 ダイレクトソリューションズ株式会社 音声入力システム及びそのプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2001142483A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JP2001162573A (ja) * 1999-12-08 2001-06-19 Fujitsu Ltd ロボット装置
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
US6118888A (en) * 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6728708B1 (en) * 2000-06-26 2004-04-27 Datria Systems, Inc. Relational and spatial database management system and method for applications having speech controlled data input displayable in a form and a map having spatial and non-spatial data
US7143039B1 (en) * 2000-08-11 2006-11-28 Tellme Networks, Inc. Providing menu and other services for an information processing system using a telephone or other audio interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142483A (ja) * 1991-11-18 2001-05-25 Toshiba Corp 音声対話方法及びそのシステム
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2001162573A (ja) * 1999-12-08 2001-06-19 Fujitsu Ltd ロボット装置
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム

Also Published As

Publication number Publication date
JP2005164944A (ja) 2005-06-23
US20050120046A1 (en) 2005-06-02

Similar Documents

Publication Publication Date Title
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
CN105027194B (zh) 话语主题的识别
US9495956B2 (en) Dealing with switch latency in speech recognition
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
JP6078964B2 (ja) 音声対話システム及びプログラム
US8909532B2 (en) Supporting multi-lingual user interaction with a multimodal application
US10572107B1 (en) Voice communication targeting user interface
US20090030691A1 (en) Using an unstructured language model associated with an application of a mobile communication facility
JPWO2016051519A1 (ja) 音声認識システム
KR20070026452A (ko) 음성 인터랙티브 메시징을 위한 방법 및 장치
US20060020471A1 (en) Method and apparatus for robustly locating user barge-ins in voice-activated command systems
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
US10452351B2 (en) Information processing device and information processing method
CN111949240A (zh) 交互方法、存储介质、服务程序和设备
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
WO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP4585759B2 (ja) 音声合成装置、音声合成方法、プログラム、及び記録媒体
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
CN110493461A (zh) 消息播放方法及装置、电子设备、存储介质
KR20190091265A (ko) 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템
KR102092058B1 (ko) 인터페이스 제공 방법 및 장치
JP6851491B2 (ja) 音声対話制御装置および音声対話制御方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2015052744A (ja) 情報処理装置、制御方法、及びプログラム
JP2004134942A (ja) 携帯電話装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061204

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees