JP6078964B2 - 音声対話システム及びプログラム - Google Patents

音声対話システム及びプログラム Download PDF

Info

Publication number
JP6078964B2
JP6078964B2 JP2012069511A JP2012069511A JP6078964B2 JP 6078964 B2 JP6078964 B2 JP 6078964B2 JP 2012069511 A JP2012069511 A JP 2012069511A JP 2012069511 A JP2012069511 A JP 2012069511A JP 6078964 B2 JP6078964 B2 JP 6078964B2
Authority
JP
Japan
Prior art keywords
data
synthesized
unit
voice
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012069511A
Other languages
English (en)
Other versions
JP2013200480A (ja
Inventor
高橋 潤
潤 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012069511A priority Critical patent/JP6078964B2/ja
Priority to US13/780,620 priority patent/US9190048B2/en
Priority to CN201310095196.2A priority patent/CN103366729B/zh
Publication of JP2013200480A publication Critical patent/JP2013200480A/ja
Application granted granted Critical
Publication of JP6078964B2 publication Critical patent/JP6078964B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Description

本明細書で議論される実施態様は、テキストを音声に変換する音声合成の技術に関するものである。
計算機処理技術の発達に伴い、入力したテキストを読み上げ音声に変換する音声合成技術と人の発音を認識する音声認識技術とを利用して、利用者と応答システムとの間で音声による対話を繰り返すことで、問題解決を行う音声対話システムが実現可能になった。また、通信網の発達により、このような音声対話システムを、通信ネットワークを介して利用することも可能になった。
図1は、このような音声対話システムの一例の構成を図解したものである。この音声対話システムは、上述の応答システムを、通信ネットワーク1上のデータセンター2(以下、「センター2」と称することとする)に配置した、センター型の音声対話システムである。
端末3に備えられているマイク等の入力装置に向かって利用者4が発声すると、端末3はその発声を音声データに変換し、通信ネットワーク1を介してセンター2に送付する。センター2は、受信した音声データから、音声認識技術を用いて発声の内容を認識し、対話制御を行って、その発声の内容に応じた回答を作成し、音声合成技術を用いて回答の音声データへの変換を行う。その後、端末3は、通信ネットワーク1を介してセンター2から音声データや表示データをダウンロードしてそれらを順次再生していく。このようにすることで、利用者4は、あたかも他の人と会話を行っているかのような感覚で、この音声対話システムを利用することができる。更には、端末3に、画面表示5のような回答の表示や、音声入力、音声巻き戻し、音声停止、音声早送り等の音声制御メニュー6の表示を行って、音声によるWebブラウザのような機能を提供することも可能である。
このような、センター型の音声対話システムは、多くの人が利用しているスマートフォン等の携帯端末から利用可能であり、センター2の多大なハードウェア資源を利用した高精度の音声認識・高品質の音声合成が可能であるという利点を有している。また、センター型の音声対話システムは、外部サービスやWeb情報等の通信ネットワーク上の情報を用いることで、回答作成のためにリアルタイムな情報をセンター2で利用できるという利点もある。
また、センター2が、回答の作成を、画面表示や音声再生の手順を記述した、いわゆるシナリオの形式で行うようにしておけば、端末3では、音声データの再生だけではなく、テキストや画像の表示も可能となる。
このような音声対話システムは、例えば、近くのレストランの案内や観光案内の他に、最新のニュースや天気予報を聞くなどといった、様々なサービスの提供に利用することができる。
ところで、音声合成技術に関し、1文の全ての音声合成処理が終わるまで待つことなく、合成音声の再生途中であっても、音声が途切れることなく合成音声を出力できるようにするという技術が知られている。この技術は、入力文を1又は複数の合成単位で分割して得られる分割文毎の音波形データの生成処理の応答性と、各音波形データを組み合わせる合成音声の形成処理の応答性とに基づき、合成音声の出力のスケジューリングを行うというものである。
また、会話文の入力によって生成される音声合成データが一定時間入力されないときに、予め用意されている冗長語音声データを出力するようにして、会話の無音状態を見かけ上短縮して会話の相手方のストレスを軽減するという技術が知られている。
また、音声対話処理において、複数の音声入出力処理の間の競合を防止するという技術が知られている。この技術は、高い優先度のサービス・シナリオに従って行う第一音声処理のタイミングまでの推定空き時間よりも、低い優先度のサービス・シナリオに従って行う音声出力を含む第二音声処理に要する推定時間が短い場合には、第二音声処理を行うというものである。
また、音声対話システムにおいて、迅速かつ正確にユーザとエージェント間の対話順序を管理する技術が知られている。この技術は、ユーザが発話した音声から分析された対話情報を利用して第1対話順序情報を生成し、ユーザの顔映像から分析された表情情報を利用して第2対話順序情報を生成する。そして、これらの順序情報と、システムの状態情報、ユーザの音声入力の有無及びユーザの無応答時間を利用して、最終的な対話順序を決定するというものである。
また、音声を出力させるコンテンツを端末装置に配信する音声コンテンツ配信システムにおいて、コンテンツを受信した端末が音声を出力するまでの時間を短縮するという技術が知られている。この技術は、コンテンツ配信装置が、音声として読み上げられるべき文字列である読み上げ文字列が記述されたコンテンツデータにおける当該読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換する。そして、端末装置が、コンテンツ配信装置より受信した、発音記号列が記述されたコンテンツデータから抽出した当該発音記号列に基づいて音声を出力するというものである。
特開2011−75870号公報 特開2002−366175号公報 特開2008−26621号公報 特開2004−206704号公報 特開2004−282392号公報
図1に図解したような音声対話システムにおいて、利用者4が体感するレスポンスを向上させるには、センター2での音声認識、対話制御、及び音声号合成のそれぞれの処理を高速で行えるようにする必要がある。また、これと共に、利用者4と端末3との対話において、無応答の状態を極力小さくする必要もある。
このうち、処理の高速化については、センター2側でシステムを増強することによって解決することが可能である。しかしながら、対話における無応答状態の発生は、音声対話システムの設置者の管理外である通信ネットワーク1の状況に大きく依存しているために、その抑制は容易ではない。
上述した問題に鑑み、本明細書で後述する音声対話システムは、通信ネットワークの状況の如何にかかわらずに、対話における無応答状態の発生を抑制する。
本明細書で後述する音声対話システムのひとつに、データセンター装置と端末装置とを備えるというものがある。このデータセンター装置と端末装置とは通信ネットワークを介して接続される。このうちのデータセンター装置は、対話受信部と、要求情報取得部と、回答情報取得部と、対話制御部と、第1の音声合成部と、音声データ送信部と、シナリオ送信部とを備えている。ここで、対話受信部は、端末装置から送られてくる発声音の音声データを受信する。要求情報取得部は、この音声データに対して音声認識処理を実行して当該音声データにより表現されている要求情報を取得する。回答情報取得部は、取得された要求情報についての回答情報を情報源から取得する。対話制御部は、取得された回答情報を含むシナリオを作成する。第1の音声合成部は、取得された回答情報を発声している合成音声を表現している第1合成音声データを作成する。音声データ送信部は、第1の音声合成部により作成された第1合成音声データを端末装置へ送信する。そして、シナリオ送信部は、第1の音声合成部が第1合成音声データを作成している間に、作成されたシナリオを端末装置に送信する。一方、端末装置は、入力部と、対話送信部と、第2の音声合成部と、音声データ受信部と、音声判定部と、出力部と、を備える。ここで、入力部は、前述の発声音の入力を取得して当該発声音を表現している音声データに変換する。対話送信部は、この発声音の音声データをデータセンター装置へ送信する。シナリオ受信部は、データセンター装置から送られてくる前述のシナリオを受信する。第2の音声合成部は、受信されたシナリオに含まれている前述の回答情報を発声している合成音声を表現している第2合成音声データを作成する。音声データ受信部は、データセンター装置から送られてくる前述の第1合成音声データを受信する。音声判定部は、第1合成音声データの受信が完了したか否かを判定し、当該判定結果に基づいて第1合成音声データと第2合成音声データとのうちの一方を選択する。そして、出力部は、音声判定部により選択された合成音声データで表現されている合成音声を出力する。
また、本明細書で後述するプログラムのひとつは、通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける当該端末装置の制御を演算処理装置に実行させるものである。なお、端末装置は、当該演算処理装置と、入力部と、送信部と、受信部と、出力部とを備えている。ここで、入力部は、発声音の入力を取得して該発声音を表現している音声データに変換する。送信部は、この発声音の音声データをデータセンター装置へ送信する。受信部は、各種のデータを受信する。そして、出力部は、音声データで表現されている音声を出力する。このプログラムは、端末装置が備えている演算処理装置に以下の処理を行わせる。この処理は、まず、受信部を制御して、データセンター装置から送られてくるシナリオを受信させる。このシナリオは、データセンター装置により作成されたものであって、送信された音声データにより表現されている要求情報に応じてデータセンター装置が情報源から取得した回答情報が含まれているものである。次に、受信部を制御して、データセンター装置から送られてくる第1合成音声データを受信させる。この第1合成音声データは、上述した回答情報を発声している合成音声を表現しているものであって、データセンター装置により作成されたものである。次に、受信したシナリオに含まれている回答情報を発声している合成音声を表現している第2合成音声データを作成する。次に、第1合成音声データの受信が完了したか否かを判定し、この判定結果に基づいて第1合成音声データと第2合成音声データとのうちの一方を選択する。そして、出力部を制御して、選択された合成音声データで表現されている合成音声を出力させる。
本明細書で後述する音声対話システムによれば、通信ネットワークの状況の如何にかかわらずに、対話における無応答状態の発生が抑制されるという効果を奏する。
音声対話システムの一例の構成を図解した図である。 音声対話システムの一実施例の機能構成図である。 要求情報に応じて取得された回答情報の例を表したテーブルである。 シナリオの記述例である。 図4のシナリオによって表現されている状態遷移の説明図である。 データセンター装置のハードウェア構成例を表した図である。 端末装置のハードウェア構成例を表した図である。 音声対話システムにおいて行われる制御処理の処理手順を表したフローチャートである。 音声対話システムの別の一実施例の機能構成図である。 予測処理の処理手順を図解したフローチャートである。 音声合成処理における処理対象のテキストの文字数と処理時間との関係の一例を表したグラフである。 予測処理に続いて行われる音声判定処理の処理手順を図解したフローチャートである。 図9の音声対話システムにおける端末装置からの音声出力パターンの例を図解した図である。 音声出力の切り替えの手法の説明図である。 図12の音声判定処理の処理手順の変形例を図解したフローチャートである。
まず図2について説明する。図2は、音声対話システムの一実施例の機能構成図である。
図2の音声対話システムは、データセンター装置10と端末装置20とを備えている。このデータセンター装置10と端末装置20とは通信ネットワーク30を介して接続されており、通信ネットワーク30を介して各種のデータの授受を行うことができる。なお、通信ネットワーク30は、無線回線・有線回線のどちらでもよく、また、無線回線と有線回線とが組み合わされて構成されていてもよい。
データセンター装置10は、対話受信部11、要求情報取得部12、回答情報取得部13、データベース14、対話制御部15、第1の音声合成部16、音声データ送信部17、及びシナリオ送信部18を備えている。
対話受信部11は、端末装置20から送られてくる発声音の音声データを受信する。
要求情報取得部12は、対話受信部11が受信した音声データに対して音声認識処理を実行して、当該音声データにより表現されている要求情報を取得する。
回答情報取得部13は、要求情報取得部12が取得した要求情報についての回答情報を、データベース14から取得する。
データベース(DB)14には、各種の情報が蓄積されている情報源である。なお、データベース14は、データセンター装置10の外部に設置されていてもよい。また、データベース14は、データセンター装置10の設置場所から遠隔の場所に設置されていて、通信回線を経由してデータセンター装置10からアクセスできるようにしてもよい。
対話制御部15は、回答情報取得部13が取得した回答情報を含むシナリオのデータファイルを作成する。以下、このシナリオのデータファイルを、単に「シナリオ」と称することとする。このシナリオの作成の詳細については後述する。
第1の音声合成部16は、回答情報取得部13が取得した回答情報を発声している合成音声を表現している第1合成音声データを作成する。
音声データ送信部17は、第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
シナリオ送信部18は、第1の音声合成部16が第1合成音声データを作成している間に、対話制御部15が作成したシナリオを端末装置20に送信する。
一方、端末装置20は、入力部21、対話送信部22、シナリオ受信部23、第2の音声合成部24、音声データ受信部25、音声判定部26、及び出力部27を備えている。
入力部21は、発声音の入力を取得して、取得した発声音を表現している音声データに変換する。
対話送信部22は、入力部21によって得られた発声音の音声データをデータセンター装置10へ送信する。
シナリオ受信部23は、データセンター装置10から送られてくる、前述のシナリオを受信する。
第2の音声合成部24は、シナリオ受信部23が受信したシナリオに含まれている前述の回答情報を発声している合成音声を表現している第2合成音声データを作成する。
音声データ受信部25は、データセンター装置10から送られてくる前述の第1合成音声データを受信する。
音声判定部26は、音声データ受信部25による第1合成音声データの受信が完了したか否かを判定し、当該判定結果に基づいて、第1合成音声データと第2合成音声データとのうちの一方を選択する。
出力部27は、音声判定部26により選択された合成音声データで表現されている合成音声を出力する。
図2の音声対話システムは以上のように構成されている。
次に、図2の音声対話システムにおけるデータセンター装置10の対話制御部15が作成するシナリオについて説明する。シナリオは、端末装置20での画面表示の手順、音声データのデータセンター装置10からのダウンロードの順序、ダウンロードされた音声データの再生順等といった、端末装置20での出力の手順を表したデータである。
例えば、回答情報取得部13が取得した要求情報について、図3のテーブルに示したような回答情報が得られたものとする。
なお、図3のテーブルでは、「発声音声データ」と、「要求情報」と、「回答情報」とが各行において対応付けられている。ここで、「発声音声データ」は、対話受信部11が受信した音声データの内容を表している。また、「要求情報」は、「発声音声データ」に対して要求情報取得部12が音声認識処理を実行した結果として取得した、データベース14に対しての情報検索の対象を特定する情報である。そして、「回答情報」は、回答情報取得部13が「要求情報」の検索を行った結果としてデータベース14から得られた情報である。
なお、情報検索の対象とするデータベース14の選択の手法として、例えば、通常はデータセンター装置10が備えているものを使用するが、特定のキーワードが含まれていた場合には、データセンター装置10外のデータベース14を用いるようにしてもよい。すなわち、例えば、要求情報に『ニュース』や『天気予報』等の特定のキーワードが含まれていた場合には、回答情報取得部13は、データセンター装置10外のニュースサイトや天気予報サイト等から回答情報を得るようにしてもよい。
回答情報取得部13が回答情報を取得すると、対話制御部15は、取得された回答情報を含むシナリオを作成する。このシナリオの記述には、例えば、XML(Extensible Markup Language)のフォーマットのひとつとして提案されているVoiceXMLやSCXML等といった、音声データの扱いを記述するマークアップ言語を用いることができる。
図4は、テキストファイルにおけるシナリオの記述例であり、タグを用いてテキスト情報や音声データの再生方法を記述したものである。なお、この記述例は、図3のテーブルに表されているように、「回答情報」として『今日の天気は晴れでしょう。』なるテキストデータが得られた場合に、対話制御部15が作成するものである。
なお、図4の記述例において、各行の先頭の番号は、説明の便宜のために付した行番号である。
図4の記述例では、<state>タグ、<my:download>タグ、<my:output>タグ、及び<transition>タグが用いられている。これらのタグは、それぞれ下記の意味を表している。
・<state>タグ:状態を特定する。
・<my:download>タグ:ダウンロードする対象の音声データを特定する。
・<my:output>タグ:再生対象の音声データ、表示対象のテキストを特定する。
・<transition>タグ:状態遷移の発生条件であるイベントと遷移先とを特定する。
ここで図5について説明する。図5は、図4に例示したシナリオによって表現されている状態遷移を表している。
図5において、S10は「START」状態であってシナリオの開始を表しており、図4の第10行から第14行に対応している。この状態では、端末装置20は、まず、音声データ“weather_0.wav”のダウンロードを行い(第11行)、続いて、音声データ“weather_1.wav”のダウンロードを行う(第12行)。その後、ダウンロードが完了したときには、端末装置20は、状態を「PLAY0」状態に遷移させる(第13行)。
なお、音声データ“weather_0.wav”は、データセンター装置10の第1の音声合成部16により作成された、回答情報が天気予報に関するものである場合に使用されるテキスト『天気予報をお伝えします』を発声している第1合成音声データである。また、音声データ“weather_1.wav”は、データセンター装置10の第1の音声合成部16により作成された、回答情報であるテキスト『今日の天気は晴れでしょう』を発声している第1合成音声データである。
S20は「PLAY0」状態であり、図4の第20行から第23行に対応している。この状態では、端末装置20は、音声データ“weather_0.wav”の再生を行うと共に、テキスト『天気予報をお伝えします』の表示を行う(第21行)。その後、音声データ“weather_0.wav”の再生が完了したときには、端末装置20は、状態を「PLAY1」状態に遷移させる(第22行)。
S30は「PLAY1」状態であり、図4の第30行から第33行に対応している。この状態では、端末装置20は、音声データ“weather_1.wav”の再生を行うと共に、テキスト『今日の天気は晴れでしょう』の表示を行う(第31行)。その後、音声データ“weather_1.wav”の再生が完了したときには、端末装置20は、状態を「END」状態に遷移させる(第32行)。
S40は「END」状態であって、このシナリオの終了を表しており、図4の第40行から第41行に対応している。
このように、シナリオによって、このシナリオを受信した端末装置20の状態遷移が定義され、イベント発生時には、端末装置20の状態を、記述されている状態に遷移させることで、再生する音声データや表示するテキスト情報を変更することができる。
なお、本実施例においては、対話制御部15は、このようなシナリオを、シナリオテンプレートを用いて作成する。シナリオテンプレートは、シナリオのうち、回答情報と当該回答情報を発声している合成音声のデータファイル名との記述以外のものが既に記述されているデータファイルである。対話制御部15は、このようなシナリオテンプレートに、回答情報と当該回答情報を発声している合成音声のデータファイル名との記述を追加することによって、シナリオを作成する。
例えば、図4のシナリオの記述例では、第31行に記述されている音声データファイル名“weather_1.wav”とテキスト『今日の天気は晴れでしょう』以外の記述がシナリオテンプレートに含まれている。対話制御部15は、このシナリオテンプレートに、音声データファイル名“weather_1.wav”とテキスト『今日の天気は晴れでしょう』との記述を追加することによって、図4のシナリオの作成を行う。
なお、このシナリオテンプレートは、想定される回答情報の種別毎、すなわち、例えば『ニュース』や『天気予報』等の種別毎に予め用意しておく。対話制御部15は、回答情報取得部13が取得した回答情報の種別に応じてシナリオテンプレートを選択し、選択されたシナリオテンプレートを用いて、その回答情報についてのシナリオの作成を行う。
なお、図4及び図5によって表現されている状態遷移は一定の方向の遷移のみであるが、双方向の遷移や、他方向の状態遷移が生じるようにしてもよい。また、対話制御部15が生成するシナリオは1つのみである必要はなく、状況に応じて、例えばシナリオの内容が大量となる場合などには、シナリオを分割して作成し、シナリオ送信部18は、分割されているシナリオを1つずつ送信するようにしてもよい。
図2の音声対話システムでは、データセンター装置10の第1の音声合成部16が、豊富なハードウェア資源を活用して、合成音声の品質が高い第1合成音声データを作成する。その一方で、シナリオ送信部18は、音声データ送信部17が第1合成音声データを送信する前の、第1の音声合成部16が当該第1合成音声データを作成している間に、対話制御部15が作成したシナリオを先に端末装置20に送信する。このシナリオには、回答情報取得部13がデータベース14から取得した回答情報が含まれているので、端末装置20の第2の音声合成部24は、この回答情報を発声している合成音声を表現している第2合成音声データを作成することができる。従って、通信ネットワーク30の状況により第1合成音声データの到着が遅れても、端末装置20は、とりあえず第2合成音声データの再生により最新の回答情報を提供することで、対話における無応答状態の発生が抑制される。
次に、図2の音声対話システムのハードウェア構成について説明する。
まず図6について説明する。図6は、データセンター装置10のハードウェア構成例を表した図である。
図6のデータセンター装置10の構成は、標準的なコンピュータシステムと同様の構成である。すなわち、データセンター装置10は、MPU41、ROM42、RAM43、ディスクアレイ装置44、入力装置45、表示装置46、通信装置47、及び記録媒体駆動装置48を備えている。なお、これらの各構成要素はバスライン49を介して接続されており、MPU41の管理の下で各種のデータを相互に授受することができる。
MPU(Micro Processing Unit)41は、データセンター装置10全体の動作を制御する演算処理装置である。
ROM(Read Only Memory)42は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。MPU41は、この基本制御プログラムをデータセンター装置10の起動時に読み出して実行することにより、データセンター装置10の各構成要素の動作制御が可能になる。なお、ROM42として、フラッシュメモリ等の、記憶データが不揮発性であるメモリを使用してもよい。
RAM(Random Access Memory)43は、MPU41が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
ディスクアレイ装置44は、複数台のハードディスクドライブを論理的に束ねたものであり、MPU41によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。MPU41は、ディスクアレイ装置44に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。また、例えば、データベース14をデータセンター装置10に備える場合には、ディスクアレイ装置44は、データベース14を予め格納しておく記憶装置としても使用される。
入力装置45は、例えばキーボード装置やマウス装置であり、例えばデータセンター装置10の管理者により操作されると、その操作内容に対応付けられている管理者からの各種情報の入力を取得し、取得した入力情報をMPU41に送付する。
表示装置46は例えば液晶ディスプレイであり、MPU41から送付される出力データに応じ、各種のテキストや画像の表示を行う。
通信装置47は、データセンター装置10を通信ネットワーク30に接続して、端末装置20との間で各種での各種のデータの授受の管理を行う。
記録媒体駆動装置48は、可搬型記録媒体50に記録されている各種の制御プログラムやデータの読み出しを行う装置である。MPU41は、可搬型記録媒体50に記録されている所定の制御プログラムを、記録媒体駆動装置48を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体50としては、例えばCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)、USB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリなどがある。
このような構成要素を用いてデータセンター装置10を実現するには、例えば、後述する、データセンター装置10で行われる制御処理をMPU41に行わせるための制御プログラムを作成する。作成された制御プログラムはディスクアレイ装置44若しくは可搬型記録媒体50に予め格納しておく。そして、MPU41に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、図6の各構成要素を、対話受信部11、要求情報取得部12、回答情報取得部13、データベース14、対話制御部15、第1の音声合成部16、音声データ送信部17、及びシナリオ送信部18として機能させることが可能となる。
次に図7について説明する。図7は、端末装置20のハードウェア構成例を表した図である。
図7の端末装置20は、MPU51、不揮発性メモリ52、RAM53、入力部54、出力部55、及び通信部56を備えている。なお、これらの各構成要素はバスライン57を介して接続されており、MPU51の管理の下で各種のデータを相互に授受することができる。
MPU51は、端末装置20全体の動作を制御する演算処理装置である。
不揮発性メモリ52は、例えばフラッシュメモリであり、所定の基本制御プログラムが予め記録されている。MPU51は、この基本制御プログラムを端末装置20の起動時に読み出して実行することにより、端末装置20の各構成要素の動作制御が可能になる。また、不揮発性メモリ52は、MPU41によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置としての機能も有している。MPU51は、不揮発性メモリ52に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。
RAM(Random Access Memory)53は、MPU51が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
入力部54はマイク装置やキーボード装置などを備えている。端末装置20の使用者が声を発すると、その発声音はマイク装置によって収音され、更に不図示の変換器によって当該発声音を表現している音声データに変換されてMPU51に送付される。また、端末装置20の使用者がキーボード装置を操作すると、その操作内容に対応付けられている使用者からの各種情報の入力が取得され、取得された情報がMPU51に送付される。
出力部55は、スピーカーや液晶ディスプレイなどを備えている。MPU51から音声データが出力部55に送られてくると、出力部55は不図示の変換器によって音声データをアナログ信号の音声信号に変換してスピーカーを駆動することによって、当該音声データで表現されている音声を放音する。また、MPU51からテキストデータや画像データが出力部55に送られてくると、出力部55は、これらのデータで表されているテキストや画像を液晶ディスプレイで表示する。
通信部56は、端末装置20を通信ネットワーク30に接続して、データセンター装置10との間で各種での各種のデータの授受の管理を行う。
このような構成要素を用いて端末装置20を実現するには、例えば、後述する、端末装置20で行われる制御処理をMPU51に行わせるための制御プログラムを作成する。作成された制御プログラムは不揮発性メモリ52に予め格納しておく。そして、MPU51に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、図7の各構成要素を、入力部21、対話送信部22、シナリオ受信部23、第2の音声合成部24、音声データ受信部25、音声判定部26、及び出力部27として機能させることが可能となる。
次に、図2の音声対話システムにおいて行われる制御処理について、図8を参照しながら説明する。図8は、この制御処理の処理手順を表したフローチャートである。
なお、図8に図解した処理のうち、S101からS107にかけての処理はデータセンター装置10のMPU41が行い、S201からS207にかけての処理は端末装置20のMPU51が行う。
図8において、まず、端末装置20のMPU51がS201の入力処理を行う。この処理は、入力部54を制御して、端末装置20の使用者による発声音の入力を取得させ、取得された発声音を表現している音声データに変換させる処理である。この処理を行うMPU51と入力部54とによって、図2の入力部21としての機能が提供される。なお、発声音の取得のタイミングは任意でも構わないし、例えば所定のボタンスイッチへの押下若しくはタッチパネル上の所定のボタンアイコンへのタッチを取得の開始タイミングとしてもよい。また、このとき、MPU51は、端末装置20の使用者によるキーボード装置への操作内容に対応付けられている使用者からのテキスト文字列の入力を取得するようにしてもよい。
次に、端末装置20のMPU51がS202の対話送信処理を行う。この処理は、通信部56を制御して、S201の入力処理により得られた音声データを、データセンター装置10に宛てて、通信ネットワーク30に送出する処理である。この処理を行うMPU51と通信部56とによって、図2の対話送信部22としての機能が提供される。
一方、データセンター装置10のMPU41ではS101の対話受信処理が行われている。この処理は、通信装置47を制御して、S202の対話送信処理が行われた端末装置20から通信ネットワーク30を介して送られてくる発声音の音声データを受信させる処理である。この処理を行うMPU41と通信装置47とによって、図2の対話受信部11としての機能が提供される。
次に、データセンター装置10のMPU41がS102の要求情報取得処理を行う。この処理は、S101の対話受信処理により受信された音声データに対して音声認識処理を実行して、当該音声データにより表現されている要求情報を取得する処理である。この処理を行うMPU41によって、図2の要求情報取得部12としての機能が提供される。
次に、データセンター装置10のMPU41がS103の回答情報取得処理を行う。この処理は、S102の要求情報取得処理によって取得された要求情報についての回答情報を、例えばディスクアレイ装置44に格納されているデータベース14から取得する処理である。この処理を行うMPU41によって、図2の回答情報取得部13としての機能が提供される。
次に、データセンター装置10のMPU41がS104の対話制御処理を行う。この処理は、S103の回答情報取得処理によって取得された回答情報を含むシナリオを、前述したようにして作成する処理である。この処理を行うMPU41によって、図2の対話制御部15としての機能が提供される。
次に、データセンター装置10のMPU41がS105のシナリオ送信処理を行う。この処理は、通信装置47を制御して、S104の対話制御処理により作成されたシナリオを、端末装置20に宛てて、通信ネットワーク30に送出する処理である。この処理を行うMPU41と通信装置47とによって、図2のシナリオ送信部18としての機能が提供される。
また、データセンター装置10のMPU41はS106の第1の音声合成処理を行う。この処理は、S103の回答情報取得処理によって取得された回答情報を発声している合成音声を表現している第1合成音声データを作成する処理である。なお、MPU41は、この第1の音声合成処理を、前述したS105のシナリオ送信処理と並行して行う。ここで、この第1の音声合成処理を、S103の回答情報取得処理によって回答情報が取得された直後に、前述したS104の対話制御処理と並行して行うようにしてもよい。この第1の音声合成処理を行うMPU41によって、図2の第1の音声合成部16としての機能が提供される。
次に、データセンター装置10のMPU41がS107の音声データ送信処理を行う。この処理は、通信装置47を制御して、S106の第1の音声合成処理によって作成された第1合成音声データを、端末装置20に宛てて、通信ネットワーク30に送出する処理である。この処理を行うMPU41と通信装置47とによって、図2の音声データ送信部17としての機能が提供される。その後、データセンター装置10のMPU41では、この制御処理を終了させる。
一方、端末装置20のMPU51では、S202の対話送信処理に続いてS203のシナリオ受信処理が行われている。このシナリオ受信処理では、MPU51は、まず、通信部56を制御して、S105のシナリオ送信処理が行われたデータセンター装置10から通信ネットワーク30を介して送られてくるシナリオを受信させる処理を行う。続いて、MPU51は、受信されたシナリオを解析して、再生に必要な音声データについての情報や表示するテキストについての情報をシナリオから抽出する処理を行う。この処理を行うMPU51と通信部56とによって、図2のシナリオ受信部23としての機能が提供される。
次に、端末装置20のMPU51がS204の第2の音声合成処理を行う。この処理は、S203のシナリオ受信処理により受信されたシナリオに含まれている回答情報を発声している合成音声を表現している第2合成音声データを作成する処理である。
端末装置20のMPU51が有している演算処理の能力はデータセンター装置10のMPU41に比べて顕著に低い。また、端末装置20の不揮発性メモリ52及びRAM53の記憶容量は、データセンター装置10のRAM43及びディスクアレイ装置44と比較すると顕著に少ない。そこで、このS204の第2の音声合成処理は、データセンター装置10側で行われるS106の第1の音声合成処理と比較して、端末装置20での実装が可能な程度の簡易な処理とする。一般的に、音声合成処理は、使用する音声波形辞書の規模に応じ、その規模が大きくなれば品質は高くなるが処理量は増加する。本実施例では、第1の音声合成処理では、データサイズが数ギガ〜数十ギガとなるような、大規模な文章コーパス(様々な抑揚を網羅した1万〜数万文章や良く使われる用例の音声を登録した辞書)のデータベースを利用した処理を行うようにする。一方、第2の音声合成処理では、データサイズが数メガ〜数十メガ程度である、音節データベース(例えば日本語の場合では五十音、濁音、及び半濁音のみを登録した辞書であり、英語の場合には母音及び子音のみを登録した辞書)を利用した処理を行うようにする。
なお、このS204の第2の音声合成処理を行うMPU51によって、図2の第2の音声合成部24としての機能が提供される。
また、端末装置20のMPU51は、S204の第2の音声合成処理の実行と並行して、S205の音声データ受信処理を行う。この処理は、通信部56を制御して、S107の音声データ送信処理が行われたデータセンター装置10から通信ネットワーク30を介して送られてくる第1合成音声データを受信させる処理である。この処理を行うMPU51と通信部56とによって、図2の音声データ受信部25としての機能が提供される。
更に、端末装置20のMPU51はS206の音声判定処理を行う。この処理は、S205の音声データ受信処理による第1合成音声データの受信が完了したか否かを判定し、この判定結果に基づき、当該第1合成音声データとS204の第2の音声合成処理により作成された第2合成音声データとのうちの一方を選択する処理である。この処理を行うMPU51によって、図2の音声判定部26としての機能が提供される。
次に、端末装置20のMPU51がS207の出力処理を行う。この処理は、出力部55を制御して、S206の音声判定処理により選択された合成音声データで表現されている合成音声を出力する処理である。また、MPU51は、S203のシナリオ受信処理におけるシナリオの解析によって、テキストの表示を行うことが記述されていたことが判明した場合には、この出力処理において、その解析結果に従ってテキストの表示を行う処理も行う。この処理を行うMPU51と出力部55とによって、図2の出力部27としての機能が提供される。その後、端末装置20のMPU51は、この制御処理を終了させる。
図2の音声対話システムでは、以上の制御処理が行われる。この制御処理では、データセンター装置10においてS103の処理により回答情報が取得されると、S106の処理による第1合成音声データの作成を待たずに、S104及びS105の処理によってシナリオの作成及び送信が行われる。従って、端末装置20では、第1合成音声データの到着が遅れても、S204の処理によりシナリオに含まれている回答情報から第2合成音声データを作成してS207の処理により第2合成音声データを再生することで、最新の回答情報の提供を行うことができる。この結果、対話における無応答状態の発生が抑制される。また、第1合成音声データが到着すれば、高品質な音声合成処理を行うための処理能力を備えていなくても、端末装置20は、到着した第1合成音声データを再生することで、回答情報を高品質な音声で提供することができる。
次に図9について説明する。図9は、音声対話システムの別の一実施例の機能構成図である。
図9の音声対話システムの構成は、図2と同様の構成に加えて、端末装置20が、更に、予測部61、アナウンス音・通知音データ62、及び記憶部63を備えている。ここでは、これらの構成要素に関連する機能について説明する。
予測部61は、音声データ受信部25による第1合成音声データの受信が完了して当該第1合成音声データにより表現されている合成音声の出力部27による出力が開始可能となる第1時刻を予測する。このとき、音声判定部26は、予測された第1時刻以前の時刻においては第2の音声合成部24が作成した第2合成音声データを選択し、当該第1時刻以降の時刻においては音声データ受信部25により受信された第1合成音声データを選択するようにする。
このようにすることで、当該第1時刻以前の時刻においては、第2合成音声データで表現されている合成音声が出力部27により出力され、当該第1時刻以降の時刻においては、第1合成音声データで表現されている合成音声が出力部27により出力される。従って、出力される合成音声を、第2合成音声データで表現されているものから、高品質な第1合成音声データで表現されているものへとスムーズに切り替えることができる。
なお、予測部61は、この第1時刻の予測を、例えば、データセンター装置10に送付した所定の要求に対してデータセンター装置10から送られてくる返答を受信するまでの応答時間と、第1合成音声データのデータサイズとに基づいて行う。予測部61は、この応答時間と第1合成音声データのデータサイズとから第1合成音声データのダウンロードに要する時間との合計時間を算出することによって、音声データ受信部25による第1合成音声データの受信の完了時刻の予測を行う。
また、予測部61は、更に、第2の音声合成部24による第2合成音声データの作成が完了して当該第2合成音声データにより表現されている合成音声の出力部27による出力が開始可能となる第2時刻の予測も行う。このとき、音声判定部26は、前述の第1時刻以前であって且つこの第2時刻以前には、予め用意されている所定の音声データである、アナウンス音・通知音データ62を選択する。
このようにすることで、当該第1時刻以前であって且つ当該第2時刻以前の時刻においては、アナウンス音・通知音データ62で表現されているアナウンス音若しくは通知音が出力部27により出力される。従って、第1合成音声データの受信完了前であって第2合成音声データの作成完了前の時刻においても、アナウンス音若しくは通知音が出力されるので、対話における無応答状態の時間が更に短縮される。
なお、図9の音声対話システムにおいて、前述したように、音声判定部26は、前述の第1時刻において合成音声データの選択を第2合成音声データから第1合成音声データに切り替える。このときには、出力部27は、当該第2合成音声データで表現されている合成音声の出力の途中で、その出力を当該第1合成音声データで表現されている合成音声に切り替えるようにしてもよい。このようにすることで、第2合成音声データで表現されている合成音声の再生の終了を待つことなく、第1合成音声データで表現されている高品質な合成音声へと切り替えることができる。
ところで、図9の音声対話システムにおける記憶部63は、音声データ受信部25が受信した第1合成音声データを保存しておく。このとき、音声判定部26は、音声データ受信部25が受信する第1合成音声データが記憶部63に既に記憶されているか否かを、シナリオ受信部23が受信したシナリオに含まれている回答情報に基づいて判定する。ここで、音声判定部26は、第1合成音声データが記憶部63に既に記憶されていると判定した場合には、当該第1合成音声データを選択する。そして、出力部27は、第1合成音声データが記憶部63に既に記憶されていると判定した場合には、記憶部63に既に記憶されている第1合成音声データで表現されている合成音声を出力する。
図9の音声対話システムにおいて、データセンター装置10と端末装置20との間で対話のためのデータの授受を繰り返していると、シナリオに含まれる回答情報が、過去に送付したシナリオに含まれていたものと同一のものである場合がある。そこで、このような場合には、出力部27は、記憶部63に既に記憶されている、当該回答情報を発声している第1合成音声データを用いて、合成音声を出力する。つまり、記憶部63は、第1合成音声データを記憶しておくキャッシュメモリとしての機能を提供する。このようにすることで、端末装置20では、新たな第1合成音声データが到着するよりも前の早い時期から、記憶部63に既に記憶されている第1合成音声データで表現されている高品質な合成音声の再生を行うことができる。
なお、図9の音声対話システムのハードウェア構成は、図2と同様の構成、すなわち、データセンター装置10を図6に図解した構成とし、端末装置20を図7に図解した構成とする。なお、この構成の場合、アナウンス音・通知音データ62は、図7の不揮発性メモリ52に予め格納しておく。また、この構成の場合、図7のRAM53は、図9の音声対話システムにおける記憶部63としても使用される。
図9の音声対話システムのハードウェア構成を上述の構成とする場合には、データセンター装置10のMPU41と端末装置20のMPU51とが行う制御処理として、図8にフローチャートで図解した処理を、これより説明するように変更する。
まず図10について説明する。図10は、予測処理の処理手順を表したフローチャートである。この予測処理は、図8に図解した制御処理におけるS203のシナリオ受信処理の後に、S204の第2の音声合成処理及びS205の音声データ受信処理の実行と並行して行われる。
なお、以下の説明では、通信ネットワーク30では、通信プロトコルとしてTCP(Transmission Control Protocol )が使用されるものとし、データセンター装置10と端末装置20との間ではTCPのパケットを用いてデータの授受が行われるものとする。
まず、端末装置20のMPU51は、図10のS211において、データセンター装置10の応答時間を測定する処理を行う。この処理では、まず、MPU51は、自身の有する不図示のタイマ機能の動作を開始させて、経過時間の計時を開始する処理を行う。そして、次に、MPU51は、通信部56を制御して、応答時間測定用の所定の返答要求情報を、データセンター装置10に宛てて、通信ネットワーク30に送出させる処理を行う。
なお、データセンター装置10では、例えば所定の制御プログラムをMPU41で実行させておくことで、この返答要求情報が通信装置47により受信された場合にMPU41が所定の制御処理を実行するように構成しておく。この制御処理は、MPU41が、この返答要求情報の通信装置47による受信を検出した場合に、通信装置47を制御して、所定の返答情報を、端末装置20に宛てて、通信ネットワーク30に送出させるという処理である。
その後、MPU51は、データセンター装置10から送られてくる上述の返答要求情報の通信部56による受信の検出処理を行い、この受信が検出された場合には、前述したタイマ機能の動作を停止させて、このときまでの経過時間の計時結果を取得する処理を行う。この計時結果が、応答時間Rttとなる。
なお、MPU51は、応答時間Rttの計測を、図8の制御処理の実施とは無関係に、一定の期間毎に行うようにしてもよい。また、MPU51は、例えば、端末装置20の通信部56とデータセンター装置10の通信装置47との間での音声データ等の各種のデータの伝送時におけるハンドシェイクの通信を利用して、応答時間Rttの計測を行うようにしてもよい。
次に、端末装置20のMPU51は、S212において、図8のS203のシナリオ受信処理により受信されたシナリオから、回答情報のテキストデータと、第1合成音声データのデータサイズとを取得する処理を行う。この処理のために、データセンター装置10で行われるS104の対話制御処理では、テキストにデータファイル名が記述される第1合成音声データのデータ量の情報、若しくはそのデータ量の予測値の情報を、当該テキストに付加する処理を行うものとする。このために、データセンター装置10では、S106の第1の音声合成処理が完了して第1合成音声データのデータサイズが判明してからS104の対話制御処理を行うようにしてもよい。また、S104の対話制御処理において、S103の回答情報取得処理により得られた回答情報のデータ量から第1合成音声データのデータ量を推定する処理を行うようにしてもよい。
次に、S213では、端末装置20のMPU51が、第1合成音声データの受信が完了して当該第1合成音声データにより表現されている合成音声の出力が開始可能となる第1時刻を予測する処理を行う。この第1時刻の予測は次のようにして行われる。
端末装置20におけるTCPのウィンドウサイズをwとすると、この場合のTCPによるデータの転送速度はw/Rttとなる。従って、第1合成音声データのデータサイズをSとすると、この第1合成音声データの転送に要する時間Tは、
T=S×Rtt/w
により算出される。そこで、MPU51は、図8のS205の音声データ受信処理により第1合成音声データの受信が開始された時刻から、上記の式の計算を行って算出される値Tが経過した時刻を、第1時刻の予測結果とする。
なお、例えば、第1合成音声データの転送ビットレートbが既知である場合には、MPU51は、S/bの計算を行って第1合成音声データの転送に要する時間Tを求めるようにしてもよい。
次に、S214では、端末装置20のMPU51が、第2合成音声データの作成が完了して当該第2合成音声データにより表現されている合成音声の出力が開始可能となる第2時刻を予測する処理を行い、その後は、この図10の予測処理を終了する。なお、この第2時刻の予測は次のようにして行われる。
まず図11について説明する。図11は、音声合成処理における処理対象のテキストの文字数と処理時間との関係の一例を表したグラフである。このグラフからも分かるように、一般的に、音声合成処理の処理時間は、処理対象のテキストの文字数に比例して増加する関係を有している。そこで、処理対象のテキストの文字数と、当該テキストについて音声合成処理を行ったときの処理時間とを予め実測し、その実測結果から比例定数を求めておくようにする。こうすることで、処理対象のテキストに対する音声合成処理に要する処理時間を、当該テキストの文字数に当該比例定数を乗じる計算を行うことで、予測することができる。
つまり、処理対象のテキストの文字数を変化させて、当該文字数と図8の第2の合成処理の処理時間との関係を実測し、この関係における比例定数を求めておく。S214の処理では、まず、S212の処理によりシナリオから取得した回答情報のテキストデータの文字数を計数し、この文字数に、上述した比例定数を乗算した結果の値を算出する処理を行う。そして、図8のS204の第2の音声合成処理により第2合成音声データの作成が開始された時刻から、上述の乗算により算出された値が経過した時刻を、第2時刻の予測結果とする。
以上までの処理が図10の予測処理である。この処理を行うMPU51と通信部56とによって、図9予測部61としての機能が提供される。
MPU51は、図10の予測処理の終了後には、図8に図解した制御処理におけるS206の音声判定処理に処理を進める。このときに行われる音声判定処理の処理内容について、図12を参照しながら説明する。
なお、前述した予測処理と並行して実行されるS205の音声データ受信処理では、MPU51は、第1合成音声データが通信部56で受信されたときに、その第1合成音声データを、記憶部63であるRAM53に保存する処理を更に行うものとする。なお、このとき、MPU51は、第1合成音声データによって発声されている回答情報も、当該第1合成音声データに対応付けてRAM53に保存する処理を行うものとする。
図12は、図10の予測処理に続いて行われる音声判定処理の処理手順を図解したフローチャートである。
まず、MPU51は、図12のS221において、シナリオに記述されている第1合成音声データが、記憶部63であるRAM53に既に保存されているか否かを判定する処理を行う。この判定は、シナリオに記述されている、第1合成音声データを発声している回答情報と一致するものが、RAM53に保存されているか否かを判定することによって行われる。MPU51は、ここで、シナリオに記述されている第1合成音声データが既に保存されていると判定したとき(判定結果がYesのとき)にはS222に処理を進める。一方、MPU51は、ここで、シナリオに記述されている第1合成音声データが保存されていないと判定したとき(判定結果がNoのとき)にはS223に処理を進める。
S222では、S221の処理によって保存されていると判定された第1合成音声データを選択する処理をMPU51が行い、その後はこの音声判定処理を終了して、図8のS207の出力処理に処理を進める。このときの出力処理では、MPU51は、出力部55を制御して、選択された第1合成音声データをRAM53から読み出し、読み出された第1合成音声データで表現されている合成音声を出力する処理を行う。
一方、S223では、現在時刻、すなわち、この処理時点での時刻を取得する処理をMPU51が行う。MPU51は、この現在時刻を、MPU51自身が備えている時計、若しくは、MPU51に接続されている不図示の時計から取得する。
S224では、S223の処理により取得された現在時刻に、許容できる無音時間、すなわち、利用者と端末装置20との対話において許容できる無応答状態の時間を加算して、閾値時刻を算出する処理をMPU51が行う。この無音時間は、事前評価の結果に従い、通常は1秒から2秒程度の時間を設定するが、0秒に設定してもよい。
S225では、図10の予測処理におけるS213の処理によって予測された第1時刻が、S224の処理によって算出された閾値時刻以前であるか否かを判定する処理をMPU51が行う。ここで、MPU51は、第1時刻が閾値時刻以前であると判定したとき(判定結果がYesのとき)にはS226に処理を進め、第1時刻が閾値時刻よりも後であると判定したとき(判定結果がNoのとき)にはS227に処理を進める。
S226では、S205の音声データ受信処理による受信が完了している第1合成音声データを選択する処理をMPU51が行い、その後はこの音声判定処理を終了して、図8のS207の出力処理に処理を進める。このときの出力処理では、MPU51は、出力部55を制御して、S205の音声データ受信処理による受信が完了した第1合成音声データで表現されている合成音声を出力させる処理を行う。
一方、S227では、図10の予測処理におけるS214の処理によって予測された第2時刻が、S224の処理によって算出された閾値時刻以前であるか否かを判定する処理をMPU51が行う。ここで、MPU51は、第2時刻が閾値時刻以前であると判定したとき(判定結果がYesのとき)にはS228に処理を進め、第2時刻が閾値時刻よりも後であると判定したとき(判定結果がNoのとき)にはS229に処理を進める。
S228では、S204の第2の音声合成処理による作成が完了している第2合成音声データを選択する処理をMPU51が行い、その後はこの音声判定処理を終了して、図8のS207の出力処理に処理を進める。このときの出力処理では、MPU51は、出力部55を制御して、S204の第2の音声合成処理による作成が完了した第2合成音声データで表現されている合成音声を出力させる処理を行う。
S229では、不揮発性メモリ52に予め格納されているアナウンス音・通知音データ62を選択すると共に、出力部55を制御して、不揮発性メモリ52から読み出したアナウンス音・通知音データ62で表現されている音声を出力させる処理をMPU51が行う。
次に、S230では、S229の処理によって再生されるアナウンス音・通知音データ62の再生に要する時間を経過したか否かを判定する処理をMPU51が行う。ここで、MPU51は、アナウンス音・通知音データ62の再生の所要時間が経過したと判定したとき(判定結果がYesのとき)にはS223に処理を戻して前述した処理を繰り返す。一方、MPU51は、アナウンス音・通知音データ62の再生の所要時間が経過していないと判定したとき(判定結果がNoのとき)には、この再生の所要時間が経過するまで、このS230の判定処理を繰り返す。
MPU51は、図10の予測処理の終了後には、図8のS206の音声判定処理として、上述した図12の処理を行う。この結果、図13に図解したような各種の出力パターンで、音声の出力が行われる。
図13に図解されている各パターンにおいて、t1及びt2は、それぞれ第1時刻及び第2時刻を表しており、Xは閾値時刻を表している。また、laは、アナウンス音・通知音データ62の再生に要する所要時間を表している。
パターンAは、図12のS221の判定処理の結果がNoであり、その直後に行われたS225の判定処理の結果がYesであった場合の音声出力パターンである。この場合には、第1時刻t1が閾値時刻Xよりも前であるので、S205の音声データ受信処理による受信が完了している第1合成音声データで表現されている合成音声が、出力部55により出力される。
パターンBは、図12のS221の判定処理の結果がNoであり、その直後に行われたS225の判定処理の結果もNoであり、その直後に行われたS227の判定処理の結果がYesであった場合の音声出力パターンである。この場合には、第2時刻t2が閾値時刻Xよりも前であるので、S204の第2の音声合成処理による作成が完了した第2合成音声データで表現されている合成音声が、出力部55により出力される。
パターンCは、S227の判定処理の結果がNoであり、その直後に行われたS225の判定処理の結果がYesであった場合の音声出力パターンである。この場合には、まず、アナウンス音・通知音データ62で表現されている音声が、出力部55により出力される。そして、その後に行われるS224の処理により、閾値時刻はXからX+laに変更される結果、第1時刻t1が閾値時刻X+laよりも前となる。従って、この場合には、アナウンス音・通知音データ62で表現されている音声に続いて、S205の音声データ受信処理による受信が完了した第1合成音声データで表現されている合成音声が、出力部55により出力される。
パターンDは、S227の判定処理の結果がNoであり、その直後に行われたS225の判定処理の結果もNoであり、その直後に行われたS227の判定処理の結果がYesであった場合の音声出力パターンである。この場合には、まず、アナウンス音・通知音データ62で表現されている音声が、出力部55により出力される。そして、その後に行われるS224の処理により、閾値時刻はXからX+laに変更される結果、第2時刻t2が閾値時刻X+laよりも前となる。従って、この場合には、アナウンス音・通知音データ62で表現されている音声に続いて、S204の第2の音声合成処理による作成が完了した第2合成音声データで表現されている合成音声が、出力部55により出力される。
なお、アナウンス音・通知音データ62は予め複数用意しておくようにしてもよい。一般的に、同じフレーズの音声を何回も聞くと利用者は飽きてしまう。そこで、アナウンス音・通知音データ62として、例えば「ピッ」のような短時間の通知音と、「センターに問い合わせています」のような長時間のアナウンス音とを用意しておくようにする。この場合において、例えば、図12のS229の処理が繰り返されたときには、この繰り返しの度に、音声出力を行うアナウンス音・通知音を切り替えて、例えば発音時間が短くなっていくようにしてもよい。
ところで、図13におけるパターンEは、パターンDの変形例であり、第2合成音声データで表現されている合成音声の出力の途中で、S205の音声データ受信処理により第1合成音声データの受信が完了した場合を表している。この場合には、第1合成音声データの受信が完了した時点で、出力部55より出力する合成音声を、第2合成音声データで表現されているものから第1合成音声データで表現されているものへと切り替えるようにしてもよい。
この音声出力の切り替えの手法について、図14を用いて更に説明する。
図14は、図8のS103の回答情報取得処理によって取得された回答情報が『誰にでもなじみ易いのが、インディゴブルーだ。』なるテキストデータであった場合を例にしている。
この場合において、データセンター装置10のMPU41は、図8のS106の第1の音声合成処理において、回答情報のテキストデータを句読点で区切って分割し、分割されたテキストデータ毎に第1合成音声データを作成する処理を行う。図14の例では、上述した回答情報がテキストデータ『誰にでもなじみ易いのが、』と『インディゴブルーだ。』とに分割され、その各々についての第1合成音声データ“sound_0_0.wav”と“sound_0_1.wav”とが作成される。作成された複数の第1合成音声データは、S107の音声データ送信処理によって、元の回答情報のテキストデータにおける順序に従って端末装置20に送られる。
また、MPU41は、図8のS104の対話制御処理におけるシナリオの作成において、回答情報『誰にでもなじみ易いのが、インディゴブルーだ。』に対応付けて、上述した2つの第1合成音声データのファイル名をシナリオに記述する処理を行う。
一方、端末装置20のMPU51は、図8のS204の第2の音声合成処理において、受信されたシナリオに含まれている回答情報のテキストデータを句読点で区切って分割し、分割されたテキストデータ毎に第2合成音声データを作成する処理を行う。また、S205の音声データ受信処理では、データセンター装置10から送られてくる複数の第1合成音声データを受信する処理を行う。更に、図10に図解した予測処理では、複数の第1合成音声データの各々について第1時刻の予測を行う。
その後、MPU51は、図8のS206の音声判定処理として、図12に図解した手順の処理を行う。図13のパターンEの音声出力パターンにおいて、この処理により、アナウンス音・通知音データ62で表現されている音声が出力され、続いて第2合成音声データで表現されている合成音声が出力されるまでの流れは、パターンDと同様である。但し、パターンEでは、第2合成音声データで表現されている合成音声の出力の後に現在時刻が第1時刻t1を経過したときには、出力される合成音声が第1合成音声データで表現されているものに切り替わる。この合成音声の出力の切り替えは、図14に図解したように、回答情報のテキストデータの分割の際に区切りとした、句読点において行われる。
ここで図15について説明する。図15は、図12の音声判定処理の処理手順の変形例を図解したフローチャートである。この変形例は、図13におけるパターンEの音声出力パターンを実現するためのものである。
図15に図解した処理は、図12におけるS228の処理に続いて実行される。
図12のS228に続くS231では、直近に再生を開始した第2合成音声データの再生に要する時間を経過したか否かを判定する処理をMPU51が行う。ここで、MPU51は、第2合成音声データの再生の所要時間が経過したと判定したとき(判定結果がYesのとき)にはS232に処理を進める。一方、MPU51は、第2合成音声データの再生の所要時間が経過していないと判定したとき(判定結果がNoのとき)には、この再生の所要時間が経過するまで、このS231の判定処理を繰り返す。
次に、S232では、直近に再生を終えた第2合成音声データに続く次の第2合成音声データが存在するか否かを判定する処理をMPU51が行う。ここで、MPU51は、続きの第2合成音声データが存在すると判定したとき(判定結果がYesのとき)にはS223に処理を進める。一方、続きの第2合成音声データは存在しないと判定したとき(判定結果がNoのとき)には、音声判定処理を終了して、図8のS207の出力処理に処理を進める。このときの出力処理では、続きの第2合成音声データは存在しないので、MPU51は音声出力を直ちに終了させて図8の処理を終了させる。
次に、S233では、図12のS223の処理と同様にして現在時刻を取得する処理をMPU51が行う。
次に、S234では、続きの第2合成音声データと同一のテキストを発声している第1合成音声データについて図10の予測処理により予測された第1時刻が、S233の処理により取得された現在時刻以前であるか否かを判定する処理をMPU51が行う。この第1合成音声データを「続きの第1合成音声データ」と称することとする。ここで、MPU51は、続きの第1合成音声データについての第1時刻が現在時刻以前であると判定したとき(判定結果がYesのとき)にはS235に処理を進める。一方、MPU51は、続きの第1合成音声データについての第1時刻が現在時刻よりも後であると判定したとき(判定結果がNoのとき)にはS236に処理を進める。
S235では、続きの第1合成音声データを選択する処理をMPU51が行い、その後は音声判定処理を終了して、図8のS207の出力処理に処理を進める。このときの出力処理では、MPU51は、出力部55を制御して、続きの第1合成音声データで表現されている合成音声を出力させる処理を行う。更に、続きの第1合成音声データの後続の第1合成音声データが存在する場合には、MPU51は、後続の第1合成音声データで表現されている合成音声を続けて出力部55に出力させる処理を行う。
一方、S236では、続きの第2合成音声データを選択する処理を選択すると共に、出力部55を制御して、続きの第2合成音声データで表現されている音声を出力させる処理をMPU51が行い、その後はS231に処理を戻して上述した処理を繰り返す。
以上の処理をMPU51が行うことで、第2合成音声データで表現されている合成音声の出力の途中で、当該出力を第1合成音声データで表現されている合成音声に切り替えることができるようになる。
なお、図14に図解した音声出力の切り替えの手法では、回答情報のテキストデータを分割するときの区切りとして句読点を用いたが、この代わりに、文末、一定数の文字数、呼気段落(Breath Group)等を区切りとして用いてもよい。また、データセンター装置10が、この区切りのタイミングに関する情報をシナリオに記述するようにし、端末装置20は、このタイミングの時刻となったときに、続きの第1合成音声データのダウンロードが完了していれば音声の切り替えを行うようにしてもよい。
なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
データセンター装置と端末装置とを備え、
前記データセンター装置と前記端末装置とは通信ネットワークを介して接続され、
前記データセンター装置は、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第1合成音声データを作成する第1の音声合成部と、
前記第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第1の音声合成部が前記第1合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備え、
前記端末装置は
前記発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記データセンター装置から送られてくる前記シナリオを受信するシナリオ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
前記データセンター装置から送られてくる前記第1合成音声データを受信する音声データ受信部と、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備える、
ことを特徴とする音声対話システム。
(付記2)
前記端末装置は、前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する予測部を更に備え、
前記音声判定部は、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする付記1に記載の音声対話システム。
(付記3)
前記予測部は、前記第1時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする付記2に記載の音声対話システム。
(付記4)
前記予測部は、更に、前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測し、
前記音声判定部は、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記2又は3に記載の音声対話システム。
(付記5)
前記出力部は、前記音声判定部が前記第1時刻において前記合成音声データの選択を前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする付記2から4のうちのいずれか一項に記載の音声対話システム。
(付記6)
前記端末装置は、前記第1合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を出力する、
ことを特徴とする付記1から5のうちのいずれか一項に記載の音声対話システム。
(付記7)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置であって、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信するシナリオ受信部と、
前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信する音声データ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備えることを特徴とする端末装置。
(付記8)
前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する予測部を更に備え、
前記音声判定部は、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする付記7に記載の端末装置。
(付記9)
前記予測部は、前記第1時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする付記8に記載の端末装置。
(付記10)
前記予測部は、更に、前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測し、
前記音声判定部は、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記8又は9に記載の端末装置。
(付記11)
前記出力部は、前記音声判定部が前記第1時刻において前記合成音声データの選択を前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする付記8から10のうちのいずれか一項に記載の端末装置。
(付記12)
前記第1合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を出力する、
ことを特徴とする付記7から11のうちのいずれか一項に記載の端末装置。
(付記13)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置の制御を演算処理装置に実行させるプログラムであって、
前記端末装置は、
前記演算処理装置と、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する送信部と、
各種のデータを受信する受信部と、
音声データで表現されている音声を出力する出力部と、
を備えており、
前記プログラムは、
前記受信部を制御して、前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信させ、
前記受信部を制御して、前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信させ、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成し、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択し、
前記出力部を制御して、前記選択された合成音声データで表現されている合成音声を出力させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。
(付記14)
前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する処理を前記演算処理装置に実行させ、
前記合成音声データの選択では、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする付記13に記載のプログラム。
(付記15)
前記第1時刻の予測は、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする付記14に記載のプログラム。
(付記16)
前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測する処理を前記演算処理装置に実行させ、
前記合成音声データの選択において、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記14又は15に記載のプログラム。
(付記17)
前記合成音声データの選択において、前記合成音声データの選択を前記第1時刻において前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記出力部の制御において、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする付記14から16のうちのいずれか一項に記載のプログラム。
(付記18)
前記端末装置は、データを記憶する記憶部を更に備えており、
前記受信された第1合成音声データを前記記憶部に保存する処理を更に前記演算処理装置に実行させ、
前記合成音声データの選択において、前記受信された第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択すると共に、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を前記出力部に出力させる、
ことを特徴とする付記13から17のうちのいずれか一項に記載のプログラム。
(付記19)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該データセンター装置であって、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第1合成音声データを作成する第1の音声合成部と、
前記第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第1の音声合成部が前記第1合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備えることを特徴とするデータセンター装置。
(付記20)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該データセンター装置の制御を演算処理装置に実行させるプログラムであって、
前記データセンター装置は、
前記演算処理装置と、
前記端末装置から送られてくる発声音の音声データを受信する受信部と、
各種のデータを送信する送信部と、
を備えており、
前記プログラムは、
前記受信された音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得し、
前記要求情報についての回答情報を情報源から取得し、
前記取得された回答情報を含むシナリオを作成し、
前記取得された回答情報を発声している合成音声を表現している第1合成音声データを作成し、
前記送信部を制御して、前記作成された第1合成音声データを前記端末装置へ送信させ、
前記送信部を制御して、前記第1合成音声データが作成されている間に前記シナリオを端末装置に送信させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。
1 通信ネットワーク
2 データセンター
3 端末
4 利用者
5 画面表示
6 音声制御メニュー
10 データセンター装置
11 対話受信部
12 要求情報取得部
13 回答情報取得部
14 データベース
15 対話制御部
16 第1の音声合成部
17 音声データ送信部
18 シナリオ送信部
20 端末装置
21 入力部
22 対話送信部
23 シナリオ受信部
24 第2の音声合成部
25 音声データ受信部
26 音声判定部
27 出力部
30 通信ネットワーク
41、51 MPU
42 ROM
43、53 RAM
44 ディスクアレイ装置
45 入力装置
46 表示装置
47 通信装置
48 記録媒体駆動装置
49、57 バスライン
50 可搬型記録媒体
52 不揮発性メモリ
54 入力部
55 出力部
56 通信部
61 予測部
62 アナウンス音・通知音データ
63 記憶部

Claims (8)

  1. データセンター装置と端末装置とを備え、
    前記データセンター装置と前記端末装置とは通信ネットワークを介して接続され、
    前記データセンター装置は、
    前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
    前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
    前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
    前記回答情報を含むシナリオを作成する対話制御部と、
    前記回答情報を発声している合成音声を表現している第1合成音声データを作成する第1の音声合成部と、
    前記第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
    前記第1の音声合成部が前記第1合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
    を備え、
    前記端末装置は、
    前記発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
    前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
    前記データセンター装置から送られてくる前記シナリオを受信するシナリオ受信部と、
    前記受信されたシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
    前記データセンター装置から送られてくる前記第1合成音声データを受信する音声データ受信部と、
    前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
    前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
    を備える、
    ことを特徴とする音声対話システム。
  2. 前記端末装置は、前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する予測部を更に備え、
    前記音声判定部は、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
    ことを特徴とする請求項1に記載の音声対話システム。
  3. 前記予測部は、前記第1時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする請求項2に記載の音声対話システム。
  4. 前記予測部は、更に、前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測し、
    前記音声判定部は、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
    ことを特徴とする請求項2又は3に記載の音声対話システム。
  5. 前記出力部は、前記音声判定部が前記第1時刻において前記合成音声データの選択を前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする請求項2から4のうちのいずれか一項に記載の音声対話システム。
  6. 前記端末装置は、前記第1合成音声データを保存しておく記憶部を更に備え、
    前記音声判定部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択し、
    前記出力部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を出力する、
    ことを特徴とする請求項1から5のうちのいずれか一項に記載の音声対話システム。
  7. 通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置であって、
    発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
    前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
    前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信するシナリオ受信部と、
    前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信する音声データ受信部と、
    前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
    前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
    前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
    を備えることを特徴とする端末装置。
  8. 通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置の制御を演算処理装置に実行させるプログラムであって、
    前記端末装置は、
    前記演算処理装置と、
    発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
    前記発声音の音声データを前記データセンター装置へ送信する送信部と、
    各種のデータを受信する受信部と、
    音声データで表現されている音声を出力する出力部と、
    を備えており、
    前記プログラムは、
    前記受信部を制御して、前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信させ、
    前記受信部を制御して、前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信させ、
    前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成し、
    前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択し、
    前記出力部を制御して、前記選択された合成音声データで表現されている合成音声を出力させる、
    処理を前記演算処理装置に実行させる、
    ことを特徴とするプログラム。
JP2012069511A 2012-03-26 2012-03-26 音声対話システム及びプログラム Expired - Fee Related JP6078964B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012069511A JP6078964B2 (ja) 2012-03-26 2012-03-26 音声対話システム及びプログラム
US13/780,620 US9190048B2 (en) 2012-03-26 2013-02-28 Speech dialogue system, terminal apparatus, and data center apparatus
CN201310095196.2A CN103366729B (zh) 2012-03-26 2013-03-22 语音对话系统、终端装置和数据中心装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012069511A JP6078964B2 (ja) 2012-03-26 2012-03-26 音声対話システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2013200480A JP2013200480A (ja) 2013-10-03
JP6078964B2 true JP6078964B2 (ja) 2017-02-15

Family

ID=49213181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012069511A Expired - Fee Related JP6078964B2 (ja) 2012-03-26 2012-03-26 音声対話システム及びプログラム

Country Status (3)

Country Link
US (1) US9190048B2 (ja)
JP (1) JP6078964B2 (ja)
CN (1) CN103366729B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8947220B2 (en) * 2012-10-31 2015-02-03 GM Global Technology Operations LLC Speech recognition functionality in a vehicle through an extrinsic device
RU2530267C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ коммуникации пользователя с информационной диалоговой системой
US9646601B1 (en) * 2013-07-26 2017-05-09 Amazon Technologies, Inc. Reduced latency text-to-speech system
JP6265670B2 (ja) * 2013-09-24 2018-01-24 シャープ株式会社 情報処理装置、サーバ、および、制御プログラム
JP5958475B2 (ja) 2014-01-17 2016-08-02 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP6024675B2 (ja) 2014-01-17 2016-11-16 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置
JP2017062300A (ja) * 2015-09-24 2017-03-30 セイコーエプソン株式会社 半導体装置、システム、電子機器、及び、音声認識方法
US11404041B2 (en) * 2017-05-24 2022-08-02 Nippon Hoso Kyokai Audio guidance generation device, audio guidance generation method, and broadcasting system
US11430440B2 (en) * 2018-05-11 2022-08-30 Ntt Docomo, Inc. Dialog device
JP6964558B2 (ja) * 2018-06-22 2021-11-10 株式会社日立製作所 音声対話システムとモデル作成装置およびその方法
JP6983118B2 (ja) * 2018-06-26 2021-12-17 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
WO2020070888A1 (ja) * 2018-10-05 2020-04-09 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム
US10978069B1 (en) * 2019-03-18 2021-04-13 Amazon Technologies, Inc. Word selection for natural language interface
CN111429899A (zh) * 2020-02-27 2020-07-17 深圳壹账通智能科技有限公司 基于人工智能的语音响应处理方法、装置、设备及介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366175A (ja) 2001-06-08 2002-12-20 Mitsubishi Electric Corp 音声コミュニケーション支援装置およびその方法
CN100403261C (zh) * 2001-08-24 2008-07-16 华为技术有限公司 纯软件的交互式语音应答/语音信箱设备的实现方法
CN1427394A (zh) * 2002-04-09 2003-07-02 北京无限商机通信技术有限公司 语音浏览网关
JP2004020613A (ja) * 2002-06-12 2004-01-22 Canon Inc サーバ、受信端末
KR100580619B1 (ko) 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
JP4082249B2 (ja) 2003-03-14 2008-04-30 日本電気株式会社 コンテンツ配信システム
US9330668B2 (en) 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup
JP4984708B2 (ja) 2006-07-21 2012-07-25 富士通株式会社 音声対話機能を有する情報処理装置
CN101846525B (zh) * 2009-03-23 2012-08-08 华为软件技术有限公司 导航信息处理、获取方法及装置
JP2011075870A (ja) 2009-09-30 2011-04-14 Oki Electric Industry Co Ltd 音声合成システム、音声合成装置及び音声合成プログラム

Also Published As

Publication number Publication date
CN103366729A (zh) 2013-10-23
CN103366729B (zh) 2016-05-04
JP2013200480A (ja) 2013-10-03
US20130253926A1 (en) 2013-09-26
US9190048B2 (en) 2015-11-17

Similar Documents

Publication Publication Date Title
JP6078964B2 (ja) 音声対話システム及びプログラム
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
US11520471B1 (en) Systems and methods for identifying a set of characters in a media file
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
CN111899720B (zh) 用于生成音频的方法、装置、设备和介质
WO2021083071A1 (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
CN105027194B (zh) 话语主题的识别
US10089974B2 (en) Speech recognition and text-to-speech learning system
US8725513B2 (en) Providing expressive user interaction with a multimodal application
TWI425500B (zh) 以數位語音中表現的單字索引數位語音
CN111402843B (zh) 说唱音乐生成方法、装置、可读介质及电子设备
JP7365985B2 (ja) 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
US20110264452A1 (en) Audio output of text data using speech control commands
US10685644B2 (en) Method and system for text-to-speech synthesis
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
JP2011504624A (ja) 自動同時通訳システム
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
CN116917984A (zh) 交互式内容输出
CN112035699A (zh) 音乐合成方法、装置、设备和计算机可读介质
CN112071287A (zh) 用于生成歌谱的方法、装置、电子设备和计算机可读介质
CN113223513A (zh) 语音转换方法、装置、设备和存储介质
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
US20240112691A1 (en) Synthesizing audio for synchronous communication

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161027

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20161102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170102

R150 Certificate of patent or registration of utility model

Ref document number: 6078964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees