JP6078964B2 - 音声対話システム及びプログラム - Google Patents
音声対話システム及びプログラム Download PDFInfo
- Publication number
- JP6078964B2 JP6078964B2 JP2012069511A JP2012069511A JP6078964B2 JP 6078964 B2 JP6078964 B2 JP 6078964B2 JP 2012069511 A JP2012069511 A JP 2012069511A JP 2012069511 A JP2012069511 A JP 2012069511A JP 6078964 B2 JP6078964 B2 JP 6078964B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- synthesized
- unit
- voice
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 claims description 84
- 230000004044 response Effects 0.000 claims description 76
- 238000004891 communication Methods 0.000 claims description 66
- 230000005540 biological transmission Effects 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 32
- 230000003993 interaction Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 description 267
- 230000008569 process Effects 0.000 description 246
- 230000015572 biosynthetic process Effects 0.000 description 49
- 238000003786 synthesis reaction Methods 0.000 description 49
- 230000006870 function Effects 0.000 description 24
- 230000007704 transition Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- COHYTHOBJLSHDF-UHFFFAOYSA-N Indigo Chemical compound N1C2=CC=CC=C2C(=O)C1=C1C(=O)C2=CC=CC=C2N1 COHYTHOBJLSHDF-UHFFFAOYSA-N 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Description
図2の音声対話システムは、データセンター装置10と端末装置20とを備えている。このデータセンター装置10と端末装置20とは通信ネットワーク30を介して接続されており、通信ネットワーク30を介して各種のデータの授受を行うことができる。なお、通信ネットワーク30は、無線回線・有線回線のどちらでもよく、また、無線回線と有線回線とが組み合わされて構成されていてもよい。
要求情報取得部12は、対話受信部11が受信した音声データに対して音声認識処理を実行して、当該音声データにより表現されている要求情報を取得する。
データベース(DB)14には、各種の情報が蓄積されている情報源である。なお、データベース14は、データセンター装置10の外部に設置されていてもよい。また、データベース14は、データセンター装置10の設置場所から遠隔の場所に設置されていて、通信回線を経由してデータセンター装置10からアクセスできるようにしてもよい。
音声データ送信部17は、第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
シナリオ送信部18は、第1の音声合成部16が第1合成音声データを作成している間に、対話制御部15が作成したシナリオを端末装置20に送信する。
入力部21は、発声音の入力を取得して、取得した発声音を表現している音声データに変換する。
シナリオ受信部23は、データセンター装置10から送られてくる、前述のシナリオを受信する。
音声データ受信部25は、データセンター装置10から送られてくる前述の第1合成音声データを受信する。
出力部27は、音声判定部26により選択された合成音声データで表現されている合成音声を出力する。
図2の音声対話システムは以上のように構成されている。
例えば、回答情報取得部13が取得した要求情報について、図3のテーブルに示したような回答情報が得られたものとする。
なお、図4の記述例において、各行の先頭の番号は、説明の便宜のために付した行番号である。
・<state>タグ:状態を特定する。
・<my:download>タグ:ダウンロードする対象の音声データを特定する。
・<my:output>タグ:再生対象の音声データ、表示対象のテキストを特定する。
・<transition>タグ:状態遷移の発生条件であるイベントと遷移先とを特定する。
図5において、S10は「START」状態であってシナリオの開始を表しており、図4の第10行から第14行に対応している。この状態では、端末装置20は、まず、音声データ“weather_0.wav”のダウンロードを行い(第11行)、続いて、音声データ“weather_1.wav”のダウンロードを行う(第12行)。その後、ダウンロードが完了したときには、端末装置20は、状態を「PLAY0」状態に遷移させる(第13行)。
このように、シナリオによって、このシナリオを受信した端末装置20の状態遷移が定義され、イベント発生時には、端末装置20の状態を、記述されている状態に遷移させることで、再生する音声データや表示するテキスト情報を変更することができる。
まず図6について説明する。図6は、データセンター装置10のハードウェア構成例を表した図である。
ROM(Read Only Memory)42は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。MPU41は、この基本制御プログラムをデータセンター装置10の起動時に読み出して実行することにより、データセンター装置10の各構成要素の動作制御が可能になる。なお、ROM42として、フラッシュメモリ等の、記憶データが不揮発性であるメモリを使用してもよい。
通信装置47は、データセンター装置10を通信ネットワーク30に接続して、端末装置20との間で各種での各種のデータの授受の管理を行う。
図7の端末装置20は、MPU51、不揮発性メモリ52、RAM53、入力部54、出力部55、及び通信部56を備えている。なお、これらの各構成要素はバスライン57を介して接続されており、MPU51の管理の下で各種のデータを相互に授受することができる。
不揮発性メモリ52は、例えばフラッシュメモリであり、所定の基本制御プログラムが予め記録されている。MPU51は、この基本制御プログラムを端末装置20の起動時に読み出して実行することにより、端末装置20の各構成要素の動作制御が可能になる。また、不揮発性メモリ52は、MPU41によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置としての機能も有している。MPU51は、不揮発性メモリ52に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。
このような構成要素を用いて端末装置20を実現するには、例えば、後述する、端末装置20で行われる制御処理をMPU51に行わせるための制御プログラムを作成する。作成された制御プログラムは不揮発性メモリ52に予め格納しておく。そして、MPU51に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、図7の各構成要素を、入力部21、対話送信部22、シナリオ受信部23、第2の音声合成部24、音声データ受信部25、音声判定部26、及び出力部27として機能させることが可能となる。
なお、図8に図解した処理のうち、S101からS107にかけての処理はデータセンター装置10のMPU41が行い、S201からS207にかけての処理は端末装置20のMPU51が行う。
また、端末装置20のMPU51は、S204の第2の音声合成処理の実行と並行して、S205の音声データ受信処理を行う。この処理は、通信部56を制御して、S107の音声データ送信処理が行われたデータセンター装置10から通信ネットワーク30を介して送られてくる第1合成音声データを受信させる処理である。この処理を行うMPU51と通信部56とによって、図2の音声データ受信部25としての機能が提供される。
図9の音声対話システムの構成は、図2と同様の構成に加えて、端末装置20が、更に、予測部61、アナウンス音・通知音データ62、及び記憶部63を備えている。ここでは、これらの構成要素に関連する機能について説明する。
T=S×Rtt/w
により算出される。そこで、MPU51は、図8のS205の音声データ受信処理により第1合成音声データの受信が開始された時刻から、上記の式の計算を行って算出される値Tが経過した時刻を、第1時刻の予測結果とする。
MPU51は、図10の予測処理の終了後には、図8に図解した制御処理におけるS206の音声判定処理に処理を進める。このときに行われる音声判定処理の処理内容について、図12を参照しながら説明する。
まず、MPU51は、図12のS221において、シナリオに記述されている第1合成音声データが、記憶部63であるRAM53に既に保存されているか否かを判定する処理を行う。この判定は、シナリオに記述されている、第1合成音声データを発声している回答情報と一致するものが、RAM53に保存されているか否かを判定することによって行われる。MPU51は、ここで、シナリオに記述されている第1合成音声データが既に保存されていると判定したとき(判定結果がYesのとき)にはS222に処理を進める。一方、MPU51は、ここで、シナリオに記述されている第1合成音声データが保存されていないと判定したとき(判定結果がNoのとき)にはS223に処理を進める。
図14は、図8のS103の回答情報取得処理によって取得された回答情報が『誰にでもなじみ易いのが、インディゴブルーだ。』なるテキストデータであった場合を例にしている。
図12のS228に続くS231では、直近に再生を開始した第2合成音声データの再生に要する時間を経過したか否かを判定する処理をMPU51が行う。ここで、MPU51は、第2合成音声データの再生の所要時間が経過したと判定したとき(判定結果がYesのとき)にはS232に処理を進める。一方、MPU51は、第2合成音声データの再生の所要時間が経過していないと判定したとき(判定結果がNoのとき)には、この再生の所要時間が経過するまで、このS231の判定処理を繰り返す。
次に、S234では、続きの第2合成音声データと同一のテキストを発声している第1合成音声データについて図10の予測処理により予測された第1時刻が、S233の処理により取得された現在時刻以前であるか否かを判定する処理をMPU51が行う。この第1合成音声データを「続きの第1合成音声データ」と称することとする。ここで、MPU51は、続きの第1合成音声データについての第1時刻が現在時刻以前であると判定したとき(判定結果がYesのとき)にはS235に処理を進める。一方、MPU51は、続きの第1合成音声データについての第1時刻が現在時刻よりも後であると判定したとき(判定結果がNoのとき)にはS236に処理を進める。
(付記1)
データセンター装置と端末装置とを備え、
前記データセンター装置と前記端末装置とは通信ネットワークを介して接続され、
前記データセンター装置は、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第1合成音声データを作成する第1の音声合成部と、
前記第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第1の音声合成部が前記第1合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備え、
前記端末装置は
前記発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記データセンター装置から送られてくる前記シナリオを受信するシナリオ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
前記データセンター装置から送られてくる前記第1合成音声データを受信する音声データ受信部と、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備える、
ことを特徴とする音声対話システム。
(付記2)
前記端末装置は、前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する予測部を更に備え、
前記音声判定部は、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする付記1に記載の音声対話システム。
(付記3)
前記予測部は、前記第1時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする付記2に記載の音声対話システム。
(付記4)
前記予測部は、更に、前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測し、
前記音声判定部は、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記2又は3に記載の音声対話システム。
(付記5)
前記出力部は、前記音声判定部が前記第1時刻において前記合成音声データの選択を前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする付記2から4のうちのいずれか一項に記載の音声対話システム。
(付記6)
前記端末装置は、前記第1合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を出力する、
ことを特徴とする付記1から5のうちのいずれか一項に記載の音声対話システム。
(付記7)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置であって、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信するシナリオ受信部と、
前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信する音声データ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備えることを特徴とする端末装置。
(付記8)
前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する予測部を更に備え、
前記音声判定部は、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする付記7に記載の端末装置。
(付記9)
前記予測部は、前記第1時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする付記8に記載の端末装置。
(付記10)
前記予測部は、更に、前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測し、
前記音声判定部は、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記8又は9に記載の端末装置。
(付記11)
前記出力部は、前記音声判定部が前記第1時刻において前記合成音声データの選択を前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする付記8から10のうちのいずれか一項に記載の端末装置。
(付記12)
前記第1合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を出力する、
ことを特徴とする付記7から11のうちのいずれか一項に記載の端末装置。
(付記13)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置の制御を演算処理装置に実行させるプログラムであって、
前記端末装置は、
前記演算処理装置と、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する送信部と、
各種のデータを受信する受信部と、
音声データで表現されている音声を出力する出力部と、
を備えており、
前記プログラムは、
前記受信部を制御して、前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信させ、
前記受信部を制御して、前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信させ、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成し、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択し、
前記出力部を制御して、前記選択された合成音声データで表現されている合成音声を出力させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。
(付記14)
前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する処理を前記演算処理装置に実行させ、
前記合成音声データの選択では、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする付記13に記載のプログラム。
(付記15)
前記第1時刻の予測は、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする付記14に記載のプログラム。
(付記16)
前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測する処理を前記演算処理装置に実行させ、
前記合成音声データの選択において、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記14又は15に記載のプログラム。
(付記17)
前記合成音声データの選択において、前記合成音声データの選択を前記第1時刻において前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記出力部の制御において、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする付記14から16のうちのいずれか一項に記載のプログラム。
(付記18)
前記端末装置は、データを記憶する記憶部を更に備えており、
前記受信された第1合成音声データを前記記憶部に保存する処理を更に前記演算処理装置に実行させ、
前記合成音声データの選択において、前記受信された第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択すると共に、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を前記出力部に出力させる、
ことを特徴とする付記13から17のうちのいずれか一項に記載のプログラム。
(付記19)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該データセンター装置であって、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第1合成音声データを作成する第1の音声合成部と、
前記第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第1の音声合成部が前記第1合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備えることを特徴とするデータセンター装置。
(付記20)
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該データセンター装置の制御を演算処理装置に実行させるプログラムであって、
前記データセンター装置は、
前記演算処理装置と、
前記端末装置から送られてくる発声音の音声データを受信する受信部と、
各種のデータを送信する送信部と、
を備えており、
前記プログラムは、
前記受信された音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得し、
前記要求情報についての回答情報を情報源から取得し、
前記取得された回答情報を含むシナリオを作成し、
前記取得された回答情報を発声している合成音声を表現している第1合成音声データを作成し、
前記送信部を制御して、前記作成された第1合成音声データを前記端末装置へ送信させ、
前記送信部を制御して、前記第1合成音声データが作成されている間に前記シナリオを端末装置に送信させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。
2 データセンター
3 端末
4 利用者
5 画面表示
6 音声制御メニュー
10 データセンター装置
11 対話受信部
12 要求情報取得部
13 回答情報取得部
14 データベース
15 対話制御部
16 第1の音声合成部
17 音声データ送信部
18 シナリオ送信部
20 端末装置
21 入力部
22 対話送信部
23 シナリオ受信部
24 第2の音声合成部
25 音声データ受信部
26 音声判定部
27 出力部
30 通信ネットワーク
41、51 MPU
42 ROM
43、53 RAM
44 ディスクアレイ装置
45 入力装置
46 表示装置
47 通信装置
48 記録媒体駆動装置
49、57 バスライン
50 可搬型記録媒体
52 不揮発性メモリ
54 入力部
55 出力部
56 通信部
61 予測部
62 アナウンス音・通知音データ
63 記憶部
Claims (8)
- データセンター装置と端末装置とを備え、
前記データセンター装置と前記端末装置とは通信ネットワークを介して接続され、
前記データセンター装置は、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第1合成音声データを作成する第1の音声合成部と、
前記第1の音声合成部により作成された第1合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第1の音声合成部が前記第1合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備え、
前記端末装置は、
前記発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記データセンター装置から送られてくる前記シナリオを受信するシナリオ受信部と、
前記受信されたシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
前記データセンター装置から送られてくる前記第1合成音声データを受信する音声データ受信部と、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備える、
ことを特徴とする音声対話システム。 - 前記端末装置は、前記第1合成音声データの受信が完了して該第1合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第1時刻を予測する予測部を更に備え、
前記音声判定部は、前記第1時刻以前の時刻においては前記第2合成音声データを選択し、前記第1時刻以降の時刻においては前記第1合成音声データを選択する、
ことを特徴とする請求項1に記載の音声対話システム。 - 前記予測部は、前記第1時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第1合成音声データのデータサイズとに基づいて行うことを特徴とする請求項2に記載の音声対話システム。
- 前記予測部は、更に、前記第2合成音声データの作成が完了して該第2合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第2時刻を予測し、
前記音声判定部は、前記第1時刻以前であって且つ前記第2時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする請求項2又は3に記載の音声対話システム。 - 前記出力部は、前記音声判定部が前記第1時刻において前記合成音声データの選択を前記第2合成音声データから前記第1合成音声データに切り替えたときには、前記第2合成音声データで表現されている合成音声の出力の途中で、該出力を前記第1合成音声データで表現されている合成音声に切り替えることを特徴とする請求項2から4のうちのいずれか一項に記載の音声対話システム。
- 前記端末装置は、前記第1合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第1合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第1合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第1合成音声データで表現されている合成音声を出力する、
ことを特徴とする請求項1から5のうちのいずれか一項に記載の音声対話システム。 - 通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置であって、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信するシナリオ受信部と、
前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信する音声データ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成する第2の音声合成部と、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備えることを特徴とする端末装置。 - 通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置の制御を演算処理装置に実行させるプログラムであって、
前記端末装置は、
前記演算処理装置と、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する送信部と、
各種のデータを受信する受信部と、
音声データで表現されている音声を出力する出力部と、
を備えており、
前記プログラムは、
前記受信部を制御して、前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信させ、
前記受信部を制御して、前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第1合成音声データであって、前記データセンター装置から送られてくる該第1合成音声データを受信させ、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第2合成音声データを作成し、
前記第1合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第1合成音声データと前記第2合成音声データとのうちの一方を選択し、
前記出力部を制御して、前記選択された合成音声データで表現されている合成音声を出力させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012069511A JP6078964B2 (ja) | 2012-03-26 | 2012-03-26 | 音声対話システム及びプログラム |
US13/780,620 US9190048B2 (en) | 2012-03-26 | 2013-02-28 | Speech dialogue system, terminal apparatus, and data center apparatus |
CN201310095196.2A CN103366729B (zh) | 2012-03-26 | 2013-03-22 | 语音对话系统、终端装置和数据中心装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012069511A JP6078964B2 (ja) | 2012-03-26 | 2012-03-26 | 音声対話システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013200480A JP2013200480A (ja) | 2013-10-03 |
JP6078964B2 true JP6078964B2 (ja) | 2017-02-15 |
Family
ID=49213181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012069511A Expired - Fee Related JP6078964B2 (ja) | 2012-03-26 | 2012-03-26 | 音声対話システム及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9190048B2 (ja) |
JP (1) | JP6078964B2 (ja) |
CN (1) | CN103366729B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8947220B2 (en) * | 2012-10-31 | 2015-02-03 | GM Global Technology Operations LLC | Speech recognition functionality in a vehicle through an extrinsic device |
RU2530267C2 (ru) * | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ коммуникации пользователя с информационной диалоговой системой |
US9646601B1 (en) * | 2013-07-26 | 2017-05-09 | Amazon Technologies, Inc. | Reduced latency text-to-speech system |
JP6265670B2 (ja) * | 2013-09-24 | 2018-01-24 | シャープ株式会社 | 情報処理装置、サーバ、および、制御プログラム |
JP5958475B2 (ja) | 2014-01-17 | 2016-08-02 | 株式会社デンソー | 音声認識端末装置、音声認識システム、音声認識方法 |
JP6024675B2 (ja) | 2014-01-17 | 2016-11-16 | 株式会社デンソー | 音声認識端末装置、音声認識システム、音声認識方法 |
CN104679472A (zh) * | 2015-02-13 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 人机语音交互方法和装置 |
JP2017021125A (ja) * | 2015-07-09 | 2017-01-26 | ヤマハ株式会社 | 音声対話装置 |
JP2017062300A (ja) * | 2015-09-24 | 2017-03-30 | セイコーエプソン株式会社 | 半導体装置、システム、電子機器、及び、音声認識方法 |
US11404041B2 (en) * | 2017-05-24 | 2022-08-02 | Nippon Hoso Kyokai | Audio guidance generation device, audio guidance generation method, and broadcasting system |
US11430440B2 (en) * | 2018-05-11 | 2022-08-30 | Ntt Docomo, Inc. | Dialog device |
JP6964558B2 (ja) * | 2018-06-22 | 2021-11-10 | 株式会社日立製作所 | 音声対話システムとモデル作成装置およびその方法 |
JP6983118B2 (ja) * | 2018-06-26 | 2021-12-17 | 株式会社日立製作所 | 対話システムの制御方法、対話システム及びプログラム |
WO2020070888A1 (ja) * | 2018-10-05 | 2020-04-09 | 三菱電機株式会社 | 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム |
US10978069B1 (en) * | 2019-03-18 | 2021-04-13 | Amazon Technologies, Inc. | Word selection for natural language interface |
CN111429899A (zh) * | 2020-02-27 | 2020-07-17 | 深圳壹账通智能科技有限公司 | 基于人工智能的语音响应处理方法、装置、设备及介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366175A (ja) | 2001-06-08 | 2002-12-20 | Mitsubishi Electric Corp | 音声コミュニケーション支援装置およびその方法 |
CN100403261C (zh) * | 2001-08-24 | 2008-07-16 | 华为技术有限公司 | 纯软件的交互式语音应答/语音信箱设备的实现方法 |
CN1427394A (zh) * | 2002-04-09 | 2003-07-02 | 北京无限商机通信技术有限公司 | 语音浏览网关 |
JP2004020613A (ja) * | 2002-06-12 | 2004-01-22 | Canon Inc | サーバ、受信端末 |
KR100580619B1 (ko) | 2002-12-11 | 2006-05-16 | 삼성전자주식회사 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
JP4082249B2 (ja) | 2003-03-14 | 2008-04-30 | 日本電気株式会社 | コンテンツ配信システム |
US9330668B2 (en) | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
JP4984708B2 (ja) | 2006-07-21 | 2012-07-25 | 富士通株式会社 | 音声対話機能を有する情報処理装置 |
CN101846525B (zh) * | 2009-03-23 | 2012-08-08 | 华为软件技术有限公司 | 导航信息处理、获取方法及装置 |
JP2011075870A (ja) | 2009-09-30 | 2011-04-14 | Oki Electric Industry Co Ltd | 音声合成システム、音声合成装置及び音声合成プログラム |
-
2012
- 2012-03-26 JP JP2012069511A patent/JP6078964B2/ja not_active Expired - Fee Related
-
2013
- 2013-02-28 US US13/780,620 patent/US9190048B2/en not_active Expired - Fee Related
- 2013-03-22 CN CN201310095196.2A patent/CN103366729B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN103366729A (zh) | 2013-10-23 |
CN103366729B (zh) | 2016-05-04 |
JP2013200480A (ja) | 2013-10-03 |
US20130253926A1 (en) | 2013-09-26 |
US9190048B2 (en) | 2015-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6078964B2 (ja) | 音声対話システム及びプログラム | |
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
US11520471B1 (en) | Systems and methods for identifying a set of characters in a media file | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
CN111899720B (zh) | 用于生成音频的方法、装置、设备和介质 | |
WO2021083071A1 (zh) | 语音转换、文件生成、播音、语音处理方法、设备及介质 | |
CN105027194B (zh) | 话语主题的识别 | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
US8725513B2 (en) | Providing expressive user interaction with a multimodal application | |
TWI425500B (zh) | 以數位語音中表現的單字索引數位語音 | |
CN111402843B (zh) | 说唱音乐生成方法、装置、可读介质及电子设备 | |
JP7365985B2 (ja) | 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
US20110264452A1 (en) | Audio output of text data using speech control commands | |
US10685644B2 (en) | Method and system for text-to-speech synthesis | |
JP6111802B2 (ja) | 音声対話装置及び対話制御方法 | |
JP2014240940A (ja) | 書き起こし支援装置、方法、及びプログラム | |
JP2011504624A (ja) | 自動同時通訳システム | |
JP6028556B2 (ja) | 対話制御方法及び対話制御用コンピュータプログラム | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
CN116917984A (zh) | 交互式内容输出 | |
CN112035699A (zh) | 音乐合成方法、装置、设备和计算机可读介质 | |
CN112071287A (zh) | 用于生成歌谱的方法、装置、电子设备和计算机可读介质 | |
CN113223513A (zh) | 语音转换方法、装置、设备和存储介质 | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 | |
US20240112691A1 (en) | Synthesizing audio for synchronous communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160307 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161027 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20161102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6078964 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |