JP2013057734A - 音声変換装置、音声変換装システム、プログラムおよび音声変換方法 - Google Patents
音声変換装置、音声変換装システム、プログラムおよび音声変換方法 Download PDFInfo
- Publication number
- JP2013057734A JP2013057734A JP2011194893A JP2011194893A JP2013057734A JP 2013057734 A JP2013057734 A JP 2013057734A JP 2011194893 A JP2011194893 A JP 2011194893A JP 2011194893 A JP2011194893 A JP 2011194893A JP 2013057734 A JP2013057734 A JP 2013057734A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- request
- response device
- speech synthesis
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】ユーザから複数のリクエストが同時に届いた場合または長文のリクエストが届いた場合の応答性を維持する。
【解決手段】音声変換装置は、複数の音声変換部、管理テーブル、受付部、制御部を備える。前記複数の音声変換部は入力されたリクエストのテキストデータを音声データに変換する。前記管理テーブルには音声変換部毎に使用中か未使用かの使用状態が設定されている。前記受付部は自動音声応答装置からのリクエストを受け付ける。前記制御部は複数のリクエストがほぼ同時に受け付けられた場合、前記管理テーブルを参照して未使用の音声変換部をリクエストの数分検索し、検索された一つの音声変換部に一つのリクエストを処理させる。
【選択図】図1
【解決手段】音声変換装置は、複数の音声変換部、管理テーブル、受付部、制御部を備える。前記複数の音声変換部は入力されたリクエストのテキストデータを音声データに変換する。前記管理テーブルには音声変換部毎に使用中か未使用かの使用状態が設定されている。前記受付部は自動音声応答装置からのリクエストを受け付ける。前記制御部は複数のリクエストがほぼ同時に受け付けられた場合、前記管理テーブルを参照して未使用の音声変換部をリクエストの数分検索し、検索された一つの音声変換部に一つのリクエストを処理させる。
【選択図】図1
Description
本発明の実施形態は、例えば文字等のキャラクタを音声に変換するサービスに利用される音声変換装置、音声変換システム、プログラムおよび音声変換方法に関する。
近年、例えばインターネットなどでは、文字を音声に変換するサービスが開始されており、このサービスには音声合成装置が利用されている。
一般に、音声合成装置は、リクエストを受け付ける音声合成制御部と音声合成処理を実施する音声合成エンジンを備えており、ユーザが端末から送ってきたテキストの文面(文字列)を音声データに変換し、音声信号または音声ファイルとしてユーザの端末へ出力するものである。
ところで、音声合成装置には、音声合成制御部や音声合成エンジンなどが一つしか備えられていないため、例えば複数のリクエストが同時に届いた場合や、長文のリクエストが届いた場合は、現在の音声合成装置の処理性能では、音声変換の処理に時間がかかり、応答性が損なわれるという問題がある。
ネットワーク環境を利用した従来の音声合成技術としては、国別に言語処理を行う言語処理部と音声合成部とを別の計算機に持たせたものの開示がある。
本発明が解決しようとする課題は、ユーザから複数のリクエストが同時に届いた場合または長文のリクエストが届いた場合に、リクエストに対する応答性を維持することができる音声変換装置、音声変換システム、プログラムおよび音声変換方法を提供することにある。
実施形態の音声変換装置は、複数の音声変換部、管理テーブル、受付部、制御部を備える。前記複数の音声変換部は入力されたリクエストのテキストデータを音声データに変換する。前記管理テーブルには音声変換部毎に使用中か未使用かの使用状態が設定されている。前記受付部は自動音声応答装置からのリクエストを受け付ける。前記制御部は複数のリクエストがほぼ同時に受け付けられた場合、前記管理テーブルを参照して未使用の音声変換部をリクエストの数分検索し、検索された一つの音声変換部に一つのリクエストを処理させる。
以下、図面を参照して、実施形態を詳細に説明する。
(第1実施形態)
図1は第1の実施形態の音声合成システムの構成を示す図である。
(第1実施形態)
図1は第1の実施形態の音声合成システムの構成を示す図である。
図1に示すように、この実施形態の音声合成システムは、サービス利用者(以下「ユーザ」と称す)が操作する顧客端末41,42、構内交換機30(Private Branch eXchange以下「PBX30」と称す)、音声自動応答装置20(Interactive Voice Response以下「IVR20」と称す)、音声合成(Text To Speech)装置10(以下「TTS装置10」と称す)、これらの機器を接続するネットワーク70等から構成されている。
顧客端末41は、顧客の発信操作によりPBX30へリクエストAを発信(発呼)し、PBX30からの転送を受けたIVR20からの自動音声応答を得る。
顧客端末42は、顧客の発信操作によりPBX30へリクエストBを発信(発呼)し、PBX30からの転送を受けたIVR20からの自動音声応答を得る。
PBX30は顧客端末41,42からリクエストの着信(着呼)があった場合、それぞれのリクエストをIVR20に転送する。
IVR20はPBX30から転送されてきたリクエストを受けると、当該リクエストに対する応答処理を行いPBX30へ返す。IVR20は、必要に応じてTTS装置10へ音声合成のリクエストを出し、音声データを受け取り、それをPBX30へ返す。
IVR20とTTS装置10は、標準的なプロトコルであるMRCPv2(Media Resource Control Protocol Version 2:draft-ietf-speechsc-MRCPv2-24)に基づいて通信する。この場合、IVR20は、MRCPクライアント、TTS装置10がMRCPサーバとして動作する。
IVR20は、PBX30により転送されてきた顧客端末41,42からの着信呼に対して応答する。この際、リクエストの応答に音声合成が必要な場合、TTS装置10へ自動的に音声合成のリクエストを送り、TTS装置10から返されてきた音声ファイル(音声データ)を、PBX30を通じて顧客端末41,42に送る。
より詳細には、IVR20はリクエストの応答に音声合成が必要な場合、SIPによるメッセージにてTTS装置10へMRCP/RTPのメディアアプリケーション用のセッションの生成をリクエストする。TTS装置10は、IVR20からリクエストを受けて、セッションを確立し、リクエストのテキストデータを音声データに変換して返す。
すなわち、IVR20が着呼に対する音声をPBX30に返す際に、IVR20からTTS装置10に音声合成のリクエストがあった場合、TTS装置10はリクエストされたテキストデータを音声データに変換してIVR20へ返す。
図2に示すように、TTS装置10は、通信部11、SIP(Session Initiation Protocol:RFC3261,etc)制御部12(以下「SIP制御部12」と称す)、MRCP制御部13、RTP(Real-time Transport Protocol:RFC3550,etc)制御部14(以下「RTP制御部14と称す)、音声合成制御部15、メモリ16、複数の音声変換部としての音声合成エンジン(#1)17,音声合成エンジン(#2)18、音声合成エンジン(#n)19を有している。
SIP制御部12、MRCP制御部13、RTP制御部14などはプロトコル毎の通信制御部である。これら通信制御部はIVR20からのリクエストを受け付ける受付部として機能する。
通信部11はこれら通信制御部により制御されてネットワーク70に接続された機器との通信(メッセージのやりとり)を行う。
SIP制御部12は、通信部11にSIPセッション生成のリクエストが受信された際に、リクエスト送信元のIVR20との間でセッションを確立し、IVR20と通信部11を通じてSIPによる通信を行う。
MRCP制御部13は、通信部11により受信されるリクエストの音声合成実施リクエストのMRCP SPEAKメソッドを解析し、リクエストの内容を音声合成制御部15に通知する。MRCP制御部13は音声合成制御部15が許可したリクエストの音声合成実施を示すMRCP 200 IN−PROGRESSメソッドをIVR20に応答し、RTP制御部14に対して音声合成結果の出力を通知する。
RTP制御部14は、MRCP制御部13からの通知によりメモリ16内の音声合成結果を順次RTPパケットに搭載しIVR20へ送信する。
メモリ16には、リクエストされたテキスト文を分割するための分割条件が予め設定(記憶)されている。分割条件としては、例えば文章を分割すべきおおよその文字数が閾値(例えば1000文字など)として設定されている。またその閾値を越えて出現する句読点(“。”や“、”)で分割する等の条件が設定されている。
またメモリ16には、各音声合成エンジン毎に使用中か未使用かの使用状態が設定された管理テーブル16a(図3参照)が格納(設定)されている。
図3に示すように、管理テーブル16aには、エンジンID、使用中フラグ、処理順情報などが対応して記憶される。エンジンIDの欄には、各音声合成エンジンのIDが登録されている。例えば音声合成エンジン(#1)17のエンジンIDを#1とすると、エンジンIDの欄には#1、音声合成エンジン(#2)18のエンジンIDを#2とすると、エンジンIDの欄には#2、音声合成エンジン(#n)19のエンジンIDを#nとすると、エンジンIDの欄には#nが登録されている。
図3に示すように、管理テーブル16aには、エンジンID、使用中フラグ、処理順情報などが対応して記憶される。エンジンIDの欄には、各音声合成エンジンのIDが登録されている。例えば音声合成エンジン(#1)17のエンジンIDを#1とすると、エンジンIDの欄には#1、音声合成エンジン(#2)18のエンジンIDを#2とすると、エンジンIDの欄には#2、音声合成エンジン(#n)19のエンジンIDを#nとすると、エンジンIDの欄には#nが登録されている。
使用中フラグの欄には、各エンジンの使用状態が都度設定される。例えばエンジンID#1の音声合成エンジン(#1)17が未使用(アイドル状態)であれば“0”、使用中であれば“1”が設定される。
処理順情報の欄には、分割されたメッセージの分割識別子が設定される。例えばリクエストAのメッセージを2つに分割した場合、リクエストA’−1、リクエストA’−2等の分割識別子が付与されるので、これらの分割識別子が処理させるエンジンIDの処理順情報の欄に設定される。
音声合成制御部15は、MRCP制御部13からリクエストの内容を受け取り、メモリ16の管理テーブル16aを参照して複数の音声合成エンジン(#1)17,音声合成エンジン(#2)18、音声合成エンジン(#n)19のうち、どのエンジンで処理を行うかを決定し、リクエストに対する音声合成実施をMRCP制御部13に応答する。
音声合成エンジン(#1)17,音声合成エンジン(#2)18、音声合成エンジン(#n)19は、リクエストされたテキスト文を音声合成(音声変換)し、音声データ(音声ファイル)を生成する。つまりこれらエンジンはそれぞれに入力されたリクエストのテキストデータを音声データに変換する。
音声合成制御部15は、複数のリクエストがほぼ同時に受け付けられた場合、管理テーブル16aを参照して未使用の音声合成エンジンをリクエストの数分検索し、検索された一つの音声合成エンジンに一つのリクエストを処理させる。
音声合成制御部15は、受け付けられたリクエストのテキストデータのデータ量が予め設定された閾値を超える場合、管理テーブル16aを参照して未使用の音声合成エンジンを検索し、未使用の音声合成エンジンが二つ以上検索された場合、検索された音声合成エンジンの数分または予め設定されたデータ量以下になるようテキストデータを分割し、分割した各テキストデータに分割識別子を付与してリクエストを生成し、検索された未使用の一つの音声合成エンジンに、分割した一つのリクエストを処理させる。
以下、第1実施形態の音声合成システムの動作を説明する。
まず、この音声合成システムのプロトコルを考慮した通信動作を説明する。
ある顧客が例えば顧客端末41を使用し、PBX30に対して発信、つまりリクエストAを行う。この発信とほぼ同時に他の顧客が顧客端末42を使用し、PBX30に対して発信、つまりリクエストBを行ったものとする。
まず、この音声合成システムのプロトコルを考慮した通信動作を説明する。
ある顧客が例えば顧客端末41を使用し、PBX30に対して発信、つまりリクエストAを行う。この発信とほぼ同時に他の顧客が顧客端末42を使用し、PBX30に対して発信、つまりリクエストBを行ったものとする。
PBX30は顧客端末41,42からの着信したリクエストAおよびリクエストBをIVR20に転送する。
IVR20は、PBX30から転送されてきたリクエストAおよびリクエストBに対する応答処理を開始する。
IVR20はMRCPv2を搭載した装置であり、リクエストAの応答に音声合成が必要な場合、SIPによるMRCP/RTPのメディアアプリケーション用のセッションの生成をTTS装置10へリクエストする。
TTS装置10では、通信部11にSIPセッション生成のリクエストを受信した際、SIP制御部12がMRCP制御部13に対してMRCP通信準備を要求し、同時にRTP制御部14にRTP通信準備を要求する。音声合成準備の完了を通知されたところでSIP制御部12は通信部11を介してSIPセッション生成の完了メッセージを送信する。
IVR20はリクエストBの応答に音声合成が必要な場合、SIPによるメッセージにてMRCP/RTPのメディアアプリケーション用のセッションの生成をTTS装置10へリクエストし、TTS装置10では、通信部11からリクエストを受け取った各制御部が音声合成準備を行う。
IVR20はリクエストAの応答内容の音声合成を行うテキスト文AをMRCP SPEAKメソッドによりTTS装置10に送信し、また同時にリクエストBの応答内容の音声合成を実施するテキスト文BをMRCP SPEAKメソッドによりTTS装置10に送信する。
通信部11が受信したリクエストAおよびリクエストBの音声合成実施リクエストのMRCP SPEAKメソッドはMRCP制御部13により精査した後、音声合成処理を制御する音声合成制御部15に通知される。
音声合成制御部15は管理テーブル16aを参照し、未使用“0”(アイドル状態)の音声合成エンジンを検索、つまり音声合成処理が可能な空き音声合成エンジンを検索する。
音声合成制御部15は、検索の結果、音声合成エンジン(#1)17にリクエストAの音声合成処理を行わせ、音声合成エンジン(#2)18にリクエストBの音声合成処理を行わせる。
音声合成エンジン(#1)17からの音声合成実施を音声合成制御部15が受信した場合、MRCP制御部13にリクエストAの音声合成実施を通知する。音声合成エンジン(#1)17はリアルタイム音声合成を行うため、入力されたテキスト文の音声合成処理結果を完了した単位で音声合成制御部15に出力を行う。音声合成制御部15は出力された音声合成結果を、RTP制御部14と共用するメモリ16の記憶エリアに書き込む。
音声合成エンジン(#2)18からの音声合成結果を音声合成制御部15が受信した場合、MRCP制御部13にリクエストBの音声合成完了を通知する。
MRCP制御部13はリクエストAの音声合成実施を示すMRCP 200 IN−PROGRESSメソッドをIVR20に応答し、RTP制御部14に対して音声合成結果の出力を通知する。
RTP制御部14はMRCP制御部13からの通知によりメモリ16内の音声合成結果を順次RTPパケットに搭載しIVR20へ送信する。
同様に、MRCP制御部13はリクエストBの音声合成実施を示すMRCP 200 IN−PROGRESSメソッドをIVR20に応答し、RTP制御部14に対して音声合成結果の出力を通知し、IVR20へのRTPパケットを送信する。
RTP制御部14がリクエストAの音声合成結果の出力を全て完了した場合、RTP制御部14はMRCP制御部13に音声合成結果出力完了を通知し、MRCP制御部13はIVR20へリクエストAの音声合成結果出力完了を通知するためのMRCP SPEAK−COMPLETEメソッドを送信する。
同様に、RTP制御部14がリクエストBの音声合成結果の出力を全て完了した場合、RTP制御部14はMRCP制御部13に音声合成結果出力完了を通知し、MRCP制御部13はIVR20にリクエストBの音声合成結果出力完了を通知するためのMRCP SPEAK−COMPLETEメソッドを送信する。
ここで、図4、図5を参照して複数のリクエストがほぼ同時に受信された場合にリクエスト毎に音声合成処理を分散して行う動作を説明する。
TTS装置10では、IVR20からの音声合成のリクエストAおよびリクエストBを通信部11が受信、つまり受け付けると(図5のステップS101)、通信部11は受け付けたリクエストをメモリ16に一時保持する(ステップS102)。
TTS装置10では、IVR20からの音声合成のリクエストAおよびリクエストBを通信部11が受信、つまり受け付けると(図5のステップS101)、通信部11は受け付けたリクエストをメモリ16に一時保持する(ステップS102)。
続いて、音声合成制御部15はメモリ16の管理テーブル16aを参照して、使用中フラグの状態から、処理を実施していない音声合成エンジンを検索し(ステップS103)、音声合成エンジンの空きの有無を確認する(ステップS104)。
この確認の結果、音声合成エンジンに空きがなければ(ステップS104のNo)、処理空き待ちとし(ステップS105)、空きがあれば(ステップS104のYes)、処理させる音声合成エンジンを決定する(ステップS106)。
例えば直前にリクエストがなければ、音声合成エンジン(#1)17,(#2)18などは、未使用“0”(アイドル状態)であり、アイドル状態である音声合成エンジン(#1)17と音声合成エンジン(#2)18のうちIDが上位の音声合成エンジン(#1)17にリクエストAの処理を行わせることを決定し、音声合成エンジン(#2)18にリクエストBの処理を行わせることを決定する。
次に、音声合成制御部15は、管理テーブル16aの、処理を行わせる音声合成エンジンのエンジンIDに対応する使用中フラグを「使用中」“1”とし、リクエストA’とリクエストB’を、それぞれ決定した音声合成エンジンに入力する(ステップS107)。
なお図4において、音声合成制御部15の前後でリクエストA,BがリクエストA’,B’に変っているのは、処理のためにリクエストに属性情報(ヘッダ、インデックス、識別子など)が付与されるためであり、基本的なリクエストとしての情報は変らない。
このようにして音声合成制御部15はリクエストA’の処理を音声合成エンジン(#1)17に受け渡し、リクエストB’の処理を音声合成エンジン(#2)18に受け渡すことで、音声合成の処理を分散させる。
音声合成エンジンでの音声合成処理が完了し音声データが戻されると、音声合成制御部15は、音声合成結果の音声データをメモリ16に一時保持すると共に、管理テーブル16aの、当該エンジンの使用状態を「使用中」から「未使用」に変更する(ステップS108)。
具体的には、音声合成処理が完了した音声合成エンジンが、例えば音声合成エンジン(#1)17であれば、管理テーブル16aの、エンジンID#1に対応する使用中フラグの状態を「使用中」“1”から「未使用」“0”(アイドル状態)に変更する。
その後、音声合成制御部15は、音声合成結果の音声データをメモリ16から読み出してIVR20へ送信する(ステップS109)。
このように同一装置内に複数の音声合成エンジンを搭載し、各エンジンの使用状況を管理することで、音声合成システムとしては複数の音声合成リクエストを複数の音声合成エンジンに分散させることができ、これにより、音声合成システムとしての処理負荷を軽減し音声合成結果となる音声データの出力性能を向上することができる。
続いて、図6、図7を参照して長文のリクエストを分割し音声合成処理を分散して行う動作を説明する。
TTS装置10では、IVR20からの長文のリクエストAを受信、つまり受け付けると、音声合成制御部15は受け付けたリクエストAをメモリ16に保持する(図7のステップS201)。
TTS装置10では、IVR20からの長文のリクエストAを受信、つまり受け付けると、音声合成制御部15は受け付けたリクエストAをメモリ16に保持する(図7のステップS201)。
続いて、音声合成制御部15はメモリ16から文章の分割条件を読み出し(ステップS202)リクエストAの文章が分割条件に適合するか否かを判定する(ステップS203)。
この判定の結果、リクエストAのテキストデータ(以下「文章」と称す)が分割条件に適合しない場合(ステップS203のNo)は、通常の音声合成処理を行う(ステップS204)。
一方、判定の結果、リクエストAの文章が分割条件に適合した場合(ステップS203のYes)、音声合成制御部15はメモリ16の管理テーブル16aを参照して、使用中フラグの状態から、処理を実施していない音声合成エンジンを検索し(ステップS205)、音声合成エンジンの空きの有無を確認する(ステップS206)。
この確認の結果、音声合成エンジンに空きがなければ(ステップS206のNo)、処理空き待ちとし(ステップS207)、空きがあれば(ステップS206のYes)、処理させる音声合成エンジンを決定する(ステップS208)。なお音声合成エンジンの具体的な決定の仕方は上記S106の場合と同じである。
次に、音声合成制御部15は、メモリ16から読み出した分割条件、検索結果の空きエンジン数に従い文章を分割し、分割した文章それぞれに分割識別子(またはインデックス)を割り付ける(ステップS209)。なお分割識別子を割り付けるのは、分散して音声合成を実施させた後に音声合成結果を、再度、結合するときに正しい順番通りにするためのである。
より具体的には、音声合成制御部15はメモリ16に予め設定されている、一度に実施する音声合成のテキストデータの文量を確認し、受信したテキスト文を閾値(設定値)に従い分割する。テキストデータを分断する際、閾値(設定値)を越えて出現する句読点(“。”や“、”)に基づいて分割する。これにより、分割されたテキスト文を1文に結合する際に、前後文脈を解釈し音声合成を実施する音声合成エンジンに対してスムーズな音声合成処理を実施させることができる。
以下、この例ではリクエストAの文章をリクエストA’−1、リクエストA’−2の二つに分割する場合について説明する。
そして、音声合成制御部15は、管理テーブル16aの、処理を行わせる音声合成エンジンのエンジンIDに対応する使用中フラグを「使用中」“1”、その処理順情報の欄に分割識別子を設定し、分割したリクエストA’−1とリクエストA’−2を、それぞれ決定した音声合成エンジンへ入力する(ステップS210)。
この例では、音声合成エンジン(#1)17にリクエストA’−1の音声合成処理を行わせ、音声合成エンジン18にリクエストA’−2の音声合成処理を行わせる。
なお図6において、音声合成制御部15の前後でリクエストAがリクエストA’−1,A’−2に変っているのは、分割により一つのリクエストが2つに分けられていることと、それらを処理するために、分割したリクエストに属性情報(ヘッダ、インデックス、識別子など)が付与されるためである。
音声合成エンジンでの音声合成処理が完了し、音声合成処理結果の音声データが受信されると、音声合成制御部15は、その音声データを分割識別子の順にソートしてメモリ16に保存すると共に(ステップS211)、管理テーブル16aの、当該エンジンの使用状態を「使用中」から「未使用」に変更する。
その後、音声合成制御部15は、音声合成結果の音声データを、分割識別子の順にメモリ16から読み出してIVR20へ送信する(ステップS212)。
このように同一装置内に複数の音声合成エンジンを搭載し、長文の音声合成リクエストが受信された場合、音声合成制御部15が分割条件に従ってリクエストの文章を分割して、分割したそれぞれ文章を複数の音声合成エンジンに分散処理させることで、音声合成システムとしての処理負荷を軽減でき、音声合成結果となる音声データの出力性能を向上することができる。
このように第1実施形態によれば、顧客端末41,42とPBX30、IVR20、TTS装置10とをネットワーク70を介して接続された音声合成システムにおいて、複数の顧客から同時に着信があった場合にIVR20が再生する音声データをTTS装置10が生成する際に、複数の音声合成リクエストをTTS装置10で処理することが必要になるが、TTS装置10に、複数の音声合成エンジン(#1)17,(#2)18とこれらにリクエストを割り当てる音声合成制御部15を搭載することで、複数の音声合成リクエストを複数の音声合成エンジン(#1)17,(#2)18がそれぞれ分散して処理を行えるので、音声合成システムとしての処理負荷を軽減し、音声合成結果となる音声データの出力性能を向上することができる。
また、本実施形態によれば、1回の音声合成処理を実施する際の最適なテキスト文の長さ(分量)をTTS装置10に予め設定しておき、顧客から着信がありIVR20が再生する音声データをTTS装置10が生成する際に、受信した音声合成を実施するテキスト文を適切な長さ(分量)に分けて複数のリクエストを生成し、それぞれのリクエストを複数の音声合成エンジンに分けて送信する。これにより、受信したままの長いテキスト文の音声合成を行うよりも音声合成システムとしての処理負荷を軽減し、音声合成結果となる音声データの出力性能を向上することができる。
続いて、図8乃至図11を参照して第2実施形態について説明する。なお第1実施形態と同様の構成には同一の符号を付しその説明は省略する。
この第2実施形態は、音声合成制御部と音声合成エンジンとをそれぞれ別々のハードウェアに搭載し、互いの装置をネットワークで接続して構成した例である。
この第2実施形態は、音声合成制御部と音声合成エンジンとをそれぞれ別々のハードウェアに搭載し、互いの装置をネットワークで接続して構成した例である。
すなわち、図8、図9に示すように、第2実施形態の音声合成システムは、音声合成制御装置10aと、複数の音声合成装置50,60とを有している。
音声合成制御装置10aは、ネットワーク70に接続されている。音声合成制御装置10aは、SIP制御部12、MRCP制御部13、RTP制御部14、音声合成制御部15、メモリ16、ソケット通信制御装置91などを有している。
SIP制御部12、MRCP制御部13、RTP制御部14などは、プロトコル毎の通信制御部であり、IVR20からのリクエストを受け付ける受付部として機能する。
メモリ16には、音声合成装置50,60毎に使用中か未使用かの使用状態が設定され、分割識別子が設定可能な管理テーブル16a(図3参照)が記憶されている。
音声合成制御部15は、複数のリクエストがほぼ同時に受け付けられた場合、管理テーブル16aを参照して未使用の音声合成装置50,60をリクエストの数分検索し、検索された一つの音声合成装置50,60に一つのリクエストを割り振る制御部として機能する。
また音声合成制御部15は、受け付けられたリクエストのテキストデータのデータ量が予め設定された閾値を超える場合、管理テーブル16aを参照して未使用の音声合成装置50,60を検索し、前記未使用の音声合成装置50,60が二つ以上検索された場合、検索された音声合成装置50,60の数分または予め設定されたデータ量以下になるようテキストデータを分割し、分割した各テキストデータに分割識別子を付与してリクエストを生成し、検索された未使用の一つの音声合成装置50,60に、分割した一つのリクエストを割り振る制御部として機能する。
ソケット通信制御装置91は音声合成制御装置と音声合成エンジン装置との通信のためのモジュールであり、通信部11を制御して音声合成制御部15により割り振られたリクエストを処理させる音声合成装置50,60へ送信する。
音声合成装置50は、通信部51、音声合成エンジン17を有している。音声合成装置60は、通信部61、音声合成エンジン18を有している。
通信部51,61は、リクエストを受信する。通信部51,61は、音声合成エンジン(#1)17,(#2)18により変換された音声データをリクエスト送信元へ返信する。
音声合成エンジン(#1)17,(#2)18は、通信部51,61により受信されたリクエストのテキストデータを音声データに変換し通信部51,61に渡す。
次に、この第2実施形態の動作を説明する。なおこの第2実施形態の動作は第1実施形態とハードウェア構成が異なり、音声合成制御装置10aと音声合成装置50,60との間でプロセス間通信を行うことになったものである。
まず、複数のリクエストがほぼ同時に音声合成制御装置10aに受信された場合にリクエスト毎に音声合成処理を分散して行う動作を説明する。
図10に示すように、複数のリクエストA,Bがほぼ同時に音声合成制御装置10aに受信された場合、音声合成制御装置10aでは、通信部11がこれら複数のリクエストA,Bを受け付け、メモリ16に記憶する。
続いて、音声合成制御部15はメモリ16の管理テーブル16aを参照して、使用中フラグの状態から、処理を実施していない音声合成エンジンを検索し、音声合成エンジンの空きの有無を確認する。
この確認の結果、音声合成エンジンに空きがなければ、処理空き待ちとし、空きがあれば、処理させる音声合成エンジンを決定する。
次に、音声合成制御部15は、管理テーブル16aの、処理を行わせる音声合成エンジンのエンジンIDに対応する使用中フラグを「使用中」“1”とし、リクエストA’とリクエストB’を、ソケット通信制御装置91へ通知する。
ソケット通信制御装置91は、通信部11を制御して音声合成制御部15により決定された音声合成エンジンが搭載されている音声合成装置50,60へ処理対象のリクエストA’,B’を、ネットワークワーク70を通じて送信する。
この例では、音声合成装置50へリクエストA’が送信され、音声合成装置60へリクエストB’が送信される。
各音声合成装置50,60では、音声合成処理が完了すると、音声合成処理結果の音声データを音声合成制御装置10aへネットワークワーク70を通じて送信する。
音声合成制御装置10aでは、音声合成装置50,60から音声データがソケット通信制御装置91により受信されると、メモリ16に記憶する。
音声合成制御部15は、管理テーブル16aの、当該装置の音声合成エンジンの使用状態を「使用中」から「未使用」に変更する。
具体的には、音声合成処理が完了した音声合成エンジンが、例えば音声合成エンジン(#1)17であれば、管理テーブル16aの、エンジンID#1に対応する使用中フラグの状態を「使用中」“1”から「未使用」“0”(アイドル状態)に変更する。
その後、音声合成制御部15は、音声合成結果の音声データをメモリ16から読み出して通信部11へ渡し、IVR20へ送信する。
このように別の装置に音声合成制御部15と複数の音声合成エンジン(#1)17,(#2)18とを分けて搭載することで、音声合成システムとしては複数の音声合成リクエストを複数の音声合成エンジンに分散させることができ、これにより、装置単位でCPU負荷を軽減し、音声合成結果となる音声データの出力性能を向上することができる。
続いて、図11を参照して、この第2実施形態において長文のリクエストを分割し音声合成処理を分散して行う動作を説明する。
音声合成制御装置10aでは、IVR20からの長文のリクエストAを通信部11が受信、つまり受け付けると、受け付けたリクエストAをメモリ16に記憶する。
音声合成制御装置10aでは、IVR20からの長文のリクエストAを通信部11が受信、つまり受け付けると、受け付けたリクエストAをメモリ16に記憶する。
音声合成制御部15はメモリ16から文章の分割条件を読み出し、リクエストAの文章が分割条件に適合するか否かを判定する。
この判定の結果、リクエストAの文章が分割条件に適合しない場合は、通常の音声合成処理を行う。
一方、判定の結果、リクエストAの文章が分割条件に適合した場合、音声合成制御部15はメモリ16の管理テーブル16aを参照して、使用中フラグの状態から、処理を実施していない音声合成エンジンを検索し、音声合成エンジンの空きの有無を確認する。
この確認の結果、音声合成エンジンに空きがなければ、処理空き待ちとし、空きがあれば、処理させる音声合成エンジンを決定する。
次に、音声合成制御部15は、メモリ16から読み出した分割条件、検索結果の空きエンジン数に従い文章を分割し、分割した文章それぞれに分割識別子(またはインデックス)を割り付ける。なお分割識別子を割り付けるのは、分散して音声合成を実施させた後に音声合成結果を、再度、結合するときに正しい順番通りにするためのである。
より具体的には、音声合成制御部15はメモリ16に予め設定されている、一度に実施する音声合成のテキストデータの文量を確認し、受信したテキスト文を閾値(設定値)に従い分割する。テキストデータを分断する際、閾値(設定値)を越えて出現する句読点(“。”や“、”)に基づいて分割する。これにより、分割されたテキスト文を1文に結合する際に、前後文脈を解釈し音声合成を実施する音声合成エンジンに対してスムーズな音声合成処理を実施させることができる。
以下、この例ではリクエストAの文章をリクエストA’−1、リクエストA’−2の二つに分割する場合について説明する。
そして、音声合成制御部15は、管理テーブル16aの、処理を行わせる音声合成エンジンのエンジンIDに対応する使用中フラグを「使用中」“1”、その処理順情報の欄に分割識別子を設定し、ソケット通信制御装置91へ通知する。
ソケット通信制御装置91は、音声合成制御部15により決定された音声合成エンジンが搭載されている音声合成装置50,60へ処理対象のリクエストA’−1,A’−2を、ネットワークワーク70を通じて送信する。
この例では、音声合成装置50へリクエストA’−1が送信され、音声合成装置60へリクエストA’−2が送信される。
各音声合成装置50,60では、音声合成処理が完了すると、音声合成処理結果の音声データを、ネットワークワーク70を通じて音声合成制御装置10aへ送信する。
音声合成制御装置10aでは、音声合成装置50,60から音声データがソケット通信制御装置91により受信されると、音声合成制御部15は、その音声データを分割識別子の順にソートしてメモリ16に記憶すると共に、管理テーブル16aの、当該エンジンの使用状態を「使用中」から「未使用」に変更する。
その後、音声合成制御部15は、音声合成結果の音声データを、分割識別子の順にメモリ16から読み出して通信部11を通じてIVRへ送信する。
このように別々の装置内に音声合成制御部15と複数の音声合成エンジン(#1)17,(#2)18を搭載し、長文の音声合成リクエストが受信された場合、音声合成制御部15が分割条件に従ってリクエストの文章を分割して、分割したそれぞれの文章を、当該音声合成エンジンが搭載された音声合成装置50,60へネットワークワーク70を通じて送り、複数の音声合成装置50,60に分散処理させることで、装置単位でCPU負荷を軽減でき、音声合成結果となる音声データの出力性能を向上することができる。
このようにこの第2実施形態によれば、音声合成の制御機能だけを持たせた音声合成制御装置10aと、音声合成の処理機能だけを持たせた音声合成装置50,60とをネットワーク70を介して接続することで、それぞれの装置単位でのCPU負荷を軽減し、応答性能を向上することができる。
説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
上記実施形態では、2基の音声合成エンジンを用いた例を示したが、音声合成エンジンの搭載数は、限定されるものではなくシステムの規模に応じて搭載するものとする。
また上記実施形態に示した各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。
10…音声合成装置(TTS装置)、10a…音声合成制御装置、11…通信部、12…SIP制御部、13…MRCP制御部、14…RTP制御部、15…音声合成制御部、16…メモリ、16a…管理テーブル、17,18…音声合成エンジン、20…音声自動応答装置(IVR)、30…構内交換機(PBX)、41,42…顧客端末、50,60…音声合成装置、51,61…通信部、60…音声合成装置、61…通信部、70…ネットワーク、91…ソケット通信制御装置。
Claims (6)
- 発呼する端末、構内交換機および自動音声応答装置とネットワークを介して接続され、前記端末からの着呼が構内交換機から自動音声応答装置に転送され、前記自動音声応答装置が着呼に対する音声を返す際に、前記自動音声応答装置から音声合成のリクエストがあった場合、リクエストされたテキストデータを音声データに変換して前記自動音声応答装置へ返す音声変換装置において、
入力されたリクエストのテキストデータを音声データに変換する複数の音声変換部と、
音声変換部毎に使用中か未使用かの使用状態が設定される管理テーブルと、
前記自動音声応答装置からのリクエストを受け付ける受付部と、
複数のリクエストがほぼ同時に受け付けられた場合、前記管理テーブルを参照して未使用の音声変換部をリクエストの数分検索し、検索された一つの音声変換部に一つのリクエストを処理させる制御部と
を具備することを特徴とする音声変換装置。 - 発呼する端末、構内交換機および自動音声応答装置とネットワークを介して接続され、前記端末からの着呼が構内交換機から自動音声応答装置に転送され、前記自動音声応答装置が着呼に対する音声を返す際に、前記自動音声応答装置から音声合成リクエストがあった場合、リクエストされたテキストデータを音声データに変換して前記自動音声応答装置へ返す音声変換装置において、
入力されたリクエストのテキストデータを音声データに変換する複数の音声変換部と、
音声変換部毎に、使用中か未使用かの使用状態が設定され、分割識別子が設定可能な管理テーブルと、
前記自動音声応答装置からのリクエストを受け付ける受付部と、
受け付けられたリクエストのテキストデータのデータ量が予め設定された閾値を超える場合、前記管理テーブルを参照して未使用の音声変換部を検索し、前記未使用の音声変換部が二つ以上検索された場合、検索された音声変換部の数分または予め設定されたデータ量以下になるよう前記テキストデータを分割し、分割した各テキストデータに分割識別子を付与してリクエストを生成し、検索された未使用の一つの音声変換部に、分割した一つのリクエストを処理させる制御部と
を具備する音声変換装置。 - 発呼する端末、構内交換機および自動音声応答装置とネットワークを介して接続され、前記端末からの着呼が構内交換機から自動音声応答装置に転送され、前記自動音声応答装置が着呼に対する音声を返す際に、前記自動音声応答装置から音声合成のリクエストがあった場合、リクエストされたテキストデータを音声データに変換して前記自動音声応答装置へ返す音声変換システムにおいて、
前記ネットワークに接続され、受信されたリクエストのテキストデータを音声データに変換してリクエスト送信元へ返信する複数の音声変換装置と、
前記ネットワークに接続され、前記音声変換装置毎に使用中か未使用かの使用状態が設定された管理テーブルと、前記自動音声応答装置からのリクエストを受け付ける受付部と、複数のリクエストがほぼ同時に受け付けられた場合、前記管理テーブルを参照して未使用の音声変換装置をリクエストの数分検索し、検索された一つの音声変換装置に一つのリクエストを割り振る制御部と、前記制御部により割り振られたリクエストを処理させる音声合成装置へ送信する通信部とを備える音声合成制御装置と
を具備することを特徴とする音声変換システム。 - 発呼する端末、構内交換機および自動音声応答装置とネットワークを介して接続され、前記端末からの着呼が構内交換機から自動音声応答装置に転送され、前記自動音声応答装置が着呼に対する音声を返す際に、前記自動音声応答装置から音声合成リクエストがあった場合、リクエストされたテキストデータを音声データに変換して前記自動音声応答装置へ返す音声変換システムにおいて、
前記ネットワークに接続され、受信されたリクエストのテキストデータを音声データに変換してリクエスト送信元へ返信する複数の音声変換装置と、
音声変換部毎に、使用中か未使用かの使用状態が設定され、分割識別子が設定可能な管理テーブルと、前記自動音声応答装置からのリクエストを受け付ける受付部と、受け付けられたリクエストのテキストデータのデータ量が予め設定された閾値を超える場合、前記管理テーブルを参照して未使用の音声変換装置を検索し、前記未使用の音声変換装置が二つ以上検索された場合、検索された音声変換装置の数分または予め設定されたデータ量以下になるよう前記テキストデータを分割し、分割した各テキストデータに分割識別子を付与してリクエストを生成し、検索された未使用の一つの音声変換装置に、分割した一つのリクエストを割り振る制御部と、前記制御部により割り振られたリクエストを処理させる音声合成装置へ送信する通信部とを備える音声合成制御装置と
を具備する音声変換システム。 - 発呼する端末、構内交換機および自動音声応答装置とネットワークを介して接続され、前記端末からの着呼が構内交換機から自動音声応答装置に転送され、前記自動音声応答装置が着呼に対する音声を返す際に、前記自動音声応答装置から音声合成のリクエストがあった場合、リクエストされたテキストデータを音声データに変換して前記自動音声応答装置へ返す音声変換装置に処理を実行させるプログラムにおいて、
前記音声変換装置を、
入力されたリクエストのテキストデータを音声データに変換する複数の音声変換部と、
音声変換部毎に使用中か未使用かの使用状態が設定される管理テーブルと、
前記自動音声応答装置からのリクエストを受け付ける受付部と、
複数のリクエストがほぼ同時に受け付けられた場合、前記管理テーブルを参照して未使用の音声変換部をリクエストの数分検索し、検索された一つの音声変換部に一つのリクエストを処理させる制御部
として機能させることを特徴とするプログラム。 - 発呼する端末、構内交換機および自動音声応答装置とネットワークを介して接続され、前記端末からの着呼が構内交換機から自動音声応答装置に転送され、前記自動音声応答装置が着呼に対する音声を返す際に、前記自動音声応答装置から音声合成のリクエストがあった場合、リクエストされたテキストデータを音声データに変換して前記自動音声応答装置へ返す音声変換装置における音声変換支援方法において、
前記自動音声応答装置からのリクエストを受付部が受け付けるステップと、
複数のリクエストがほぼ同時に受け付けられた場合、入力されたリクエストのテキストデータを音声データに変換する複数の音声変換部のうち、音声変換部毎に使用中か未使用かの使用状態が設定された管理テーブルを制御部が参照して未使用の音声変換部をリクエストの数分検索し、検索された一つの音声変換部に一つのリクエストを処理させるステップと
を有することを特徴とする音声変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011194893A JP2013057734A (ja) | 2011-09-07 | 2011-09-07 | 音声変換装置、音声変換装システム、プログラムおよび音声変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011194893A JP2013057734A (ja) | 2011-09-07 | 2011-09-07 | 音声変換装置、音声変換装システム、プログラムおよび音声変換方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013057734A true JP2013057734A (ja) | 2013-03-28 |
Family
ID=48133681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011194893A Withdrawn JP2013057734A (ja) | 2011-09-07 | 2011-09-07 | 音声変換装置、音声変換装システム、プログラムおよび音声変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013057734A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017129840A (ja) * | 2016-01-19 | 2017-07-27 | 百度在綫網絡技術(北京)有限公司 | 音声合成システムの最適化方法及び装置 |
-
2011
- 2011-09-07 JP JP2011194893A patent/JP2013057734A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017129840A (ja) * | 2016-01-19 | 2017-07-27 | 百度在綫網絡技術(北京)有限公司 | 音声合成システムの最適化方法及び装置 |
US10242660B2 (en) | 2016-01-19 | 2019-03-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for optimizing speech synthesis system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101652122B1 (ko) | N-웨이 선택적 언어 프로세싱을 이용하는 실시간 voip 통신 | |
US7185094B2 (en) | Media session framework using a control module to direct and manage application and service servers | |
KR101298062B1 (ko) | 인터랙션 라우팅 수행을 개선하기 위한 시스템 및 방법들 | |
US8990412B2 (en) | Session sharing system, session sharing method, session sharing program, and user terminal | |
JP5794432B2 (ja) | ショートメッセージサービスメッセージングをコンタクトセンタアプリケーションと統合するためのシステムおよび方法 | |
US9672826B2 (en) | System and method for efficient unified messaging system support for speech-to-text service | |
CN1460212A (zh) | 使用协议无关控制模块引导和管理应用程序及业务服务器的媒体对话构架 | |
US9553900B2 (en) | System and method for managing conferencing in a distributed communication network | |
US9106724B1 (en) | Communication aggregation | |
JP2022515483A (ja) | ハイブリッド型チャット自動化のためのシステム及び方法 | |
WO2019237594A1 (zh) | 会话保持方法、装置、计算机设备及存储介质 | |
US9037747B1 (en) | System and method for processing service requests using logical environments | |
WO2010145224A1 (zh) | 一种提供用户业务数据的方法及系统 | |
WO2014194647A1 (en) | Data exchange method, device, and system for group communication | |
US20170214611A1 (en) | Sip header configuration for identifying data for language interpretation/translation | |
CN107342929A (zh) | 一种新消息通知的发送方法、装置及系统 | |
JP2013057734A (ja) | 音声変換装置、音声変換装システム、プログラムおよび音声変換方法 | |
CN111711644B (zh) | 一种分配和管理交互任务的方法、系统及设备 | |
JP2010068346A (ja) | 通信サーバ装置、アドレス解決方法およびアドレス解決プログラム | |
JP2006333220A (ja) | ネットワーク電話システム及びこのネットワーク電話システムのサーバ装置 | |
JP5940990B2 (ja) | Apl−scm−feおよびアプリケーション連携方法 | |
JP2012049797A (ja) | 通信システム、並びに、通信サービス提供システム及びプログラム、並びに、通信端末及び通信プログラム | |
WO2012139353A1 (zh) | 一种实现呼叫的方法及系统、办公系统、企业总机系统 | |
KR100757869B1 (ko) | 텍스트 분할 음성 변환 시스템 및 그 방법 | |
US9871870B1 (en) | Pseudonymous communication session generation and management systems and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141202 |