JP2014072577A - Voice application system, management server device, and control method thereof - Google Patents

Voice application system, management server device, and control method thereof Download PDF

Info

Publication number
JP2014072577A
JP2014072577A JP2012215092A JP2012215092A JP2014072577A JP 2014072577 A JP2014072577 A JP 2014072577A JP 2012215092 A JP2012215092 A JP 2012215092A JP 2012215092 A JP2012215092 A JP 2012215092A JP 2014072577 A JP2014072577 A JP 2014072577A
Authority
JP
Japan
Prior art keywords
server device
session
server
voice
voice application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012215092A
Other languages
Japanese (ja)
Inventor
Shizumaro Sakai
静磨 酒井
Hirokazu Yasuda
博和 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012215092A priority Critical patent/JP2014072577A/en
Publication of JP2014072577A publication Critical patent/JP2014072577A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce load in the whole system when voice application processing is performed.SOLUTION: The voice application system has a media server device, an application control server device, and a management server device. The management server device has storage means and processing means. The storage means creates a management table in which a session ID for specifying a session and a server ID for specifying the application control server device and the media server device respectively in which a session is established are associated with each other and stores the management table. The processing means performs processing using a voice application to a request source for each session, on the basis of the management table stored by the storage means.

Description

本発明の実施形態は、例えばSIP(Session Initiation Protocol)サーバ、MRCP(Media Resource Control Protocol)サーバ及びメディアサーバが交換サービスに係る音声アプリケーション処理を実行する音声アプリケーションシステム、管理サーバ装置及びその制御方法に関する。   Embodiments of the present invention relate to, for example, a SIP (Session Initiation Protocol) server, a MRCP (Media Resource Control Protocol) server, and a voice application system in which a media server executes voice application processing related to an exchange service, a management server device, and a control method thereof .

オフィスや事業所では、一般に内線電話網と公衆電話網とを接続する装置として構内交換装置(PBX:Private Branch Exchange)やボタン電話装置が用いられている。これらの電話交換装置は、音声回線を交換・制御する専用装置として構成される。   In offices and business offices, a private branch exchange (PBX) or a button telephone device is generally used as a device for connecting an extension telephone network and a public telephone network. These telephone exchange devices are configured as dedicated devices for exchanging and controlling voice lines.

これに対し、電話交換装置にサーバ装置を接続し、このサーバ装置に電話交換装置の交換接続処理の一部を実行させるようにしたシステムも提案されている。サーバ装置には、標準的なプロトコルであるSIP(Session Initiation Protocol:RFC 3261)、MRCPv2(Media Resource Control Protocol version 2:draft-ietf-speechsc-mrcpv2-27)、RTP(Real-Time Transfer Protocol:RFC 1889)によって制御される音声合成サーバ、もしくは音声認識サーバである音声アプリケーションサーバが用いられる。   On the other hand, a system has also been proposed in which a server device is connected to a telephone exchange device, and this server device executes a part of the exchange connection processing of the telephone exchange device. The server equipment includes SIP (Session Initiation Protocol: RFC 3261), MRCPv2 (Media Resource Control Protocol version 2: draft-ietf-speechsc-mrcpv2-27), RTP (Real-Time Transfer Protocol: RFC) A speech synthesis server controlled by 1889) or a speech application server that is a speech recognition server is used.

特開2007−60381号公報JP 2007-60381 A

ところで、上記音声アプリケーションサーバにあっては、クライアントからのリクエストを音声アプリケーションサーバが受信し、処理を実施する際にSIPの制御を行うモジュールと、SIP制御によりアプリケーションとして制御するMRCP、メディアリソースとして制御するRTPは同じ装置内に配置される。このため、クライアントからのリクエストに対して音声アプリケーションサーバは、アプリケーションモジュールであるMRCP、メディアリソースであるRTPの処理を同一の装置内で実施する必要があり、装置として処理が過負荷となる傾向がある。   By the way, in the above-mentioned voice application server, the voice application server receives a request from the client and performs a SIP control when executing the process, MRCP controlled as an application by SIP control, and controlled as a media resource RTP to be placed in the same device. For this reason, it is necessary for the voice application server to execute MRCP as an application module and RTP as a media resource in the same device in response to a request from a client, and the processing tends to be overloaded as a device. is there.

本発明の目的は、音声アプリケーション処理を実行する場合に、システム全体の負荷を軽減することが可能な音声アプリケーションシステム、管理サーバ装置及びその制御方法を提供することにある。   An object of the present invention is to provide a voice application system, a management server device, and a control method thereof that can reduce the load on the entire system when executing voice application processing.

実施形態によれば、音声アプリケーションシステムは、メディアサーバ装置と、アプリケーション制御サーバ装置と、管理サーバ装置とを備える。メディアサーバ装置は、所定の音声アプリケーションを実行する。アプリケーション制御サーバ装置は、このメディアサーバ装置にIP(Internet Protocol)ネットワークを介して接続され、音声アプリケーションの実行を制御する。管理サーバ装置は、メディアサーバ装置及びアプリケーション制御サーバ装置にIP(Internet Protocol)ネットワークを介して接続され、複数の電話端末間の呼接続を実行する電話交換装置を接続可能で、メディアサーバ装置及びアプリケーション制御サーバ装置の間の通信接続のためのセッションを制御する。管理サーバ装置は、記憶手段と、処理手段とを備える。記憶手段は、少なくとも電話端末からの音声アプリケーション実行要求に基づき、使用可能なメディアサーバ装置とアプリケーション制御サーバ装置との間で通信接続のためのセッションが確立されるとき、セッションを特定するセッションIDと、セッションが確立されるメディアサーバ装置及びアプリケーション制御サーバ装置のそれぞれを特定するサーバIDとを対応付けた管理テーブルを作成し記憶する。処理手段は、記憶手段が記憶した管理テーブルに基づいて、セッションごとに要求元に対し音声アプリケーションを使用した処理を行う。   According to the embodiment, the voice application system includes a media server device, an application control server device, and a management server device. The media server device executes a predetermined voice application. The application control server device is connected to the media server device via an IP (Internet Protocol) network, and controls the execution of the voice application. The management server device is connected to the media server device and the application control server device via an IP (Internet Protocol) network, and can connect a telephone exchange device that performs call connection between a plurality of telephone terminals. Controls a session for communication connection between control server devices. The management server device includes a storage unit and a processing unit. The storage means, when a session for communication connection is established between the usable media server device and the application control server device based on at least a voice application execution request from the telephone terminal, A management table is created and stored in association with the server ID that identifies each of the media server device and the application control server device with which the session is established. The processing means performs processing using the voice application for the request source for each session based on the management table stored in the storage means.

一実施形態に係る音声アプリケーションシステムの構成を示すブロック図。1 is a block diagram showing a configuration of a voice application system according to an embodiment. 一実施形態に係るSIPサーバの機能構成を示すブロック図。The block diagram which shows the function structure of the SIP server which concerns on one Embodiment. 一実施形態に係るMRCPサーバDBおよびメディアサーバDBの記憶内容の一例を示す図。The figure which shows an example of the memory content of MRCP server DB and media server DB which concerns on one Embodiment. 一実施形態に係るセッション管理DBの記憶内容の一例を示す図。The figure which shows an example of the memory content of session management DB which concerns on one Embodiment. 一実施形態に係るMRCPサーバの機能構成を示すブロック図。The block diagram which shows the function structure of the MRCP server which concerns on one Embodiment. 一実施形態に係るメディアサーバの機能構成を示すブロック図。The block diagram which shows the function structure of the media server which concerns on one Embodiment. 音声ダイヤルサービスを実行する際に使用するテーブルの一例を示す図。The figure which shows an example of the table used when performing a voice dial service. 音声アプリケーションシステムの比較例を示す概略構成図。The schematic block diagram which shows the comparative example of a voice application system. 本実施形態における音声アプリケーションサービスを要求する際の電話端末と、電話交換装置と、IVRと、SIPサーバと、MRCPサーバと、メディアサーバとの間の信号の送受信動作を示すシーケンス図。The sequence diagram which shows the transmission / reception operation | movement of the signal between the telephone terminal at the time of requesting the voice application service in this embodiment, a telephone switching apparatus, IVR, a SIP server, a MRCP server, and a media server. 本実施形態における音声合成処理及び音声認識処理を実行する際の電話交換装置、IVR、及びメディアサーバの制御手順を示すシーケンス図。The sequence diagram which shows the control procedure of the telephone exchange apparatus, IVR, and a media server at the time of performing the speech synthesis process and speech recognition process in this embodiment.

以下、実施の形態について、図面を参照して説明する。   Hereinafter, embodiments will be described with reference to the drawings.

図1は、一実施形態に係る音声アプリケーションシステムの構成を示すブロック図である。この音声アプリケーションシステムは、音声アプリケーションサーバ10を、モジュールごとに、SIPサーバ11、MRCPサーバ12,13及びメディアサーバ14,15に分散し、各SIPサーバ11、MRCPサーバ12,13及びメディアサーバ14,15を相互にIPネットワークINWにより接続したものである。またSIPサーバ11は、音声自動応答装置(IVR:Interactive Voice Response)20を介して電話交換装置30に接続される。   FIG. 1 is a block diagram illustrating a configuration of a voice application system according to an embodiment. In this voice application system, the voice application server 10 is distributed for each module to the SIP server 11, the MRCP servers 12, 13 and the media servers 14, 15, and each SIP server 11, the MRCP servers 12, 13 and the media server 14, 15 are connected to each other by the IP network INW. The SIP server 11 is connected to a telephone exchange device 30 via an automatic voice response device (IVR) 20.

電話交換装置30は、複数の電話端末41〜4nを、内線を介して収容し、各電話端末41〜4nへの着信信号の送出や、各電話端末41〜4nからの発信信号の検出等の各電話端末41〜4nに対する内線インタフェース処理を行う。また、電話交換装置30は、アナログトランク50を接続可能であり、アナログトランク50への発信信号の送信やアナログトランク50からの着信の検出等の、アナログトランク50に対するトランクインタフェース処理を行う。さらに、電話交換装置30は、電話端末41〜4n相互間、各電話端末41〜4nとアナログトランク50との間、さらには各電話端末41〜4nとIVR20との間を接続して、これらの間における音声信号の伝送を可能にする。   The telephone exchange device 30 accommodates a plurality of telephone terminals 41 to 4n through extensions, and transmits incoming signals to the telephone terminals 41 to 4n, detects outgoing signals from the telephone terminals 41 to 4n, and the like. An extension interface process is performed for each of the telephone terminals 41 to 4n. The telephone exchange device 30 can be connected to the analog trunk 50, and performs trunk interface processing for the analog trunk 50 such as transmission of a transmission signal to the analog trunk 50 and detection of an incoming call from the analog trunk 50. Further, the telephone exchange device 30 connects the telephone terminals 41 to 4n, the telephone terminals 41 to 4n and the analog trunk 50, and the telephone terminals 41 to 4n and the IVR 20 to connect these terminals. Enables transmission of audio signals between the two.

例えば、電話端末41から電話交換装置30への発信は音声アプリケーションクライアントであるIVR20に転送される。IVR20は着信呼に対して応答し、自動的に音声合成(TTS:Text To Speech)、音声認識(ASR:Auto Speech Recognition)アプリケーションへの接続を行い、顧客端末に対して動的な音声応答のシステムを提供することが可能である。   For example, a call from the telephone terminal 41 to the telephone exchange device 30 is transferred to the IVR 20 that is a voice application client. The IVR 20 responds to incoming calls, automatically connects to speech synthesis (TTS: Text To Speech) and speech recognition (ASR: Auto Speech Recognition) applications, and dynamically responds to customer terminals. It is possible to provide a system.

本実施形態においては、セッションの生成は、プロトコルとしてSIPを用いてSIPサーバ11が行い、音声合成リクエスト、音声認識リクエストは、プロトコルとしてMRCPv2を用いてMRCPサーバ12,13が行い、音声合成処理、音声認識処理およびRTPの送受信は、メディアサーバ14、15が行う。本実施形態では、MRCPサーバ2台、メディアサーバ2台の構成となっているが、構成上サーバの台数は特に制限をするものではない。   In the present embodiment, session generation is performed by the SIP server 11 using SIP as a protocol, and speech synthesis requests and speech recognition requests are performed by the MRCP servers 12 and 13 using MRCPv2 as a protocol. The media servers 14 and 15 perform voice recognition processing and RTP transmission / reception. In the present embodiment, two MRCP servers and two media servers are configured, but the number of servers is not particularly limited due to the configuration.

図2は、上記SIPサーバ11の機能構成を示すブロック図である。
SIPサーバ11には、SIPによるセッション管理を制御するSIP制御部111以外に、MRCPサーバ12,13およびメディアサーバ14,15の監視制御を行うサーバ監視制御部112と監視状態を保存するMRCPサーバDB(データベース)113およびメディアサーバDB114が搭載されている。さらに、SIPサーバ11には、通信部115及びプロセス間通信制御部116及びセッション管理DB117が備えられる。
FIG. 2 is a block diagram showing a functional configuration of the SIP server 11.
In addition to the SIP control unit 111 that controls session management by SIP, the SIP server 11 includes a server monitoring control unit 112 that performs monitoring control of the MRCP servers 12 and 13 and the media servers 14 and 15 and an MRCP server DB that stores monitoring status. A (database) 113 and a media server DB 114 are installed. Further, the SIP server 11 includes a communication unit 115, an interprocess communication control unit 116, and a session management DB 117.

通信部115は、IPネットワークINWとの間の制御信号及び音声信号の転送を行うためのインタフェース処理を行う。   The communication unit 115 performs interface processing for transferring control signals and audio signals to and from the IP network INW.

MRCPサーバDB113およびメディアサーバDB114には、図3に示すように、MRCPサーバおよびメディアサーバの状態を監視するテーブルが記憶されている。サーバ監視制御部112は、SIPサーバ11内にあるMRCPサーバ12,13の設定情報(サーバID、IPアドレス)を取得しMRCPサーバ12,13の状態監視を行う。なお、本実施形態において、MRCPサーバ12,13の状態監視方法としては、任意のプロトコルによる相互通信、Ping等による相互疎通通信などの方法が用いれるが、その方法は本実施形態において限定されるものではない。   As shown in FIG. 3, the MRCP server DB 113 and the media server DB 114 store a table for monitoring the state of the MRCP server and the media server. The server monitoring control unit 112 acquires setting information (server ID, IP address) of the MRCP servers 12 and 13 in the SIP server 11 and monitors the state of the MRCP servers 12 and 13. In the present embodiment, as a method for monitoring the state of the MRCP servers 12 and 13, a method such as mutual communication using an arbitrary protocol or mutual communication using Ping is used, but the method is limited in the present embodiment. It is not a thing.

そして、MRCPサーバの状態監視結果はリアルタイムにテーブル上に「稼働中」もしくは「停止」と記録され、MRCPサーバDB113に保存される。同様にメディアサーバ14,15においてもサーバ監視制御部112は状態監視を行い、メディアサーバDB114に状態監視結果は保存される。   Then, the status monitoring result of the MRCP server is recorded in the table as “Active” or “Stopped” in real time, and stored in the MRCP server DB 113. Similarly, in the media servers 14 and 15, the server monitoring control unit 112 performs status monitoring, and the status monitoring result is stored in the media server DB 114.

上記SIP制御部111は、IVR20から音声アプリケーション実行要求が到来すると、MRCPサーバDB113およびメディアサーバDB114の記憶内容に基づき、使用可能な例えばMRCPサーバ12とメディアサーバ14との間で通信接続のためのセッションが確立されるとき、セッションを特定するセッションIDと、セッションが確立されるMRCPサーバ12及びメディアサーバ14それぞれを特定するサーバIDとを対応付けたセッション管理テーブルを作成しセッション管理DB117に記憶する。   When the voice application execution request arrives from the IVR 20, the SIP control unit 111 is used for communication connection between the MRCP server 12 and the media server 14 that can be used based on the stored contents of the MRCP server DB 113 and the media server DB 114. When a session is established, a session management table in which a session ID that identifies the session and a server ID that identifies each of the MRCP server 12 and the media server 14 with which the session is established is created and stored in the session management DB 117. .

セッション管理DB117には、図4に示すような、セッションIDに対応するMRCPサーバ、メディアサーバを識別するIDが記憶されるセッション管理テーブルが記憶される。SIP制御部111は、音声アプリケーションクライアントであるIVRからのリクエストにより生成されたセッションに対して割り振ったMRCPサーバとメディアサーバの情報をこのセッション管理DB117で管理する。なお、本実施形態において、MRCPサーバ、メディアサーバへの処理の割り振り方法としては、ラウンドロビン方式、重み付けをしたラウンドロビン方式、最少接続方式などが用いられるが、その方法は本実施形態において限定されるものではない。   The session management DB 117 stores a session management table in which IDs for identifying MRCP servers and media servers corresponding to session IDs are stored as shown in FIG. The SIP control unit 111 manages the MRCP server and media server information allocated to the session generated by the request from the IVR that is the voice application client by using the session management DB 117. In the present embodiment, a round robin method, a weighted round robin method, a minimum connection method, or the like is used as a method for allocating processes to the MRCP server and the media server. However, the method is limited in the present embodiment. It is not something.

プロセス間通信制御部116は、SIPサーバ、MRCPサーバ、メディアサーバ間の通信を制御するモジュールであり、通信部115を介して各サーバとの相互通信を行い、また音声アプリケーションクライアントであるIVR20からの音声アプリケーションリクエストの通信も行う。そして、要求元から音声信号が送られてきた場合に、セッション管理DB117に記憶されるセッション管理テーブルを参照し、この参照結果に基づいて、セッションごとに要求元に対しメディアサーバ14,15による音声アプリケーションを使用したサービスを提供する。   The inter-process communication control unit 116 is a module that controls communication between the SIP server, the MRCP server, and the media server. The inter-process communication control unit 116 performs mutual communication with each server via the communication unit 115, and also from the IVR 20 that is a voice application client. It also communicates voice application requests. When an audio signal is sent from the request source, the session management table stored in the session management DB 117 is referred to, and based on the reference result, the audio by the media servers 14 and 15 is sent to the request source for each session. Provide services using applications.

図5は、MRCPサーバ12,13の機能構成を示すブロック図である。ここでは、MRCPサーバ12を代表して説明する。
MRCPサーバ12は、通信部121と、MRCP制御部122と、プロセス間通信制御部123とを備えている。なお、通信部121及びプロセス間通信制御部123については、SIPサーバ11の通信部115及びプロセス間通信制御部116と同様であるので、詳細な説明を省略する。MRCP制御部122は、通信部121を介して、音声アプリケーションクライアントであるIVR20からのMRCPリクエストの処理を実行する。
FIG. 5 is a block diagram showing a functional configuration of the MRCP servers 12 and 13. Here, the MRCP server 12 will be described as a representative.
The MRCP server 12 includes a communication unit 121, an MRCP control unit 122, and an interprocess communication control unit 123. Note that the communication unit 121 and the inter-process communication control unit 123 are the same as the communication unit 115 and the inter-process communication control unit 116 of the SIP server 11, and thus detailed description thereof is omitted. The MRCP control unit 122 executes processing of an MRCP request from the IVR 20 that is a voice application client via the communication unit 121.

図6は、メディアサーバ14,15の機能構成を示すブロック図である。ここでは、メディアサーバ14を代表して説明する。
メディアサーバ14は、通信部141と、RTP制御部142と、プロセス間通信制御部143と、音声アプリケーション制御部144と、音声アプリケーションエンジン部145とを備えている。なお、通信部141及びプロセス間通信制御部143については、SIPサーバ11の通信部115及びプロセス間通信制御部116と同様であるので、詳細な説明を省略する。RTP制御部142は、通信部141を介して、音声アプリケーションクライアントであるIVR20とのRTP送受信を実施するための制御を実行する。
FIG. 6 is a block diagram showing a functional configuration of the media servers 14 and 15. Here, the media server 14 will be described as a representative.
The media server 14 includes a communication unit 141, an RTP control unit 142, an inter-process communication control unit 143, a voice application control unit 144, and a voice application engine unit 145. Note that the communication unit 141 and the inter-process communication control unit 143 are the same as the communication unit 115 and the inter-process communication control unit 116 of the SIP server 11, and detailed description thereof is omitted. The RTP control unit 142 performs control for performing RTP transmission / reception with the IVR 20 that is the voice application client via the communication unit 141.

音声アプリケーション制御部144は、記憶部146と接続され、音声アプリケーションエンジン部145及び記憶部146を制御するものであり、MRCPサーバ12,13からの音声合成リクエスト及び音声認識リクエストの内容を解析し、音声アプリケーションエンジン部145に音声合成処理および音声認識処理を実施させる。また、音声アプリケーション制御部144は、例えば音声アプリケーションエンジン部145の音声認識部1451から送られてくるキャラクタ列をMRCPサーバ12もしくはMRCPサーバ13を介してIVR20に通知することができる。   The voice application control unit 144 is connected to the storage unit 146 and controls the voice application engine unit 145 and the storage unit 146. The voice application control unit 144 analyzes the contents of the voice synthesis request and the voice recognition request from the MRCP servers 12 and 13, The voice application engine unit 145 performs voice synthesis processing and voice recognition processing. Further, the voice application control unit 144 can notify the IVR 20 of the character string transmitted from the voice recognition unit 1451 of the voice application engine unit 145 via the MRCP server 12 or the MRCP server 13, for example.

IVR20は、例えば図7に示す発信相手先の名前とそのユーザの電話番号とを対応付けるためのテーブルを有しており、このテーブルは音声ダイヤルサービスを行う際に使用される。   The IVR 20 has, for example, a table for associating the name of the call destination shown in FIG. 7 with the telephone number of the user, and this table is used when performing a voice dial service.

ここで、音声ダイヤルサービスとは、予め発信相手先の名前と電話番号を予め登録しておき、発呼者により発信相手先の名前が音声入力された場合音声認識部1451にてこれをキャラクタ列に変換し、上記テーブルから該当する電話番号を読み出しこの電話番号を電話交換装置30に通知して発信するものである。   Here, the voice dialing service is a method in which a name and a telephone number of a callee are registered in advance, and a voice recognition unit 1451 converts the callee name into a character string when the caller inputs the name of the callee. The corresponding telephone number is read from the above table, and the telephone number is notified to the telephone exchange device 30 and transmitted.

音声認識部1451は、図示しない音声−キャラクタ列変換テーブルを有しており、音声ダイヤルサービスの実行時に電話端末41〜4nの一つから送られてくる発信相手先の名前を表す音声信号をIVR20及びMRCPサーバ12もしくはMRCPサーバ13を介して受信し、その音声信号の波形から上記テーブルを利用してキャラクタ列に変換する。また、音声認識部1451は、変換後にキャラクタ列を音声アプリケーション制御部144に対して通知する。   The voice recognizing unit 1451 has a voice-character string conversion table (not shown). The voice recognition unit 1451 receives a voice signal representing the name of a call destination sent from one of the telephone terminals 41 to 4n when the voice dial service is executed. And, it is received via the MRCP server 12 or the MRCP server 13 and converted from the waveform of the voice signal into a character string using the above table. In addition, the voice recognition unit 1451 notifies the voice application control unit 144 of the character string after conversion.

さらに、音声アプリケーションエンジン部145には、音声合成部1452が備えられる。音声合成部1452は、音声ダイヤルサービス処理の実行時に、MRCPサーバ12もしくはMRCPサーバ13による処理結果に基づき所定の音声ガイダンスを生成して発呼電話端末である電話端末41〜4nのうち一つへ通知するものである。この音声合成部1452にて発生される音声ガイダンスの内容としては、MRCPサーバ12もしくはMRCPサーバ13から音声ダイヤルサービス処理の開始が指示された時には「発信先のお名前を入力してください。」というものが、また発声入力されたが認識ができなかった旨が指示された時には「認識できませんでした。もう一度、ゆっくり発声してください。」といったものがある。   Further, the voice application engine unit 145 includes a voice synthesis unit 1452. The voice synthesizing unit 1452 generates a predetermined voice guidance based on the processing result of the MRCP server 12 or the MRCP server 13 and executes one of the telephone terminals 41 to 4n which are calling telephone terminals when executing the voice dial service process. It is a notification. The content of the voice guidance generated by the voice synthesizer 1452 is “Please input the name of the destination” when the MRCP server 12 or the MRCP server 13 instructs the start of the voice dial service process. When there is an instruction that an object has been uttered again but could not be recognized, there was a message such as "Could not recognize. Please speak slowly again."

図8は、従来の音声アプリケーションシステムを示す概略構成図である。図8に示すように複数の電話端末41および42から同時に電話交換装置30に対しての発信があり、その応答をIVR20で実施する場合、IVR20がSIPクライアントとして音声アプリケーションシステム10に対して音声アプリケーション処理を動的に要求する場合、IVR20はセッション開始のリクエストであるSIP INVITEメッセージを音声アプリケーションシステム10に対して送信していたが、音声アプリケーションシステムにはSIPサーバモジュール、MRCPサーバモジュール、メディアサーバモジュールが1台の装置に配置されていたため、音声アプリケーションシステム10においてはIVR20からの以降リクエストとなるMRCPリクエスト、メディアであるRTP送受信を全て同じ装置内で実施しなければならず、SIP/MRCP/音声アプリケーション処理/メディア送受信の同時処理で装置の負荷が増大することがあった。   FIG. 8 is a schematic configuration diagram showing a conventional voice application system. As shown in FIG. 8, when there are calls from the plurality of telephone terminals 41 and 42 to the telephone switching apparatus 30 at the same time and the response is executed by the IVR 20, the IVR 20 serves as a SIP client with the voice application system 10 as a voice application. When processing is dynamically requested, the IVR 20 has transmitted a SIP INVITE message, which is a request to start a session, to the voice application system 10, and the voice application system includes a SIP server module, an MRCP server module, and a media server module. In the voice application system 10, the MRCP request that is a subsequent request from the IVR 20 and the RTP transmission / reception that is a medium must all be performed in the same device. However, the load on the device may increase due to simultaneous processing of SIP / MRCP / voice application processing / media transmission / reception.

また、音声アプリケーションリクエストが複数到着する場合でも、音声アプリケーションシステム10内の音声アプリケーション処理を装置内で同時に複数のリクエストの処理を行わなければならず、リクエストが輻輳した時に処理負荷が増大する事があった。   Even when a plurality of voice application requests arrive, the voice application processing in the voice application system 10 must be simultaneously processed in the apparatus, and the processing load may increase when the requests are congested. there were.

本実施形態は、音声アプリケーションシステムを使用した構内交換機、自動音声応答装置を含む電話システムにおいて、音声アプリケーションシステム10のモジュール単位で装置を分割し、セッション管理はSIPサーバが行い、アプリケーション管理はMRCPサーバが行い、アプリケーション処理およびメディアリソース管理をメディアサーバが行うことで、一回の音声アプリケーションリクエストの処理を複数の装置で分担し手処理を行うことで、音声アプリケーションシステム10としての全体の処理は軽減し、また、複数の顧客から同時に電話システムに着信があった場合に自動応答装置が動的に複数の音声アプリケーションリクエストを生成するが、音声アプリケーションシステム10として複数の装置で処理することで、音声アプリケーションシステム10としての処理負荷を軽減し音声アプリケーション処理結果となる音声データの入力処理、出力処理を向上させる事を目的とした処理分散方式を提案するものであり、本実施形態の具体的な動作について、図9及び図10を用いて以下に説明する。   In this embodiment, in a telephone system including a private branch exchange using a voice application system and an automatic voice response device, the device is divided into modules of the voice application system 10, session management is performed by a SIP server, and application management is performed by an MRCP server. The media server performs application processing and media resource management, so that processing of a single voice application request is shared by a plurality of devices and performed manually, thereby reducing the overall processing of the voice application system 10. In addition, when a plurality of customers receive calls simultaneously on the telephone system, the automatic answering apparatus dynamically generates a plurality of voice application requests. The present invention proposes a processing distribution method aimed at reducing the processing load of the application system 10 and improving the input processing and output processing of audio data that is the result of the audio application processing. Will be described below with reference to FIGS.

図9は、本実施形態における音声アプリケーションサービスを要求する際の電話端末41と、電話交換装置30と、IVR20と、SIPサーバ11と、MRCPサーバ12と、メディアサーバ14との間の信号の送受信動作を示すシーケンス図である。   FIG. 9 shows transmission and reception of signals among the telephone terminal 41, the telephone exchange device 30, the IVR 20, the SIP server 11, the MRCP server 12, and the media server 14 when requesting the voice application service in the present embodiment. It is a sequence diagram which shows operation | movement.

例えば、図1に示すリクエストAの要求として、電話端末41のユーザがオフフックの後に、音声ダイヤル発信機能を実行するための機能番号がキーパッドまたはファンクションキーを介して入力される(ステップ91a)。この入力された機能番号信号を含む信号とともに発信要求が電話交換装置30に通知される(図9(1))。   For example, as a request for request A shown in FIG. 1, after the user of the telephone terminal 41 goes off-hook, a function number for executing the voice dialing function is input via the keypad or function key (step 91a). A call request is notified to the telephone exchange device 30 together with the signal including the input function number signal (FIG. 9 (1)).

電話交換装置30は、電話端末41からの発信要求を受信すると、着信転送の処理を行い(ステップ92a)、当該発信要求をIVR20へ着信転送する(図9(2))。   Upon receiving the call request from the telephone terminal 41, the telephone exchange device 30 performs incoming call transfer processing (step 92a) and transfers the call request to the IVR 20 (FIG. 9 (2)).

IVR20は、SIPおよびMRCPv2を搭載した装置であり、電話端末41から入力される機能番号で指定される要求であるリクエストAの応答に音声アプリケーション処理が必要な場合、SIPサーバ11に新規セッション生成をSIPのINVITEにより要求する(ステップ93a及び図9(3))。   The IVR 20 is a device equipped with SIP and MRCPv2, and generates a new session for the SIP server 11 when voice application processing is required to respond to the request A, which is a request specified by the function number input from the telephone terminal 41. Request is made by SIP INVITE (step 93a and FIG. 9 (3)).

SIPサーバ11は、通信部115にてSIPセッション生成のリクエストを受信し(ステップ94a)、SIP制御部11にてサーバ監視制御部112が管理するMRCPサーバDB113から「稼働中」状態であるサーバをサーチして、MRCPサーバ12が使用可能であれば(ステップ94bのYes)、MRCPサーバ12の使用を決定し、セッション管理DB117中に、電話端末41から要求されるリクエストAに対応するセッションとして、セッションID「1」に対応付けて、MRCPサーバ12のサーバID「1」を登録する(ステップ94c)。なお、使用可能なMRCPサーバがない場合(ステップ94bのNo)は、音声アプリケーションのクライアントであるIVR20にエラー応答を通知する。   The SIP server 11 receives a request for SIP session generation at the communication unit 115 (step 94a), and selects a server in the “in operation” state from the MRCP server DB 113 managed by the server monitoring control unit 112 at the SIP control unit 11. If the MRCP server 12 is available after the search (Yes in step 94b), the use of the MRCP server 12 is determined, and a session corresponding to the request A requested from the telephone terminal 41 is determined in the session management DB 117. The server ID “1” of the MRCP server 12 is registered in association with the session ID “1” (step 94c). If there is no MRCP server that can be used (No in step 94b), an error response is notified to the IVR 20 that is the client of the voice application.

そして、SIPサーバ11は、プロセス間通信制御部116を介して、MRCPサーバ12に対してセッション開始を通知する(図9(4))。すると、MRCPサーバ12はプロセス間通信制御123を介して受信した新規セッション開始により、MRCP制御部122にてSIPサーバ11から通知された音声アプリケーションクライアントであるIVR20の生成するMRCPリクエスト情報を取得し、IVR20からのMRCPリクエストの受付準備を実施する(ステップ95a)。   Then, the SIP server 11 notifies the MRCP server 12 of the start of the session via the interprocess communication control unit 116 ((4) in FIG. 9). Then, the MRCP server 12 acquires MRCP request information generated by the IVR 20 that is the voice application client notified from the SIP server 11 by the MRCP control unit 122 by starting a new session received via the inter-process communication control 123. Preparation for receiving an MRCP request from the IVR 20 is performed (step 95a).

続いて、SIPサーバ11は、メディアサーバDB114から「稼働中」状態であるサーバをサーチして、メディアサーバ14が使用可能であれば(ステップ94dのYes)、任意の決定方法により、メディアサーバ14の使用を決定し、セッション管理DB117中に、電話端末41から要求されるリクエストAに対応するセッションであるセッションID「1」に対応付けて、メディアサーバ14のサーバID「2」を登録する(ステップ94e)。なお、使用可能なメディアサーバがない場合(ステップ94dのNo)は、音声アプリケーションクライアントであるIVR20にエラー応答を通知する。   Subsequently, the SIP server 11 searches the media server DB 114 for a server that is in the “running” state, and if the media server 14 is usable (Yes in step 94d), the media server 14 is determined by an arbitrary determination method. In the session management DB 117, the server ID “2” of the media server 14 is registered in the session management DB 117 in association with the session ID “1” corresponding to the request A requested from the telephone terminal 41 ( Step 94e). If there is no usable media server (No in step 94d), an error response is notified to the voice application client IVR 20.

その後、SIPサーバ11はプロセス間通信制御116を介して、メディアサーバ14に対してセッション開始を通知する(図9(5))。   Thereafter, the SIP server 11 notifies the media server 14 of the start of a session via the interprocess communication control 116 (FIG. 9 (5)).

メディアサーバ14は、プロセス間通信制御部143を介して受信した新規セッション開始により、RTP制御部142にてSIPサーバ11から通知された音声アプリケーションクライアントであるIVR20からのRTP受信ポートをオープンする(ステップ06a)とともに、オープンしたRTP受信ポート番号をSIPサーバ11に通知する(図9(6))。また、SIPサーバ11は、メディアサーバ14から受信したRTP受信ポート番号を取得し、メディアサーバからのRTP送信先として設定する。   The media server 14 opens an RTP reception port from the IVR 20 that is a voice application client notified from the SIP server 11 by the RTP control unit 142 by starting a new session received via the inter-process communication control unit 143 (step S40). At the same time, the opened RTP reception port number is notified to the SIP server 11 ((6) in FIG. 9). Also, the SIP server 11 acquires the RTP reception port number received from the media server 14 and sets it as the RTP transmission destination from the media server.

SIPサーバ11は、セッションで使用するMRCPサーバのIPアドレス(実施形態では 192.168.0.101)、MRCPのチャネルIDとRTPの送受信に使用するメディアサーバのIPアドレス(実施形態では192.168.0.202)、受信ポート番号を確保し(ステップ94f)、この受信ポート番号を、SIPの“INVITE”メッセージに対する応答信号であるSIPの“200 OK”メッセージのSDP(Session Description Protocol:RFC 4566)に設定して音声アプリケーションクライアントであるIVR20に送信する(ステップ94g及び図9(7))。   The SIP server 11 includes an IP address of the MRCP server used in the session (192.168.0.101 in the embodiment), an IP address of the media server used for transmission and reception of the MRCP channel ID and RTP (192.168.0.202 in the embodiment), a reception port The number is secured (step 94f), and this reception port number is set in the SDP (Session Description Protocol: RFC 4566) of the SIP “200 OK” message which is a response signal to the SIP “INVITE” message, and the voice application client (Step 94g and FIG. 9 (7)).

図10は、本実施形態における音声合成処理及び音声認識処理を実行する際の電話交換装置30、IVR20、及びメディアサーバ14の制御手順を示すフローチャートである。   FIG. 10 is a flowchart showing a control procedure of the telephone exchange device 30, the IVR 20, and the media server 14 when executing the speech synthesis process and the speech recognition process in the present embodiment.

音声アプリケーションの処理を実施する場合は、IVR20は、MRCPサーバ12にMRCPリクエストを送信する(図10(1))。MRCPサーバ12は、MRCPリクエストを受信すると、MRCPリクエストの内容から音声ダイヤルサービス処理の開始の旨を判定し(ステップ10a)、音声合成リクエストをメディアサーバ14に送信するとともに(図10(2))、音声認識リクエストをメディアサーバ14に送信する(図10(3))。当該リクエストを受信したメディアサーバ14は、音声合成部1452に音声ガイダンスの送信指示を与え、音声ガイダンス送信準備をする(ステップ11a)とともに、音声認識部1451に音声認識の準備指示を与え、音認識処理の準備をする(ステップ11b)。   When performing the voice application process, the IVR 20 transmits an MRCP request to the MRCP server 12 (FIG. 10 (1)). When receiving the MRCP request, the MRCP server 12 determines from the content of the MRCP request that the voice dial service process is started (step 10a), and transmits a voice synthesis request to the media server 14 (FIG. 10 (2)). Then, a voice recognition request is transmitted to the media server 14 (FIG. 10 (3)). Upon receiving the request, the media server 14 gives a voice guidance transmission instruction to the voice synthesizer 1452 and prepares for voice guidance transmission (step 11a), and also gives a voice recognition preparation instruction to the voice recognition unit 1451 to recognize the sound. Preparation for processing is performed (step 11b).

音声合成部1452では、例えば「発信先のお名前を入力してください」という音声ガイダンスが生成され、この音声ガイダンスは、RTPパケットとしてセッションID「1」のチャネルを介してIVR20に転送され、IVR20にてRTPパケットから音声信号に変換されて電話交換装置30を介して発信元の電話端末41に転送される(図10(4))。従って、電話端末41のユーザは、この音声ガイダンスにより次の操作内容を知ることができる。   In the voice synthesizer 1452, for example, a voice guidance “Please input the name of the destination” is generated, and this voice guidance is transferred as an RTP packet to the IVR 20 via the channel of the session ID “1”. In FIG. 10, the RTP packet is converted into a voice signal and transferred to the caller telephone terminal 41 via the telephone exchange device 30 (FIG. 10 (4)). Therefore, the user of the telephone terminal 41 can know the next operation content by this voice guidance.

次に、IVR20は、音声信号を受信すると、音声認識リクエストのためのSIPリクエストをSIPサーバ11へ送信する(図10(5))。SIPサーバ11は、上記SIPリクエストの内容から音声認識リクエストである旨を認識すると、セッション管理DB117のセッション管理テーブルを参照して、MRCPサーバ12を決定し(ステップ12a)、MRCPサーバ12に対しIVR20からの音声認識リクエストを送信する(図10(6))。   Next, when receiving the voice signal, the IVR 20 transmits a SIP request for a voice recognition request to the SIP server 11 (FIG. 10 (5)). When the SIP server 11 recognizes that the request is a voice recognition request from the content of the SIP request, the SIP server 11 determines the MRCP server 12 by referring to the session management table of the session management DB 117 (step 12a), and sends the IVR 20 to the MRCP server 12. A voice recognition request is transmitted from (Fig. 10 (6)).

MRCPサーバ12は、音声認識リクエストを受信すると、音声認識結果の受付準備を実行する(ステップ10b)。そして、受付準備完了後、MRCPサーバ12は、受付準備完了の旨をIVR20に通知する(図10(7))。   When receiving the voice recognition request, the MRCP server 12 prepares to receive a voice recognition result (step 10b). After the reception preparation is completed, the MRCP server 12 notifies the IVR 20 that reception preparation is completed ((7) in FIG. 10).

この状態で、電話端末41のユーザが、音声ガイダンスに従い、例えば、発信相手先の名前「やまもと」を音声入力すると、この発信相手先の名前「やまもと」を表す音声信号は、電話端末41から電話交換装置30を経由してメディアサーバ14に送信される(図10(8))。   In this state, when the user of the telephone terminal 41 inputs a voice destination name “Yamamoto” in accordance with voice guidance, for example, a voice signal representing the name “Yamamoto” of the destination is sent from the telephone terminal 41 to the telephone. It is transmitted to the media server 14 via the exchange device 30 (FIG. 10 (8)).

メディアサーバ14は、電話端末41から受信した音声信号を音声認識部1451に転送する。音声認識部1451は音声認識処理を行い、音声−キャラクタ列変換テーブルを利用して、入力された音声信号に対応するキャラクタ列を作成し(ステップ11c)、音声認識処理の結果として、作成されたキャラクタ列をMRCPサーバ12に通知する(図10(9))。MRCPサーバ12は、上記通知された「やまもと」のキャラクタ列をMRCPレスポンスのパケットにセットしてIVR20に音声信号の認識結果として送信する(図10(10))。なお、MRCPサーバ12は、認識ができなかった場合には、音声合成リクエストをメディアサーバ14に送信して「認識できませんでした。もう一度、ゆっくり発声してください。」という音声ガイダンスが発生させる。   The media server 14 transfers the voice signal received from the telephone terminal 41 to the voice recognition unit 1451. The voice recognition unit 1451 performs voice recognition processing, creates a character string corresponding to the input voice signal using the voice-character string conversion table (step 11c), and is created as a result of the voice recognition process. The character string is notified to the MRCP server 12 ((9) in FIG. 10). The MRCP server 12 sets the notified “Yamamoto” character string in an MRCP response packet and transmits it to the IVR 20 as a recognition result of the voice signal (FIG. 10 (10)). If the MRCP server 12 cannot recognize the voice, the MRCP server 12 transmits a voice synthesis request to the media server 14 to generate a voice guidance saying “Could not be recognized.

IVR20は、MRCPサーバ12から送信された音声認識結果となるMRCPレスポンスのパケットからキャラクタ列「やまもと」を抽出して、「やまもと」に対応する電話番号「5621」を読み出す。そして、この電話番号と発信制御信号からなる制御情報をテキストベースの応答として電話交換装置30へ転送する(図10(11))。   The IVR 20 extracts the character string “Yamamoto” from the MRCP response packet that is the voice recognition result transmitted from the MRCP server 12 and reads the telephone number “5621” corresponding to “Yamamoto”. Then, the control information composed of the telephone number and the transmission control signal is transferred to the telephone exchange device 30 as a text-based response (FIG. 10 (11)).

電話交換装置30は、この転送された制御情報に発信制御信号が含まれていることを検出すると共に送られてきた電話番号をもとに、例えば発信先の電話端末41に対しダイヤル発信処理を実行する(ステップ13a)。かくして、音声ダイヤル発信がなされる。   The telephone exchange device 30 detects that the transmission control signal is included in the transferred control information and, based on the telephone number sent, performs, for example, dial transmission processing to the telephone terminal 41 of the transmission destination. Execute (step 13a). Thus, voice dialing is performed.

尚、上記説明した実施の形態においては、メディアサーバ20から音声ガイダンスを送出する前に、音声認識準備を行い、音声ガイダンス送出中に電話端末41から音声入力がある場合でも対応できる処理として説明したが、本発明は上記動作に限定されるものではなく、たとえば、音声ガイダンスし送出後に音声認識準備を行う処理としてもよい。   In the above-described embodiment, the voice recognition preparation is performed before the voice guidance is transmitted from the media server 20, and the process that can cope with the voice input from the telephone terminal 41 during the voice guidance transmission is described. However, the present invention is not limited to the above-described operation. For example, voice guidance may be performed and voice recognition preparation may be performed after transmission.

ここで、電話端末41からのリクエストA(図1に図示)の処理中に、図1に示すリクエストBとして、例えば電話端末42のユーザがオフフックの後に、音声ダイヤル発信機能を実行するための機能番号がキーパッドまたはファンクションキーを介して入力される場合の処理について説明するが、以下で説明する処理は、リクエストBに対して割り当てられるMRCPサーバとメディアサーバが異なるだけで、具体的な内容は、図9で説明した電話端末41からのリクエストAで説明した処理と同様であるため、フローチャートは省略する。   Here, during processing of request A from the telephone terminal 41 (shown in FIG. 1), as a request B shown in FIG. 1, for example, a function for executing a voice dialing function after the user of the telephone terminal 42 goes off-hook. The process when the number is input via the keypad or the function key will be described. The process described below is different only in the MRCP server and the media server assigned to the request B. The specific contents are as follows. Since it is the same as the process described in the request A from the telephone terminal 41 described in FIG. 9, the flowchart is omitted.

まず、入力された機能番号を含む信号とともに発信要求が電話交換装置30に通知される。   First, a call request is notified to the telephone exchange device 30 together with a signal including the input function number.

電話交換装置30は、電話端末42からの発信要求を受信すると、着信転送の処理を行い、当該発信要求をIVR20へ着信転送する。   When the telephone exchange device 30 receives a call request from the telephone terminal 42, it performs incoming call transfer processing and transfers the call request to the IVR 20.

IVR20は、電話端末42から入力される機能番号で指定される要求であるリクエストBの応答に音声アプリケーション処理が必要な場合、SIPサーバ11に新規セッション生成をSIPのINVITEにより要求する。   The IVR 20 requests the SIP server 11 to generate a new session by SIP INVITE when a voice application process is required to respond to the request B, which is a request specified by the function number input from the telephone terminal 42.

SIPサーバ11は、通信部115にてSIPセッション生成のリクエストBを受信し、SIP制御部11にてサーバ監視制御部112が管理するMRCPサーバDB113から「稼働中」状態であるサーバをサーチして、MRCPサーバ13が使用可能であれば、MRCPサーバ13の使用を決定し、セッション管理DB117中に、電話端末42から要求されるリクエストBに対応するセッションとして、セッションID「2」に対応付けて、MRCPサーバ12のサーバID「2」を登録する。   The SIP server 11 receives the request B for generating the SIP session at the communication unit 115, and searches the server in the “in operation” state from the MRCP server DB 113 managed by the server monitoring control unit 112 at the SIP control unit 11. If the MRCP server 13 is usable, the use of the MRCP server 13 is determined, and the session management DB 117 is associated with the session ID “2” as the session corresponding to the request B requested from the telephone terminal 42. The server ID “2” of the MRCP server 12 is registered.

そして、SIPサーバ11は、プロセス間通信制御部116を介して、MRCPサーバ12に対してセッション開始を通知する。すると、MRCPサーバ12はプロセス間通信制御123を介して受信した新規セッション開始により、MRCP制御部122にてSIPサーバ11から通知された音声アプリケーションクライアントであるIVR20の生成するMRCPリクエスト情報を取得し、IVR20からのMRCPリクエストの受付準備を実施する。   Then, the SIP server 11 notifies the MRCP server 12 of a session start via the interprocess communication control unit 116. Then, the MRCP server 12 acquires MRCP request information generated by the IVR 20 that is the voice application client notified from the SIP server 11 by the MRCP control unit 122 by starting a new session received via the inter-process communication control 123. Prepare to accept an MRCP request from the IVR 20.

続いて、SIPサーバ11は、メディアサーバDB114から「稼働中」状態であるサーバをサーチして、メディアサーバ15が使用可能であれば、任意の決定方法により、メディアサーバ15の使用を決定し、セッション管理DB117中に、電話端末42から要求されるリクエストBに対応するセッションであるセッションID「2」に対応付けて、メディアサーバ15のサーバID「1」を登録する。   Subsequently, the SIP server 11 searches the media server DB 114 for servers that are in the “running” state, and if the media server 15 is usable, determines the use of the media server 15 by an arbitrary determination method. In the session management DB 117, the server ID “1” of the media server 15 is registered in association with the session ID “2” that is a session corresponding to the request B requested from the telephone terminal 42.

その後、SIPサーバ11はプロセス間通信制御116を介して、メディアサーバ15に対してセッション開始を通知する。   Thereafter, the SIP server 11 notifies the media server 15 of the start of the session via the interprocess communication control 116.

メディアサーバ15は、プロセス間通信制御部143を介して受信した新規セッション開始により、RTP制御部142にてSIPサーバ11から通知された音声アプリケーションクライアントであるIVR20からのRTP受信ポートをオープンするとともに、オープンしたRTP受信ポート番号をSIPサーバ11に通知する。また、SIPサーバ11は、メディアサーバ15から受信したRTP受信ポート番号を、メディアサーバからのRTP送信先として設定する。   The media server 15 opens the RTP reception port from the IVR 20 that is the voice application client notified from the SIP server 11 by the RTP control unit 142 by starting a new session received via the inter-process communication control unit 143, The SIP server 11 is notified of the opened RTP reception port number. Further, the SIP server 11 sets the RTP reception port number received from the media server 15 as the RTP transmission destination from the media server.

SIPサーバ11は、セッションで使用するMRCPサーバのIPアドレス(実施形態では 192.168.0.102)、MRCPのチャネルIDとRTPの送受信に使用するメディアサーバのIPアドレス(実施形態では192.168.0.202)、受信ポート番号を確保し、この受信ポート番号を、SIPの“INVITE”メッセージに対する応答信号であるSIPの“200 OK”メッセージのSDP(Session Description Protocol:RFC 4566)に設定して音声アプリケーションクライアントであるIVR20に送信する。   The SIP server 11 includes the IP address of the MRCP server used in the session (192.168.0.102 in the embodiment), the IP address of the media server used for transmission and reception of the MRCP channel ID and RTP (192.168.0.202 in the embodiment), the receiving port A number is secured, and this reception port number is set in the SDP (Session Description Protocol: RFC 4566) of the SIP “200 OK” message which is a response signal to the SIP “INVITE” message, and is sent to the voice application client IVR 20. Send.

以上のように上記実施形態では、以前の音声アプリケーションサーバ10に備えられる音声アプリケーション制御部144及び音声アプリケーションエンジン部145を別のメディアサーバ14に持たせ、MRCP制御部122をメディアサーバ14とは別のMRCPサーバ12に持たせ、SIP制御部111をSIPサーバ11に持たせるように分散するとともに、SIPサーバ11は、少なくとも電話端末41からの音声アプリケーション実行要求に基づき、使用可能なメディアサーバ14とMRCPサーバ12との間で通信接続のためのセッションが確立されるとき、セッションを特定するセッションIDと、セッションが確立されるメディアサーバ14及びMRCPサーバ12それぞれを特定するサーバIDとを対応付けたセッション管理テーブルをセッション管理DB117に記憶し管理しておき、セッション管理テーブルを参照し、この参照結果に基づいて、セッションごとに要求元に対し音声合成または音声認識による音声ダイヤルサービスといった音声アプリケーションを使用したサービスが実行されることになる。   As described above, in the above embodiment, the voice application control unit 144 and the voice application engine unit 145 provided in the previous voice application server 10 are provided in another media server 14, and the MRCP control unit 122 is different from the media server 14. The SIP server 11 is distributed so as to have the SIP control unit 111 in the SIP server 11, and the SIP server 11 is connected to the usable media server 14 based on at least the voice application execution request from the telephone terminal 41. When a session for communication connection is established with the MRCP server 12, a session ID that identifies the session is associated with a server ID that identifies each of the media server 14 and the MRCP server 12 with which the session is established. Session The management table is stored and managed in the session management DB 117, and the session management table is referred to. Based on the reference result, a voice application such as voice synthesis service by voice synthesis or voice recognition is used for each request source for each session. The service will be executed.

従って、上記セッション管理テーブルを用いることで、処理ごとに装置として分散した場合でも、使用するセッションを特定でき、音声アプリケーション処理を伴う交換サービス制御を実行する場合に、SIPサーバ11、MRCPサーバ12及びメディアサーバ14が協働して効率良く実行することができる。これにより、システム全体の負荷を軽減できる。   Therefore, by using the session management table, it is possible to specify a session to be used even when distributed as a device for each process, and when executing exchange service control involving voice application processing, the SIP server 11, MRCP server 12, and The media server 14 can cooperate and execute efficiently. Thereby, the load of the whole system can be reduced.

また、各要求元毎にセッションが固定的に用意されるので、異なる電話端末41,42からの複数の音声アプリケーションの実行要求が同一時間帯に発生した場合でも、これらの音声アプリケーションによるサービス制御を並行して効率良く実行できる。   In addition, since a session is fixedly prepared for each request source, even when requests for executing a plurality of voice applications from different telephone terminals 41 and 42 occur in the same time period, service control by these voice applications is performed. It can be executed efficiently in parallel.

また、上記実施形態によれば、SIPサーバ11にて、メディアサーバ14及びMRCPサーバ12の動作状態が監視され、メディアサーバ14及びMRCPサーバ12が使用可能な場合のみセッションが確立されるので、セッションの不要な使用を防止してセッションの有効利用率を高めることができる。   Further, according to the above embodiment, the SIP server 11 monitors the operation states of the media server 14 and the MRCP server 12, and the session is established only when the media server 14 and the MRCP server 12 are usable. It is possible to increase the effective utilization rate of the session by preventing unnecessary use.

その他、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。   In addition, it is not limited to the above-described embodiment as it is, and in the implementation stage, the constituent elements can be modified and embodied without departing from the scope of the invention. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

10…音声アプリケーションシステム、11…SIPサーバ、12,13…MRCPサーバ、14,15…メディアサーバ、20…IVR、30…電話交換装置、41〜4n…電話端末、111…SIP制御部、112…サーバ監視制御部、113…MRCPサーバDB、114…メディアサーバDB、116…プロセス間通信制御部、115…通信部、117…セッション管理DB、122…MRCP制御部、142…RTP制御部、144…音声アプリケーション制御部、145…音声アプリケーションエンジン部、INW…IPネットワーク。   DESCRIPTION OF SYMBOLS 10 ... Voice application system, 11 ... SIP server, 12, 13 ... MRCP server, 14, 15 ... Media server, 20 ... IVR, 30 ... Telephone exchange apparatus, 41-4n ... Telephone terminal, 111 ... SIP control part, 112 ... Server monitoring control unit 113 ... MRCP server DB, 114 ... media server DB, 116 ... inter-process communication control unit, 115 ... communication unit, 117 ... session management DB, 122 ... MRCP control unit, 142 ... RTP control unit, 144 ... Voice application control unit, 145 ... voice application engine part, INW ... IP network.

Claims (5)

所定の音声アプリケーションを実行するメディアサーバ装置と、
このメディアサーバ装置にIP(Internet Protocol)ネットワークを介して接続され、前記音声アプリケーションの実行を制御するアプリケーション制御サーバ装置と、
前記メディアサーバ装置及び前記アプリケーション制御サーバ装置にIP(Internet Protocol)ネットワークを介して接続され、複数の電話端末間の呼接続を実行する電話交換装置を接続可能で、前記メディアサーバ装置及び前記アプリケーション制御サーバ装置の間の通信接続のためのセッションを制御する管理サーバ装置とを具備し、
前記管理サーバ装置は、
少なくとも前記電話端末からの音声アプリケーション実行要求に基づき、使用可能な前記メディアサーバ装置と前記アプリケーション制御サーバ装置との間で通信接続のためのセッションが確立されるとき、前記セッションを特定するセッションIDと、前記セッションが確立される前記メディアサーバ装置及び前記アプリケーション制御サーバ装置のそれぞれを特定するサーバIDとを対応付けた管理テーブルを作成し記憶する記憶手段と、
前記記憶手段が記憶する前記管理テーブルに基づいて、セッションごとに要求元に対し前記音声アプリケーションを使用した処理を行う処理手段とを備えることを特徴とする音声アプリケーションシステム。
A media server device that executes a predetermined voice application;
An application control server device connected to the media server device via an IP (Internet Protocol) network and controlling execution of the voice application;
Connected to the media server device and the application control server device via an IP (Internet Protocol) network and connectable to a telephone exchange device for performing call connection between a plurality of telephone terminals, the media server device and the application control A management server device that controls a session for communication connection between the server devices,
The management server device
When a session for communication connection is established between the media server device that can be used and the application control server device based on at least a voice application execution request from the telephone terminal, a session ID that identifies the session; Storage means for creating and storing a management table in which server IDs for specifying each of the media server device and the application control server device with which the session is established are associated with each other;
A voice application system comprising: processing means for performing processing using the voice application for a request source for each session based on the management table stored in the storage means.
所定の音声アプリケーションを実行するメディアサーバ装置及び、前記音声アプリケーションの実行を制御するアプリケーション制御サーバ装置にIP(Internet Protocol)ネットワークを介して接続され、複数の電話端末間の呼接続を実行する電話交換装置を接続可能で、前記メディアサーバ装置及び前記アプリケーション制御サーバ装置の間の通信接続のためのセッションを制御する管理サーバ装置において、
少なくとも前記電話端末からの音声アプリケーション実行要求に基づき、使用可能な前記メディアサーバ装置と前記アプリケーション制御サーバ装置との間で通信接続のためのセッションが確立されるとき、前記セッションを特定するセッションIDと、前記セッションが確立される前記メディアサーバ装置及び前記アプリケーション制御サーバ装置のそれぞれを特定するサーバIDとを対応付けた管理テーブルを作成し記憶する記憶手段と、
前記記憶手段が記憶する前記管理テーブルに基づいて、セッションごとに要求元に対し前記音声アプリケーションを使用した処理を行う処理手段とを具備することを特徴とする管理サーバ装置。
A telephone exchange for connecting a plurality of telephone terminals to a media server device that executes a predetermined voice application and an application control server device that controls execution of the voice application via an IP (Internet Protocol) network In a management server device capable of connecting a device and controlling a session for communication connection between the media server device and the application control server device,
When a session for communication connection is established between the media server device that can be used and the application control server device based on at least a voice application execution request from the telephone terminal, a session ID that identifies the session; Storage means for creating and storing a management table in which server IDs for specifying each of the media server device and the application control server device with which the session is established are associated with each other;
A management server apparatus comprising: processing means for performing processing using the voice application for a request source for each session based on the management table stored in the storage means.
前記処理手段は、要求元から音声信号が送られてきた場合に、前記管理テーブルに基づいて、セッションごとに要求元との間でSIP(Session Initiation Protocol)で規定されるメッセージを送受信し、前記音声アプリケーションを使用した処理を行うことを特徴とする請求項2記載の管理サーバ装置。   The processing means transmits / receives a message defined by SIP (Session Initiation Protocol) with the request source for each session based on the management table when an audio signal is transmitted from the request source, 3. The management server device according to claim 2, wherein processing using a voice application is performed. 前記メディアサーバ装置及び前記アプリケーション制御サーバ装置の動作状態を監視する監視手段を備え、
前記記憶手段は、少なくとも前記電話端末から音声アプリケーション実行要求が送られた場合に、前記監視手段による監視結果に基づいて、使用可能な前記メディアサーバ装置と前記アプリケーション制御サーバ装置との間で通信接続のためのセッションが確立されるとき、前記セッションを特定するセッションIDと、前記セッションが確立される前記メディアサーバ装置及び前記アプリケーション制御サーバ装置のそれぞれを特定するサーバIDとを対応付けた管理テーブルを作成し記憶することを特徴とする請求項2記載の管理サーバ装置。
Comprising monitoring means for monitoring operating states of the media server device and the application control server device;
The storage means is a communication connection between the usable media server device and the application control server device based on a monitoring result by the monitoring device when at least a voice application execution request is sent from the telephone terminal. A management table that associates a session ID that identifies the session with a server ID that identifies each of the media server device and the application control server device with which the session is established The management server device according to claim 2, wherein the management server device is created and stored.
所定の音声アプリケーションを実行するメディアサーバ装置及び、前記音声アプリケーションの実行を制御するアプリケーション制御サーバ装置にIP(Internet Protocol)ネットワークを介して接続され、複数の電話端末間の呼接続を実行する電話交換装置を接続可能で、前記メディアサーバ装置及び前記アプリケーション制御サーバ装置の間の通信接続のためのセッションを制御する管理サーバ装置で使用される制御方法において、
少なくとも前記電話端末からの音声アプリケーション実行要求に基づき、使用可能な前記メディアサーバ装置と前記アプリケーション制御サーバ装置との間で通信接続のためのセッションが確立されるとき、前記セッションを特定するセッションIDと、前記セッションが確立される前記メディアサーバ装置及び前記アプリケーション制御サーバ装置のそれぞれを特定するサーバIDとを対応付けた管理テーブルを記憶し、
前記記憶された前記管理テーブルに基づいて、セッションごとに要求元に対し前記音声アプリケーションを使用した処理を行うことを特徴とする制御方法。
A telephone exchange for connecting a plurality of telephone terminals to a media server device that executes a predetermined voice application and an application control server device that controls execution of the voice application via an IP (Internet Protocol) network In a control method used in a management server device capable of connecting a device and controlling a session for communication connection between the media server device and the application control server device,
When a session for communication connection is established between the media server device that can be used and the application control server device based on at least a voice application execution request from the telephone terminal, a session ID that identifies the session; Storing a management table in which a server ID that identifies each of the media server device and the application control server device with which the session is established is associated;
A control method comprising: performing processing using the voice application for a request source for each session based on the stored management table.
JP2012215092A 2012-09-27 2012-09-27 Voice application system, management server device, and control method thereof Pending JP2014072577A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012215092A JP2014072577A (en) 2012-09-27 2012-09-27 Voice application system, management server device, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012215092A JP2014072577A (en) 2012-09-27 2012-09-27 Voice application system, management server device, and control method thereof

Publications (1)

Publication Number Publication Date
JP2014072577A true JP2014072577A (en) 2014-04-21

Family

ID=50747445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012215092A Pending JP2014072577A (en) 2012-09-27 2012-09-27 Voice application system, management server device, and control method thereof

Country Status (1)

Country Link
JP (1) JP2014072577A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5699202B1 (en) * 2013-12-25 2015-04-08 エヌ・ティ・ティ・コムウェア株式会社 Call processing system, load distribution method, and load distribution program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5699202B1 (en) * 2013-12-25 2015-04-08 エヌ・ティ・ティ・コムウェア株式会社 Call processing system, load distribution method, and load distribution program

Similar Documents

Publication Publication Date Title
EP1652359B1 (en) Method and system for suppressing early media in a communications network
US11546741B2 (en) Call routing using call forwarding options in telephony networks
US9191521B2 (en) Method and system for providing call waiting features in a SIP-based network
US7149287B1 (en) Universal voice browser framework
US20120148036A1 (en) Systems and methods for handling calls associated with an interactive voice response application
US8711842B2 (en) Distributed IP-PBX signal processing
JP4048122B2 (en) Apparatus and method for computer controlled call processing applications in packet switched telephone networks
JP2007318343A (en) Gateway device and renegotiation method
EP2381623B1 (en) System and method for call queuing and preoccupying outbound calling
CN112040073B (en) Intelligent directory assistance server, directory assistance system and directory assistance method
US9100416B2 (en) System and method for conveying end-to-end call status
CN114401252B (en) Calling method of telephone traffic system and telephone traffic system
CN113905023B (en) Outbound system and method based on webpage instant messaging technology
CN114710473A (en) Method and system for realizing audio-video interaction between applet and SIP contact center
US8897436B2 (en) Method and apparatus for providing emergency ring tones for urgent calls
CN102111415A (en) Interactive network voice response system with embedded VoIP and implementation method thereof
CN101577767A (en) Real-time voice-to-text conversion for telecommunication services
US9042541B2 (en) Multi-node predictive dialing for scalability
JP2014072577A (en) Voice application system, management server device, and control method thereof
JP2008113381A (en) Communication system
JP2009212908A (en) Multichannel call recoding system
WO2020076344A1 (en) Call routing using call forwarding options in telephony networks
CN106453265B (en) IP call scheduling method and system, IPPBX and server
CN103475648B (en) Blind Call Transfer method and Blind Call Transfer system based on Session Initiation Protocol
JP6891771B2 (en) Telephone system and telephone controller