JP2007228114A - Telephone system - Google Patents
Telephone system Download PDFInfo
- Publication number
- JP2007228114A JP2007228114A JP2006044730A JP2006044730A JP2007228114A JP 2007228114 A JP2007228114 A JP 2007228114A JP 2006044730 A JP2006044730 A JP 2006044730A JP 2006044730 A JP2006044730 A JP 2006044730A JP 2007228114 A JP2007228114 A JP 2007228114A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- packet
- information
- text information
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、送信側で音声を送信し、受信側で受信する電話システムに関するものである。 The present invention relates to a telephone system that transmits voice on the transmission side and receives it on the reception side.
従来、IP技術を用いた電話システムは、音声をなるべく途切れさせないためにネットワーク内のパケット優先付け技術で音声(パケット)を優先的に処理する工夫がなされている。 Conventionally, a telephone system using IP technology has been devised so that voice (packet) is preferentially processed by a packet prioritization technique in a network so as not to interrupt the voice as much as possible.
また、ネットワーク上に通信サーバを配して、このサーバ内で電話システムからの音声(パケット)を音声認識してテキスト化し、指定された宛先にメールで配信する技術がある(特許文献1)。 In addition, there is a technique in which a communication server is arranged on a network, voice (packets) from a telephone system is recognized in the server, converted into text, and delivered to a designated destination by mail (Patent Document 1).
また、着信に応答できない場合、発信者からの音声メッセージを蓄積し音声認識してテキストメッセージに変換し、発信者からのメッセージ報知タイミングあるいはユーザ指定があった場合に、変換したテキストメッセージを送信して表示させる技術がある(特許文献2)。
しかし、従来のパケット優先付け技術で音声(パケット)を優先的に処理したとしても、電話システムが全面的にIP化されると優先制御を完全に動作させることが困難となり、音声が途切れる事態が発生するおそれがあるという問題がある。 However, even if the voice (packet) is preferentially processed by the conventional packet prioritization technology, it is difficult to operate the priority control completely when the telephone system is fully IP, and the voice is interrupted. There is a problem that it may occur.
このため、例えば送信側では受信側で音声が正常に再生されない事態が発生したことが判らないため、そのまま会話を継続し後から話しの内容についての補足や途中から話しのやり直しを行う必要性が生じてしまうという問題があった。 For this reason, for example, on the transmitting side, it is not known that a situation has occurred in which the audio is not normally reproduced on the receiving side, so there is a need to continue the conversation as it is and to supplement the contents of the conversation later or to repeat the conversation from the middle. There was a problem that it would occur.
また、従来の前者の特許文献の技術では、ネットワーク上にサーバを設けて当該サーバで音声を認識してメールで配信するものであり、音声に同期してその音声認識したテキストデータを表示できないと共に、送信側で受信側で音声が正常に再生されない事態が発生したことを認識できないという問題があった。 Further, in the conventional technique of the former patent document, a server is provided on the network, the voice is recognized by the server and distributed by mail, and the text data recognized by the voice cannot be displayed in synchronization with the voice. There is a problem in that it is impossible to recognize that a situation has occurred in which the sound is not normally reproduced on the transmission side on the transmission side.
また、従来の後者の特許文献の技術では、着信に応答できない場合に、発信者からの音声メッセージをテキスデータにし、表示するものであり、音声に同期してその音声認識したテキストデータを表示できないと共に、送信側で受信側で音声が正常に再生されない事態が発生したことを認識できないという問題があった。 Further, in the latter technique of the latter patent document, when the incoming call cannot be answered, the voice message from the caller is displayed as text data and cannot be displayed in synchronization with the voice. At the same time, there has been a problem that it is impossible to recognize that a situation has occurred in which the audio is not normally reproduced on the transmission side on the transmission side.
本発明は、これらの問題を解決するため、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、受信側から送信側に途切れた旨を送信して表示するようにしている。 In order to solve these problems, the present invention displays and synchronizes voice text even when a break occurs in the middle as speech on the receiving side when a call is made between the sending side and the receiving side in the telephone system. The highlighted part is highlighted, or the fact that there is a break from the reception side to the transmission side is transmitted and displayed.
本発明は、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、更に、受信側から送信側に途切れた旨を送信して表示することにより、IP電話における音声の途切れが発生しても同期して確実に音声テキストを表示、欠落部分を強調表示すると共に、送信側に音声の途切れた旨を送信して表示して知らせることが可能となる。 In the present invention, when a call is made between the transmission side and the reception side in the telephone system, even if a break occurs in the middle as a voice on the reception side, the voice text is synchronously displayed and the broken portion is highlighted, In addition, by sending and displaying the interruption from the receiving side to the transmitting side, even if there is a voice interruption in the IP phone, the voice text is displayed reliably and the missing part is highlighted and transmitted. It is possible to transmit and display the fact that the sound is interrupted to the side.
本発明は、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、受信側から送信側に途切れた旨を送信して表示したりすることを実現した。 In the present invention, when a call is made between the transmission side and the reception side in the telephone system, even if a break occurs in the middle as a voice on the reception side, the voice text is synchronously displayed and the broken portion is highlighted, It has been possible to send and display the fact that there is a break from the receiving side to the sending side.
図1は、本発明のシステム構成図を示す。
図1の(a)は、全体システム構成図を示す。
FIG. 1 shows a system configuration diagram of the present invention.
FIG. 1A shows an overall system configuration diagram.
図1の(a)において、端末1は、固定加入電話/携帯電話などの通話する端末であって、ここでは、送話側の端末を端末A,受話側の端末を端末Bとしたものであり、相互に通話および同期したテキスト情報を表示するためのものである。
In FIG. 1A, a
収容基地局2は、ネットワーク4に接続され、端末1と加入者回線(無線、有線)を介して相互にパケットで通話するものであって、ここでは、送話側の端末Aとの間に通話するものを収容基地局A,受話側の端末Bと通話するものを収容基地局Bとしたものである。端末1と収容基地局2との間には、通話時に、音声情報および当該音声情報を文字認識したテキスト情報と識別情報が相互に送受信される(図2から図11参照)。
The accommodated
サーバ3は、ネットワーク4に接続され、送話側の端末Aと、受話側の端末Bとの間の呼管理(呼の接続、課金管理など)を行うものである。
The
ネットワーク4は、パケットを相互に通信する通信路であって、ここでは、収容基地局A,収容基地局B、サーバなどを接続し、端末Aと端末Bとが相互に通話(通話およびテキスト情報を表示)するものである。
The
図1の(b)は、パケット例を示す。これは、端末Aからネットワーク4を介して端末Bに向けて送信するパケットの例を示す。
FIG. 1B shows an example packet. This shows an example of a packet transmitted from the terminal A to the terminal B via the
図1の(b)において、送信ブロック100は、図1の(a)の送話側の端末Aが、ユーザから発声されたアナログの音声信号をサンプリングしてデジタルの音声信号に変換し、これをパケットに設定した音声情報パケット300および当該音声信号を文字認識してテキスト情報にし、これをパケットに設定したテキスト情報パケット400の両者を含むものであって、送信側の端末Aからネットワーク4に向けて送信するものである。
In FIG. 1B, the
受信ブロック200は、ネットワーク4から、受話側の端末Bが受信する受信ブロックを示す。当該受信ブロック200から音声情報およびテキスト情報をそれぞれ取り出すためのものである。
The
図1の(c)は、音声照合情報例を示す。これは、図1の(b)のテキスト情報について、データ部に、テキスト情報本体401に加えて、音声照合情報402が設定されているのでこれを取り出し、後述するように、音声の発声に併せて当該テキスト情報本体401を同期して表示したり、音声パケットが欠落したときにテキスト情報中の欠落した部分を強調表示したりなどするためのものである(図2から図11参照)。
FIG. 1C shows an example of voice collation information. This is because, with respect to the text information of FIG. 1B, since
図2は、本発明の端末(送話側)の例を示す。
図2において、呼設定・管理手段11は、ネットワーク4との間(更に、受話側の端末B)に呼を設定して管理するものであって、ここでは、呼を設定して通話可能となったときに、スタート情報を入力サンプリング手段12に送出し、通話の開始情報を音声情報中に埋め込むものである(図5の(1)A参照)。
FIG. 2 shows an example of the terminal (sending side) of the present invention.
In FIG. 2, the call setting / management means 11 sets and manages a call with the network 4 (further, the terminal B on the receiving side). When this happens, the start information is sent to the input sampling means 12, and the call start information is embedded in the voice information (see (1) A in FIG. 5).
入力サンプリング手段12は、ユーザAからの音声信号の入力サンプリング時間を記録したり、呼設定・管理手段11からの通話の開始情報を当該音声信号中に埋め込んだりなどするものである(図5の(1)A参照)。 The input sampling means 12 records the input sampling time of the voice signal from the user A, and embeds the call start information from the call setting / management means 11 in the voice signal (FIG. 5). (1) See A).
符号化処理手段13は、音声信号(含む、通話の開始情報)をサンプリング時間単位でサンプリングしてデジタルの音声信号を生成するものである(図5の(2)B参照)。 The encoding processing means 13 generates a digital audio signal by sampling an audio signal (including call start information) in sampling time units (see (2) B in FIG. 5).
RTP情報生成手段14は、符号化処理手段13で生成されたデジタルの複数の符号化された音声情報を束ねてパケット用データ(RTP情報)を生成するものである(図6の(5)E参照)。
The RTP
音声情報パケット化手段15は、パケット用データ(RTP情報)をパケットにするものである。そして、生成したパケットをネットワークに送出する。 The voice information packetizing means 15 converts packet data (RTP information) into a packet. Then, the generated packet is sent to the network.
テキスト化処理手段16は、音声を文字認識してテキスト情報とし、これに音声照合情報を付加するものであって、音声読込手段161、テキスト情報化手段162などから構成されるものである(図5の(4)D参照)。 The text processing means 16 recognizes speech as text information and adds voice collation information to the text information. The text processing means 16 includes a voice reading means 161, a text information converting means 162, and the like (see FIG. 5 (4) D).
音声読込手段161は、音声を読み込むものである。
テキスト情報化手段162は、どの入力サンプリング時間の音声信号をテキスト化したかの情報を記録するものである(図5の(4)D参照)。
The voice reading means 161 reads voice.
The text information converting means 162 records information indicating which input sampling time the audio signal is converted into text (see (4) D in FIG. 5).
時間情報照合手段17は、スタート情報の含まれる入力サンプリング時間とRTPタイムスタンプ位置を合わせ、時間対応情報を、テキスト情報パケット化手段18に送信するものである(図5の(4)D参照)。
The time
テキスト情報パケット化手段18は、ネットワークの互換性、相互接続性を維持するために例えばIETF標準のパケットを生成するものである(図6の(6)F参照)。 The text information packetizing means 18 generates, for example, an IETF standard packet in order to maintain network compatibility and interconnection (see (6) F in FIG. 6).
次に、図3および図4のフローチャートの順番に従い、図1、図2の構成の動作を詳細に説明する。 Next, the operation of the configuration of FIGS. 1 and 2 will be described in detail according to the order of the flowcharts of FIGS. 3 and 4.
図3は、本発明の動作説明フローチャート(呼設定から通話開始まで)を示す。ここで、端末Aは図1、図2の発話側の端末A、サーバ3は図1、図2のサーバ3、端末Bは図1、図2の受話側の端末Bである。ユーザA(送話)は送話側のユーザAの番号操作、発話などを表す。端末Aの音声情報、テキスト情報は、当該端末Aの側の音声情報、テキスト情報の符号化などの処理を表す。端末Bの音声情報、テキスト情報は、当該端末Bの側の音声情報、テキスト情報の表示などの処理を表す。
FIG. 3 is a flowchart for explaining the operation of the present invention (from call setting to call start). Here, the terminal A is the utterance side terminal A in FIGS. 1 and 2, the
図3において、S1は、ユーザA(発話)が番号投入する。これは、発話側のユーザAが受話側の端末Bの電話番号をダイヤル入力する。 In FIG. 3, user A (utterance) inputs a number in S1. In this case, the user A on the speaking side dials the telephone number of the terminal B on the receiving side.
S2は、発呼処理を行う。これは、S1でユーザAがダイヤルしたことに対応して、当該番号の発呼を行う。 In S2, call processing is performed. In response to the dialing by user A in S1, this number is called.
S3は、サーバ3が受話側端末を認識する。これは、サーバ3がS2で発呼された受話側の端末Bの電話番号を認識する。
In S3, the
S4は、発呼処理を行う。これは、S3でサーバ3が認識した受話側の端末Bの電話番号に発呼する。
In S4, call processing is performed. This calls to the telephone number of the terminal B on the receiving side recognized by the
S5は、端末Bで着信処理を行う。
S6は、呼び出しする。これらS5、S6は、S4でサーバ3から発呼された受話側の端末Bが着信処理を行うと共にユーザBを呼び出すためのベルを鳴らす。
In S5, the terminal B performs incoming processing.
S6 calls. In S5 and S6, the terminal B on the receiving side called from the
S7は、着信通知する。端末BがS5で着信したことを認識したので、当該着信した返答をサーバ3に返す。
In S7, an incoming call is notified. Since the terminal B recognizes that it has received an incoming call in S5, it returns the incoming response to the
S8は、呼開設監視を開始すると共に、呼び出し中を送話側に返答する。
S9は、送話側の端末Aに呼び出し中表示(あるいは呼び出し音声を発声)する。
In step S8, call establishment monitoring is started, and the calling side is returned to the transmitting side.
In S9, a call-in-progress display (or a calling voice is made) is displayed on the terminal A on the transmission side.
S11は、オフフックする。これは、S6の呼び出しに対応して、ユーザBが受話側の端末Bの受話器を取り上げる。 S11 goes off-hook. In response to the call of S6, the user B picks up the receiver of the terminal B on the receiver side.
S12は、応答通知する。
S13は、S12の応答通知に対応して、サーバ3が課金開始する。
In S12, a response is notified.
In S13, the
S14は、端末Bが通話セッションを開始する。
S15は、サーバ3が呼開設通知を端末Aに送信する。
In S14, the terminal B starts a call session.
In S15, the
S16は、端末Aが通話セッションを開始する。
S17は、通話開始する。これにより、発話側の端末AのユーザAと、受話側の端末BのユーザBとが相互に通話および当該通話に同期してテキスト情報を表示することが相互に可能となる。
In S16, the terminal A starts a call session.
In S17, a call is started. As a result, the user A of the terminal A on the speaking side and the user B of the terminal B on the receiving side can mutually communicate and display text information in synchronization with the call.
次に、通話とテキスト情報の同期表示について詳細に説明する。
図3において、S21は、ユーザAが通話する。
Next, the synchronous display of a call and text information will be described in detail.
In FIG. 3, user A makes a call in S21.
S22は、音声符号化する。
S23は、音声パケット化する。これらS22、S23により、ユーザAが送話側の端末Aの受話器に送話すると、サンプリングして符号化し、更に、パケットにしてネットワークを介して受話側の端末Bに向けて順次送信する。
In S22, speech encoding is performed.
In S23, voice packetization is performed. When the user A transmits to the handset of the terminal A on the transmitting side by S22 and S23, it is sampled and encoded, and further transmitted as a packet toward the terminal B on the receiving side via the network.
S24は、送話音声を読み込む。
S25は、音声テキスト化する。
In S24, the transmitted voice is read.
In S25, it is converted into a voice text.
S26は、テキストパケット化する。これらS24からS26により、ユーザAが送話側の端末Aの受話器に送話すると、当該送話された音声を読み込んで音声認識してテキスト化および音声照合情報を付加し、更に、これらをパケットにしてネットワークを介して受話側の端末Bに向けて順次送信する。 In S26, a text packet is formed. When the user A transmits to the receiver of the terminal A on the transmitting side through S24 to S26, the transmitted voice is read and recognized, added to text and voice verification information, and further, these are packetized. Then, the data are sequentially transmitted to the terminal B on the receiving side via the network.
以上のS21からS26によって、ユーザAが送話側の端末Aの受話器に送話すると、音声符号化してパケット化、および音声を文字認識してテキスト化および音声照合情報を付加してパケット化し、受話側の端末Bに向けて当該パケットを送信することが可能となる。この際、テキスト情報のパケットは、音声が所定閾値よりも小さいときあるいは音声が無いときに送出するようにしている。 When the user A transmits to the receiver of the terminal A on the transmitting side by the above S21 to S26, the speech encoding is performed to packetize the speech, and the speech is recognized and converted into text and speech verification information is added to be packetized. The packet can be transmitted toward the terminal B on the receiving side. At this time, the text information packet is transmitted when the voice is smaller than a predetermined threshold or when there is no voice.
S27は、初期化する。
S28は、バッファ処理を行う。
S27 is initialized.
In S28, buffer processing is performed.
S29は、音声復号化する。
S30は、受話する。これらS28、S29、S30は、S23で送話側のユーザAの送話をパケット化したパケットを、端末Bが受信したときに、当該受信したパケットをバッファに一旦格納した後、所定時間遅延して時間順に当該バッファから該当パケットを取り出し、復号化して元の音声信号にし、受話器で元の音声に戻して出力し、ユーザBに聞かせる。
In S29, voice decoding is performed.
S30 receives a call. These S28, S29, and S30 are delayed for a predetermined time after the terminal B receives the packet obtained by packetizing the transmission of the user A on the transmitting side in S23 and temporarily stores the received packet in the buffer. Then, the corresponding packet is taken out from the buffer in order of time, decoded to be the original voice signal, returned to the original voice by the receiver, and output to the user B.
S31は、同期処理を行う。
S32は、表示処理を行う。
In S31, a synchronization process is performed.
In S32, display processing is performed.
S33は、テキスト表示する。これらS31、S32、S33は、S26で送話側のユーザAの送話を文字認識したテキスト情報をパケット化したパケットを、端末Bが受信したときに、当該パケット中の音声照合情報をもとに同期処理を行い、端末Bの表示画面上にテキスト情報を音声と同期して表示する(図7から図11参照)。 S33 displays text. These S31, S32, and S33 are based on the voice collation information in the packet when the terminal B receives a packet obtained by packetizing the text information obtained by character recognition of the transmission of the user A on the transmission side in S26. And the text information is displayed on the display screen of the terminal B in synchronization with the voice (see FIGS. 7 to 11).
同様に繰り返しと記載したように、S21からS33を繰り返すことにより、送話側の端末Aから受話側の端末Bに、音声および当該音声を認識したテキスト情報とその音声照合情報とをパケットにして送信して受信し、発声およびテキスト情報を同期化して表示することが可能となる(図7から図11参照)。 Similarly, as described as “repeat”, by repeating S21 to S33, the voice and the text information recognizing the voice and the voice collation information are packetized from the transmitting terminal A to the receiving terminal B. It is possible to transmit and receive and display the utterance and text information in synchronization (see FIGS. 7 to 11).
図4は、本発明の動作説明フローチャート(通話から呼開放まで)を示す。
図4において、S41は、通話終了する。
FIG. 4 is a flowchart for explaining the operation of the present invention (from a call to a call release).
In FIG. 4, S41 ends the call.
S42は、ユーザB(受話)がオフフックする。これは、ユーザBが端末Bの受話器を置き、通話を終了する。 In S42, user B (received call) goes off-hook. In this case, the user B puts the handset of the terminal B and ends the call.
S43は、端末Bが通話セッション終了通知をサーバ3に行う。
S44は、サーバ3が課金終了する。
In S43, the terminal B sends a call session end notification to the
In S44, the
S45は、サーバ3が課金通知を送話側の端末Aに通知する。
S46は、端末Aが通話セッションを終了する。
In S45, the
In S46, the terminal A ends the call session.
S47は、端末Aが音声の符号化を終了する。
S48は、端末Aがテキスト化を終了する。
In S47, the terminal A ends the encoding of the voice.
In S48, the terminal A ends text conversion.
S49は、サーバ3が呼開放する。
S50は、端末Bがテキスト情報の表示処理を終了する。
In S49, the
In S50, the terminal B ends the text information display process.
S51は、端末Bが音声パケットの復号化を終了する。
以上によって、通話終了処理を行うことが可能となる。
In S51, terminal B finishes decoding the voice packet.
As described above, the call termination process can be performed.
図5および図6は、本発明の説明図を示す。ここで、図2のA〜Fの各ポイントでの情報形態を以下に示す。音声は125μs単位にサンプリングし、RTP間隔を20msとする。 5 and 6 are explanatory diagrams of the present invention. Here, the information forms at the points A to F in FIG. 2 are shown below. The audio is sampled in units of 125 μs, and the RTP interval is set to 20 ms.
図5の(1)Aは、図2の入力サンプリング手段12から符号化処理手段13に入力する信号の例を示す。ここでは、呼設定・管理手段11からのスタート情報を、ユーザAが送話した音声信号中の図示の位置に挿入している。サンプリング時間は125μsである。これにより、スタート情報の位置を基準に、音声(125μs間隔でサンプリングしたデジタルの音声)と、音声を文字認識したテキスト情報との同期化を行うことが可能となる。 (1) A in FIG. 5 shows an example of a signal input from the input sampling means 12 in FIG. 2 to the encoding processing means 13. Here, the start information from the call setting / management means 11 is inserted into the illustrated position in the voice signal transmitted by the user A. The sampling time is 125 μs. This makes it possible to synchronize the voice (digital voice sampled at intervals of 125 μs) with the text information obtained by character recognition of the voice with reference to the position of the start information.
図5の(2)Bは、図2の符号化処理手段13からRTP情報生成手段14に入力される信号の例を示す。ここでは、図示のように、サンプリング時間(125μs間隔)毎に、サンプリング時間と、サンプリングされた音声信号(デジタル値)とを組した情報を生成する。
(2) B in FIG. 5 shows an example of a signal input to the RTP
図5の(3)Cは、図2の時間情報照合手段17がテキスト情報パケット化手段18に出力する信号の例を示す。ここでは、入力サンプリング時間と、RTPタイムスタンプ(ms)(スタート情報を含む)とを対応づけた情報である。尚、スタート情報の位置を確認することで、入力サンプリング時間とRTPタイムスタンプとの対応ができる。また、RTPタイムスタンプはパケットの生成間隔ごとの値をとる(図の例では20ms)。
(3) C in FIG. 5 shows an example of a signal output from the time
図5の(4)Dは、図2のテキスト化処理手段16からテキスト化情報パケット化手段18に入力される信号の例を示す。ここでは、入力サンプリング時間、テキスト情報シーケンス番号、テキスト情報内容を対応づけたものである。尚、テキスト情報については、スタート情報の位置と、テキスト化した先頭の入力サンプリング時間を記録することで、テキスト情報がどのRTPに対応しているか判明する。
(4) D in FIG. 5 shows an example of a signal input from the
図6の(5)Eは、図2のRTP情報生成手段14から音声情報パケット化手段15に入力する信号の例を示す。ここでは、RTP情報は、標準的な仕様で生成する(テキスト化情報との照合情報はここには記述されない)。これはテキスト表示できない端末との通信互換性を保つためである。 (5) E in FIG. 6 shows an example of a signal input to the voice information packetizing means 15 from the RTP information generating means 14 in FIG. Here, the RTP information is generated with a standard specification (the collation information with the text information is not described here). This is to maintain communication compatibility with terminals that cannot display text.
図6の(6)Fは、図2のテキスト情報パケット化手段7から出力される信号の例を示す。ここでは、テキスト情報ヘッダ(ヘッダ部)には、テキスト化した順序を示すシーケンス番号と、対応するRTPのタイムスタンプ情報とが記述されている。データ部には図1の(c)で既述したように、音声照合情報(ここでは、シーケンス番号、RTPタイムスタンプ)と、テキスト情報本体とが記述されている。 (6) F in FIG. 6 shows an example of a signal output from the text information packetizing means 7 in FIG. Here, in the text information header (header portion), a sequence number indicating the order of text conversion and corresponding RTP time stamp information are described. As described above with reference to FIG. 1C, voice collation information (here, sequence number, RTP time stamp) and text information main body are described in the data portion.
次に、図7から図11を参照して受話側の端末Bの構成および動作を詳細に説明する。
図7は、本発明の端末(受話側)の例を示す。
Next, the configuration and operation of the terminal B on the receiving side will be described in detail with reference to FIGS.
FIG. 7 shows an example of the terminal (receiving side) of the present invention.
図7において、呼設定・管理手段21は、呼を設定して管理するものであって、ここでは、受信開始(通話セッション開始時)を指示するものである。 In FIG. 7, the call setting / management means 21 sets and manages a call, and here, instructs to start reception (at the start of a call session).
音声情報受信処理手段22は、音声情報パケットを受信するものであって、ここでは、音声情報パケットの音声情報中からタイムスタンプ情報を読み取り、同期化処理手段26に渡すなどするものである。
The voice information
バッファ23は、受信した音声パケットを一時的に格納し、同期化処理手段26からの調整時間の通知をもとに、当該所定時間調整して同期化したパケットを取り出すためのものである。
The
復号化処理手段24は、音声パケットを復号し、デジタルの音声の戻すものである。
テキスト情報受信処理手段25は、テキスト情報パケットを受信するものであって、ここでは、テキスト情報中の音声照合情報として、テキスト化した音声情報パケットのタイムスタンプの範囲を取り出し、同期化処理手段26に渡すなどするものである。
The decoding processing means 24 decodes the voice packet and returns digital voice.
The text information
同期化処理手段26は、音声情報受信処理手段22から渡された音声パケットのタイムスタンプ情報と、テキスト情報受信処理手段25から渡された当該音声パケットの音声をパケット化したときのタイムスタンプの範囲の情報とをもとに、テキスト情報に同期化するように、バッファ23の深さを調整して音声パケットの同期化を行うものである(図8から図11参照)。
The synchronization processing means 26 is a time stamp range when the time stamp information of the voice packet passed from the voice information reception processing means 22 and the voice of the voice packet passed from the text information reception processing means 25 are packetized. On the basis of this information, the depth of the
表示処理手段27は、テキスト情報を表示するものである(図8から図11参照)。
図8は、本発明の受信ブロック200の構成例を示す。受信ブロック200は、図1の(b),(c)で既述したように、音声情報パケットと、テキスト情報パケットとが混在したものであって、ここでは、音声情報パケットに対して、テキスト情報パケットが図示の到着時間差t1を持つものである。
The display processing means 27 displays text information (see FIGS. 8 to 11).
FIG. 8 shows a configuration example of the
図9は、本発明の説明図(到着時間差等)を示す。
図9において、バッファ23のバッファの深さをtB(時間)とし、規定音声情報間隔をtc(時間)とし、音声パケットの規定音声情報間隔からのずれをΔt(時間)とすると、音声情報パケットがバッファ23に入力されてから出力されるまでの時間t2は、
t2=tB−Δt
となる。そして、この不ぞろいなt2の時間を持つ音声パケットをバッファ23に一時的に格納し、出力からはtcが一定の音声パケットを、図7の復号処理手段24に出力して音声に復号化することが可能となる。また、図8で既述した到着時間差t1が丁度tBにほぼ等しくなるように当該バッファの深さを調整することにより同期化を行い、音声情報パケットを復号化した音声と、テキスト情報パケットを復号化したテキスト情報との同期化を行うことが可能となる。
FIG. 9 is an explanatory diagram of the present invention (arrival time difference, etc.).
In FIG. 9, when the buffer depth of the
t2 = tB−Δt
It becomes. Then, the voice packet having the irregular t2 time is temporarily stored in the
図10は、本発明の表示例(音声情報欠落時のテキスト表示例)を示す。
図10の(a)は、原音の例を示す。ここでは、「ひゃくまんえん」(百万円)の例を示す。
FIG. 10 shows a display example of the present invention (text display example when voice information is missing).
FIG. 10A shows an example of the original sound. Here, an example of “Hyakumanen” (million yen) is shown.
図10の(b)は、送話側出力音声パケットの例を示す。ここでは、音声パケットは、欠落することなく出力されている。 FIG. 10B shows an example of the transmission side output voice packet. Here, the voice packet is output without being lost.
図10の(c)は、受話側に到着した音声情報パケットの例を示す。ここでは、黒印のものが欠落したとする。欠落したパケットを図示のように、黒印で表示してユーザBに知らせる。 FIG. 10C shows an example of a voice information packet that has arrived at the receiving side. Here, it is assumed that a black mark is missing. As shown in the figure, the missing packet is displayed with a black mark to inform the user B.
図10の(d)は、再生音の例を示す。再生音は、図10の(c)の音声情報パケットのうち、「ま」、「ん」の音声グループ内のパケットが欠落したので、当該「ま」、「ん」の音を再生不可であるので、「ひゃく−−えん」と再生され、「百円」と誤認識する事態が発生する恐れがある。この際、音声情報パケットが欠落した場合、送話側に欠落した音声部分(シーケンス番号、タイムスタンプ)を通知し、送話側の画面に同様に、図10の(c)のように欠落したパケット部分を強調表示するようにしてもよい。 FIG. 10 (d) shows an example of the reproduced sound. As for the reproduced sound, since the packets in the voice group “MA” and “N” are missing from the voice information packet in FIG. 10C, the sounds “MA” and “N” cannot be played back. Therefore, there is a possibility that the situation will be reproduced as “Hyaku--en” and mistakenly recognized as “100 yen”. At this time, if a voice information packet is missing, the missing voice part (sequence number, time stamp) is notified to the transmitting side, and the missing information is also displayed on the transmitting side as shown in FIG. The packet portion may be highlighted.
図10の(e)は、テキスト表示の例を示す。これは、図10の(b)の送話側出力音声情報パケットの元の音声情報を文字認識したテキスト情報「ひゃくまんえん」をパケットにし、受話側で受信して表示した例を示す。 FIG. 10E shows an example of text display. This shows an example in which text information “Hyakumanen” obtained by character recognition of the original voice information of the transmission side output voice information packet of FIG. 10B is received and displayed on the receiving side.
図11は、本発明の表示例を示す。
図11の(a)は、パケットの例を示す。これは、受話側で受信されたパケットの例を示す。欠落したパケットを強調表示する。
FIG. 11 shows a display example of the present invention.
FIG. 11A shows an example of a packet. This shows an example of a packet received at the receiving side. Highlight missing packets.
図11の(b)は、音声情報パケットの例を示す。これは、図11の(a)の受信パケットから音声情報パケットのみを抽出し、欠落したパケットを強調表示した例を示す。 FIG. 11B shows an example of a voice information packet. This shows an example in which only the voice information packet is extracted from the received packet of FIG. 11A and the missing packet is highlighted.
図11の(c)は、テキスト情報パケットの例を示す。これは、図11の(a)の受信パケットからテキスト情報パケットのみを抽出し、欠落したパケットを強調表示した例を示す。 FIG. 11C shows an example of a text information packet. This shows an example in which only the text information packet is extracted from the received packet in FIG. 11A and the missing packet is highlighted.
本発明は、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、更に、受信側から送信側に途切れた旨を送信して表示し、IP電話における音声の途切れが発生しても同期して確実に音声テキストを表示、欠落部分を強調表示すると共に、送信側に音声の途切れた旨を送信して表示して知らせる電話システムに関するものである。 In the present invention, when a call is made between the transmission side and the reception side in the telephone system, even if a break occurs in the middle as a voice on the reception side, the voice text is synchronously displayed and the broken portion is highlighted, Furthermore, a message indicating that the interruption has occurred is transmitted and displayed from the receiving side to the transmitting side, and even if there is a voice interruption in the IP phone, the voice text is displayed in a synchronized manner, the missing part is highlighted, and the transmitting side is highlighted. The present invention relates to a telephone system that transmits, displays, and notifies that a voice is interrupted.
1:端末
2:収容基地局
3:サーバ
4:ネットワーク
11、21:呼設定・管理手段
12:入力サンプリング手段
13:符号化処理手段
14:RTP情報生成手段
15:音声情報パケット化手段
16:テキスト化処理手段
161:音声読込手段
162:テキスト情報化手段
17:時間情報照合手段
18:テキスト情報パケット化手段
22:音声情報受信処理手段
23:バッファ
24:復号処理手段
25:テキスト情報受信処理手段
26:同期化処理手段
27:表示処理手段
1: Terminal 2: Accommodating base station 3: Server 4:
Claims (7)
送信側で音声をパケットにするおよび当該音声を音声認識したテキスト情報をパケットにすると共に、両者の同期を表す識別情報を付加して送信する手段と、
受信側で前記パケットを受信し、音声およびテキスト情報を出力する際に、前記識別情報をもとに当該音声と当該テキスト情報とを同期出力する手段と
を備えたことを特徴とする電話システム。 In a telephone system that sends audio on the sending side and receives it on the receiving side,
A means for transmitting voice by packetizing text information obtained by voice recognition of the voice on the transmission side, and adding identification information indicating synchronization between the two,
A telephone system comprising: means for synchronously outputting the voice and the text information based on the identification information when the receiving side receives the packet and outputs the voice and text information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006044730A JP4607028B2 (en) | 2006-02-22 | 2006-02-22 | Telephone system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006044730A JP4607028B2 (en) | 2006-02-22 | 2006-02-22 | Telephone system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007228114A true JP2007228114A (en) | 2007-09-06 |
JP4607028B2 JP4607028B2 (en) | 2011-01-05 |
Family
ID=38549501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006044730A Expired - Fee Related JP4607028B2 (en) | 2006-02-22 | 2006-02-22 | Telephone system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4607028B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6427327A (en) * | 1987-07-23 | 1989-01-30 | Fujitsu Ltd | Radio call system |
JPH09326886A (en) * | 1996-06-03 | 1997-12-16 | Nippon Telegr & Teleph Corp <Ntt> | Transmitter or storage device for content of multimedia information |
JP2002330233A (en) * | 2001-05-07 | 2002-11-15 | Sony Corp | Equipment and method for communication, recording medium and program |
-
2006
- 2006-02-22 JP JP2006044730A patent/JP4607028B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6427327A (en) * | 1987-07-23 | 1989-01-30 | Fujitsu Ltd | Radio call system |
JPH09326886A (en) * | 1996-06-03 | 1997-12-16 | Nippon Telegr & Teleph Corp <Ntt> | Transmitter or storage device for content of multimedia information |
JP2002330233A (en) * | 2001-05-07 | 2002-11-15 | Sony Corp | Equipment and method for communication, recording medium and program |
Also Published As
Publication number | Publication date |
---|---|
JP4607028B2 (en) | 2011-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7257202B2 (en) | Telephone communication system | |
US20020141386A1 (en) | System, apparatus and method for voice over internet protocol telephone calling using enhanced signaling packets and localized time slot interchanging | |
EP1773072A1 (en) | Synchronization watermarking in multimedia streams | |
US7486665B2 (en) | Transport of DTMF tones over VOATM/VOIP networks | |
JP2007013541A (en) | Wireless communication apparatus | |
JP2007019767A (en) | Ip telephone set | |
US7769054B2 (en) | Method of conducting a communications session using incorrect timestamps | |
JP5211736B2 (en) | VoIP communication device | |
US7743164B2 (en) | Method and apparatus for transmitting frequency shift key data in a packetized format | |
US20030036908A1 (en) | Home office communication system and method | |
JP4607028B2 (en) | Telephone system | |
EP2088759A1 (en) | A method, telephone system and telephone terminal for calling session | |
JP4492516B2 (en) | Voice IP packet switching device | |
JP5423534B2 (en) | Intercom system, center device, and noise removal method | |
JP2011239015A (en) | Network apparatus and telephone system | |
JP5696514B2 (en) | Media communication apparatus, method and program, and media communication system | |
JP4788553B2 (en) | Network connection device | |
JP4350273B2 (en) | Telephone system, terminal adapter device, and telephone | |
JP3593949B2 (en) | Adapter device and network system using the same | |
JP2004165818A (en) | Voip adaptor | |
JP7121333B2 (en) | cordless telephone equipment | |
KR101212628B1 (en) | Method and receiving unit for synchronizing a packet-oriented reception with a calculated tone signal | |
JP4898603B2 (en) | Communication apparatus and communication method | |
JP4087371B2 (en) | IP-compatible private branch exchange | |
CN100502439C (en) | Method, device and system for transmitting main call number on E&M link |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080919 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Effective date: 20101006 Free format text: JAPANESE INTERMEDIATE CODE: A61 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |