JP2017531197A

JP2017531197A - 文字データの内容を文字データ送信者の音声で出力する方法

Info

Publication number: JP2017531197A
Application number: JP2016562268A
Authority: JP
Inventors: キム、ドン−ミュン; クウォン、ユン−スー
Original assignee: エルジー・ケム・リミテッド
Priority date: 2014-08-06
Filing date: 2015-08-05
Publication date: 2017-10-19
Anticipated expiration: 2035-08-05
Also published as: US9812121B2; TW201633289A; EP3035718B1; JP6459080B2; EP3035718A4; KR20160017625A; WO2016021937A1; EP3035718A1; KR101703214B1; US20160210960A1; TWI613641B; CN105556999A

Abstract

本発明は、文字データの内容を文字データ送信者の音声で出力する方法を開示する。

Description

本発明は、文字データを出力する技術に関し、より詳しくは、端末機に伝送される文字データの内容を、文字データを送信した送信者の音声で出力する方法に関する。

本出願は、２０１４年８月６日出願の韓国特許出願第１０−２０１４−０１０１２３２号及び２０１５年８月４日出願の韓国特許出願第１０−２０１５−０１１００７２号に基づく優先権を主張し、該当出願の明細書及び図面に開示された内容は、すべて本出願に援用される。

最近、移動通信技術の発達により音声通話のみならず文字メッセージが広く用いられている。このような音声通話及び文字メッセージの送受信は、携帯電話またはスマートフォンなどのような移動通信端末機を通じて行われている。

ところが、前記文字メッセージは、視覚的に認識可能な文字で出力されることが一般的である。即ち、文字メッセージの受信した端末は、文字メッセージを単に文字形式で出力するようになる。文字メッセージが単に文字形式で出力される場合、視覚障害者は文字メッセージの内容を把握することができず、視覚障害者のみならず、非障害者も業務、運動、運転などのような活動中には、文字メッセージの内容を把握しにくい場合がある。また、文字形式のメッセージはその自体の限界から感情や親しみを伝達しにくい。最近、移動通信端末機が広く用いられ、その活用度が高くなるにつれ、移動通信端末機を用いて端末機使用者の感性を刺激する技術が求められている。

本発明は、上記問題点に鑑みてなされたものであり、文字データの内容を文字データ送信者の音声で出力可能にすることを目的とする。

また、本発明は、文字メッセージ送信者との音声通話中に送受信した音声信号を用いて文字メッセージ送信者についての音声情報を持続的にアップデートすることで、通話量が増加するほど実際の送信者の声に近接した音声を出力可能にすることを他の目的とする。

本発明の他の目的及び長所は、下記する説明によって理解でき、本発明の実施例によってより明らかに分かるであろう。また、本発明の目的及び長所は、特許請求の範囲に示される手段及びその組合せによって実現することができる。

上記の課題を達成するため、本発明の一面による文字を音声で出力する方法は、通信端末を介して音声を出力する方法であって、送信端末が、文字データを受信端末へ伝送する段階と、前記受信端末が、前記送信端末が伝送した文字データの内容を前記文字データ送信者の音声で出力する段階と、を含む。

前記方法は、前記文字データ受信段階の前に、前記文字データ送信者の音声データについての音声データベースを構築する段階をさらに含むことができる。

前記音声データベースを構築する段階は、前記文字データ送信者の音声データと前記音声データに相応する文字データとをマッチした状態で保存する段階であり得る。

前記音声データベースを構築する段階は、前記文字データ送信者の音声データ及び前記音声データに相応する文字データを文章別、文節別及び音節別に区分して保存する段階であり得る。

前記音声データベースを構築する段階は、前記送信端末と前記受信端末を用いた音声通話中に送受信した音声データを用いて、前記文字データ送信者の音声データについての音声データベースを構築する段階であり得る。

前記音声データベースを構築する段階は、前記送信端末と前記受信端末による音声通話が反復されることによって構築される段階であり得る。

前記音声データベースを構築する段階は、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在しない文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態でさらに保存することができる。

前記音声データベースを構築する段階は、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在する文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態で更新保存することができる。

前記音声データベースを構築する段階の後、前記送信端末と前記受信端末による音声通話から構築した音声データベースの構築程度を定量化する段階をさらに含むことができる。

前記定量化する段階の後、前記定量化する段階で定量化した値に応じて音声データベースの構築程度を所定等級にグレーディングする段階をさらに含むことができる。

前記グレーディングする段階の後、前記受信端末が、前記グレーディングする段階でグレーディングした等級を表示部に出力する段階をさらに含むことができる。

前記グレーディングした等級を出力する段階は、前記所定等級によって異なる視覚情報を出力することができる。

前記定量化する段階は、前記音声データベースに区分して保存された音声データと文字データの文章別、文節別及び音節別個数を合算することで音声データベースの構築程度を文字データ送信者別に定量化する段階であり得る。

前記定量化する段階は、前記音声データベースに区分して保存された音声データと文字データの文章別、文節別及び音節別個数にそれぞれ加重値を付与し、文章別、文節別及び音節別個数にそれぞれ加重値を付与した値を合算することで音声データベースの構築程度を文字データ送信者別に定量化する段階であり得る。

前記文章別個数に付与される加重値は、前記文節別個数に付与される加重値よりも大きいか同一であり、前記文節別個数に付与される加重値は、前記音節別個数に付与される加重値よりも大きいか同一であり得る。

前記方法は、前記音声で出力する段階の前に、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会する段階と、前記照会する段階の照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを音声データベースから抽出する段階と、前記抽出する段階で抽出した音声データを受信端末に伝送する段階と、をさらに含むことができる。

前記照会する段階の照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在する場合、前記音声データを抽出する段階は、前記音声データベースに保存された前記文字データ送信者の音声データを抽出する段階であり得る。

前記照会する段階の照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在しない場合、前記音声データを抽出する段階は、前記音声データベースに保存された機械音声を抽出する段階であり得る。

前記方法は、前記音声で出力する段階の前に、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会する段階と、前記照会する段階の照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを音声データベースから抽出する段階と、前記抽出する段階で抽出した音声データを受信端末に伝送する段階と、をさらに含み、前記音声データを抽出する段階は、前記送信端末が伝送した文字データに含まれた文章に相応する文章とマッチされる音声データを音声データベースから抽出する文章抽出段階と、前記送信端末が伝送した文字データに含まれた文節に相応する文節とマッチされる音声データを音声データベースから抽出する文節抽出段階と、前記送信端末が伝送した文字データに含まれた音節に相応する音節とマッチされる音声データを音声データベースから抽出する音節抽出段階と、を含むことができる。

前記文節抽出段階は、前記文章抽出段階の後に行われ、前記文章抽出段階において、所定文章に対する音声データの抽出が成功的に行われれば、前記所定文章に対する文節抽出段階は行われず、前記音節抽出段階は、前記文節抽出段階の後に行われ、前記文節抽出段階において、所定文節に対する音声データの抽出が成功的に行われれば、前記所定文節に対する音節抽出段階は行われなくてもよい。

前記文章抽出段階、前記文節抽出段階及び前記音節抽出段階は、前記送信端末が伝送した文字データに含まれた二つ以上の文章に対して反復的に行われ得る。

上記の課題を達成するため、本発明の他面による文字を音声で出力するシステムは、通信網と、前記通信網を介して文字データを受信端末に伝送する送信端末と、前記通信網を介して前記送信端末が伝送した文字データに相応する音声データとして、前記文字データを伝送した文字データ送信者の音声データを出力する受信端末と、を含む。

前記通信網は、前記文字データ送信者の音声データに対する音声データベースを構築する音声サーバーを備えることができる。

前記音声サーバーは、前記文字データ送信者の音声データと前記音声データに相応する文字データとをマッチして前記音声データベースに保存できる。

前記音声サーバーは、前記文字データ送信者の音声データ及び前記音声データに相応する文字データを、文章別、文節別及び音節別に区分して保存できる。

前記音声サーバーは、前記送信端末と前記受信端末を用いた音声通話中に送受信した音声データを用いて、前記文字データ送信者の音声データに対する音声データベースを構築することができる。

前記音声サーバーは、前記送信端末と前記受信端末による音声通話が反復される度に、前記音声データベースを構築することができる。

前記音声サーバーは、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在しない文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態でさらに保存可能である。

前記音声サーバーは、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在する文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態で更新保存できる。

前記音声サーバーは、前記送信端末と前記受信端末による音声通話から構築した音声データベースの構築程度を定量化できる。

前記音声サーバーは、前記定量化した値に応じて音声データベースの構築程度を所定等級にグレーディングできる。

前記受信端末は、前記所定等級にグレーディングした等級を表示部に出力できる。

前記受信端末は、前記所定等級によって異なる視覚情報を出力することができる。

前記音声サーバーは、前記音声データベースに区分して保存された音声データと文字データの文章別、文節別及び音節別個数を合算することで音声データベースの構築程度を文字データ送信者別に定量化できる。

前記音声サーバーは、前記音声データベースに区分して保存された音声データと文字データの文章別、文節別及び音節別個数にそれぞれ加重値を付与し、文章別、文節別及び音節別個数にそれぞれ加重値を付与した値を合算することで音声データベースの構築程度を文字データ送信者別に定量化できる。

前記音声サーバーは、前記送信端末が伝送した文字データを受信し、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会した後、照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを前記音声データベースから抽出し、抽出した前記音声データを前記受信端末に伝送できる。

前記照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在する場合、前記音声サーバーは、前記音声データベースに保存された前記文字データ送信者の音声データを抽出することができる。

前記照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在しない場合、前記音声サーバーは、前記音声データベースに保存された機械音声の抽出が可能である。

前記音声サーバーは、前記送信端末が伝送した文字データを受信し、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会した後、照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを前記音声データベースから抽出し、抽出した前記音声データを前記受信端末に伝送し、前記音声サーバーは、前記照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを前記音声データベースから抽出するに際し、前記送信端末が伝送した文字データに含まれた文字内容を前記音声データベースから照会し、前記送信端末が伝送した文字データに含まれた文章に相応する文章とマッチされる音声データ、前記送信端末が伝送した文字データに含まれた文節に相応する文節とマッチされる音声データ及び前記送信端末が伝送した文字データに含まれた音節に相応する音節とマッチされる音声データのうち少なくとも一つを抽出することができる。

前記音声サーバーは、前記送信端末が伝送した文字データに含まれた所定文章に相応する文章とマッチされる音声データが前記音声データベースに存在する場合、前記所定文章に対しては前記所定文章に相応する文章とマッチされる音声データのみを抽出し、前記送信端末が伝送した文字データに含まれた所定文節に相応する文節とマッチされる音声データが前記音声データベースに存在する場合、前記所定文節に対しては前記所定文節に相応する文節とマッチされる音声データのみを抽出することができる。

前記音声サーバーは、前記送信端末が伝送した文字データに含まれた二つ以上の文章に対して音声データを抽出することができる。

本発明によれば、送信端末が文字データを伝送するとき、受信端末は前記送信端末が伝送した文字データの内容を文字に加え、音声としても出力することができる。特に、本発明によれば、文字データを送信した送信者の音声で文字データの内容を出力することができる。

本発明の一面によれば、通信端末を用いた音声通話時、言い交わした音声データに基づいて通話者の音声をデータベース化するので、通話が反復するほど文字メッセージ送信者の実際の音声に近接した音声を出力することができる。

本発明の他面によれば、送信者が伝送した文字メッセージだけではなく、端末を用いて出力できる文字信号を送信者の音声で出力することができる。

本明細書に添付される次の図面は、本発明の望ましい実施例を例示するものであり、発明の詳細な説明とともに本発明の技術的な思想をさらに理解させる役割をするため、本発明は図面に記載された事項だけに限定されて解釈されてはならない。

本発明の一実施例による文字を音声で出力するシステムを示した図である。本発明の一実施例による音声データベースを概略的に示した図である。本発明の一実施例による音声データの抽出過程を示したフローチャートである。本発明の一実施例による文字を音声に変換するシステムを用いて送信端末が送信した文字メッセージの一文章を、受信端末が音声で出力する過程を例示的に示した図である。本発明の一実施例による文字を音声で出力する方法を概略的に示したフローチャートである。

以下、添付された図面を参照して本発明の望ましい実施例を詳しく説明する。これに先立ち、本明細書及び特許請求の範囲に使われた用語や単語は通常的や辞書的な意味に限定して解釈されてはならず、発明者自らは発明を最善の方法で説明するために用語の概念を適切に定義できるという原則に則して本発明の技術的な思想に応ずる意味及び概念で解釈されねばならない。

したがって、本明細書に記載された実施例及び図面に示された構成は、本発明のもっとも望ましい一実施例に過ぎず、本発明の技術的な思想のすべてを代弁するものではないため、本出願の時点においてこれらに代替できる多様な均等物及び変形例があり得ることを理解せねばならない。

なお、本発明の説明にあたり、本発明に関連する公知技術ついての具体的な説明が、不要に本発明の要旨をぼやかすと判断される場合、その詳細な説明を略する。

図１は、本発明の一実施例による文字を音声で出力するシステムを示した図である。

図１を参照すれば、本発明の一実施例による文字を音声で出力するシステムは、送信端末１０、受信端末２０及び移動通信網３０を含む。

前記送信端末１０及び受信端末２０は、文字データを送受信できる通信端末であって、音声通話が可能な通信端末である。一例で、前記通信端末は、スマートフォンまたはタブレットＰＣなどであってもよい。図面においては送信端末１０と受信端末２０をスマートフォンとして示したが、スマートフォンは一例であり、本発明の送信端末１０と受信端末２０はスマートフォンに限定されない。

前記送信端末１０が伝送する文字データは、受信端末２０の表示部に文字で表示可能なデータである。より具体的に、前記送信端末１０が伝送する文字データは、送信端末１０で変調されて受信端末２０に伝送されるデータであって、前記データは、受信端末２０に伝送された後、受信端末２０で復調されて表示部に文字で示されるデータである。一例で、前記文字データは、ビット（ｂｉｔ）の集合であり得る。

一実施例によれば、送信端末１０の使用者、即ち、送信者が送信端末１０に文字を入力して伝送すれば、前記文字は文字データに変調された後、移動通信網３０を介して受信端末２０に伝送される。

前記受信端末２０は、伝送を受けた文字データを視覚的に認識可能な文字に復調して表示部に示すことができる。また、前記受信端末２０は、伝送を受けた文字データだけではなく多様な視覚情報を前記表示部に出力することができる。

本発明の一実施例による受信端末２０は、送信端末１０が伝送した文字データの内容を文字で出力できるだけでなく、送信端末１０が伝送した文字データの内容を音声で出力することができる。

より具体的に、前記受信端末２０は、前記文字データの内容を、文字データを送信した送信者の音声で出力することができる。即ち、前記受信端末２０は、文字データの内容を送信端末１０の使用者の音声で出力することができる。

前記受信端末２０は、音声出力のためにスピーカーを備えることができる。また、前記受信端末２０は、送信端末１０が伝送した文字データの内容を音声で出力するために、前記文字データに相応する音声データを外部から伝送を受けることができる。前記受信端末２０は、外部から伝送された音声データをスピーカーを介して出力することができる。前記音声データは、受信端末２０で復調されてスピーカーを介して出力可能なデータであって、ビットの集合であり得る。

前記受信端末２０は、移動通信網３０から伝送された文字データを復調した後、その内容を表示部に出力することもでき、移動通信網３０から伝送された音声データを復調した後、音声信号をスピーカーを介して出力することもできる。

前記移動通信網３０は、文字サーバー２００及び音声サーバー１００を備えることができる。前記移動通信網３０は、文字サーバー２００及び音声サーバー１００を用いて、文字データ及び音声データを送受信することができる。

前記文字サーバー２００は、送信端末１０から文字データを受信し、受信端末２０に文字データを伝送できる。また、前記文字サーバー２００は、送信端末１０から受信した文字データを保存する文字データベース２１０を備えることができる。

前記音声サーバー１００は、文字データと前記文字データに相応する音声データとがマッチされた状態で保存された音声データベース１１０を含む。前記音声データベース１１０は、話者別に文字データと音声データとがマッチされた状態で保存された資料である。

また、一実施例によれば、前記音声データベース１１０には、文字データと音声データとが、文章別、文節別及び／または音節別に互いにマッチされた状態で保存可能である。例えば、前記音声データベース１１０には、「こんにちは。今日は寒いですね。」という文字データとこれに相応する音声データとがマッチされた状態で保存可能である。ここで、前記音声データベース１１０には、「こんにちは。」、「今日は寒いですね。」という二つの文章をそれぞれ文字データとこれに相応する音声データとがマッチされた状態で保存でき、「こんにちは」、「今日は」、「寒い」、「ですね」という文節に区切り、それぞれの文節に対する文字データとこれに相応する音声データとがマッチされた状態で保存でき、「こん」、「に」、「ち」、「は」、「きょう」、「は」、「さ」、「む」、「い」、「で」、「す」、「ね」という音節に区切り、それぞれの音節に対する文字データとこれに相応する音声データとがマッチされた状態で保存できる。そして、このような情報はそれぞれの話者別に音声データベース１１０に保存できる。

図２は、本発明の一実施例による音声データベース１１０を概略的に示した図である。

図２を参照すれば、本発明の一実施例による音声データベース１１０には、話者別に、文字データと音声データとがマッチされた状態で保存されている。即ち、本発明の一実施例による音声データベース１１０には、文字データと音声データとがマッチされた状態で保存されており、この際、話者別に区分された状態で文字データと音声データとが保存される。

さらには、本発明の一実施例による音声データベース１１０には、文字データ及びこれに相応する音声データが話者別に区分して保存されるだけでなく、各話者について、文章別、文節別及び音節別に区分して文字データと音声データが保存される。

一実施例によれば、前記音声データベース１１０は、送信端末１０と受信端末２０によって行われた通話から構築可能である。即ち、送信端末１０と受信端末２０により行われた通話から抽出した音声データを用いて音声データベース１１０を構築することができる。

一実施例によれば、前記音声サーバー１００は、送信端末１０と受信端末２０によって行われた通話を構成する音声データを抽出することができる。この際、前記音声サーバー１００は、通話を構成する音声データをリアルタイムで抽出するか、通話が終了した後に抽出することができる。前記音声サーバー１００は、通話を構成する音声データを話者別に文章別、文節別、音節別にそれぞれ保存することができる。そして、前記音声サーバー１００は、前記音声データから前記音声データに相応する文字データを抽出することができる。例えば、前述の例のように、前記音声サーバー１００は、ＡとＢとの通話で言われたＡの挨拶である「こんにちは。今日は寒いですね。」という音声データから文章別、文節別、音節別に文字データを抽出することができる。この際、音声データからの文字抽出は、公知の音声認識技術などを用いて行うことができる。一実施例によれば、前記音声データからの文字抽出は、音節単位の音声認識に通じて音声データの全ての音節に対する文字抽出によって行うことができる。全ての音節に対する文字データの抽出が行われれば、音節別に音声データと文字データとをマッチした後、文節別に音声データと文字データとをマッチした後、文章別に音声データと文字データとをマッチする方式によって音節別、文節別、文章別に文字データと音声データとがマッチされた音声データベース１１０を構築することができる。

また、前記音声サーバー１００は、送信端末１０と受信端末２０による音声通話が反復される度に音声データベース１１０を構築することができる。即ち、前記音声サーバー１００は、送信端末１０と受信端末２０による音声通話が反復される度に音声データベース１１０をアップデートすることができる。前記音声サーバー１００は、通話を構成する音声データが、既に構築された音声データベース１１０に存在するかを検索した後、通話を構成する音声データが、既に構築された音声データベース１１０に存在しない場合、前記音声データを前記音声データに相応する文字データとマッチして保存することができる。この際、音声データは、文字データと音節別、文節別、文章別にマッチされた状態で保存可能である。通話を構成する音声データが、既に構築された音声データベース１１０に存在する場合は、前記音声サーバー１００は、既に構築された音声データベース１１０に存在する音声データを維持することもでき、既に構築された音声データベース１１０に存在する音声データを、最近データに更新することもできる。望ましくは、前記音声サーバー１００は、既に構築された音声データベース１１０を更新する方式で前記音声データベース１１０をアップデートすることができる。

前記音声データベース１１０は、送信端末１０と受信端末２０による通話が多くなるほどアップデートされ、送信端末１０の話者についての音声情報を漸進的に補完することができる。即ち、送信端末１０と受信端末２０による通話量が増加するほど音声データは話者の実際音声に近くなる。なぜなら、音節についての音声データが多くなるほど多様な文字を音声で表現することができ、文節または文章についての音声データが多くなるほど実際の音声に近い音声を出力することができるためである。

一実施例によれば、前記音声サーバー１００は、送信端末１０と受信端末２０による音声通話から構築した音声データベース１１０の構築程度を定量化することができる。即ち、音声データベース１１０が構築された程度は、所定基準によって定量的に評価可能である。ここで、定量的に評価された値は所定等級に区分可能である。即ち、音声サーバー１００は、音声データベース１１０の構築程度を定量化した値に応じて音声データベース１１０の構築程度を所定等級にグレーディングすることができる。

音声サーバー１００が定量化した値及び／または定量化した値による等級は、音声データベース１１０または別途の保存媒体に保存することができ、受信端末２０に伝送することができる。受信端末２０は、前記定量化した値及び／または定量化した値による等級を音声サーバー１００から伝送を受けて所定等級別に他の視覚情報を出力することができる。例えば、音声データベース１１０の構築程度が５つの等級に分けられる場合と仮定するとき、受信端末２０は、１等級の場合、５つの星印（☆）を表示部に出力することができ、２等級の場合は４つの星印を出力することができ、３等級の場合は３つの星印、４等級は２つの星印、５等級の場合は一つの星印を出力することができる。ここで、星印（☆）で示される視覚情報は一例に過ぎず、多様な視覚情報を通じて音声データベース１１０の構築程度を表示部に示すこともできる。

なお、音声データベース１１０の構築程度を定量的に評価する方法は、多様に設定可能である。一実施例によれば、前記音声サーバー１００は、音声データベース１１０に区分して保存された文章別、文節別及び音節別個数を合算することで音声データベース１１０の構築程度を文字データの送信者別に定量化することができる。例えば、音声データベース１１０に区分して保存された音声データと文字データの文章数が１，０００個であり、文節数が１０，０００個であり、音節数が１００，０００個であると仮定すれば、音声データベースの構築程度は１１１，０００（＝１，０００＋１０，０００＋１００，０００）と定量化することができる。他の実施例によれば、前記音声サーバー１００は、音声データベース１１０に区分して保存された文章別、文節別及び音節別個数にそれぞれ加重値を付与し、文章別、文節別及び音節別個数にそれぞれ加重値を付与した値を合算することで音声データベース１１０の構築程度を定量化することができる。前記の例示のように、音声データベース１１０に区分して保存された音声データと文字データの文章数が１，０００個であり、文節数が１０，０００個であり、音節数が１００，０００個であると仮定すれば、文章数にはａの加重値が付与され、文節数にはｂの加重値が付与され、音節数にはｃの加重値が付与され得る。したがって、音声データベース１１０の構築程度は、１，０００×ａ＋１０，０００×ｂ＋１００，０００×ｃと定量化することができる。望ましくは、文章別個数、文節別個数及び音節別個数にそれぞれ付与される加重値は、文章の完成度を考慮して次のように付与可能である。即ち、文章別個数に付与される加重値は、文節別個数に付与される加重値よりも大きいか同一であり、文節別個数に付与された加重値は、音節別個数に付与される加重値よりも大きいか同一となるように設定することが望ましい（即ち、前記例示においては、ａ≧ｂ≧ｃ）。

また、前記音声サーバー１００は、外部から受信した文字データに相応する音声データを、前記音声データベース１１０から照会することができる。この際、前記音声サーバー１００は、外部から受信した文字データに相応する音声データを話者別に照会することができる。そして、前記音声サーバー１００は、文字データに相応する音声データを音声データベース１１０から抽出し、抽出した音声データを受信端末２０に伝送することができる。例えば、Ａという人が送信端末１０を用いて文字データを受信端末２０に伝送した場合、前記音声サーバー１００は、Ａという話者についての情報を音声データベース１１０から照会し、Ａ話者についての音声データを抽出することができ、抽出したＡの音声データを受信端末２０に伝送することができる。

また、前記音声サーバー１００は、外部から受信した文字データに相応する音声データを文章別、文節別、音節別に照会することができる。望ましくは、前記音声サーバー１００は、文字データを文章、文節、音節の順に照会することができる。

図３は、本発明の一実施例による音声データの抽出過程を示したフローチャートである。

図３を参照すれば、本発明の一実施例による音声サーバー１００は、次のような過程によって音声データベース１１０から音声データを抽出する。

先ず、音声サーバー１００は、外部から文字データを受信する（Ｓ３０１）。例えば、図１に示したように、音声サーバー１００は、文字サーバー２００から文字データを受信することができる。続いて、音声サーバー１００は、受信した文字データを送信した者についての情報が音声データベース１１０に存在するかを照会する（Ｓ３０３）。音声サーバー１００の照会結果、音声データベース１１０に文字データ送信者についての情報が保存されていれば、文字データに相応する送信者の音声データを抽出する過程を行い、そうでなければ、文字データを機械音声に変換する過程を行う（Ｓ３１５）。

より具体的に、音声サーバー１００の照会結果、音声データベース１１０に文字データ送信者についての情報が保存されている場合、音声サーバー１００は、文字データの文章に相応する文章が音声データベース１１０に存在するかを照会する（Ｓ３０５）。文字データの文章に相応する文章が音声データベース１１０に存在する場合、音声サーバー１００は、文字データの文章とマッチされる音声データ（文章）を音声データベース１１０から抽出する（Ｓ３０７）。一方、文字データの文章に相応する文章が音声データベース１１０に存在しない場合、音声サーバー１００は、文字データの文節に相応する文節が音声データベース１１０に存在するかを照会する（Ｓ３０９）。文字データの文節に相応する文節が音声データベース１１０に存在する場合、音声サーバー１００は、音声データベース１１０から文字データの文節とマッチされる音声データ（文節）を抽出する（Ｓ３１１）。一方、文字データの文節に相応する文節が音声データベース１１０に存在しない場合、音声サーバー１００は、文字データの音節とマッチされる音声データ（音節）を抽出する（Ｓ３１３）。

音声データベース１１０に送信者の情報が存在する場合、音声サーバー１００は、文字データの文章別に前述の過程（Ｓ３０５〜Ｓ３１３）を反復して文字データの全部についての音声データを抽出することができる。音声サーバー１００は、抽出した音声データを受信端末２０に伝送し、受信端末２０が送信者の音声で文字を出力するようにする。

一方、文字データの音節とマッチされる音声データが音声データベース１１０に存在しない場合、音声サーバー１００は、音声資料が不足で音声変換が不可能というメッセージを受信端末２０に伝送するか、文字データを既に保存されていた機械音声に変換し、これを受信端末２０に伝送することができる。文字データを機械音声に変換するに際し、音声サーバー１００は音声資料が不足な音節に対してのみ機械音声に変換することもでき、文章全体を機械音声に変換することもでき、不足な音節に対しては音声変換を行わないこともできる。前記機械音声は、送信者別の音声データと同様に音声データベース１１０に保存可能であり、知られた多様な音節、文節、文章についての音声データが文字データとマッチされた状態で音声データベース１１０に保存可能である。

また、音声データベース１１０に送信者の情報が存在するかを判断した結果、音声データベース１１０に送信者の情報が存在しない場合は、文字データを既に保存された機械音声に変換することができる。前記機械音声は、音声データベース１１０に予め保存可能である。

図４は、本発明の一実施例による文字を音声に変換するシステムを用いて送信端末１０が送信した文字メッセージの一文章を受信端末２０が音声で出力する過程を例示的に示した図である。

図４を参照すれば、本発明の一実施例による文字を音声に変換するシステムは、送信端末１０、受信端末２０、移動通信網３０を含む。前記移動通信網３０は、文字サーバー２００、音声サーバー１００を含み、前記音声サーバー１００には音声データベース１１０が備えられる。図４の例示において音声サーバー１００に備えられた音声データベース１１０は、話者別に文字データが音声データとマッチされた状態で構築されているだけでなく、文字データと音声データとが、文章別、文節別、音節別にそれぞれ音声データとマッチされた状態で構築されている。また、図４の例示において、話者Ａに係わる音声データベース１１０は、「こんにちは」という文章または文節と、「今日は」、「寒い」という文節と、「こん」、「に」、「ち」、「は」、「きょう」、「は」、「さ」、「む」、「い」、「で」、「す」、「ね」という音節とそれぞれマッチされる音声データを、各文章、文節、音節とマッチした状態で保存している。

先ず、送信端末１０が「こんにちは。今日は寒いですね。」という文字メッセージを受信端末２０に伝送すれば、文字データは文字サーバー２００に伝送され、文字サーバー２００は受信した文字データを受信端末２０と音声サーバー１００に伝送する。音声サーバー１００は、受信した文字データを伝送した送信者であるＡの情報がデータベースに存在するかを照会する。前提したように、Ａの情報がデータベースに存在するため、音声サーバー１００は、文章のマッチングを行う。即ち、音声サーバー１００は、受信した文字データに含まれた文章が音声データベース１１０に存在するかを照会する。前提したように、最初の文章である「こんにちは」が音声データベース１１０に存在するため、音声サーバー１００は、「こんにちは」とマッチされる音声データ（Ａ音声＿文章１）を抽出する。続いて、音声サーバー１００は、二番目の文章である「今日は寒いですね」が音声データベース１１０に存在するかを照会する。前提したように、音声データベース１１０には、「今日は寒いですね」という文章に相応する情報が存在しないため、音声サーバー１００は、文節マッチングを行う。即ち、音声サーバー１００は、受信した文字データに含まれた文節が音声データベース１１０に存在するかを照会する。前提したように二番目の文章である「今日は寒いですね」のうち、一番目の文節と二番目の文節が音声データベース１１０に存在するため、音声サーバー１００は、「今日は」とマッチされる音声データ（Ａ音声＿文節１）と、「寒い」とマッチされる音声データ（Ａ音声＿文節２）を抽出する。しかし、「ですね」とマッチされる音声データが音声データベース１１０に存在しないため、音声サーバー１００は二番目の文章の三番目の文節に対しては音節マッチングを行う。即ち、音声サーバー１００は、三番目の文節である「ですね」を構成する音節である「で」「す」「ね」とそれぞれマッチされる音声データであるＡ音声＿音節９、Ａ音声＿音節１０、Ａ音声＿音節１１を抽出する。

以下、本発明の一実施例による文字を音声で出力する方法について説明する。本発明の一実施例による文字を音声で出力する方法は上述の文字を音声で出力するシステムを用いた方法であり得る。即ち、本発明の一実施例による文字を音声で出力する方法の主体は、前述のシステムを構成する構成要素のうちの少なくとも一つであり得る。

図５は、本発明の一実施例による、文字を音声で出力する方法を概略的に示したフローチャートである。

図５を参照すれば、本発明の一実施例による文字を音声で出力する方法は、図示した各段階によって行うことができる。

先ず、前記方法は、話者別に文字データと音声データとがマッチされた音声データベース１１０を構築する段階を行う（Ｓ５１０）。ここで、前記音声データは各話者に対して、文章別、文節別及び音節別に文字データとマッチされた状態で保存することができる。前記音声データベース１１０は、多様な方法によって構築することができる。望ましくは、前記音声データベース１１０は、受信端末２０と送信端末１０によって行われる音声通話中に伝送される音声データを用いて構築することができる。

続いて、送信端末１０が文字データを受信端末２０へ伝送する（Ｓ５２０）。この際、送信端末１０が伝送した文字データは、文字サーバー２００を介して受信端末２０に伝送可能であり、文字サーバー２００を介して音声サーバー１００に送信することができる。次に、音声サーバー１００は、送信端末１０が伝送した文字データを伝送した送信者ないし送信端末１０についての情報が音声データベース１１０に存在するかを照会する。音声サーバー１００は、文字データを伝送した送信者についての情報が音声データベース１１０に存在する場合、音声データベース１１０から前記文字データとマッチされる音声データを抽出する（Ｓ５３０）。望ましくは、前記音声サーバー１００は、文字データとマッチされる音声データを、文章別、文節別、音節別に順次照会して実際の話者の音声に近接した音声データを抽出する。その次に、音声サーバー１００は、文字データとマッチされる音声データを受信端末２０に伝送する。その後、受信端末２０は、文字データとマッチされる音声データをスピーカーを介して出力する（Ｓ５４０）。これによって、受信端末２０は文字データを伝送した者の音声で文字データに相応する音声を出力することができる。選択的に、受信端末２０は、文字を表示部に出力するとともに、音声をスピーカーを介して出力することができる。この際、受信端末２０には音声出力の要否を選択できるボタンまたはアイコンなどが存在し、ボタンが押されるかアイコンが選択されたとき、受信端末２０が音声を出力するように構成することができる。また、受信端末２０は、音声データベース１１０の構築程度を示す等級に相応する視覚情報を表示部に出力し、音声データベース１１０の構築程度を受信端末２０の使用者に見せることができる。受信端末２０の使用者は、音声データベース１１０の構築程度を示す視覚情報を通じ、音声データベース１１０の構築程度を直ちに把握することができる。また、受信端末２０の使用者は、音声データベース１１０の構築程度を通じて送信端末１０の使用者との音声通話による交流程度を間接的に把握することができる。したがって、受信端末２０の使用者と送信端末１０の使用者との音声通話を誘導することができる。

一方、前記方法によってデータベース化した送信端末１０の話者の音声情報は、送信端末１０から伝送された文字データのみならず、他の如何なる文字データの変換にも用いることができる。一例で、受信端末２０は、受信端末２０に保存された本、文書などを、データベース化した送信端末１０の話者の音声で出力することもできる。他の例で、受信端末２０は、データベース化した送信端末１０の話者の音声で歌を出力することもできる。さらに他の例で、質問に答弁するアプリケーションにおいて、出力される声を、データベース化した送信端末１０の話者の音声に変更することもできる。例えば、ｉＯＳ用アプリケーションであるシリ（ｓｉｒｉ）の応答を送信端末１０の話者の音声に変更することができる。

これによって、受信端末２０の使用者は、送信端末１０の話者と実際に話し合うように感じることができ、通信端末を、伴侶動物のように伴侶器機化することができる。

なお、上述の方法は、プログラム化してコンピューターで判読可能な記録媒体に保存される形態に具現することもできる。

なお、上述の例示において、音声変換及びデータベース化の作業は、移動通信網３０で行われることと記載したが、本発明はこれに限定されない。即ち、前記作業は、送信端末１０または受信端末２０で行うこともでき、一部は移動通信網３０のサーバー上で行ってもよく、残りの一部は、送信端末１０または受信端末２０で行ってもよい。

以上のように、本発明を限定された実施例と図面によって説明したが、本発明はこれに限定されるものではなく、本発明の属する技術分野で通常の知識を持つ者によって本発明の技術思想と特許請求の範囲の均等範囲内で多様な修正及び変形が可能であることは言うまでもない。

Claims

通信端末を介して音声を出力する方法であって、
送信端末が、文字データを受信端末へ伝送する段階と、
前記受信端末が、前記送信端末が伝送した文字データの内容を文字データ送信者の音声で出力する段階と、
を含む文字を音声で出力する方法。
文字データ受信段階の前に、
前記文字データ送信者の音声データについての音声データベースを構築する段階をさらに含む請求項１に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階は、前記文字データ送信者の音声データと前記音声データに相応する文字データとをマッチした状態で保存する段階である請求項２に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階は、前記文字データ送信者の音声データ及び前記音声データに相応する文字データを、文章別、文節別及び音節別に区分して保存する段階である請求項３に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階は、前記送信端末と前記受信端末を用いた音声通話中に送受信した音声データを用いて、前記文字データ送信者の音声データについての音声データベースを構築する段階である請求項４に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階は、前記送信端末と前記受信端末による音声通話が反復されることによって構築される段階である請求項５に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階は、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在しない文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態でさらに保存する請求項６に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階は、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在する文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態で更新保存する請求項７に記載の文字を音声で出力する方法。
前記音声データベースを構築する段階の後、前記送信端末と前記受信端末による音声通話から構築した音声データベースの構築程度を定量化する段階をさらに含む請求項８に記載の文字を音声で出力する方法。
前記定量化する段階の後、前記定量化する段階で定量化した値に応じて音声データベースの構築程度を所定等級にグレーディングする段階をさらに含む請求項９に記載の文字を音声で出力する方法。
前記グレーディングする段階の後、前記受信端末が、前記グレーディングする段階でグレーディングした等級を表示部に出力する段階をさらに含む請求項１０に記載の文字を音声で出力する方法。
前記グレーディングした等級を出力する段階は、前記所定等級によって異なる視覚情報を出力する請求項１１に記載の文字を音声で出力する方法。
前記定量化する段階は、前記音声データベースに区分して保存された音声データと文字データの文章別、文節別及び音節別個数を合算することで音声データベースの構築程度を文字データ送信者別に定量化する段階である請求項９に記載の文字を音声で出力する方法。
前記定量化する段階は、前記音声データベースに区分して保存された音声データと文字データの文章別個数、文節別個数及び音節別個数にそれぞれ加重値を付与し、文章別個数、文節別個数及び音節別個数にそれぞれ加重値を付与した値を合算することで音声データベースの構築程度を文字データ送信者別に定量化する段階である請求項９に記載の文字を音声で出力する方法。
前記文章別個数に付与される加重値は、前記文節別個数に付与される加重値よりも大きいか同一であり、前記文節別個数に付与される加重値は、前記音節別個数に付与される加重値よりも大きいか同一である請求項１４に記載の文字を音声で出力する方法。
前記音声で出力する段階の前に、
前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会する段階と、
前記照会する段階の照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを音声データベースから抽出する段階と、
前記抽出する段階で抽出した音声データを受信端末に伝送する段階と、をさらに含む請求項２から請求項４のうちいずれか一項に記載の文字を音声で出力する方法。
前記照会する段階の照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在する場合、前記音声データを抽出する段階は、前記音声データベースに保存された前記文字データ送信者の音声データを抽出する段階である請求項１６に記載の文字を音声で出力する方法。
前記照会する段階の照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在しない場合、前記音声データを抽出する段階は、前記音声データベースに保存された機械音声を抽出する段階である請求項１６に記載の文字を音声で出力する方法。
前記音声で出力する段階の前に、
前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会する段階と、
前記照会する段階の照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを音声データベースから抽出する段階と、
前記抽出する段階で抽出した音声データを受信端末に伝送する段階と、をさらに含み、
前記音声データを抽出する段階は、
前記送信端末が伝送した文字データに含まれた文章に相応する文章とマッチされる音声データを音声データベースから抽出する文章抽出段階と、
前記送信端末が伝送した文字データに含まれた文節に相応する文節とマッチされる音声データを音声データベースから抽出する文節抽出段階と、
前記送信端末が伝送した文字データに含まれた音節に相応する音節とマッチされる音声データを音声データベースから抽出する音節抽出段階と、
を含む請求項４に記載の文字を音声で出力する方法。
前記文節抽出段階は、前記文章抽出段階の後に行われ、
前記文章抽出段階において、所定文章に対する音声データの抽出が成功的に行われれば、前記所定文章に対する文節抽出段階は行われず、
前記音節抽出段階は、前記文節抽出段階の後に行われ、
前記文節抽出段階において、所定文節に対する音声データの抽出が成功的に行われれば、前記所定文節に対する音節抽出段階は行われない請求項１９に記載の文字を音声で出力する方法。
前記文章抽出段階、前記文節抽出段階及び前記音節抽出段階は、前記送信端末が伝送した文字データに含まれた二つ以上の文章に対して反復的に行われる請求項２０に記載の文字を音声で出力する方法。
通信網と、
前記通信網を介して文字データを受信端末に伝送する送信端末と、
前記通信網を介して前記送信端末が伝送した文字データに相応する音声データとして、前記文字データを伝送した文字データ送信者の音声データを出力する受信端末と、を含む文字を音声で出力するシステム。
前記通信網は、前記文字データ送信者の音声データに対する音声データベースを構築する音声サーバーを備える請求項２２に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記文字データ送信者の音声データと前記音声データに相応する文字データとをマッチして前記音声データベースに保存する請求項２３に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記文字データ送信者の音声データ及び前記音声データに相応する文字データを、文章別、文節別及び音節別に区分して保存する請求項２４に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末と前記受信端末を用いた音声通話中に送受信した音声データを用いて、前記文字データ送信者の音声データに対する音声データベースを構築する請求項２５に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末と前記受信端末による音声通話が反復される度に、前記音声データベースを構築する請求項２６に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在しない文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態でさらに保存する請求項２７に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末と前記受信端末による音声通話を構成する音声データに相応する文字データのうち、既に構築された音声データベースに存在する文字データを、前記音声データベースに存在しない文字データに相応する音声データと、文章別、文節別及び音節別に区分してマッチした状態で更新保存する請求項２８に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末と前記受信端末による音声通話から構築した音声データベースの構築程度を定量化する請求項２９に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記定量化した値に応じて音声データベースの構築程度を所定等級にグレーディングする請求項３０に記載の文字を音声で出力するシステム。
前記受信端末は、前記所定等級にグレーディングした等級を表示部に出力する請求項３１に記載の文字を音声で出力するシステム。
前記受信端末は、前記所定等級によって異なる視覚情報を出力する請求項３２に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記音声データベースに区分して保存された音声データと文字データの文章別、文節別及び音節別個数を合算することで音声データベースの構築程度を文字データ送信者別に定量化する請求項３０に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記音声データベースに区分して保存された音声データと文字データの文章別個数、文節別個数及び音節別個数にそれぞれ加重値を付与し、文章別個数、文節別個数及び音節別個数にそれぞれ加重値を付与した値を合算することで音声データベースの構築程度を文字データ送信者別に定量化する請求項３０に記載の文字を音声で出力するシステム。
前記文章別個数に付与される加重値は、前記文節別個数に付与される加重値よりも大きいか同一であり、前記文節別個数に付与される加重値は、前記音節別個数に付与される加重値よりも大きいか同一である請求項３５に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末が伝送した文字データを受信し、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会した後、照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを前記音声データベースから抽出し、抽出した前記音声データを前記受信端末に伝送する請求項２３から請求項２５のうちいずれか一項に記載の文字を音声で出力するシステム。
前記照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在する場合、前記音声サーバーは、前記音声データベースに保存された前記文字データ送信者の音声データを抽出する請求項３７に記載の文字を音声で出力するシステム。
前記照会結果、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在しない場合、前記音声サーバーは、前記音声データベースに保存された機械音声を抽出する請求項３７に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末が伝送した文字データを受信し、前記音声データベースに前記文字データ送信者の情報と一致する情報が存在するかを照会した後、照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを前記音声データベースから抽出し、抽出した前記音声データを前記受信端末に伝送し、
前記音声サーバーは、前記照会結果に基づき、前記送信端末が伝送した文字データに相応する音声データを前記音声データベースから抽出するに際し、前記送信端末が伝送した文字データに含まれた文字内容を前記音声データベースから照会し、前記送信端末が伝送した文字データに含まれた文章に相応する文章とマッチされる音声データ、前記送信端末が伝送した文字データに含まれた文節に相応する文節とマッチされる音声データ、及び前記送信端末が伝送した文字データに含まれた音節に相応する音節とマッチされる音声データのうち少なくとも一つを抽出する請求項３６に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末が伝送した文字データに含まれた所定文章に相応する文章とマッチされる音声データが前記音声データベースに存在する場合、前記所定文章に対しては前記所定文章に相応する文章とマッチされる音声データのみを抽出し、前記送信端末が伝送した文字データに含まれた所定文節に相応する文節とマッチされる音声データが前記音声データベースに存在する場合、前記所定文節に対しては前記所定文節に相応する文節とマッチされる音声データのみを抽出する請求項４０に記載の文字を音声で出力するシステム。
前記音声サーバーは、前記送信端末が伝送した文字データに含まれた二つ以上の文章に対して音声データの抽出を行う請求項４１に記載の文字を音声で出力するシステム。