JP2013207508A - Automatic voice response device - Google Patents
Automatic voice response device Download PDFInfo
- Publication number
- JP2013207508A JP2013207508A JP2012073686A JP2012073686A JP2013207508A JP 2013207508 A JP2013207508 A JP 2013207508A JP 2012073686 A JP2012073686 A JP 2012073686A JP 2012073686 A JP2012073686 A JP 2012073686A JP 2013207508 A JP2013207508 A JP 2013207508A
- Authority
- JP
- Japan
- Prior art keywords
- user
- state
- background
- response
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、利用者からの電話に対し合成音声により自動で応答する自動音声応答装置に関するものである。 The present invention relates to an automatic voice response device that automatically responds to a phone call from a user with synthesized voice.
自動音声応答装置は例えばコールセンタ等で従来から用いられているが、現状では発信者番号・着信番号・トーン入力といった極めて限定された選択肢の中でしか応答できない。このような場合、利用者の状態を考慮しない一方的な応答になるため、利用者に余計な負担を強いる、あるいは利用者の望む結果に到達しないなどの不都合がある。この種の装置として、たとえば、特許文献1には電話受付システムが記載されている。このシステムでは、音声パターンによる個人特定で不満度を測定しているが、音声パターン以外の状態は考慮しておらず、また当該システムへのフィードバックもないものである。 Although an automatic voice response device has been conventionally used in, for example, a call center or the like, it can respond only within very limited options such as caller ID, incoming number, and tone input. In such a case, since the response is a one-way response that does not take into account the user's condition, there are inconveniences such as placing an extra burden on the user or not reaching the result desired by the user. As this type of device, for example, Patent Document 1 describes a telephone reception system. In this system, the degree of dissatisfaction is measured by personal identification based on a voice pattern, but the state other than the voice pattern is not considered, and there is no feedback to the system.
本発明の目的は、自動音声応答に際し、従来に比べ利用者側の使いにくさを改善することができる自動音声応答装置を提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to provide an automatic voice response device capable of improving the difficulty of use on the user side as compared with the prior art in automatic voice response.
本発明は、上記目的を達成するため以下のような自動音声応答装置を提供する。
(1)利用者からの音声信号を背景音と音声とに分離するスプリッターと、
前記背景音をもとに前記利用者の置かれている背景状態を認識する背景状態認識部と、
前記音声をもとに前記利用者個人の状態である利用者状態を認識する利用者状態認識部と、
前記背景状態と前記利用者状態とに基づいて前記利用者に応答するための応答内容を生成する応答内容生成部と、
前記応答内容をもとに音声を合成して出力する音声合成部と
を備えたことを特徴とする自動音声応答装置。
(2)前記背景状態認識部は、複数の背景音を周波数分布に変換しその背景音に係る背景状態を対応させて格納した背景状態データベースを備え、前記格納された複数の背景音の周波数分布と前記分離された背景音の周波数分布との相関係数をそれぞれ求め、最大の相関係数を示す背景音に対応する背景状態を、前記利用者の置かれている背景状態として認識することを特徴とする上記(1)に記載の自動音声応答装置。
(3)前記背景状態認識部は、さらに前記分離された背景音の大きさによって、前記利用者の置かれている背景状態を認識することを特徴とする上記(2)に記載の自動音声応答装置。
(4)前記利用者状態認識部は、複数の利用者状態に対応した音声を周波数分布に変換して得られた中心周波数の値および発話ピッチの変動値をスコアにしてそれぞれ格納した利用者状態データベースを備え、前記分離された音声を周波数分布に変換して得られた中心周波数および発話ピッチに相当するスコアをそれぞれ前記利用者状態データベースから求め、前記求めた中心周波数に相当するスコアおよび発話ピッチに相当するスコアの合計が最大の値を示す音声に対応する利用者状態を前記利用者個人の状態である利用者状態として認識することを特徴とする上記(1)〜(3)のいずれかに記載の自動音声応答装置。
(5)前記利用者状態データベースは、さらに複数の利用者状態に対応した音声の大きさの値をスコアにして格納するものであり、前記分離された音声の大きさに相当するスコアを前記利用者状態データベースから求め、前記求めた中心周波数に相当するスコア、発話ピッチに相当するスコアおよび音声の大きさに相当するスコアの合計が最大の値を示す音声に対応する利用者状態を前記利用者個人の状態である利用者状態として認識することを特徴とする上記(4)に記載の自動音声応答装置。
(6)前記応答内容生成部は、自動音声応答時における音量の上げ下げおよび男性音と女性音の切り替えの少なくとも一方を行うことができることを特徴とする上記(1)〜(5)のいずれかに記載の自動音声応答装置。
(7)前記応答内容生成部は、前記応答内容として、標準応答テキスト、簡略応答テキストおよびオペレータによる応答指示のいずれかを出力することを特徴とする上記(1)〜(6)のいずれかに記載の自動音声応答装置。
In order to achieve the above object, the present invention provides the following automatic voice response apparatus.
(1) a splitter that separates an audio signal from a user into background sound and audio;
A background state recognition unit that recognizes a background state of the user based on the background sound;
A user state recognizing unit for recognizing a user state which is a state of the individual user based on the voice;
A response content generator for generating a response content for responding to the user based on the background state and the user state;
An automatic speech response apparatus, comprising: a speech synthesis unit that synthesizes and outputs speech based on the response content.
(2) The background state recognition unit includes a background state database in which a plurality of background sounds are converted into a frequency distribution and the background states related to the background sounds are stored in correspondence with each other, and the frequency distributions of the plurality of stored background sounds And the background coefficient corresponding to the background sound showing the maximum correlation coefficient is recognized as the background condition where the user is placed. The automatic voice response device according to (1), characterized in that it is characterized in that
(3) The automatic voice response according to (2), wherein the background state recognition unit further recognizes a background state where the user is placed based on the magnitude of the separated background sound. apparatus.
(4) The user state recognizing unit stores each of the user frequency states obtained by converting the speech corresponding to a plurality of user states into a frequency distribution and using the center frequency value and the utterance pitch fluctuation value as scores. A score corresponding to the center frequency and utterance pitch obtained by converting the separated speech into a frequency distribution from the user state database, and a score and utterance pitch corresponding to the determined center frequency Any one of the above (1) to (3), wherein a user state corresponding to a voice having a maximum total score corresponding to is recognized as a user state that is the state of the individual user The automatic voice response device described in 1.
(5) The user state database further stores, as a score, a value of sound volume corresponding to a plurality of user states, and uses the score corresponding to the separated sound level. The user state corresponding to the voice that is obtained from the person state database and has the maximum value of the score corresponding to the obtained center frequency, the score corresponding to the utterance pitch, and the score corresponding to the volume of the voice. The automatic voice response device according to (4), wherein the automatic voice response device is recognized as a user state which is an individual state.
(6) In any one of the above (1) to (5), the response content generation unit can perform at least one of raising and lowering a volume and switching between a male sound and a female sound during an automatic voice response. The automatic voice response device described.
(7) The response content generation unit outputs, as the response content, any one of a standard response text, a simplified response text, and a response instruction by an operator, according to any one of the above (1) to (6) The automatic voice response device described.
請求項1に係る発明によれば、自動音声応答に際し、従来に比べ利用者側の使いにくさを改善することができる自動音声応答装置を提供することができる。
請求項2に係る発明によれば、利用者の置かれている背景状態を容易に認識することができる。
請求項3に係る発明によれば、利用者の置かれている背景状態に合った応答を行うことができる。
請求項4に係る発明によれば、利用者個人の状態である利用者状態を容易に認識することができる。
請求項5に係る発明によれば、利用者個人の状態である利用者状態を一層容易に認識することができる。
請求項6に係る発明によれば、利用者の置かれている背景状態や利用者個人の状態に合った応答を行うことができる。
請求項7に係る発明によれば、利用者個人の状態である利用者状態に対して柔軟に対応することができる。
According to the first aspect of the present invention, it is possible to provide an automatic voice response device capable of improving the difficulty of use on the user side as compared with the prior art in automatic voice response.
According to the invention which concerns on Claim 2, the background state in which the user is placed can be recognized easily.
According to the invention which concerns on
According to the invention which concerns on Claim 4, the user state which is a user's individual state can be recognized easily.
According to the invention which concerns on Claim 5, the user state which is a user's individual state can be recognized still more easily.
According to the invention which concerns on Claim 6, the response according to the background state in which the user is set | placed, or a user's individual state can be performed.
According to the invention which concerns on Claim 7, it can respond flexibly with respect to the user state which is a user's individual state.
図1は、本発明に係る自動音声応答装置の一実施例を説明するための図である。本例ではコールセンタシステムを例にとって説明するが、これに限定されない。図示のように、まず利用者1がコールセンタに電話をかけると、利用者1の音声信号は一般の加入電話回線ネットワークであるPSTN(Public Switched Telephone Networks:公衆交換電話網)2を介してコールセンタの電話回線インタフェース部3で受信される。音声自動応答装置10は、電話回線インタフェース部3より入力した利用者1からの発話(音声信号)に応じて、内部で生成した所定の合成音声またはオペレータ16による音声で、電話回線インタフェース部3およびPSTN2を介して利用者1に応答する。
FIG. 1 is a diagram for explaining an embodiment of an automatic voice response apparatus according to the present invention. In this example, a call center system will be described as an example, but the present invention is not limited to this. As shown in the figure, when a user 1 first makes a call to a call center, the voice signal of the user 1 is sent to the call center via a PSTN (Public Switched Telephone Networks) 2 which is a general subscriber telephone line network. Received by the telephone
音声自動応答装置10は、利用者1からの音声信号を背景音と音声とに分離するスプリッター11と、分離された背景音をもとに利用者1の置かれている背景状態を認識する背景状態認識部12と、分離された音声をもとに利用者個人の状態である利用者状態を認識する利用者状態認識部13と、認識された背景状態と利用者状態とに基づいて利用者1に応答するための応答内容を生成する応答内容生成部14と、生成された応答内容(テキスト)をもとに音声を合成して出力する音声合成部15とを備える。
The automatic
自動音声応答装置10は、例えば概略次のように動作する。すなわち、自動音声応答装置10は、利用者1からの音声信号をもとに、利用者1の置かれている背景状態および利用者個人の状態を認識する。その背景状態と利用者状態の中から、最も「適している」と推定できる応答内容を選択し、自動音声応答装置の出力とする。ここで、最も「適している」と推定できる応答内容とは、例えば以下のようなことが該当する。
・背景音が大きい環境であれば合成音声の音量を上げるように調整する。
・利用者が立腹しているようであれば合成音声による応答ではなくオペレータが対応するように応答フローを調整する。
・利用者が急いでいるようであれば合成音声による応答を簡略化するように応答フローを調整する。
以上の応答内容は例示であり、本発明はこれに限定されない。
For example, the automatic
・ If the background sound is loud, adjust the volume of the synthesized voice to increase.
-If the user seems angry, adjust the response flow so that the operator responds instead of the response by synthesized speech.
-If the user seems to be in a hurry, adjust the response flow to simplify the response by synthesized speech.
The above response content is an example, and the present invention is not limited to this.
一方、オペレータ16は、必要に応じて利用者の音声および合成音声の少なくとも一方をモニターすることができる。このとき、利用者1の音声(会話)が予期しない方向に流れた場合、オペレータ16は、応答内容生成部14または音声合成部15の動作を制御して、会話の流れを修正する、あるいは自動応答による会話を中止して、自らの会話に切り替えることができる。なお、後述のように、応答内容生成部14からの応答内容として、合成音声ではなく、オペレータ16に通話切替を行うための指示が出力されることがあるが、この場合の指示は応答内容生成部14からオペレータ16へ電話回線インタフェース部3および音声合成部15を介して行われる。
以下、自動音声応答装置10の各部の構成および動作について説明する。
On the other hand, the
Hereinafter, the configuration and operation of each part of the automatic
図2(a)〜(d)は、背景状態認識部の構成例を説明するための図である。背景状態認識部12は、図2(a)に示すように、背景状態認識手段121と、背景状態データベース122とを備える。背景状態データベース122は、予め複数の背景音を周波数分布(周波数スペクトル)に変換しその背景音に係る背景状態を対応させて格納したものである。背景状態認識手段121は、この格納された複数の背景音の周波数分布と、スプリッター11で分離された背景音の周波数分布との相関係数をそれぞれ求め、最大の相関係数を示す背景音に対応する背景状態を、利用者の置かれている背景状態として認識し出力する。
2A to 2D are diagrams for explaining a configuration example of the background state recognition unit. The background
図2(b)は、背景音の元信号123と、その周波数分布124の概念図を示すものである。図2(c)は、背景状態データベース122に格納されている複数の背景音の周波数分布とそれに対応する背景状態の関係を示すものである。図中の周波数分布125,126,127は、それぞれ背景状態として車中、雨、繁華街に対応する。周波数分布は正規化されている。図2(d)は、スプリッター11で分離された背景音の周波数分布124と、背景状態データベース122に格納された背景音の周波数分布125,126,127との相関係数を示す図である。図中で最大の相関係数は、周波数分布124と125の0.95である。この場合、図2(c)の周波数分布125に対応する「車中」が利用者1の置かれている背景状態と認識される。
FIG. 2B shows a conceptual diagram of the background
背景状態認識部12は、さらにスプリッター11で分離された背景音の大きさ(レベル)の大小によって、利用者の置かれている背景状態を別の観点から認識することができる。例えば、背景音の大きさが予め決められた閾値以上の場合は、利用者の置かれている背景状態は「喧騒」、また背景音レベルが上記閾値未満の場合は、利用者の置かれている背景状態は「静寂」として認識することができる。
The background
図3(a)〜(d)は、利用者状態認識部の構成例を説明するための図である。利用者状態認識部13は、図3(a)に示すように、利用者状態認識手段131と、利用者状態データベース132とを備える。利用者状態データベース132は、複数の利用者状態に対応した音声を周波数分布に変換して得られた中心周波数の値および発話ピッチの変動値をスコアにしてそれぞれ格納したものである。利用者状態認識手段131は、スプリッター11で分離された音声を周波数分布に変換して得られた中心周波数および発話ピッチに相当するスコアをそれぞれ利用者状態データベース132から求め、この求めた中心周波数に相当するスコアおよび発話ピッチに相当するスコアの合計が最大の値を示す音声に対応する利用者状態を、利用者個人の状態である利用者状態として認識し出力する。
3A to 3D are diagrams for explaining a configuration example of the user state recognition unit. As shown in FIG. 3A, the user
利用者状態データベース132は、さらに複数の利用者状態に対応した音声の大きさ(レベル)の値をスコアにして格納することができる。この場合、利用者状態認識手段131は、スプリッター11で分離された音声の大きさに相当するスコアを利用者状態データベース132から求め、上記で求めた中心周波数に相当するスコア、発話ピッチに相当するスコアおよび今回求めた音声の大きさに相当するスコアの合計が最大の値を示す音声に対応する利用者状態を、利用者個人の状態である利用者状態として認識し出力することができる。
The
図3(b)は、音声の元信号133と、その周波数分布134の概念図を示すものである。図3(c)は、利用者状態データベース132に格納されている複数の利用者状態(男性、女性、緊急、立腹)に対応した音声を周波数分布に変換して得られた中心周波数(kHz)の値、発話ピッチ(%)の変動値、および発話レベル(dB)(音声の大きさ)をそれぞれスコアにしたものである。たとえば、図3(c)中の網掛け部に示すように、音声の元信号133を周波数分布134に変換して得られた中心周波数が1.8kHz、発話ピッチが0%、発話レベルが−20dBの場合、各利用者状態のスコアの合計は、図3(d)に示すようになる。すなわち、利用者状態として、「男性」がスコアの合計30、「女性」がスコアの合計10、「緊急」がスコアの合計0、「立腹」がスコアの合計10である。この場合、スコアの合計が最大の値を示す「男性」が、利用者個人の利用者状態と認識される。なお、本例では、中心周波数、発話ピッチ、発話レベルは例えば以下のようにして求める。中心周波数は音声を変換して得られた周波数分布におけるピーク周波数とする。発話ピッチは一定時間あたりの中心周波数の遷移頻度とする。発話レベルは一定レベルである時報の音量と比較して求める。
FIG. 3B shows a conceptual diagram of the audio
図4(a)〜(c)は、応答内容生成部の構成例を説明するための図である。応答内容生成部14は、図4(a)に示すように、応答内容生成手段141と、応答方向データベース142とを備える。応答方向データベース142は、図4(b)に示すように、応答方向として、A1:音量(上)、A2:音量(下)、B1:話者切替(男性音)、B2:話者切替(女性音)、C1:内容(オペレータ)、C2:内容(標準)、C3:内容(簡略)を有する。そして、各応答方向に対応して背景状態(喧騒、静寂、車中、雨、繁華街)、および利用者状態(男性、女性、緊急、立腹)が、それぞれの状態に応じてスコアで表されている。図4(b)中の網掛け部は、背景状態認識部12から出力された背景状態が「喧騒」および「繁華街」であり、利用者状態認識部13から出力された利用者状態が「緊急」であることを示している。
4A to 4C are diagrams for explaining a configuration example of the response content generation unit. The response
応答内容生成手段141は、次のようにして応答内容(テキスト)を生成し、音声合成部に出力する。図4(c)に示すように、各応答方向のスコアの合計は、「A1:音量(上)」が70、「A2:音量(下)」が0、「B1:話者切替(男性音)」が0、「B2:話者切替(女性音)」が0、「C1:内容(オペレータ)」が30、「C2:内容(標準)」が0、「C3:内容(簡略)」が100となる。A1とA2の比較では、A1のスコアの合計が最大の値を示すので、「A1:音量(上)」が応答内容として選択される。B1とB2の比較では、両者のスコアの合計が同値を示すので、応答内容として話者切替は行われず、前回男性音の場合はそのまま男性音とされ、前回女性音の場合はそのまま女性音とされる。C1とC2とC3の比較では、C3のスコアの合計が最大の値を示すので、応答内容として「C3:内容(簡略)」が選択される。なお、応答方向A1,A2のスコアの合計が同値の場合は、音量変更なしとすることができる。また、応答方向C1−C3のスコアの合計が同値の場合は、応答方向を前回と変更なしとすることができる。
The response
このように、応答内容生成部14は、自動音声応答時における合成音声の音量の上げ下げおよび男性音と女性音の切り替えの少なくとも一方を行うことができる。また、応答内容生成部14は、応答内容として、「C2:内容(標準)」(標準応答テキスト)、「C3:内容(簡略)」(簡略応答テキスト)、および「C1:内容(オペレータ)」(オペレータによる応答指示)のいずれかを出力することができる。
As described above, the response
図5は、図4の例における応答フローの一例を示す図である。まず、応答内容生成手段は、ステップ51において、応答内容として、「お電話ありがとうございます。こちらはXXXXに関するお問い合わせを受け付けておりますXXXXセンターでございます。ご用件はお客様の音声、または電話機をご利用いただけます。」をテキストとして生成する。この場合、上述のように応答方向A1,A2に関し、A1の「音量(上)」56が選択されているので、応答内容として合成音声の音量を上げる指示が含まれる。また、上述のように応答方向B1,B2に関しスコアが同値のため「話者切替なし」57とされるので、応答内容として、合成音声は前回男性音の場合はそのまま男性音とされ、前回女性音の場合はそのまま女性音とされる指示を含む。
FIG. 5 is a diagram illustrating an example of a response flow in the example of FIG. First, the response content generation means, in
次に、ステップ52において、上述のように応答方向C1−C3に関し、C3の「内容(簡略)」58が選択されているので、応答内容として、ステップ53の「商品のご案内であれば1を、ご購入済みの商品のお問い合わせであれば2を…」をテキストとして生成する。仮に、C2の「内容(標準)」が選択された場合は、応答内容として、ステップ54の「ご用件をお願いします。電話機を操作する場合、商品のご案内であれば1を、ご購入済みの商品に関するお問い合わせであれば2を…」をテキストとして生成し、C1の「内容(オペレータ)」が選択された場合は、応答内容として、ステップ55の「オペレータに通話切替」の指示が出力される。なお、応答方向の種類によっては途中で適用することもあり得る。例えば、先のステップ51において「お電話ありがとうございます…」と発話している途中に音量を上げるようにすることができる。
Next, in
以上のように、本自動音声応答装置では、利用者からの音声は電話回線インタフェース部にて受信後、スプリッターに入力する。スプリッターは入来信号の周波数帯域、スペクトルの分布差異によって背景音と会話内容(音声)に分離し、それぞれ背景状態認識部と利用者状態認識部に入力する。背景状態認識部では背景音のレベル、周波数分布等から利用者の置かれた状況を推定し、背景状態として応答内容生成部に入力する。利用者状態認識部では利用者の音声のピッチ、周波数分布、発話レベル等から利用者の状態変化を推定し、利用者状態として応答内容生成部に入力する。応答内容生成部は背景状態および利用者状態から、最も妥当と思われる応答内容を生成し、音声合成部に入力する。音声合成部は与えられた応答内容(テキスト)を元に応答音声を合成し、電話回線インタフェース部を通じて利用者に応答する。 As described above, in the automatic voice response apparatus, the voice from the user is received by the telephone line interface unit and then input to the splitter. The splitter separates the background sound and the conversation content (speech) according to the frequency band and spectrum distribution difference of the incoming signal, and inputs them to the background state recognition unit and the user state recognition unit, respectively. The background state recognition unit estimates the user's situation from the background sound level, frequency distribution, etc., and inputs it to the response content generation unit as the background state. The user state recognizing unit estimates a change in the state of the user from the pitch, frequency distribution, speech level, etc. of the user's voice, and inputs it to the response content generating unit as the user state. The response content generation unit generates response content that seems most appropriate from the background state and the user state, and inputs the response content to the speech synthesis unit. The speech synthesizer synthesizes response speech based on the given response content (text) and responds to the user through the telephone line interface unit.
これにより、利用者が使いやすい自動音声応答装置を得ることができる。また、自動音声応答装置で対処しきれずにオペレータの対応が必要になるケースが減るため、オペレータの使用コストを抑制することができる。さらに、自動音声応答装置の対応能力が向上するため、利用者の利便性が向上する。 Thereby, an automatic voice response device that is easy for the user to use can be obtained. In addition, since the number of cases in which the automatic voice response device cannot handle the operator and the operator needs to respond is reduced, the use cost of the operator can be suppressed. Furthermore, since the correspondence capability of the automatic voice response device is improved, convenience for the user is improved.
1 利用者
2 PSTN(公衆交換電話網)
3 電話回線インタフェース部
10 音声自動応答装置
11 スプリッター
12 背景状態認識部
13 利用者状態認識部
14 応答内容生成部
15 音声合成部
16 オペレータ
1 User 2 PSTN (Public Switched Telephone Network)
DESCRIPTION OF
Claims (7)
前記背景音をもとに前記利用者の置かれている背景状態を認識する背景状態認識部と、
前記音声をもとに前記利用者個人の状態である利用者状態を認識する利用者状態認識部と、
前記背景状態と前記利用者状態とに基づいて前記利用者に応答するための応答内容を生成する応答内容生成部と、
前記応答内容をもとに音声を合成して出力する音声合成部と
を備えたことを特徴とする自動音声応答装置。 A splitter that separates the audio signal from the user into background and audio;
A background state recognition unit that recognizes a background state of the user based on the background sound;
A user state recognizing unit for recognizing a user state which is a state of the individual user based on the voice;
A response content generator for generating a response content for responding to the user based on the background state and the user state;
An automatic speech response apparatus, comprising: a speech synthesis unit that synthesizes and outputs speech based on the response content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012073686A JP2013207508A (en) | 2012-03-28 | 2012-03-28 | Automatic voice response device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012073686A JP2013207508A (en) | 2012-03-28 | 2012-03-28 | Automatic voice response device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013207508A true JP2013207508A (en) | 2013-10-07 |
Family
ID=49526204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012073686A Pending JP2013207508A (en) | 2012-03-28 | 2012-03-28 | Automatic voice response device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013207508A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017149848A1 (en) * | 2016-03-04 | 2017-09-08 | ソニー株式会社 | Information processing device, information processing method and program |
JP2020120170A (en) * | 2019-01-18 | 2020-08-06 | 株式会社東芝 | Automatic response device and program |
-
2012
- 2012-03-28 JP JP2012073686A patent/JP2013207508A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017149848A1 (en) * | 2016-03-04 | 2017-09-08 | ソニー株式会社 | Information processing device, information processing method and program |
JP2020120170A (en) * | 2019-01-18 | 2020-08-06 | 株式会社東芝 | Automatic response device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9881607B2 (en) | Command and control of devices and applications by voice using a communication base system | |
US7650168B2 (en) | Voice activated dialing for wireless headsets | |
US20090043583A1 (en) | Dynamic modification of voice selection based on user specific factors | |
KR20080107376A (en) | Communication device having speaker independent speech recognition | |
JP6073649B2 (en) | Automatic voice recognition / conversion system | |
WO2013182118A1 (en) | Transmission method and device for voice data | |
CN102821196A (en) | Text-speech matching conversation method of mobile terminal as well as mobile terminal thereof | |
US8923829B2 (en) | Filtering and enhancement of voice calls in a telecommunications network | |
US20070047708A1 (en) | Voice call reply using voice recognition and text to speech | |
JPH10260693A (en) | Method and device for speech recognition | |
US7366667B2 (en) | Method and device for pause limit values in speech recognition | |
US20170322924A1 (en) | Relay apparatus, display apparatus, and communication system | |
US8768406B2 (en) | Background sound removal for privacy and personalization use | |
US6223161B1 (en) | Method for setting terminal specific parameters of a communication terminal | |
JP2013207508A (en) | Automatic voice response device | |
JP5251588B2 (en) | Mobile phone terminal device and method for determining call transmission | |
TW201503707A (en) | Method of processing telephone voice and computer program thereof | |
US11056106B2 (en) | Voice interaction system and information processing apparatus | |
US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
JP3165585U (en) | Speech synthesizer | |
JP2008292621A (en) | Speech speed conversion device, speaking device and speech speed conversion method | |
JP2004252085A (en) | System and program for voice conversion | |
JP2000312247A (en) | Telephone set | |
JP2018081147A (en) | Communication device, server, control method and information processing program | |
JP2015002386A (en) | Telephone conversation device, voice change method, and voice change program |