JP2014164077A - 音声処理サーバ - Google Patents

音声処理サーバ Download PDF

Info

Publication number
JP2014164077A
JP2014164077A JP2013034330A JP2013034330A JP2014164077A JP 2014164077 A JP2014164077 A JP 2014164077A JP 2013034330 A JP2013034330 A JP 2013034330A JP 2013034330 A JP2013034330 A JP 2013034330A JP 2014164077 A JP2014164077 A JP 2014164077A
Authority
JP
Japan
Prior art keywords
voice
speech
input
processing server
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013034330A
Other languages
English (en)
Inventor
Tadashi Fujii
匡 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2013034330A priority Critical patent/JP2014164077A/ja
Publication of JP2014164077A publication Critical patent/JP2014164077A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】話者の識別を容易に行うことが可能な音声処理サーバを提供する。
【解決手段】入力音声の各々について、入力音声特徴量を取得する特徴量取得部と、前記入力音声特徴量から基準音声特徴量を決定する基準音声算出部と、前記入力音声特徴量と前記基準音声特徴量とに基づいて、前記入力音声を音声処理し、出力音声を生成する音声変換部と、を備えた音声処理サーバ。
【選択図】図1

Description

本発明は、音声処理サーバに関する。
近年、音声認識技術および音声処理技術の発達により、入力された音声を分析して特徴を検出することが容易になってきている。そのため、音声入力を行い、該音声の特徴に基づいて出力結果を制御する装置が開発されてきている。
例えば、特許文献1には、話者の音声を音声認識して文章に変換し、さらに入力音声の特徴に基づいてフォントを変更するフォント変換装置が開示されている。また、特許文献2には、音声から話者の性別を判定し、判定した性別に応じて音声と言語表現を切り換えて通訳音声を出力する音声通訳機が開示されている。
特開2001−318915号公報 特開2000−200276号公報
しかし、特許文献1および2には、音声のみで意思疎通が行われる場合において、話者の音声を分析し、より話者の特徴を際立たせるような音声処理を行う技術は開示されていない。
そのため、電話等において、複数人が同時に音声のみで会話をする場合、音声が似ていることにより話者を取り違え、会話が混乱することがあった。また、一対一の会話であっても、後に他者が該会話の録音音声を確認した場合、音声が似ていることにより話者を取り違え、会話内容を把握できないことがあった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、話者の識別を容易に行うことが可能となる、新規かつ改良された音声処理サーバを提供することにある。
上記課題を解決するために、本発明のある観点によれば、入力音声の各々について、入力音声特徴量を取得する特徴量取得部と、前記入力音声特徴量から基準音声特徴量を決定する基準音声算出部と、前記入力音声特徴量と前記基準音声特徴量とに基づいて、前記入力音声を音声処理し、出力音声を生成する音声変換部と、を備えた音声処理サーバが提供される。
前記入力音声特徴量は、前記入力音声の基本周波数であってもよい。
前記基準音声特徴量は、前記入力音声の基本周波数の各々の平均周波数であってもよい。
前記音声変換部は、前記入力音声の基本周波数と前記平均周波数との差分が大きくなるように前記入力音声に対して音声処理を行ってもよい。
前記音声処理サーバは、各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部と、前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定する話者推定部と、をさらに備え、前記話者推定部は、前記入力音声から推定した年齢帯および性別が同一である話者が複数存在するか否かに基づいて、前記特徴量取得部、前記基準音声算出部および前記音声変換部の動作を制御してもよい。
前記音声処理サーバは、前記話者の推定した年齢帯および性別が各々異なる場合、前記入力音声特徴量として、前記入力音声の波形を用いてもよい。
前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形であってもよい。
前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行ってもよい。
前記入力音声特徴量は、前記入力音声の波形であってもよい。
前記音声処理サーバは、各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部をさらに備え、前記基準音声算出部は、前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定してもよい。
前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形であってもよい。
前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行ってもよい。
以上説明したように本発明によれば、話者の識別を容易に行うことが可能となる。
本発明の実施形態に係る音声処理サーバの概略を説明する説明図である。 本発明の第1の実施形態に係る音声処理サーバおよび音声端末装置の内部構成を示したブロック図である。 同実施形態に係る音声処理サーバが行う動作を説明するフローチャート図である。 本発明の第2の実施形態に係る音声処理サーバおよび音声端末装置の内部構成を示したブロック図である。 同実施形態に係る音声処理サーバが行う動作を説明するフローチャート図である。 本発明の第3の実施形態に係る音声処理サーバおよび音声端末装置の内部構成を示したブロック図である。 本発明の第3の実施形態に係る音声処理サーバが行う動作を説明するフローチャート図である。 本発明の実施形態に係る音声処理サーバのハードウェア構成を示すブロック図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.音声処理サーバの概略>
まず、図1を参照して、本発明の実施形態に係る音声処理サーバの概略について、説明を行う。図1は、本発明の実施形態に係る音声処理サーバの概略を説明する説明図である。
なお、以下の発明の詳細な説明においては、主として本発明の実施形態に係る音声処理サーバ1をコールセンタまたはコンタクトセンタの電話による会話音声の処理に適用した場合について記載するが、本発明は係る例示に限定されるものではない。本発明は、様々な音声端末装置を介した会話音声を処理する場合に適用可能であり、例えば、電話会議システムにおける音声処理などに適用することも可能である。
図1に示すように、本発明の実施形態に係る音声処理サーバ1は、通信網3Aおよび3Bによって音声端末装置2A、2Bおよび2Cと接続されている。また、音声端末装置2A、2Bおよび2Cを介して、話者4A、4Bおよび4C間で音声による会話が行われる。以下では、話者4A、4Bおよび4C間で行われる一つの呼による会話を一つのセッションとして説明し、話者4A、4Bおよび4Cは、同じセッションに参加していると表現する。
音声処理サーバ1は、音声端末装置2A、2Bおよび2Cから、それぞれ音声データを受信し、話者4A、4Bおよび4Cの音声を各話者4A、4Bおよび4Cのそれぞれが識別することが容易になるように音声処理を行った上で、音声端末装置2A、2Bおよび2Cにそれぞれ送信する。具体的には、音声処理サーバ1は、受信し入力された音声データのそれぞれから入力音声の特徴量を取得し、該特徴量から決定した基準音声特徴量と、入力音声の特徴量とに基づいて、入力音声に音声処理を行い、出力音声を生成し送信する。ここで、音声処理方法の詳細については、以下の第1〜第3の実施形態においてそれぞれ後述する。
なお、音声処理サーバ1は、音声端末装置から受信した音声データを音声処理し、該音声端末装置を除いた他の音声端末装置に送信するようにしてもよいし、該音声端末装置を含むすべての音声端末装置に送信するようにしてもよい。
音声端末装置2A、2Bおよび2Cは、音声処理サーバ1と音声データの送受信を行う。具体的には、音声端末装置2A、2Bおよび2Cは、それぞれ話者4A、4Bおよび4Cが発した音声を取得し、通信網3Aまたは3Bを介して音声処理サーバ1に該音声を音声データとして送信する。また、音声端末装置2A、2Bおよび2Cは、音声処理サーバ1より受信した音声データを音声に変換して、話者4A、4Bおよび4Cに伝達する。音声端末装置2A、2Bおよび2Cは、例えば、電話機、携帯電話およびソフトフォンなどの各種電話であってもよいし、電話会議装置などの通信装置であってもよい。
通信網3Aおよび3Bは、音声処理サーバ1と音声端末装置2A、2Bおよび2Cとの間で音声データの送受信が可能なネットワークである。例えば、通信網3Aおよび3Bは、アナログ回線やISDN(Integrated Services Digital Network)回線を含む電話回線網、インターネット、衛星通信網などの公衆回線網、またはLAN(Local Area Network)、WAN(Wide Area Network)などであってもよい。また、通信網3Aおよび3Bは、同一のネットワークであってもよいし、異なるネットワークであってもよい。
話者4A、4Bおよび4Cは、それぞれ音声端末装置2A、2Bおよび2Cを用いて、互いに音声による会話を行うユーザである。例えば、話者4Aおよび4Bは、コールセンタのオペレータおよびスーパーバイザであり、話者4Cは、コールセンタに問い合わせを行った顧客である。
ここで、図1において、音声端末装置2A、2Bおよび2Cを3台、話者4A、4Bおよび4Cを3人として説明を行ったが、本発明は係る例示に限定されない。本発明の実施形態に係る音声処理サーバ1に接続される音声端末装置の個数、およびセッションに参加する話者の人数は2以上であればよい。また、セッションに参加する話者の人数が多いほど、会話内容を把握するためには、聞き手が音声によって話者を識別することが重要になる。したがって、セッションに参加する話者の人数が多いほど、本発明の実施形態に係る音声処理サーバ1は、似通った音声による会話の混乱をより防止するため、効果的である。
以上、図1を参照して、本発明の実施形態に係る音声処理サーバ1の概略を説明した。以下の第1〜第3の実施形態では、係る音声処理サーバ1の構成および音声処理サーバ1が行う音声処理方法についてそれぞれ詳細に説明を行う。
<2.第1の実施形態>
まず、図2および図3を参照して、本発明の第1の実施形態に係る音声処理サーバ11について説明を行う。
第1の実施形態に係る音声処理サーバ11は、入力音声特徴量として入力音声の基本周波数を用い、基準音声特徴量として各入力音声の基本周波数の平均周波数を用いる。係る構成により、第1の実施形態に係る音声処理サーバ11は、入力音声の基本周波数と平均周波数との差がより拡大するように、入力音声の基本周波数を変換する音声処理を行う。
なお、音声の基本周波数は、人間にとって音声の中でも差異を感じ取りやすいパラメータであるため、音声処理サーバ11は、音声の該基本周波数を変換することにより聞き手が各話者の識別を行うことをより容易にする。
したがって、第1の実施形態に係る音声処理サーバ11は、各音声端末装置2より受信した入力音声の基本周波数を各入力音声の基本周波数の平均を基準として、互いの基本周波数の差が大きくなるように変換する音声処理を行うことができる。係る音声処理により、音声処理後の出力音声は、音声処理前の入力音声と比較して、平均より基本周波数が高い入力音声は基本周波数がより高くなり、平均より基本周波数が低い入力音声は基本周波数がより低くなる。よって、各音声間の基本周波数の差が拡大するため、音声処理サーバ11は、話者が音声によって互いを識別すること、および第三者が音声によって話者を識別することをより容易にする。
[2.1.第1の実施形態に係る音声処理サーバの内部構成]
まず、図2を参照して、本発明の第1の実施形態に係る音声処理サーバ11および音声端末装置2の内部構成について、説明を行う。図2は、本発明の第1の実施形態に係る音声処理サーバ11および音声端末装置2の内部構成を示したブロック図である。
図2に示すように、第1の実施形態に係る音声処理サーバ11は、音声端末装置2と通信網3を介して接続されている。音声処理サーバ11は、サーバ通信部111と、入力音声処理部113と、特徴量取得部115と、基準音声算出部117と、音声変換部119と、出力音声処理部121と、を備える。また、音声端末装置2は、端末通信部201と、音声信号変換部203と、音声入力部205と、音声出力部207と、を備える。ここで、通信網3は、図1で説明した通信網3Aおよび3Bと同様であるので、ここでの説明は省略する。
(2.1.1.音声処理サーバの内部構成)
サーバ通信部111は、音声処理サーバ11と音声端末装置2との間で音声データの送受信を行う。具体的には、サーバ通信部111は、音声端末装置2から受信した音声データを入力音声処理部113に出力し、また、出力音声処理部121が出力した音声データを音声端末装置2に送信する。
入力音声処理部113は、サーバ通信部111が受信した各音声データに識別情報を付加して入力音声として取得する。具体的には、入力音声処理部113は、サーバ通信部111より音声データを取得し、該音声データに、送信元の音声端末装置2を識別する端末ID、話者を識別するための話者ID、および該音声データが含まれるセッションを識別するセッションIDを付加する。
特徴量取得部115は、入力音声から入力音声特徴量である基本周波数を取得する。具体的には、特徴量取得部115は、識別信号が付加された入力音声に対して、時間フレームごとに音声の周波数成分の分布とエネルギー成分の分布を測定し、音声が含まれる有声区間と音声が含まれない無音区間との区切りを識別する。また、特徴量取得部115は、識別した有声区間を抽出し、該有声区間の入力音声の周波数をフーリエ変換等にて解析することで、入力音声の基本周波数を取得する。また、特徴量取得部115は、複数の有声区間よりそれぞれ基本周波数を取得し、平均を取って入力音声の基本周波数としてもよい。なお、特徴量取得部115が行う入力音声からの基本周波数の取得方法は上記に限定されず、特徴量取得部115は、他の公知の音声処理技術を用いて入力音声の基本周波数を取得することも可能である。
基準音声算出部117は、同一セッションIDにおける各入力音声の基本周波数の平均を算出する。具体的には、基準音声算出部117は、同一のセッションIDを持つ各入力音声について、特徴量取得部115が取得した入力音声の基本周波数の平均を算出する。基準音声算出部117が算出した平均周波数は、すなわち、該セッションに参加している話者の入力音声の基本周波数の平均値である。
音声変換部119は、基準音声算出部117が算出した平均周波数と、各入力音声の基本周波数に基づいて、各入力音声を音声処理する。具体的には、音声変換部119は、各入力音声の基本周波数と該入力音声が含まれるセッションの入力音声の平均周波数との差分周波数を算出する。さらに、音声変換部119は、該差分周波数をより大きくするように所定の定数または式で該差分周波数を演算し(例えば、差分周波数に2を乗算するなど)、周波数変動量をそれぞれ算出する。また、音声変換部119は、入力音声の基本周波数を、周波数変動量の分だけ周波数変換して出力音声を生成し、出力音声処理部121に出力する。ここで、入力音声の基本周波数を異なる基本周波数に変換する方法については、公知の音声処理技術を用いることで実現することが可能である。
出力音声処理部121は、音声端末装置2が再生する音声データを生成する。具体的には、出力音声処理部121は、セッションに参加している複数の話者の音声について、音声変換部119が周波数変換した出力音声を合成し、音声端末装置2が再生する音声データを生成し、サーバ通信部111に出力する。
上記で説明した特徴量取得部115、基準音声算出部117および音声変換部119の動作について、具体例として話者A、BおよびCの3人がセッションに参加していた場合を挙げて以下でさらに説明する。
特徴量取得部115は、それぞれの入力音声より、話者Aの音声の基本周波数Fa、話者Bの音声の基本周波数Fb、および話者Cの音声の基本周波数Fcを取得する。次に、基準音声算出部は、以下の式(1)により平均周波数Favを算出する。続いて、音声変換部119は、以下の式(2)により、それぞれの入力音声の差分周波数dFa、dFbおよびdFcを算出する。さらに、音声変換部119は、以下の式(3)により、所定の定数または式であるZを乗算して周波数変動量Da、DbおよびDcを算出する。また、音声変換部119は、各話者A、BおよびCの入力音声の基本周波数がそれぞれFa+Da、Fb+DbおよびFc+Dcとなるように周波数変換して出力音声を生成する。
Fav=(Fa+Fb+Fc)/3 ・・・式(1)
dFn=Fav−Fn(n=a,b,c) ・・・式(2)
Dn=dFn×Z(n=a,b,c、 Zは所定の定数または式) ・・・式(3)
(2.1.2.音声端末装置の内部構成)
端末通信部201は、音声端末装置2と音声処理サーバ11との間で音声データの送受信を行う。具体的には、端末通信部201は、音声信号変換部203が変換した音声データを音声処理サーバ11に送信し、また、音声処理サーバ11から受信した音声データを音声信号変換部203に出力する。
音声信号変換部203は、アナログ信号である音声とディジタル信号である音声データとの変換を行う。具体的には、音声信号変換部203は、音声入力部205が取得した音声をディジタル化して通信網3により送受信することができる音声データに変換する。また、音声信号変換部203は、音声処理サーバ11から受信した音声データをアナログ化して音声出力部207に出力する。
音声入力部205は、話者の会話音声を取得する入力装置である。音声入力部205は、例えば、マイク等であってもよい。
音声出力部207は、音声処理サーバ11から送信された会話音声を再生する出力装置である。音声出力部207は、例えば、スピーカ等であってもよい。
[2.2.第1の実施形態に係る音声処理サーバの動作]
以上にて、図2を参照して本発明の第1の実施形態に係る音声処理サーバ11の内部構成について説明を行った。以下では、図3を参照して係る内部構成を有する音声処理サーバ11が行う動作について、説明を行う。図3は、本発明の第1の実施形態に係る音声処理サーバ11が行う動作を説明するフローチャート図である。
図3に示すように、まず、入力音声処理部113は、各入力音声について音声データおよび該音声データの識別情報を取得する(S101)。音声データの識別情報には、端末ID、話者IDおよびセッションIDが含まれる。次に、特徴量取得部115は、入力音声の基本周波数を取得する(S103)。ここで、S101およびS103の動作は、各入力音声についてそれぞれ行われる。さらに、基準音声算出部117は、各入力音声の基本周波数から平均周波数を算出する(S105)。
続いて、音声変換部119は、各入力音声について該入力音声の基本周波数と平均周波数との差分周波数を算出する(S107)。また、音声変換部119は、差分周波数が大きくなるように所定の定数または式で差分周波数を演算し、該入力音声の周波数変動量を決定する(S109)。ここで、S107およびS109の動作は、各入力音声についてそれぞれ行われる。さらに、音声変換部119は、入力音声の基本周波数を該周波数変動量に基づいて変換して出力音声を生成する(S111)。出力音声処理部121は、音声変換部119が変換した該セッションに参加している複数の話者の出力音声を合成し、音声端末装置2に送信する音声データを生成する(S113)。
ここで、S101〜S109の動作は、セッションに参加している各話者の入力音声についてセッション冒頭に一度のみ行い、セッション中に再度実行しない。セッション中に、再度S101〜S109の動作が行われて周波数変動量が変化した場合、同一の話者であるにもかかわらず、出力音声の基本周波数が変化してしまい、かえって会話が混乱する。したがって、音声処理サーバ11は、同一の呼によるセッションにおいて、セッション冒頭に決定した周波数変動量を用いて入力音声の基本周波数に同一の変換処理を行う。
また、音声処理サーバ11は、セッションにおける各話者の任意の冒頭の音声を用いて、上記S101〜S109の動作を行ってもよいし、所定の語句を各話者が発するようにし、該語句の音声を用いて、上記S101〜S109の動作を行ってもよい。なお、所定の語句の音声を用いて音声処理方法を決定した方が、入力音声の基本周波数を精度よく取得できるため、より好ましい。
[2.3.第1の実施形態のまとめ]
以上説明したように、本発明の第1の実施形態に係る音声処理サーバ11は、入力音声の基本周波数と各入力音声の基本周波数の平均周波数との差が拡大するように、入力音声の基本周波数を変換することができる。したがって、出力音声では、各話者の音声の基本周波数の差がより拡大するため、聞き手は音声による話者の識別をより容易に行うことが可能になる。
<3.第2の実施形態>
次に、図4および5を参照して、本発明の第2の実施形態に係る音声処理サーバ13について説明を行う。
第2の実施形態に係る音声処理サーバ13は、入力音声特徴量として入力音声の波形を用い、基準音声特徴量として、入力音声の波形から推定した話者の年齢帯および性別に対応した音声モデル波形を用いる。係る構成により、第2の実施形態に係る音声処理サーバ13は、入力音声から話者の年齢帯および性別を推定し、該年齢帯および性別に対応する音声モデル波形に該入力音声の波形を近づけるように、入力音声の波形を変換する音声処理を行う。
したがって、第2の実施形態に係る音声処理サーバ13は、各音声端末装置2より受信した入力音声の波形を各年齢帯および各性別のモデル音声波形に近くなるように変換する音声処理を行うことができる。係る音声処理により、音声処理後の出力音声は、音声処理前の入力音声と比較して、男性の音声はより男性らしく、女性の音声はより女性らしく、若者の音声はより若者らしく、年配の方の音声はより年配らしくなる。よって、特に異なる年齢帯および性別の話者がセッションに参加している場合に、音声処理サーバ13は、話者が音声によって互いを識別すること、および第三者が音声によって話者を識別することをより容易にする。
また、各年齢帯および各性別のモデル音声波形を聞き取りやすい音声波形にしておくことにより、音声処理サーバ13によって音声処理後の出力音声をよりモデル音声波形に近い聞き取りやすい音声波形にすることができる。したがって、係る音声処理サーバ13によれば、各話者間での聞き間違いおよび聞きおとしをより軽減することができ、話者間での円滑な会話を促すことができる。
[3.1.第2の実施形態に係る音声処理サーバの内部構成]
まず、図4を参照して、本発明の第2の実施形態に係る音声処理サーバ13および音声端末装置2の内部構成について、説明を行う。図4は、本発明の第2の実施形態に係る音声処理サーバ13および音声端末装置2の内部構成を示したブロック図である。
図4に示すように、第2の実施形態に係る音声処理サーバ13は、音声端末装置2と通信網3を介して接続されている。音声処理サーバ13は、サーバ通信部131と、入力音声処理部133と、特徴量取得部135と、基準音声算出部137と、音声変換部139と、出力音声処理部141と、音声モデル記憶部143と、を備える。
ここで、音声端末装置2は、図2を参照して説明した音声端末装置2と同様であり、通信網3は、図1で説明した通信網3Aおよび3Bと同様であるので、ここでの説明は省略する。さらに、サーバ通信部131はサーバ通信部111と実質的に同様であり、入力音声処理部133は入力音声処理部113と実質的に同様であり、出力音声処理部141は出力音声処理部121と実質的に同様であるので、ここでの説明は省略する。
以下では、第2の実施形態に係る音声処理サーバ13で特徴的な特徴量取得部135、基準音声算出部137、音声変換部139、および音声モデル記憶部143について、詳細に説明を行う。
特徴量取得部135は、入力音声の波形を取得する。具体的には、特徴量取得部135は、識別信号が付加された入力音声に対して、時間フレームごとに音声の周波数成分の分布とエネルギー成分の分布を測定し、音声が含まれる有声区間と音声が含まれない無音区間との区切りを識別する。また、特徴量取得部135は、識別した有声区間から所定の音声要素(例えば、各母音など)の波形を抽出する。なお、特徴量取得部135が行う入力音声からの波形の取得方法は上記に限定されず、特徴量取得部135は、他の公知の音声処理技術を用いることで入力音声の波形を取得することも可能である。
ここで、特徴量取得部135が取得する入力音声の波形は、アナログデータであってもよいし、所定の周波数でサンプリングされたディジタルデータであってもよい。
基準音声算出部137は、特徴量取得部135が取得した入力音声の波形と、音声モデル記憶部143に記憶された各年齢帯および各性別に対応した音声モデル波形から該入力音声の話者の年齢帯および性別を推定する。具体的には、基準音声算出部137は、同じ音声要素において、入力音声の波形と各年齢帯および各性別に対応した音声モデル波形とをそれぞれ比較し、入力音声の波形に最も近い音声モデル波形を決定する。次に、基準音声算出部137は、該入力音声の波形に最も近い音声モデル波形に対応する年齢帯および性別を該入力音声の話者の年齢帯および性別であると推定する。
ここで、上記では、基準音声算出部137は、入力音声の話者の年齢帯および性別の推定を一つのステップで行ったが、本発明は係る例示に限定されない。例えば、基準音声算出部137は、入力音声の話者の年齢帯および性別の推定を二つのステップで行ってもよい。具体的には、基準音声算出部137は、第1の音声モデル波形との比較により、まず入力音声の話者の性別を推定した後、次に、第2の音声モデル波形との比較により、年齢帯を推定してもよい。また、逆に、基準音声算出部137は、入力音声の話者の年齢帯を推定した後、性別を推定してもよい。さらに、基準音声算出部137は、入力音声の話者の年齢帯および性別のどちらか一方のみを推定してもよい。
さらに、基準音声算出部137は、推定した話者の年齢帯および性別から、入力音声の変換基準となる音声モデル波形を決定する。ここで、変換基準とした音声モデル波形は、該入力音声の話者の入力音声の波形に最も近いと判断された音声モデル波形であってもよいし、他の音声モデル波形であってもよい。
音声変換部139は、基準音声算出部137が決定した変換基準である音声モデル波形に基づいて、各入力音声を音声処理する。具体的には、音声変換部139は、各入力音声の波形を変換基準である音声モデル波形に近づくように、各音声要素それぞれに対して振幅、周波数、音色等の音声変換を行い、出力音声を生成して出力音声処理部141に出力する。ここで、入力音声の波形を音声モデル波形に近づけるよう音声処理する方法については、公知の音声処理技術を用いることで実現することが可能である。
音声モデル記憶部143は、各年齢帯および各性別に対応する音声モデル波形を記憶する。具体的には、音声モデル記憶部143は、各年齢帯(例えば、10歳刻みなど)の男性および女性の特徴的な音声波形をすべての音声要素について音声モデル波形として記憶する。また、音声モデル記憶部143が記憶する各年齢帯および各性別のモデル音声波形は、より聞き取りやすい音声波形であることがより好ましい。
ここで、音声モデル記憶部143は、同じ年齢帯および性別に対応する音声モデル波形を異なる音色で複数種類記憶していてもよい。係る構成により、例えば、同じ年齢帯かつ同じ性別であると推定された話者が複数存在した場合、該話者のそれぞれの入力音声を同一の音声モデル波形に近づけることなく、同じ年齢帯および性別に対応する異なる音色の音声モデル波形に近づけるようにできるためより好ましい。
[3.2.第2の実施形態に係る音声処理サーバの動作]
以上において、図4を参照して本発明の第2の実施形態に係る音声処理サーバ13の内部構成について説明を行った。以下では、図5を参照して係る内部構成を有する音声処理サーバ13が行う動作について、説明を行う。図5は、本発明の第2の実施形態に係る音声処理サーバ13が行う動作を説明するフローチャート図である。
図5に示すように、まず、入力音声処理部133は、各入力音声について音声データおよび該音声データの識別情報を取得する(S201)。音声データの識別情報には、端末ID、話者IDおよびセッションIDが含まれる。次に、特徴量取得部135は、入力音声の波形を所定の音声要素について取得する(S203)。
次に、基準音声算出部137は、音声モデル記憶部143から各年齢帯および各性別に対応する音声モデル波形を取得する(S205)。基準音声算出部137は、同じ音声要素において、入力音声の波形と各年齢帯および各性別に対応した音声モデル波形とをそれぞれ比較し、入力音声の波形に最も近い音声モデル波形を決定する(S207)。さらに、基準音声算出部137は、該入力音声の波形に最も近い音声モデル波形に対応する年齢帯および性別を該入力音声の話者の年齢帯および性別であると推定する(S209)。続いて、基準音声算出部137は、推定した話者の年齢帯および性別から、入力音声の波形の変換基準となる音声モデル波形を決定する(S211)。ここで、S201〜S211の動作は、各入力音声についてそれぞれ行われる。
さらに、音声変換部139は、入力音声の波形と変換基準となる音声モデル波形とに基づいて、入力音声の波形を変換処理して出力音声を生成する(S213)。出力音声処理部141は、音声変換部139が変換した該セッションに参加している複数の話者の出力音声を合成し、音声端末装置2に送信する音声データを生成する(S215)。
ここで、第2の実施形態においても第1の実施形態と同様に、S201〜S211の動作は、セッションに参加している各話者の入力音声についてセッション冒頭に一度のみ行い、セッション中に再度実行しない。セッション中に、再度S201〜S211の動作が行われ、変換基準となる音声モデル波形が変化した場合、同一の話者であるにもかかわらず、出力音声の声色が変化してしまい、かえって会話を混乱させる。したがって、音声処理サーバ13は、同一の呼によるセッションにおいて、セッション冒頭に決定した変換基準となる音声モデル波形を用いて入力音声に同一の変換処理を行う。
なお、音声処理サーバ13は、セッションにおける各話者の任意の冒頭の音声を用いて、上記S201〜S211の動作を行ってもよいし、所定の語句を各話者が発するようにして、該語句の音声を用いて、上記S201〜S211の動作を行ってもよい。なお、所定の語句の音声を用いて音声処理方法を決定した方が、入力音声の波形を精度よく取得できるため、より好ましい。
[3.3.第2の実施形態のまとめ]
以上説明したように、本発明の第2の実施形態に係る音声処理サーバ13は、入力音声の波形を各年齢帯および各性別のモデル音声波形に近くなるように変換する音声処理を行うことができる。したがって、出力音声は各話者の年齢帯および性別が強調された音声となるため、聞き手は音声による話者の識別をより容易に行うことが可能になる。
<4.第3の実施形態>
次に、図6および7を参照して、本発明の第3の実施形態に係る音声処理サーバ15について説明を行う。
第3の実施形態に係る音声処理サーバ15は、まず入力音声の波形から話者の年齢帯および性別を推定し、セッションに参加している話者のうち、同じ年齢帯かつ同じ性別であると推定された話者が複数存在するか否かに基づいて、入力音声の音声処理方法を変更する構成を有する。
具体的には、同じ年齢帯かつ同じ性別であると推定された話者が複数存在する場合、第3の実施形態に係る音声処理サーバ15は、入力音声に対して第1の実施形態に係る音声処理サーバ11と同様の音声処理を行う。すなわち、第3の実施形態に係る音声処理サーバ15は、入力音声特徴量として入力音声の基本周波数を用い、基準音声特徴量として各入力音声の基本周波数の平均周波数を用い、入力音声の基本周波数と平均周波数との差がより拡大するように、入力音声の基本周波数を変換する音声処理を行う。
また、同じ年齢帯かつ同じ性別であると推定された話者が複数存在しない場合、第3の実施形態に係る音声処理サーバ15は、入力音声に対して第2の実施形態に係る音声処理サーバ13と同様の音声処理を行う。すなわち、入力音声特徴量として入力音声の波形を用い、基準音声特徴量として、入力音声の波形から推定した話者の年齢帯および性別に対応した音声モデル波形を用い、該年齢帯および性別に対応する音声モデル波形に該入力音声の波形を近づけるように、入力音声の波形を変換する音声処理を行う。
上記で説明したように、第3の実施形態に係る音声処理サーバ15は、セッションに参加している話者のうち、同じ年齢帯かつ同じ性別であると推定された話者が複数存在するか否かに基づいて、入力音声の音声処理方法を変更することが可能である。したがって、第3の実施形態に係る音声処理サーバ15は、セッションに参加している話者それぞれの年齢帯および性別に応じて、より話者同士の音声の差異が明確になるように、最適な入力音声の音声処理方法を選択して実行することが可能である。
[4.1.第3の実施形態に係る音声処理サーバの内部構成]
まず、図6を参照して、本発明の第3の実施形態に係る音声処理サーバ15および音声端末装置2の内部構成について、説明を行う。図6は、本発明の第3の実施形態に係る音声処理サーバ15および音声端末装置2の内部構成を示したブロック図である。
図6に示すように、第3の実施形態に係る音声処理サーバ15は、音声端末装置2と通信網3を介して接続されている。音声処理サーバ15は、サーバ通信部151と、入力音声処理部153と、特徴量取得部155と、基準音声算出部157と、音声変換部159と、出力音声処理部161と、音声モデル記憶部163と、話者推定部165と、を備える。
ここで、音声端末装置2は、図2を参照して説明した音声端末装置2と同様であり、通信網3は、図1で説明した通信網3Aおよび3Bと同様であるので、ここでの説明は省略する。さらに、サーバ通信部151はサーバ通信部111と実質的に同様であり、入力音声処理部153は入力音声処理部113と実質的に同様であり、出力音声処理部161は出力音声処理部121と実質的に同様であり、音声モデル記憶部163は音声モデル記憶部143と実質的に同様であるので、ここでの説明は省略する。
以下では、第3の実施形態に係る音声処理サーバ15で特徴的な特徴量取得部155、基準音声算出部157、音声変換部159、および話者推定部165について説明を行う。
特徴量取得部155、基準音声算出部157および音声変換部159は、話者推定部165の制御に基づき、第1の実施形態において説明した特徴量取得部115、基準音声算出部117および音声変換部119、または第2の実施形態において説明した特徴量取得部135、基準音声算出部137および音声変換部139のいずれかと同様の機能を実行する。
話者推定部165は、セッションに参加している各話者の年齢帯および性別を推定し、同じ年齢帯かつ同じ性別の話者が複数存在するか否かに基づいて、入力音声に対する音声処理方法を制御する。
具体的には、話者推定部165は、入力音声の波形を取得し、取得した入力音声の波形と、音声モデル記憶部143に記憶された各年齢帯および各性別に対応した音声モデル波形から該入力音声の話者の年齢帯および性別を推定する。次に、話者推定部165は、セッションに参加している各話者の推定した年齢帯および性別をそれぞれ比較する。同じ年齢帯かつ同じ性別の話者が複数存在した場合、話者推定部165は、特徴量取得部155、基準音声算出部157および音声変換部159に、第1の実施形態において説明した特徴量取得部115、基準音声算出部117および音声変換部119と同様の機能を実行させる。また、同じ年齢帯かつ同じ性別の話者が複数存在しない場合、話者推定部165は、特徴量取得部155、基準音声算出部157および音声変換部159に、第2の実施形態において説明した特徴量取得部135、基準音声算出部137および音声変換部139と同様の機能を実行させる。
ここで、話者推定部165が行う話者の年齢帯および性別の推定方法は、第2の実施形態において説明した特徴量取得部135および基準音声算出部137が行う年齢帯および性別の推定方法と同様の方法であってもよい。
[4.2.第3の実施形態に係る音声処理サーバの動作]
以上において、図6を参照して本発明の第3の実施形態に係る音声処理サーバ15の内部構成について説明を行った。以下では、図7を参照して係る内部構成を有する音声処理サーバ15が行う動作について、説明を行う。図7は、本発明の第3の実施形態に係る音声処理サーバ15が行う動作を説明するフローチャート図である。
図7に示すように、まず、まず、入力音声処理部153は、各入力音声について音声データおよび該音声データの識別情報を取得する(S301)。音声データの識別情報には、端末ID、話者IDおよびセッションIDが含まれる。次に、話者推定部165は、入力音声の波形を所定の音声要素について取得する(S303)。続いて、話者推定部165は、音声モデル記憶部163から各年齢帯および各性別に対応する音声モデル波形を取得する(S305)。話者推定部165は、同じ音声要素において、入力音声の波形と各年齢帯および各性別に対応した音声モデル波形とをそれぞれ比較し、入力音声の波形に最も近い音声モデル波形を決定する(S307)。さらに、話者推定部165は、該入力音声の波形に最も近い音声モデル波形に対応する年齢帯および性別を該入力音声の話者の年齢帯および性別であると推定する(S309)。音声処理サーバ15は、以上のS301〜S309の動作を各入力音声について実行する。
さらに、話者推定部165は、セッションに参加している各話者の推定した年齢帯および性別を比較し、同じ年齢帯かつ同じ性別の話者が複数存在するか否かを判断する(S311)。同じ年齢帯かつ同じ性別の話者が複数存在する場合(S311/Yes)、話者推定部165は、特徴量取得部155、基準音声算出部157および音声変換部159に、第1の実施形態の音声処理(S103〜S111)を実行させる(S313)。また、同じ年齢帯かつ同じ性別の話者が複数存在しない場合(S311/No)、話者推定部165は、特徴量取得部155、基準音声算出部157および音声変換部159に、第2の実施形態の音声処理(S203〜S213)を実行させる(S315)。音声処理後、出力音声処理部161は、該セッションに参加している複数の話者の音声処理された出力音声を合成し、音声端末装置2に送信する音声データを生成する(S317)。
なお、S315中の話者の年齢帯および性別の推定に係る動作(S203〜S209)は、話者推定部165がすでに実質的に同様の動作を実行しているので、話者推定部165が推定した年齢帯および性別のデータを用いることにより省略してもよい。
ここで、第3の実施形態においても第1および第2の実施形態と同様に、S301〜S315の動作は、セッションに参加している各話者の入力音声についてセッション冒頭に一度のみ行い、セッション中に再度実行しない。セッション中において、再度S301〜S315の動作が行われ、音声処理方法が変化した場合、同一の話者であるにもかかわらず、出力音声が変化してしまい、かえって会話を混乱させる。したがって、音声処理サーバ15は、同一の呼によるセッションにおいて、セッション冒頭に決定した音声処理方法を用いて入力音声に同一の変換処理を行う。
なお、音声処理サーバ15は、セッションにおける各話者の任意の冒頭の音声を用いて、上記S301〜S315の動作を行ってもよいし、所定の語句を各話者が発するようにして、該語句の音声を用いて、上記S301〜S315の動作を行ってもよい。なお、所定の語句の音声を用いて音声処理方法を決定した方が、入力音声特徴量を精度よく取得できるため、より好ましい。
[4.3.第3の実施形態のまとめ]
以上説明したように、本発明の第3の実施形態に係る音声処理サーバ15は、セッションに参加している話者の年齢帯および性別を推定し、同じ年齢帯かつ同じ性別であると推定された話者が複数存在するか否かに基づいて、入力音声の音声処理方法を変更することが可能である。したがって、第3の実施形態に係る音声処理サーバ15は、セッションに参加している話者それぞれの年齢帯および性別に応じて、より話者同士の音声の差異が明確になるように、最適な入力音声の音声処理方法を選択して実行することが可能である。
<5.音声処理サーバのハードウェア構成>
以上、本発明の第1〜第3の実施形態に係る音声処理サーバについて、具体的に説明を行った。上述した本発明の実施形態に係る情報処理は、ソフトウェアと以下で説明する音声処理サーバ1のハードウェアとの協働により実現される。
図8は、音声処理サーバ1のハードウェア構成を示すブロック図である。音声処理サーバ1は、CPU(Central Processing Unit)171と、ROM(Read Only Memory)173と、RAM(Random Access Memory)175と、内部バス177と、を備える。また、音声処理サーバ1は、入出力インターフェース179と、HDD(Hard Disk Drive)181と、ネットワークインターフェース183と、外部インターフェース185と、を備える。
CPU171は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理サーバ1内の動作全般を制御する。なお、CPU171は、入力音声処理部113、133および153と、特徴量取得部115、135および155と、基準音声算出部117、137および157と、音声変換部119、139および159と、出力音声処理部121、141および161と、話者推定部165と、に対応し、各部の機能を実現する。
ROM173は、CPU171が使用するプログラムや演算パラメータ等を記憶する。RAM175は、CPU171の実行において使用するプログラム、その実行において適宜変化するパラメータ、各入力音声、および各出力音声等を一時記憶する。
CPU171、ROM173、およびRAM175は、内部バス177により相互に接続され、さらに入出力インターフェース179を介して後述するHDD181、ネットワークインターフェース183、および外部インターフェース185と接続される。
HDD181は、本実施形態に係る音声処理サーバ1の記憶部の一例として構成されたデータ格納用の装置である。HDD181は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出装置、および記憶媒体に記憶されたデータを削除する削除装置を含む。該HDD181は、各種データを格納する。なお、HDD181は、音声モデル記憶部143、163に対応する。
ネットワークインターフェース183は、例えば、通信網3に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース183は、アナログ回線やISDN回線に接続し、音声データを送受信することが可能な通信装置であってもよいし、有線LANまたは無線LAN対応通信装置であってもよい。なお、ネットワークインターフェース183は、サーバ通信部111、131および151に対応する。
外部インターフェース185は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、または光オーディオ端子等のような外部接続機器を接続するための接続ポートで構成された接続インターフェースである。
<6.まとめ>
以上説明したように、本発明の実施形態に係る音声処理サーバは、入力された音声データのそれぞれから入力音声の特徴量を取得し、該特徴量から決定した基準音声特徴量と、入力音声の特徴量とに基づいて、入力音声に音声処理を行い、出力音声を生成する。係る音声処理により、本発明の実施形態に係る音声処理サーバは、出力音声の聞き手が話者の識別を容易に行うことを可能とする。
また、話者の人数が多いほど、会話内容を把握するためには、聞き手が音声によって話者を識別することが重要になるため、本発明の実施形態に係る音声処理サーバは、より効果的に会話の混乱を防止する。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
なお、上記実施形態では、第1の実施形態と第2の実施形態とをそれぞれ個別に記載したが、本発明は係る例示に限定されない。例えば、本発明の実施形態に係る音声処理サーバ1は、第1の実施形態に係る動作を実行した後、第2の実施形態に係る動作を実行してもよい。さらに、逆に本発明の実施形態に係る音声処理サーバ1は、第2の実施形態に係る動作を実行した後、第1の実施形態に係る動作を実行してもよい。
また、本発明の実施形態に係る音声処理サーバ1に内蔵されるようなCPU171、ROM173およびRAM175などのハードウェアを上述した音声処理サーバ1の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
本発明は、特にコールセンタまたはコンタクトセンタにおける会話音声を処理する音声処理サーバに適用可能であり、また、電話会議システムにおける各拠点の会話音声を処理する音声処理サーバにも適用可能である。
1、11、13、15 音声処理サーバ
2、2A、2B、2C 音声端末装置
3、3A、3B 通信網
4A、4B、4C 話者
111、131、151 サーバ通信部
113、133、153 入力音声処理部
115、135、155 特徴量取得部
117、137、157 基準音声算出部
119、139、159 音声変換部
121、141、161 出力音声処理部
143、163 音声モデル記憶部
165 話者推定部
201 端末通信部
203 音声信号変換部
205 音声入力部
207 音声出力部

Claims (12)

  1. 入力音声の各々について、入力音声特徴量を取得する特徴量取得部と、
    前記入力音声特徴量から基準音声特徴量を決定する基準音声算出部と、
    前記入力音声特徴量と前記基準音声特徴量とに基づいて、前記入力音声を音声処理し、出力音声を生成する音声変換部と、
    を備えた音声処理サーバ。
  2. 前記入力音声特徴量は、前記入力音声の基本周波数である、請求項1に記載の音声処理サーバ。
  3. 前記基準音声特徴量は、前記入力音声の基本周波数の各々の平均周波数である、請求項2に記載の音声処理サーバ。
  4. 前記音声変換部は、前記入力音声の基本周波数と前記平均周波数との差分が大きくなるように前記入力音声に対して音声処理を行う、請求項3に記載の音声処理サーバ。
  5. 前記音声処理サーバは、
    各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部と、
    前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定する話者推定部と、
    をさらに備え、
    前記話者推定部は、前記入力音声から推定した年齢帯および性別が同一である話者が複数存在するか否かに基づいて、前記特徴量取得部、前記基準音声算出部および前記音声変換部の動作を制御する、請求項1〜4のいずれか一項に記載の音声処理サーバ。
  6. 前記音声処理サーバは、前記話者の推定した年齢帯および性別が各々異なる場合、前記入力音声特徴量として、前記入力音声の波形を用いる、請求項5に記載の音声処理サーバ。
  7. 前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形である、請求項6に記載の音声処理サーバ。
  8. 前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行う、請求項7に記載の音声処理サーバ。
  9. 前記入力音声特徴量は、前記入力音声の波形である、請求項1に記載の音声処理サーバ。
  10. 前記音声処理サーバは、各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部をさらに備え、
    前記基準音声算出部は、前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定する、請求項9に記載の音声処理サーバ。
  11. 前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形である、請求項10に記載の音声処理サーバ。
  12. 前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行う、請求項11に記載の音声処理サーバ。
JP2013034330A 2013-02-25 2013-02-25 音声処理サーバ Pending JP2014164077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013034330A JP2014164077A (ja) 2013-02-25 2013-02-25 音声処理サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013034330A JP2014164077A (ja) 2013-02-25 2013-02-25 音声処理サーバ

Publications (1)

Publication Number Publication Date
JP2014164077A true JP2014164077A (ja) 2014-09-08

Family

ID=51614734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013034330A Pending JP2014164077A (ja) 2013-02-25 2013-02-25 音声処理サーバ

Country Status (1)

Country Link
JP (1) JP2014164077A (ja)

Similar Documents

Publication Publication Date Title
CN107623614B (zh) 用于推送信息的方法和装置
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
WO2021051506A1 (zh) 语音交互方法、装置、计算机设备及存储介质
WO2014069076A1 (ja) 会話分析装置及び会話分析方法
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US20090018826A1 (en) Methods, Systems and Devices for Speech Transduction
CN105489221A (zh) 一种语音识别方法及装置
US20110196677A1 (en) Analysis of the Temporal Evolution of Emotions in an Audio Interaction in a Service Delivery Environment
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
JP5051882B2 (ja) 音声対話装置、音声対話方法及びロボット装置
KR20210033850A (ko) 목소리 및 얼굴 안면 감정값의 산출 방법 및 이를 이용한 인공지능 스피커의 출력 방법
EP2030195B1 (en) Speech differentiation
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
JP7304627B2 (ja) 留守番電話判定装置、方法及びプログラム
WO2015019662A1 (ja) 分析対象決定装置及び分析対象決定方法
CN112652309A (zh) 一种方言语音转换方法、装置、设备及存储介质
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP2015100054A (ja) 音声通信システム、音声通信方法及びプログラム
US20220375468A1 (en) System method and apparatus for combining words and behaviors
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
JP2014164077A (ja) 音声処理サーバ
US20090326940A1 (en) Automated voice-operated user support
WO2014069443A1 (ja) 不満通話判定装置及び不満通話判定方法
CN112750456A (zh) 即时通信应用中的语音数据处理方法、装置及电子设备
CN111179943A (zh) 一种对话辅助设备及获取信息的方法