JP6849054B2 - 会話装置、音声処理システム、音声処理方法、および音声処理プログラム - Google Patents

会話装置、音声処理システム、音声処理方法、および音声処理プログラム Download PDF

Info

Publication number
JP6849054B2
JP6849054B2 JP2019505658A JP2019505658A JP6849054B2 JP 6849054 B2 JP6849054 B2 JP 6849054B2 JP 2019505658 A JP2019505658 A JP 2019505658A JP 2019505658 A JP2019505658 A JP 2019505658A JP 6849054 B2 JP6849054 B2 JP 6849054B2
Authority
JP
Japan
Prior art keywords
language
voice
end side
unit
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019505658A
Other languages
English (en)
Other versions
JPWO2018167960A1 (ja
Inventor
未輝雄 村松
未輝雄 村松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JPWO2018167960A1 publication Critical patent/JPWO2018167960A1/ja
Application granted granted Critical
Publication of JP6849054B2 publication Critical patent/JP6849054B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Description

本発明の一実施形態は、音声を処理する会話装置、音声処理システム、音声処理方法、および音声処理プログラムに関する。
特許文献1の音声処理装置は、ガイダンス音声の言語を選択して、選択した言語に対応するフィルタで、前記ガイダンス音声を処理する構成が開示されている。
特開2009−210868号公報
特許文献1の音声処理装置は、ガイダンス音声を処理するだけである。しかし、例えばネットワークを介して遠隔地間で会話を行なう場合には、近端側の利用者が聞きやすい音質に調整する、または遠端側の利用者が聞きやすい音質に調整する必要がある。
本発明の一実施形態の目的は、遠端側との会話を行なう音声処理装置において、使用言語に応じた適切な処理を行なう音声処理装置、音声処理システム、音声処理方法、および音声処理プログラムに関する。
本発明の一実施形態に係る音声処理装置は、言語判定部と、信号処理部と、通信部と、を備えている。言語判定部は、言語判定を行なう。信号処理部は、前記言語判定部が判定した言語に応じて信号処理を行い、前記通信部は、前記信号処理部で信号処理された後の音声を遠端側に送信する、または、前記通信部は、遠端側から音声を受信し、前記信号処理部に入力する。
本発明の一実施形態によれば、遠端側との会話を行なう音声処理装置において、使用言語に応じた適切な処理を行なうことができる。
音声処理システムの構成を示す図である。 音声処理装置の構成を示すブロック図である。 音声処理装置の機能的構成を示すブロック図である。 音声処理装置の動作を示すフローチャートである。 音声処理装置の動作を示すフローチャートである。 言語判定として、使用言語および母国語の判定を行なう例を示す図である。 音声処理装置の動作を示すフローチャートである。 音声処理装置の動作を示すフローチャートである。 ユーザI/Fを介して母国語を判定する場合の音声処理装置の機能的構成を示すブロック図である。 PCを介してネットワークに接続する場合の音声処理システムの構成を示す図である。 PCを介してネットワークに接続する場合の音声処理装置の機能的構成を示すブロック図である。 同じ環境において、複数の利用者が音声会議装置を利用する場合の音声処理装置1Aの構成を示すブロック図である。
図1は、本実施形態に係る音声処理システムの構成を示す図である。音声処理システムは、ネットワーク2を介して接続される音声処理装置1および音声処理装置3を備えている。
音声処理装置1は、第1の地点に設置されている。音声処理装置3は、第2の地点に設定されている。すなわち、音声処理装置1および音声処理装置3は、互いに遠隔地に設置されている。
図2は、音声処理装置1の構成を示すブロック図である。なお、音声処理装置1および音声処理装置3は、同じ構成および同じ機能を有する。
音声処理装置1は、通信部11、CPU12、RAM13、メモリ14、マイク15、スピーカ16、およびユーザインタフェース(I/F)17を備えている。
CPU12は、記憶媒体であるメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。例えば、CPU12は、使用言語の判定処理、フィルタの生成処理、および信号処理を行なう。信号処理は、例えばバンドパスフィルタ処理である。
メモリ14は、フラッシュメモリまたはハードディスクドライブ(HDD)等からなる。メモリ14は、上記のようにCPU12の動作用プログラムを記憶している。
ユーザI/F17は、利用者からの操作を受け付ける。利用者から受け付ける操作は、例えば音量の調整等である。
マイク15は、話者の音声を取得する。マイク15は、取得した音声に係る音声信号をCPU12に出力する。CPU12は、マイク15から入力された音声信号に信号処理を施して、通信部11に出力する。なお、音声処理装置1は、信号処理の専用プロセッサ(DSP:Digital Signal Processor)を備えていてもよい。この場合、CPU12の指示に従って、DSPが信号処理を行なう。
通信部11は、CPU12から入力された音声信号を、ネットワークを介して接続された他の音声処理装置(音声処理装置3)に送信する。また、通信部11は、音声処理装置3から音声信号を受信し、CPU12に出力する。
CPU12は、通信部11から入力された音声信号に信号処理を施して、スピーカ16に出力する。
スピーカ16は、CPU12から入力された音声信号に基づいて、音声を出力する。
以上のようにして、音声処理装置1は、遠隔地に設置された音声処理装置3と音声信号を送受信する。これにより、利用者は、遠隔地間での会話を行なうことができる。
さらに、音声処理装置1は、言語判定を行ない、判定した言語に応じて、信号処理を行なう。図3は、音声処理装置の機能的構成を示すブロック図である。図4は、送信時に音質調整を行なう場合の音声処理装置1の動作を示すフローチャートである。
音声処理装置1は、CPU12が実行する動作用プログラムにより、言語判定部121、フィルタ生成部122、および信号処理部123を構成する。
言語判定部121は、マイク15から音声信号を入力する。言語判定部121は、入力された音声信号に基づいて、言語判定を行なう(S11)。ここでは、言語判定部121は、使用言語を判定する。言語判定は、例えば音声認識処理により行なわれる。なお、音声認識処理による言語判定は、入力された音声信号から音声特徴量を抽出して、最も音声特徴量が類似する言語を推定する、等の推定処理である。したがって、本実施形態において判定とは推定を含む概念である。
フィルタ生成部122は、言語判定部121で判定した言語に応じたパラメータとして、判定した言語を強調するためのフィルタ係数を生成する(S12)。各国の言語には、それぞれ聞きやすさに影響する周波数帯域がある。例えば、日本語は、125Hzから1500Hzの帯域が重要であり、当該周波数帯域を通過させ、他の帯域のレベルを抑えることで、聞きやすい日本語とすることができる。また、例えば、英語は、2000Hzから12000Hzまでの帯域が重要であり、当該周波数帯域を通過させ、他の帯域のレベルを抑えることで、聞きやすい英語とすることができる。
フィルタ生成部122は、生成した周波数特性を有するフィルタ係数を信号処理部123に出力する。信号処理部123は、第1音質調整部151および第2音質調整部152を備えている。第1音質調整部151および第2音質調整部152は、例えばFIRフィルタ等のデジタルフィルタである。第1音質調整部151および第2音質調整部152は、フィルタ生成部122から入力されたフィルタ係数を設定して、信号処理として、周波数特性の調整を行なう。
第1音質調整部151は、マイクから入力される音声信号を処理する(S13)。通信部11は、信号処理が施された後の音声信号を遠端側に送信する(S14)。これにより、近端側の利用者が発した言語に応じて適切な音質調整がなされ、遠端側の音声処理装置3で放音される。そのため、遠端側の利用者にとって聞きやすい音質に調整される。
図5は、受信時に音質調整を行なう場合の音声処理装置1の動作を示すフローチャートである。まず、通信部11は、遠端側から音声信号を受信する(S21)。言語判定部121は、言語判定を行なう(S22)。ここでは、言語判定部121は、マイク15から入力された音声信号に基づいて、言語判定を行なう例を示すが、遠端側から受信した音声信号に基づいて、言語判定を行なってもよい。ただし、マイク15から入力された音声信号に基づいて言語判定を行なう場合には、遠端側の利用者が発した音声は、近端側の言語に応じて適切な音質調整がなされるため、近端側の利用者にとって聞きやすい音質に調整される。
次に、フィルタ生成部122は、言語判定部121で判定した言語に応じて、判定した言語を強調するためのフィルタ係数を生成する(S23)。第2音質調整部152は、遠端側から受信した音声信号を処理する(S24)。
これにより、遠端側の利用者が発した音声は、近端側の言語に応じて適切な音質調整がなされ、遠端側の音声処理装置3で放音される。そのため、近端側の利用者にとって聞きやすい音質に調整される。
上記では、送信側で音質調整を行なう、または受信側で音質調整を行なう例を示したが、無論、送信側で音質調整を行ない、かつ受信側で音質調整を行なってもよい。また、近端側の音声処理装置1では言語判定だけを行ない、遠端側の音声処理装置3においては近端側で判定した言語に応じた音質調整を行なってもよい。あるいは、近端側の音声処理装置1では言語判定およびフィルタ係数の生成を行ない、遠端側の音声処理装置3においては近端側で生成したフィルタ係数に応じた音質調整を行なってもよい。
以上の様にして、遠端側との会話を行なう音声処理装置において、使用言語に応じた適切な処理を行なうことができる。例えば、会話中に使用言語が変化した場合にも、言語判定部121がリアルタイムに使用言語を判定し、適切なフィルタ係数が生成される。
図6は、言語判定として、使用言語および母国語の判定を行なう例を示す図である。図7は、送信時に音質調整を行なう場合の音声処理装置1の動作を示すフローチャートであり、図8は、受信時に音質調整を行なう場合の音声処理装置1の動作を示すフローチャートである。この場合、言語判定部121は、マイク15の音声信号に基づいて、使用言語および母国語の判定を行なう(S101)。
使用言語は、上述と同様に、例えば、音声認識処理により行なわれる。母国語は、例えば通信部11で利用されるIPアドレスに基づいて判定する。すなわち、言語判定部121は、通信部11で利用されるIPアドレスに対応する所在地に基づいて母国語の判定を行なう。言語判定部121は、IPアドレスに対応する所在地が日本であれば、母国語を日本語であると判定する。また、カメラで顔画像を撮影し、顔認識により母国語を判定することも可能である。例えば、言語判定部121は、各国の人の顔画像をデータベースとして予め記憶しておく。言語判定部121は、カメラで撮影した顔画像と、データベースの顔画像とを対比して、顔画像の特徴量から、最も近い国の顔画像を特定し、母国語を判定する。
あるいは、図9に示すように、ユーザI/F17を介して、利用者から母国語の指定入力を受け付けることで判定してもよい。または、音声処理装置1で使用する言語(例えば音声処理装置1に表示部が設けられている場合には、当該表示部に表示する言語)に応じて、母国語の判定を行なう。
フィルタ生成部122は、言語判定部121で判定した母国語および使用言語に応じたフィルタ係数(例えばバンドパスフィルタ処理のフィルタ係数)を生成する(S102)。例えば、母国語が日本語であり、使用言語が英語であると判定した場合、日本語の帯域である125Hzから1500Hzを通過帯域とするフィルタ係数と、かつ英語の帯域である2000Hzから12000Hzを通過帯域とするフィルタ係数と、を重畳したフィルタ係数を生成する。
これにより、例えば日本語を母国語として、英語を使用言語とする場合には、日本語の帯域である125Hzから1500Hzと、英語の帯域である2000Hzから12000Hzと、が強調された音質になる。したがって、日本語を母国語とする利用者が話した英語を、聞きやすい音質に調整することができる。
一方、図8に示すように、音声処理装置1は、遠端側から音声信号を受信する(S201)。言語判定部121は、使用言語および母国語の判定を行なう(S202)。フィルタ生成部122は、言語判定部121で判定した使用言語および母国語に応じたバンドパスフィルタのフィルタ係数を生成する(S203)。第2音質調整部152は、遠端側から受信した音声信号を処理する(S204)。
この場合も、例えば日本語を母国語として、英語を使用言語とする場合には、日本語の帯域である125Hzから1500Hzと、英語の帯域である2000Hzから12000Hzと、が強調された音質になる。したがって、日本語を母国語とする人にとって聞きやすい英語の音質に調整することができる。
さらに、送信側および受信側の両方において、上記の信号処理を行なうことで、送信側および受信側の双方において、聞きやすい音質に調整することができる。例えば、音声処理装置1の利用者の母国語が日本語であり、音声処理装置3の利用者の母国語がフランス語であり、使用言語が英語である場合、母国語が日本語の利用者(音声処理装置1の利用者)の英語が、母国語がフランス語の利用者(音声処理装置3の利用者)にとって聞きやすい英語の音質に調整される。
上述の例では、音声処理装置1がネットワーク2に接続する態様を示したが、音声処理装置1は、例えば図10に示すように情報処理装置であるPC(Personal Computer)を介してネットワークに接続してもよい。
この場合、図11に示すように、言語判定部121は、PCから取得する情報に基づいて、言語判定を行なってもよい。例えば、言語判定部121は、PCに搭載されているOSで使用する言語を母国語として判定する。また、言語判定部121は、PCで利用されるIPアドレスに対応する所在地に基づいて母国語の判定を行なってもよい。
図12は、同じ環境において、複数の利用者が音声会議装置を利用する場合の音声処理装置1Aの構成を示すブロック図である。
音声処理装置1Aは、複数のマイク(図12の例では2つのマイク15Aおよびマイク15B)と、複数のスピーカ(図12では2つのスピーカ16Aおよびスピーカ16B)と、を備えている。
音声処理装置1Aは、マイク毎およびスピーカ毎にそれぞれ個別に音質調整を行なう。このため、信号処理部123は、第3音質調整部153および第4音質調整部154をさらに備えている。
利用者は、ユーザI/F17を用いて母国語の設定入力を行なう。例えば、マイク15Aを利用する利用者は、母国語を日本語に設定し、マイク15Bおよびスピーカ16Bを利用する利用者は、母国語をフランス語に設定する。使用言語は、例えば英語が判定されたものとする。
フィルタ生成部122は、第1音質調整部151および第2音質調整部152に対しては、日本語の帯域である125Hzから1500Hzと、英語の帯域である2000Hzから12000Hzと、が強調された音質になるように、フィルタ係数を生成する。また、フィルタ生成部122は、第3音質調整部153および第4音質調整部154に対しては、フランス語の帯域である125Hzから2000Hzと、英語の帯域である2000Hzから12000Hzと、が強調された音質になるように、フィルタ係数を生成する。
これにより、マイク15Aおよびスピーカ16Aの利用者にとっては、日本語を母国語とする人にとって聞きやすい英語の音質に調整することができる。また、マイク15Bおよびスピーカ16Bの利用者にとっては、フランス語を母国語とする人にとって聞きやすい英語の音質に調整することができる。すなわち、同じ環境下に母国語が異なる利用者がいる場合であっても、それぞれの利用者に適した言語に音質調整がなされる。
最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
例えば、本実施形態では、信号処理の一例として、バンドパスフィルタ処理を示したが、音声処理装置は、他の信号処理を用いてもよい。話速変換処理も、本発明における信号処理の一例である。音声処理装置は、母国語と使用言語が異なる場合には、話速を低下させる処理を行なうことで、聞きやすさを向上させる。この場合、音声処理装置は、母国語および使用言語の組み合わせに話速(パラメータ)を対応付けておき、判定した母国語および使用言語に対応するパラメータを読み出して、話速変換処理を行ってもよい。また、フィルタ処理は、バンドパスフィルタ処理に限るものではない。例えば、残響音等の間接音を低減するフィルタ処理、またはノイズ除去処理等もフィルタ処理の一例である。音声処理装置は、母国語と使用言語が異なる場合には、間接音およびノイズ音を低減するフィルタ処理を行なうことで、聞きやすさを向上させる。
1,1A,3…音声処理装置
2…ネットワーク
5…PC
11…通信部
12…CPU
13…RAM
14…メモリ
15…マイク
16…スピーカ
121…言語判定部
122…フィルタ生成部
123…信号処理部
151…第1音質調整部
152…第2音質調整部

Claims (11)

  1. 音声を収音する収音部と、
    前記収音部で収音した音声の言語判定を行なう言語判定部と、
    前記言語判定部が判定した言語に応じて信号処理を行う信号処理部と、
    前記信号処理部で信号処理された後の音声を遠端側に送信し、また前記遠端側の音声を受信する、通信部と、
    前記通信部で受信した前記遠端側の音声を放音する放音部と、
    を備え
    前記言語判定部は、母国語および使用言語を判定し、
    前記信号処理部は、前記言語判定部が判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで、前記信号処理を行なう、
    会話装置。
  2. 音声を収音する収音部と、
    前記収音部で収音された音声を遠端側に送信し、また、遠端側の音声を受信する、通信部と、
    受信した前記遠端側の音声の言語判定を行なう言語判定部と、
    前記遠端側の音声に、前記言語判定部で判定した言語に応じて、信号処理する信号処理部と、
    前記信号処理部で信号処理された前記遠端側の音声を放音する放音部と、
    を備え、
    前記言語判定部は、母国語および使用言語を判定し、
    前記信号処理部は、前記言語判定部が判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで、前記信号処理を行なう
    話装置。
  3. 前記信号処理は、前記言語判定部で判定された母国語および使用言語を強調する処理である、
    請求項1または請求項2に記載の会話装置。
  4. 前記パラメータは、前記信号処理部がフィルタ処理を行なうために用いるフィルタ係数である、
    請求項1乃至請求項3のいずれかに記載の会話装置。
  5. 前記フィルタ処理は、バンドパスフィルタ処理である、
    請求項4に記載の会話装置。
  6. 前記言語判定部は、音声認識処理により前記言語判定を行なう、
    請求項1乃至請求項5のいずれかに記載の会話装置。
  7. 前記言語判定部は、前記通信部で利用されるIPアドレスに基づいて前記言語判定を行なう、
    請求項1乃至請求項5のいずれかに記載の会話装置。
  8. 前記言語判定部は、請求項1乃至請求項7のいずれかに記載の会話装置、または該会話装置とともに用いられる情報処理装置で使用されている言語に基づいて前記言語判定を行なう、
    請求項1乃至請求項7のいずれかに記載の会話装置。
  9. 請求項1乃至請求項8のいずれかに記載の会話装置を複数備えた、
    音声処理システム。
  10. 音声を収音し、
    収音した音声の母国語および使用言語の言語判定を行ない、
    判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行い、
    信号処理された後の音声を遠端側に送信する、
    第1の音声処理と、
    遠端側から音声を受信し、
    受信した音声の母国語および使用言語の言語判定を行ない、
    受信した音声を、判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行ない、
    信号処理された前記遠端側の音声を放音する、
    第2の音声処理と、
    の少なくともいずれかを、会話装置が実行する、音声処理方法。
  11. 音声を収音し、
    収音した音声の母国語および使用言語の言語判定を行ない、
    判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行い、
    信号処理された後の音声を遠端側に送信する、
    第1の音声処理と、
    遠端側から音声を受信して、
    受信した音声の母国語および使用言語の言語判定を行ない、
    受信した音声を、判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行い、
    信号処理された前記遠端側の音声を放音する、
    第2の音声処理と、
    の少なくともいずれかを、コンピュータに実行させる、音声処理プログラム。
JP2019505658A 2017-03-17 2017-03-17 会話装置、音声処理システム、音声処理方法、および音声処理プログラム Active JP6849054B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/010992 WO2018167960A1 (ja) 2017-03-17 2017-03-17 音声処理装置、音声処理システム、音声処理方法、および音声処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2018167960A1 JPWO2018167960A1 (ja) 2020-01-16
JP6849054B2 true JP6849054B2 (ja) 2021-03-24

Family

ID=63521937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019505658A Active JP6849054B2 (ja) 2017-03-17 2017-03-17 会話装置、音声処理システム、音声処理方法、および音声処理プログラム

Country Status (3)

Country Link
US (1) US11398220B2 (ja)
JP (1) JP6849054B2 (ja)
WO (1) WO2018167960A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018167960A1 (ja) * 2017-03-17 2018-09-20 ヤマハ株式会社 音声処理装置、音声処理システム、音声処理方法、および音声処理プログラム
EP3625792B1 (en) * 2017-07-31 2023-05-10 Beijing Didi Infinity Technology and Development Co., Ltd. System and method for language-based service hailing
US11373657B2 (en) * 2020-05-01 2022-06-28 Raytheon Applied Signal Technology, Inc. System and method for speaker identification in audio data
US11315545B2 (en) * 2020-07-09 2022-04-26 Raytheon Applied Signal Technology, Inc. System and method for language identification in audio data

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4292646B2 (ja) * 1999-09-16 2009-07-08 株式会社デンソー ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2002062886A (ja) * 2000-08-14 2002-02-28 Kazumi Komiya 感度調整機能を有する音声受信装置
JP3555870B2 (ja) * 2000-10-24 2004-08-18 埼玉日本電気株式会社 携帯電話無線機の受信音声補正システム及び方法
US7292984B2 (en) * 2002-04-22 2007-11-06 Global Success Co., Ltd. Method of producing voice data method of playing back voice data, method of playing back speeded-up voice data, storage medium, method of assisting memorization, method of assisting learning a language, and computer program
JP4181869B2 (ja) * 2002-12-19 2008-11-19 裕 力丸 診断装置
KR100735261B1 (ko) * 2005-12-26 2007-07-03 삼성전자주식회사 휴대 단말기 및 그 단말기의 음성 데이터 출력 방법
JP2007274423A (ja) * 2006-03-31 2007-10-18 Denso Corp 音声発生装置
JP4826424B2 (ja) * 2006-10-17 2011-11-30 日本電気株式会社 電話端末及びこれを用いた通話制御方法並びにプログラム
US20080221862A1 (en) * 2007-03-09 2008-09-11 Yahoo! Inc. Mobile language interpreter with localization
JP2009210868A (ja) 2008-03-05 2009-09-17 Pioneer Electronic Corp 音声処理装置、及び音声処理方法等
US8311824B2 (en) * 2008-10-27 2012-11-13 Nice-Systems Ltd Methods and apparatus for language identification
JP2010204564A (ja) * 2009-03-05 2010-09-16 Panasonic Corp 通信装置
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
JP2011087196A (ja) * 2009-10-16 2011-04-28 Nec Saitama Ltd 電話機、及び電話機の話速変換方法
US20120010886A1 (en) * 2010-07-06 2012-01-12 Javad Razavilar Language Identification
US9128918B2 (en) * 2010-07-13 2015-09-08 Motionpoint Corporation Dynamic language translation of web site content
US20130238311A1 (en) * 2013-04-21 2013-09-12 Sierra JY Lou Method and Implementation of Providing a Communication User Terminal with Adapting Language Translation
JP2015002386A (ja) * 2013-06-13 2015-01-05 富士通株式会社 通話装置、音声変更方法、及び音声変更プログラム
US9558756B2 (en) * 2013-10-29 2017-01-31 At&T Intellectual Property I, L.P. Method and system for adjusting user speech in a communication session
JP6098654B2 (ja) * 2014-03-10 2017-03-22 ヤマハ株式会社 マスキング音データ生成装置およびプログラム
JP6150077B2 (ja) * 2014-10-31 2017-06-21 マツダ株式会社 車両用音声対話装置
WO2017029428A1 (en) * 2015-08-17 2017-02-23 Audiobalance Excellence Oy Method and apparatus for improving learning
WO2017029850A1 (ja) * 2015-08-20 2017-02-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10430835B2 (en) * 2016-04-14 2019-10-01 Google Llc Methods, systems, and media for language identification of a media content item based on comments
US20180089172A1 (en) * 2016-09-27 2018-03-29 Intel Corporation Communication system supporting blended-language messages
WO2018167960A1 (ja) * 2017-03-17 2018-09-20 ヤマハ株式会社 音声処理装置、音声処理システム、音声処理方法、および音声処理プログラム

Also Published As

Publication number Publication date
JPWO2018167960A1 (ja) 2020-01-16
WO2018167960A1 (ja) 2018-09-20
US20190385589A1 (en) 2019-12-19
US11398220B2 (en) 2022-07-26

Similar Documents

Publication Publication Date Title
JP6849054B2 (ja) 会話装置、音声処理システム、音声処理方法、および音声処理プログラム
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR101970370B1 (ko) 오디오 신호의 처리 기법
JP5581329B2 (ja) 会話検出装置、補聴器及び会話検出方法
JP6703525B2 (ja) 音源を強調するための方法及び機器
CN108141502A (zh) 音频信号处理
US8718562B2 (en) Processing audio signals
TW200850040A (en) Automatic volume and dynamic range adjustment for mobile audio devices
JPH09503889A (ja) 音声相殺式送話システム
JP5130895B2 (ja) 音声処理装置、音声処理システム、音声処理プログラム及び音声処理方法
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
CN106782586B (zh) 一种音频信号处理方法及装置
CN103827967A (zh) 语音信号复原装置以及语音信号复原方法
KR20170032237A (ko) 즉각적인 바람 잡음을 감소시키는 것
JP6977768B2 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
US8804981B2 (en) Processing audio signals
JP6943120B2 (ja) 収音装置、プログラム及び方法
US11373669B2 (en) Acoustic processing method and acoustic device
JP2008129107A (ja) オートゲインコントロール装置、音声記録装置、映像・音声記録装置および通話装置
CN115410593A (zh) 音频信道的选择方法、装置、设备及存储介质
CN112133320B (zh) 语音处理装置及语音处理方法
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法
JP2006235102A (ja) 音声処理装置および音声処理方法
JP2005157086A (ja) 音声認識装置
US10916257B2 (en) Method and device for equalizing audio signals

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190913

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210215

R151 Written notification of patent or utility model registration

Ref document number: 6849054

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151