JP6948275B2

JP6948275B2 - 通話装置、及び通話装置の制御方法

Info

Publication number: JP6948275B2
Application number: JP2018029387A
Authority: JP
Inventors: 高橋　正明; 正明高橋
Original assignee: Clarion Co Ltd; Faurecia Clarion Electronics Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2021-10-13
Anticipated expiration: 2038-02-22
Also published as: JP2019146055A

Description

本発明は、通話装置、及び通話装置の制御方法に関する。

複数の話者を通話可能にする通話装置として、母語を話す者（母語発話者と言う）の発話に対する音声信号を、非母語を話す者（非母語発話者又は語学学習者と言う）の発話に対する音声信号よりも遅延させる会議支援装置が開示されている（例えば、特許文献１参照）。この会議支援装置では、母語発話者用の端末と非母語発話者用の端末とを予め設ける方法、又は、スイッチ等により発話者が手動で各端末を母語者端末または非母語者端末と設定する方法等によって、母語発話者の音声信号であるか否かを判定可能にしている。

特開２０１４−０８６８３２号公報

しかし、従来の構成は、母語発話者用と非母語発話者用とで別々の端末を製作する必要や、端末を母語発話者用か非母語発話者用に切り替える手動スイッチが必要になる、といった制約がある。このため、従来の会議支援装置の機能を、例えば、車両等に搭載されるハンズフリー装置に適用し難い、といった事態が生じる。
そこで、本発明は、手動スイッチ等を使用しなくても母語発話者と非母語発話者とが通話し易くすることを目的とする。

上記目的を達成するために、本発明は、複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置において、前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定部と、前記判定部の判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理部と、を備えることを特徴とする。

上記構成において、前記判定部は、前記話者の音声から、前記話者の母語を特定可能な所定の周波数情報を取得し、取得した周波数情報に基づいて母語を特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定する第一の判定処理を行ってもよい。

また、上記構成において、前記所定の周波数情報は、第０フォルマント周波数であり、前記判定部は、複数種類の言語と、各言語を母語とする者の第０フォルマント周波数とを関係付けた言語別周波数情報に基づき、母語を特定してもよい。

また、上記構成において、当該通話装置が通話に使用するユーザー固定の装置に設定された言語を利用して、そのユーザー固定の装置のユーザーとみなせる話者が前記第一の発話者か前記第二の発話者か否かを判定する第二の判定処理を行ってもよい。

また、上記構成において、前記第二の判定処理では、前記ユーザー固定の装置に設定された言語が、当該通話装置に接続される車載装置に設定された言語と一致する場合、その言語を母語と特定し、一致しない場合、前記ユーザー固定の装置に設定された言語を母語と特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定してもよい。

また、上記構成において、前記判定部は、前記話者の音声から、音声の無音部分の情報を取得し、取得した情報に基づいて前記第一の発話者か前記第二の発話者か否かを判定する第三の判定処理を行ってもよい。

また、上記構成において、前記第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先度に従って、前記第一の発話者か第二の発話者かを判定してもよい。

また、上記構成において、前記通話装置は、前記複数の話者の中の所定の話者の音声を集音する集音部と、前記所定の話者に向けて、他の話者の音声を放音する放音部とを備え、前記音声処理部は、前記所定の話者が、前記第二の発話者であると判定された場合、前記放音部により放音させる音声に対応する音声信号に、語学学習者向けの所定の音声処理を行ってもよい。

また、上記構成において、前記通話装置は、前記所定の話者がハンズフリー通話に使用するハンズフリ−通話装置でもよい。
また、上記構成において、前記第二の発話者であると判定された前記他の話者の電話番号を記憶する記憶部を有し、通話開始時に、前記他の話者の電話番号が前記記憶部に記憶済みの場合、前記判定部が判定を行わずに、前記音声処理部が、前記他の話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行ってもよい。

また、複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置の制御方法において、前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定ステップと、前記判定ステップの判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理ステップと、を実行することを特徴とする。

本発明によれば、手動スイッチ等を使用しなくても母語発話者と非母語発話者とが通話し易くすることができる。

本発明の第一実施形態に係る通話装置を含む通話システムの構成を示した図である。複数種類の言語と各言語を母語とする者の第０フォルマント周波数との関係の一例を示した図である。車両側の話者（第一話者Ｘ）に対する通話装置の動作を示すフローチャートである。車両外の話者（第二話者Ｙ）に対する通話装置の動作を示すフローチャートである。第二実施形態に係る通話装置の動作を説明するフローチャートである。

以下、図面を参照して本発明の実施の形態について説明する。
（第一実施形態）
図１は本発明の第一実施形態に係る通話装置２１を含む通話システム１０の構成を示した図である。
通話装置２１は、自動車等の車両に配置され、車両の乗員であるユーザー（所定の話者）がいわゆるハンズフリー通話を行うために使用するハンズフリー通話装置である。通話装置２１は、無線通信機能を備える機器と無線通信するための通信モジュール２２を備える。通話装置２１は、この通信モジュール２２により、ユーザーが所有する携帯電話２３（電話端末とも称する）と無線通信することによって、電話網を介して他の電話端末２５との間で通信する。これによって、通話装置２１と他の電話端末２５との間で通話の音声信号が入出力される。

通信モジュール２２は、Bluetooth（登録商標）規格に従って近距離無線通信を行うための通信モジュールである。なお、Bluetooth以外の近距離無線通信を行うものでもよい。
携帯電話２３は、移動通信網（図示略）を介して他の携帯電話や固定電話と通信する機能を有し、内蔵スピーカー、内蔵マイク、電話通信のための通信部に加え、通話装置２１と近距離無線通信を行うための通信モジュールを備えている。なお、携帯電話２３と通話装置２１とは無線で接続される場合に限らず、有線で接続される構成でもよい。

また、車両内には、車載装置２７が配置されており、この車載装置２７は、通話装置２１と通信可能に接続されている。車載装置２７は、ナビゲーション機能、ラジオ受信機能、又はオーディオ再生機能等を具備する装置であり、通話装置２１は、例えば車載装置２７が有する操作パネルを介して当該通話装置２１への各種指示を入力する。なお、通話装置２１と車載装置２７とが一体に構成されていてもよい。

ここで、携帯電話２３及び車載装置２７には、各装置２３、２７の表示等に使用する言語（以下、設定言語）２３Ａ、２７Ａが設定されている。通常、携帯電話２３の設定言語２３Ａは、携帯電話２３の所有者によって設定され、車載装置２７の設定言語２７Ａは、車両の所有者によって設定される。なお、携帯電話２３の所有者と車両の所有者は、一致する場合もあるし、不一致の場合もある。

図１に示すように、通話装置２１において、制御部３１は、ＣＰＵを備え、この通話装置２１の各部を制御するコンピュータとして機能する。また、記憶部３２は、制御部３１によって実行される制御プログラム、及び各種のデータを記憶する。
マイク３３は、通話装置２１のユーザーである話者（以下、第一話者Ｘと言う）の音声（ハンズフリー通話の際の送話音声に相当）を集音する集音部として機能する。スピーカー３５は、車両内の第一話者Ｘに向けて、他の電話端末２５のユーザーである話者（以下、第二話者Ｙと言う）の音声を放音する放音部として機能する。なお、マイク３３及びスピーカー３５は、通話装置専用のマイク及びスピーカーでもよいし、車載装置２７等が音声の入出力に使用するマイク及びスピーカーを兼用したものでもよい。

第一検出部４１は、マイク３３を介して入力した第一話者Ｘの音声から、この話者Ｘの母語を特定可能な周波数として、フォルマント周波数を検出する。より具体的には、フォルマント周波数のうちの最も低い第０フォルマント周波数（第一フォルマント周波数、又は基底周波数と言う場合もある）を検出する。例えば、第一検出部４１は、線形予想分析（ＬＰＣ）の後にピークピッキングでピークを抽出し、バンドパスフィルタにて後述する図２に記載のバンド毎にピークの有無を検出する。これにより、バンド毎にフォルマント周波数の有無を検出し、検出結果を第一演算部４３又は制御部３１に出力する。なお、フォルマント周波数の検出方法は、公知の方法を広く適用可能である。

図２は、複数種類の言語と、各言語を母語とする者（母語発話者）の第０フォルマント周波数との関係の一例を示した図である。なお、図２は音声帯域に相当する０〜１５ｋＨｚまでの周波数帯を９つのバンドに区切り、言語毎に第０フォルマント周波数のバンドを暗部で表記している。
また、図２は成人の場合の一例を示している。この図に示すように、日本語を母語とする者は相対的に第０フォルマント周波数が低い範囲となり、英語やイタリア語を母語とする者は相対的に第０フォルマント周波数が高い範囲となる傾向がある。

このように、言語と第０フォルマント周波数とは相関関係がある。このため、例えば、日本語を母語とする者が英語を話した場合、その英語音声の第０フォルマント周波数は、日本語の周波数帯域である低い範囲（図２中、０〜１．２５ｋＨｚ）になり易い。また、イギリス英語を母語とする者が日本語を話した場合、日本語音声の第０フォルマント周波数は、イギリス英語の周波数帯域である高い範囲（図２中、２ｋＨｚ〜１５ｋＨｚ）の範囲になり易い。

本構成では、この相関関係（第０フォルマント周波数が母語に影響されること）を利用して、第一演算部４３が、制御部３１の制御の下、第一話者Ｘの音声の第０フォルマント周波数から、第一話者Ｘの母語を判定し、判定結果に基づき第一話者Ｘが母語発話者（第一の発話者に相当）か語学学習者（第二の発話者に相当）か否かを判定する第一の判定処理を行う。
なお、記憶部３２には、図２に記載の傾向に基づき、複数種類の言語と、各言語を母語とする者のフォルマント周波数とを関係付けた言語別周波数情報３２Ａが記憶され、この言語別周波数情報３２Ａを利用することによって、第０フォルマント周波数から母語を容易に特定可能である。

携帯電話２３は、第一話者Ｘが常に使用する事が前提であるため、ユーザー固定の装置である。このため、携帯電話２３の設定言語２３Ａは母語に設定されていることが多い。
一方、車載装置２７の設定言語２７Ａは、必ずしも母語に設定されてはいない。なぜなら、実際の道路標識が母語以外の場合、車載装置２７の設定言語２７Ａを母語に設定していると、実際の道路標識の文字を車載装置２７側で正確に認識できず、ナビゲーション処理や地図等の表示に不備を招くおそれがあるからである。このため、車載装置２７の設定言語２７Ａは、実際の道路標識の言語に設定されていることが多い。
そこで、本構成では、母語判定精度を更に向上させるために、第一演算部４３が、制御部３１の制御の下、少なくとも携帯電話２３の設定言語２３Ａに基づいて、携帯電話２３のユーザーである第一話者Ｘの母語を特定し、特定した結果に基づき第一話者Ｘが母語発話者か語学学習者か否かを判定する第二の判定処理を行う。

また、通話は、母語発話者同士の通話の次に、母語発話者と語学学習者の通話が比較的多いと考えられる。母語発話者が発話した場合は一回の文章が長く途切れる回数が少ないが、語学学習者の場合は、単語や文法を考えながら発話する為、どうしても無音区間が多くなる傾向となる。
そこで、本構成では、母語判定精度を更に向上させるために、第一演算部４３が、制御部３１の制御の下、第一話者Ｘの音声の無音部分の情報を取得し、取得した情報に基づき第一話者Ｘが母語発話者か語学学習者か否かを判定する第三の判定処理を行う。

エコーキャンセラー４５は、マイク３３からの音声信号に対し、エコーキャンセル処理を施すことにより、スピーカー３５から発する音をマイク３３でひろってしまうことで発生するエコーをキャンセルする。
また、制御部３１は、第二話者Ｙが語学学習者の場合、マイク３３から入力した音声信号（送話音声の信号に相当）に対し、語学学習者向けの所定の音声処理を行う。具体的には、制御部３１は、所定の音声処理として、音声をスロー再生させる処理（再生速度を遅くする処理に相当）を行う。つまり、マイク３３と第一演算部４３との間には、サンプリング・レート・コンバーター（以下、ＳＲＣ４７）が配置され、制御部３１は、マイク３３から入力した音声信号に対するサンプリング周波数をｎ倍にし、且つ、サンプリング後のデータを適宜に間引くことによって、スロー再生される音声信号に変換する。

この音声信号は、通信モジュール２２を介して他の電話端末２５に送信され、他の電話端末２５からスロー再生された音声が放音される。なお、サンプリング周波数等をデフォルト値にすることで、他の電話端末２５から実速度で音声が放音される。
このようにして、ＳＲＣ４７は、スロー再生させる音声処理を行う第一スロー再生部として機能する。この場合、再生速度を段階的に遅くすることによって、聞く側（第二話者Ｙ側）の違和感を抑えることが好ましい。なお、スロー再生させる構成はＳＲＣ４７に限定されない。また、語学学習者向けの所定の音声処理は、スロー再生に限定しなくてもよく、語学学習者が聞き取り易くなる音声処理（語学学習者向けの音声処理に相当）を広く適用可能である。

通話装置２１において、第二検出部５１は、通信モジュール２２を介して入力した第二話者Ｙの音声（ハンズフリー通話の際の受話音声に相当）から、この話者Ｙの母語を特定可能な周波数として、フォルマント周波数（本構成では第０フォルマント周波数）を検出する。この第二検出部５１には、第一検出部４１と同様のものを適用可能である。
第二演算部５３は、制御部３１の制御の下、第二話者Ｙの音声の第０フォルマント周波数から、第二話者Ｙの母語を判定し、判定結果に基づき第二話者Ｙが母語発話者（第一の発話者に相当）か語学学習者（第二の発話者に相当）か否かを判定する第一の判定処理を行う。
また、第二演算部５３は、母語判定精度を更に向上させるために、制御部３１の制御の下、第二話者Ｙの音声の無音部分の情報を取得し、取得した情報に基づき第二話者Ｙが母語発話者か語学学習者か否かを判定する第三の判定処理を行う。

ところで、第一演算部４３は、第一話者Ｘが使用する携帯電話２３の設定言語２３Ａに基づいて、第一話者Ｘの母語を判定し、判定結果に基づき第一話者Ｘが母語発話者か語学学習者か否かを判定する第二の判定処理を行っていたが、通話装置２１側では、第二話者Ｙが使用する他の電話端末２５の設定言語等は判らないため、第二演算部５３では第二の判定処理は実行されない。
但し、通話装置２１と他の電話端末２５との間の通信によって、第二話者Ｙが使用する他の電話端末２５の設定言語が判るようにした場合、通話装置２１側（第二演算部５３）にて、その設定言語に基づき第二話者Ｙが母語発話者か語学学習者か否かを判定する第二の判定処理を行ってもよい。
なお、上述した第二及び第三の判定処理は制御部３１が行ってもよい。

制御部３１は、第一話者Ｘが語学学習者の場合、通信モジュール２２を介して入力した第二話者Ｙの音声信号に対し、語学学習者向けの所定の音声処理を行う。この所定の音声処理は、音声をスロー再生させる処理である。
つまり、通信モジュール２２には、サンプリング・レート・コンバーター（以下、ＳＲＣ５７）が接続され、制御部３１は、ＳＲＣ５７を利用して上述と同様にして、第二話者Ｙの音声信号を、スロー再生される音声信号に選択的に変換する。この場合も、スロー再生される音声信号は、再生速度を段階的に遅くすることによって、聞く側（第一話者Ｘ側）の違和感を抑えるものであることが好ましい。また、図１中、符号５８はＳＲＣ５７の出力側に配置されるローパルフィルタ（ＬＰＦ）である。
なお、スロー再生させる構成はＳＲＣ５７に限定されない。また、語学学習者向けの所定の音声処理は、スロー再生させる音声処理に限定されず、語学学習者向けの音声処理を広く適用可能である。

図３は車両側の話者（第一話者Ｘ）に対する通話装置２１の動作を示すフローチャートである。
通話装置２１は、第一検出部４１によって、マイク３３に発話音声が入力されたことを検出すると（ステップＳ１Ａ）、第一演算部４３によって、上述した第一の判定処理（ステップＳ２Ａ）と、第二の判定処理（ステップＳ３Ａ）と、第三の判定処理（ステップＳ４Ａ）とを実行する。
第一の判定処理では、第一演算部４３は、第一話者Ｘの音声の第０フォルマント周波数を特定した後、記憶部３２に記憶される言語別周波数情報３２Ａを参照することによって、第一話者Ｘの母語を特定する。次いで、特定した母語から第一話者Ｘが母語発話者か語学学習者か否かを判定する。

母語から母語発話者か語学学習者か否かを判定する方法には、様々な方法を適用可能である。例えば、母語が、この通話装置２１が利用される国の公用語と同じ言語であった場合に第一話者Ｘを母語発話者と判定し、別の言語の場合に語学学習者と判定してもよい。また、音声認識技術を適用して第一話者Ｘの音声の言語を特定し、母語が特定した言語と同じ言語の場合、第一話者Ｘを母語発話者と判定し、別の言語の場合に語学学習者と判定する方法を適用してもよい。

第二の判定処理では、第一演算部４３は、携帯電話２３及び車載装置２７の設定言語２３Ａ、２７Ａを比較して母語を特定し、特定した母語から第一話者Ｘが母語発話者か語学学習者か否かを判定する。設定言語２３Ａ、２７Ａが一致する場合は、その言語を母語と特定し、一致しない場合は、携帯電話２３の設定言語２３Ａを母語と特定する。また、車載装置２７の設定言語２７Ａを特定できない場合に、携帯電話２３の設定言語２３Ａを母語と特定してもよい。また、特定した母語から母語発話者か語学学習者か否かを判定する方法は、第一判定処理と同様の判定方法でもよいし、異なる判定方法でもよい。

第三の判定処理では、第一演算部４３は、マイク３３を介して入力した第一話者Ｘの音声から、無音部分の回数を計数し、計数結果に基づいて第一話者Ｘが母語発話者か語学学習者か否かを判定する。この判定方法にも複数の方法が挙げられる。例えば、無音部分の回数が、所定時間内で予め定めた閾値よりも大の場合に語学学習者と判定し、小の場合に母語発話者と判定する方法でもよい。
また、母語発話者と語学学習者の通話が比較的多いことを踏まえて、第一話者Ｘの音声の無音部分の回数と、通信モジュール２２を介して入力される第二話者Ｙの音声の無音部分の回数とを比較し、回数が多い方を語学学習者と判定する方法でもよい。

第一演算部４３は、第一から第三の判定処理を並列的に行うことによって、それぞれの判定結果を取得した後、これら判定結果に基づき第一話者Ｘが母語発話者か語学学習者か否かを判定する（ステップＳ５Ａ）。これらステップＳ２Ａ〜Ｓ５Ａまでの処理が判定ステップに相当する。
第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先順位が高い判定結果を優先する。本構成では、第一の判定結果を最優先とする。なお、第一の判定結果を取得できなかった場合（例えば、図２中の１ｋＨｚ〜１．５ｋＨｚのような複数の母語に含まれる第０フォルマント周波数の場合も含む）、第二及び第三判定処理の判定結果を利用することで、１つの母語を特定し易くなる。なお、優先順位は変更してもよい。

ステップＳ５Ａの判定で第一話者Ｘが母語発話者である（つまり、語学学習者でない）と判定した場合（ステップＳ５Ａ；ＮＯ）、通話装置２１は、制御部３１によって当該処理（車両側の話者（第一話者Ｘ）に対する動作に相当）を終了する。
一方、ステップＳ５Ａの判定で第一話者Ｘが語学学習者であると判定した場合（ステップＳ５Ａ；ＮＯ）、通話装置２１は、ＳＲＣ５７を利用して、受話音声である第二話者Ｙの音声信号をスロー再生させる（ステップＳ６Ａ、音声処理ステップに相当）。これにより、語学学習者と判定された第一話者Ｘには、第二話者Ｙの音声がゆっくり聞こえ、音声を聞き取り易くなる。

なお、ステップＳ１Ａ〜Ｓ５Ａまでの処理は数秒程度の短時間で終了し、スロー再生は短時間で開始される。また、第一話者Ｘが母語発話者である（つまり、語学学習者でない）と判定された場合、ステップＳ６Ａの処理が実行されないので、母語発話者である第一話者Ｘには、第二話者Ｙの音声が実速度で聞こえることになる。

図４は車両外の話者（第二話者Ｙ）に対する通話装置２１の動作を示すフローチャートである。
通話装置２１は、第二検出部５１によって、通信モジュール２２を介して携帯電話２３から受話音声（第二話者Ｙの音声）が入力されたことを検出すると（ステップＳ１Ｂ）、第二演算部５３によって、上述した第一の判定処理（ステップＳ２Ｂ）と、第三の判定処理（ステップＳ４Ｂ）とを実行する。
この第一の判定処理では、第二演算部５３は、第二話者Ｙの音声の第０フォルマント周波数を特定した後、記憶部３２に記憶される言語別周波数情報３２Ａを参照することによって、第二話者Ｙの母語を特定する。次いで、特定した母語から第二話者Ｙが母語発話者か語学学習者か否かを判定する。なお、この第一の判定処理は、第二話者Ｙの音声を利用する点を除いて、第一演算部４３によって実行される第一の判定処理と同様の処理である。

第三の判定処理では、第一演算部４３は、第二話者Ｙの音声から、無音部分の回数を計数し、計数結果に基づいて第二話者Ｙが母語発話者か語学学習者か否かを判定する。なお、この第三の判定処理は、第二話者Ｙの音声を利用する点を除いて、第一演算部４３によって実行される第三の判定処理と同様の処理である。

第一演算部４３は、第一及び第三の判定処理を並列的に行うことによって、それぞれの判定結果を取得した後、これら判定結果に基づき第二話者Ｙが母語発話者か語学学習者か否かを判定する（ステップＳ５Ｂ）。これらステップＳ２Ｂ〜Ｓ５Ｂまでの処理が判定ステップに相当する。
第一及び第三の判定処理の判定結果が異なる場合、予め定めた優先順位が高い判定結果を優先する。本構成では、第一の判定結果を最優先とする。なお、優先順位は変更してもよい。

ステップＳ５Ｂの判定で第二話者Ｙが母語発話者である（つまり、語学学習者でない）と判定した場合（ステップＳ５Ｂ；ＮＯ）、通話装置２１は、制御部３１によって当該処理（車両外の話者（第二話者Ｙ）に対する動作に相当）を終了する。
一方、ステップＳ５Ｂの判定で第二話者Ｙが語学学習者であると判定した場合（ステップＳ５Ｂ；ＹＥＳ）、通話装置２１は、ＳＲＣ４７を利用して、送話音声である第一話者Ｘの音声信号をスロー再生させる（ステップＳ６Ｂ、音声処理ステップに相当）。これにより、語学学習者と判定された第二話者Ｙには、第一話者Ｘの音声がゆっくり聞こえ、音声を聞き取り易くなる。なお、ステップＳ１Ｂ〜Ｓ５Ｂまでの処理は数秒程度の短時間で終了し、スロー再生は短時間で開始される。

また、第二話者Ｙが母語発話者である（つまり、語学学習者でない）と判定された場合、ステップＳ６Ｂの処理が実行されないので、母語発話者である第二話者Ｙには、第一話者Ｘの音声が実速度で聞こえることになる。
また、図４に示すフローチャートにおいて、ステップＳ４Ｂの処理（第３の判定処理）を省略してもよい。

以上説明したように、本実施形態では、第一検出部４１、第一演算部４３及び制御部３１によって、第一話者Ｘの少なくとも音声に基づいて、第一話者Ｘが、母語発話者か語学学習者か否かを判定する判定部が構成される。
また、制御部３１及びＳＲＣ５７によって、判定部の判定結果に基づき、語学学習者であると判定された第一話者Ｘに向けて出力される音声信号（第二話者Ｙの音声）に対し、スロー再生処理（語学学習者向けの所定の音声処理に相当）を行う音声処理部が構成される。
これにより、手動スイッチ等を使用しなくても、第一話者Ｘが母語発話者か語学学習者か否かを自動的に特定し、第一話者Ｘが語学学習者であっても第二話者Ｙと通話し易くなる。

また、第二検出部５１、第二演算部５３及び制御部３１によって、第二話者Ｙの少なくとも音声に基づいて、第二話者Ｙが、母語発話者か語学学習者か否かを判定する判定部が構成される。
また、制御部３１及びＳＲＣ４７によって、判定部の判定結果に基づき、語学学習者であると判定された第二話者Ｙに向けて出力される音声信号（第一話者Ｘの音声）に対し、スロー再生処理（語学学習者向けの所定の音声処理に相当）を行う音声処理部が構成される。
これにより、手動スイッチ等を使用しなくても、第二話者Ｙが母語発話者か語学学習者か否かを自動的に特定し、第二話者Ｙが語学学習者であっても第一話者Ｘと通話し易くなる。

本実施形態において、母語発話者は、厳密な意味の母語発話者に限定しなくてもよく、母語発話者に似た発話を行う者を含んでもよい。また、語学学習者についても、厳密な意味の語学学習者に限定しなくてもよく、語学学習者に似た発話を行う者を含んでもよい。
例えば、高齢者の場合、母語発話者であっても無音区間が多い場合があり、この場合は、第三の判定処理で語学学習者と判定される場合が生じる。また、個体差によって、母語発話者であっても、第一の判定処理等で語学学習者と判定される場合もある。いずれも判定基準を適宜に調整することによって、母語発話者又は語学学習者と判定される範囲を調整可能である。
すなわち、第一〜第三の判定処理において、母語発話者相当の第一の発話者か語学学習者相当の第二の発話者か否かを判定すればよい。

また、第一の発話者か第二の発話者か否かを判定する方法として、第一の判定処理を行うので、つまり、第一話者Ｘ及び第二話者Ｙの音声から、各話者Ｘ、Ｙの母語を特定可能な所定の周波数情報である第０フォルマント周波数を取得し、取得した第０フォルマント周波数に基づいて母語を特定し、特定した母語を利用して第一の発話者か第二の発話者か否かを判定するので、言語と第０フォルマント周波数との相関関係を利用して、高精度に各話者Ｘ、Ｙの母語を特定できる。

なお、第一の判定処理において、第０フォルマント周波数を利用する場合を説明したが、第０フォルマント周波数に限定しなくてもよい。例えば、第０フォルマント周波数以外のフォルマント周波数から話者Ｘ、Ｙの母語を特定可能であれば、そのフォルマント周波数を利用してもよい。さらに、フォルマント周波数以外に、話者Ｘ、Ｙの母語を特定可能な周波数情報があれば、その周波数情報を利用してもよい。

また、本実施形態では、複数種類の言語と、各言語を母語とする者のフォルマント周波数とを関係付けた言語別周波数情報３２Ａを記憶し、この言語別周波数情報３２Ａに基づき母語を特定するので、母語の特定が容易である。

また、本実施形態では、第二の判定処理を行うので、つまり、通話装置２１が通話に使用するユーザー固定の装置である携帯電話２３に設定された設定言語２３Ａを利用して、その携帯電話２３のユーザーとみなせる第一話者Ｘが第一の発話者か第二の発話者か否かを判定するので、第一話者Ｘが第一の発話者か第二の発話者か否かの判定精度を向上し易くなる。

さらに、第二の判定処理では、携帯電話２３の設定言語２３Ａが、この通話装置２１に接続される車載装置２７の設定言語２７Ａと一致する場合は、その言語を母語と特定し、一致しない場合は、携帯電話２３の設定言語２３Ａを母語と特定し、特定した母語を利用して第一話者Ｘが第一の発話者か第二の発話者か否かを判定する。これにより、第一の発話者か第二の発話者か否かの判定精度を向上し易くなる。なお、この第二の判定処理は、第一話者Ｘについてのみ行うので、第一話者Ｘの方が、第二話者Ｙよりも判定精度が向上し易くなる。

また、本実施形態では、第三の判定処理を行うので、つまり、第一話者Ｘ及び第二話者Ｙの音声から、各話者Ｘ、Ｙの音声の無音部分の情報を取得し、取得した情報に基づいて各話者Ｘ、Ｙが第一の発話者か第二の発話者かを判定するので、各話者Ｘ、Ｙが第一の発話者か第二の発話者か否かの判定精度をより向上し易くなる。
また、第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先度に従って第一の発話者か第二の発話者か否かを判定するので、これによっても判定精度を向上し易くなる。

また、通話装置２１は、複数の話者Ｘ、Ｙの中の第一話者Ｘの音声を集音する集音部として機能するマイク３３と、第一話者Ｘ（所定の話者に相当）に向けて第二話者Ｙの音声を放音する放音部として機能するスピーカー３５とを備える。そして、第一話者Ｘが、語学学習者相当の第二の発話者と判定された場合、スピーカー３５により放音させる音声に対応する音声信号に、スロー再生処理（語学学習者向けの所定の音声処理に相当）を行う。これにより、マイク３３とスピーカー３５を利用する第一話者Ｘが通話を聞き取り易くなる。
マイク３３及びスピーカー３５が別体の場合は、通話装置２１は、集音部として、マイク３３からの音声を入力する音声入力部を備え、放音部として、スピーカー３５に向けて音声を出力する音声出力部を備えればよい。

また、この通話装置２１は、第一話者Ｘがハンズフリー通話に使用するハンズフリ−通話装置であるので、通話装置２１の直接のユーザーである第一話者Ｘが通話を聞き取り易くなる。
なお、第一話者Ｘ及び第二話者Ｙが第一の発話者か第二の発話者か否かを判定し、各話者Ｘ、Ｙが第二の発話者である場合に各話者が通話を聞き取り易くする場合を説明したが、これに限定されず、いずれか一方（例えば、第一話者Ｘ）だけについて、第一の発話者か第二の発話者か否かを判定し、第二の発話者である場合に、その一方の話者が通話を聞き取り易くするようにしてもよい。

（第二実施形態）
図５は第二実施形態に係る通話装置２１の動作を説明するフローチャートであり、車両外の話者（第二話者Ｙ）に対する通話装置２１の動作を示している。
第二実施形態では、通話装置２１の記憶部３２に、語学学習者と判定された通話相手（第二話者Ｙ）の電話番号が記憶される点、及び、通話相手の電話番号が記憶部３２に記憶される場合は、判定処理を行うことなく、ステップＳ６Ａの処理に移行する点が第一実施形態と異なる。
以下、第一実施形態と重複する説明は省略する。

図５に示すように、通話装置２１は、携帯電話２３から受話音声（第二話者Ｙの音声）が入力されると（ステップＳ１Ｂ）、通話相手である第二話者Ｙの電話番号が、語学学習者の電話番号として記憶部３２に記憶されているか否かを判定する（ステップＳ１１Ｂ）。
なお、電話番号の取得方法は、通話装置２１側（携帯電話２３）からの発信時は、その発信に使用した電話番号を取得すればよく、他の電話端末２５からの着信時は、他の電話端末２５から電話網を介して通知される電話番号を取得すればよい。

ここで、通話装置２１において、通話相手である第二話者Ｙとの通話が初めての場合、又は、同じ第二話者Ｙとの過去の通話時において、第二話者Ｙが母語発話者であると判定されている場合、この第二話者Ｙの電話番号は記憶部３２に記憶されていない。このため、ステップＳ１１Ｂの判定は否定結果となり（ステップＳ１１Ｂ；ＮＯ）、次のステップＳ２Ｂの処理に移行する。

その後、ステップＳ５Ｂの判定で第二話者Ｙが語学学習者と判定した場合（ステップＳ５Ｂ；ＹＥＳ）、通話装置２１は、第一話者Ｘの音声信号をスロー再生させると共に（ステップＳ６Ｂ）、第二話者Ｙの電話番号を、語学学習者の電話番号として記憶部３２に記憶する（ステップＳ１２Ｂ）。
このため、以降、同じ第二話者Ｙと通話する場合、ステップＳ１１Ｂの判定が肯定結果となり（ステップＳ１１Ｂ；ＹＥＳ）、図５に示すように、ステップＳ６Ｂの処理に移行する。これにより、第一及び第三の判定処理（判定ステップに相当）を省略することができ、ステップＳ６Ｂのスロー再生の開始をより早めることが可能になる。

なお、ステップＳ１２Ｂにおいて、同じ電話番号が既に記憶部３２に記憶済みの場合、その電話番号は新たに記憶されない。これにより、同じ電話番号が記憶部３２に二重登録される事態が回避される。

このように、本実施の形態では、記憶部３２に、語学学習者（第二の発話者）と判定された第二話者Ｙの電話番号を記憶し、通話開始時に、第二話者Ｙの電話番号が記憶部３２に記憶済みの場合、第一及び第三の判定処理を行わずに、第一話者Ｘの音声信号をスロー再生させる。これにより、速やかにスロー再生させることができる。

上述の実施形態は、あくまでも本発明の一実施の態様を例示するものであって、本発明の趣旨を逸脱しない範囲で任意に変形、及び応用が可能である。
例えば、図１に示す通話装置２１、及びその制御方法に本発明を適用する場合を説明したが、これに限定されない。例えば、車載に限定されない通話装置、及びその制御方法に本発明を適用してもよい。さらに、一対一で通話する通話装置２１に限定されず、特許文献１に記載した会議支援装置といった、３人以上で通話可能な通話装置に本発明を適用してもよい。

また、上述の実施形態では、制御プログラムを記憶部３２に予め記憶しておく場合について説明したが、この制御プログラムを、磁気記録媒体、光記録媒体、半導体記録媒体等のコンピュータが読み取り可能な記録媒体に格納し、コンピュータが記録媒体からこの制御プログラムを読み取って実行するようにしてもよい。また、この制御プログラムを電気通信回線を介して通信ネットワーク上の配信サーバー等からダウンロードできるようにしてもよい。

１０通話システム
２１通話装置
２２通信モジュール
２３携帯電話
２３Ａ、２７Ａ設定言語
２５他の電話端末
２７車載装置
３１制御部（判定部、音声処理部）
３２記憶部
３２Ａ言語別周波数情報
３３マイク（集音部）
３５スピーカー（放音部）
４１第一検出部（判定部）
４３第一演算部（判定部）
４５エコーキャンセラー
４７、５７ＳＲＣ（音声処理部）
５１第二検出部（判定部）
５３第二演算部（判定部）
５８ローパスフィルタ（ＬＰＦ）
Ｘ第一話者
Ｙ第二話者

Claims

複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置において、
前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定部と、
前記判定部の判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理部と、
を備えることを特徴とする通話装置。
前記判定部は、前記話者の音声から、前記話者の母語を特定可能な所定の周波数情報を取得し、取得した周波数情報に基づいて母語を特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定する第一の判定処理を行うこと特徴とする請求項１に記載の通話装置。
前記所定の周波数情報は、第０フォルマント周波数であり、
前記判定部は、複数種類の言語と、各言語を母語とする者の第０フォルマント周波数とを関係付けた言語別周波数情報に基づき、母語を特定することを特徴とする請求項２に記載の通話装置。
当該通話装置が通話に使用するユーザー固定の装置に設定された言語を利用して、そのユーザー固定の装置のユーザーとみなせる話者が前記第一の発話者か前記第二の発話者か否かを判定する第二の判定処理を行うことを特徴とする請求項２又は３のいずれかに記載の通話装置。
前記第二の判定処理では、前記ユーザー固定の装置に設定された言語が、当該通話装置に接続される車載装置に設定された言語と一致する場合、その言語を母語と特定し、一致しない場合、前記ユーザー固定の装置に設定された言語を母語と特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定することを特徴とする請求項４に記載の通話装置。
前記判定部は、前記話者の音声から、音声の無音部分の情報を取得し、取得した情報に基づいて前記第一の発話者か前記第二の発話者か否かを判定する第三の判定処理を行うことを特徴とする請求項４又は５のいずれかに記載の通話装置。
前記第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先度に従って、前記第一の発話者か第二の発話者かを判定することを特徴とする請求項６に記載の通話装置。
前記通話装置は、前記複数の話者の中の所定の話者の音声を集音する集音部と、前記所定の話者に向けて、他の話者の音声を放音する放音部とを備え、
前記音声処理部は、前記所定の話者が、前記第二の発話者であると判定された場合、前記放音部により放音させる音声に対応する音声信号に、語学学習者向けの所定の音声処理を行うことを特徴とする請求項１〜７のいずれかに記載の通話装置。
前記通話装置は、前記所定の話者がハンズフリー通話に使用するハンズフリ−通話装置であることを特徴とする請求項８に記載の通話装置。
前記第二の発話者であると判定された前記他の話者の電話番号を記憶する記憶部を有し、
通話開始時に、前記他の話者の電話番号が前記記憶部に記憶済みの場合、前記判定部が判定を行わずに、前記音声処理部が、前記他の話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行うことを特徴とする請求項８又は９に記載の通話装置。
複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置の制御方法において、
前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定ステップと、
前記判定ステップの判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理ステップと、
を実行することを特徴とする通話装置の制御方法。