JP6948275B2 - 通話装置、及び通話装置の制御方法 - Google Patents

通話装置、及び通話装置の制御方法 Download PDF

Info

Publication number
JP6948275B2
JP6948275B2 JP2018029387A JP2018029387A JP6948275B2 JP 6948275 B2 JP6948275 B2 JP 6948275B2 JP 2018029387 A JP2018029387 A JP 2018029387A JP 2018029387 A JP2018029387 A JP 2018029387A JP 6948275 B2 JP6948275 B2 JP 6948275B2
Authority
JP
Japan
Prior art keywords
speaker
voice
language
determination
mother tongue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018029387A
Other languages
English (en)
Other versions
JP2019146055A (ja
Inventor
高橋 正明
正明 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Faurecia Clarion Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd, Faurecia Clarion Electronics Co Ltd filed Critical Clarion Co Ltd
Priority to JP2018029387A priority Critical patent/JP6948275B2/ja
Publication of JP2019146055A publication Critical patent/JP2019146055A/ja
Application granted granted Critical
Publication of JP6948275B2 publication Critical patent/JP6948275B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は、通話装置、及び通話装置の制御方法に関する。
複数の話者を通話可能にする通話装置として、母語を話す者(母語発話者と言う)の発話に対する音声信号を、非母語を話す者(非母語発話者又は語学学習者と言う)の発話に対する音声信号よりも遅延させる会議支援装置が開示されている(例えば、特許文献1参照)。この会議支援装置では、母語発話者用の端末と非母語発話者用の端末とを予め設ける方法、又は、スイッチ等により発話者が手動で各端末を母語者端末または非母語者端末と設定する方法等によって、母語発話者の音声信号であるか否かを判定可能にしている。
特開2014−086832号公報
しかし、従来の構成は、母語発話者用と非母語発話者用とで別々の端末を製作する必要や、端末を母語発話者用か非母語発話者用に切り替える手動スイッチが必要になる、といった制約がある。このため、従来の会議支援装置の機能を、例えば、車両等に搭載されるハンズフリー装置に適用し難い、といった事態が生じる。
そこで、本発明は、手動スイッチ等を使用しなくても母語発話者と非母語発話者とが通話し易くすることを目的とする。
上記目的を達成するために、本発明は、複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置において、前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定部と、前記判定部の判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理部と、を備えることを特徴とする。
上記構成において、前記判定部は、前記話者の音声から、前記話者の母語を特定可能な所定の周波数情報を取得し、取得した周波数情報に基づいて母語を特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定する第一の判定処理を行ってもよい。
また、上記構成において、前記所定の周波数情報は、第0フォルマント周波数であり、前記判定部は、複数種類の言語と、各言語を母語とする者の第0フォルマント周波数とを関係付けた言語別周波数情報に基づき、母語を特定してもよい。
また、上記構成において、当該通話装置が通話に使用するユーザー固定の装置に設定された言語を利用して、そのユーザー固定の装置のユーザーとみなせる話者が前記第一の発話者か前記第二の発話者か否かを判定する第二の判定処理を行ってもよい。
また、上記構成において、前記第二の判定処理では、前記ユーザー固定の装置に設定された言語が、当該通話装置に接続される車載装置に設定された言語と一致する場合、その言語を母語と特定し、一致しない場合、前記ユーザー固定の装置に設定された言語を母語と特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定してもよい。
また、上記構成において、前記判定部は、前記話者の音声から、音声の無音部分の情報を取得し、取得した情報に基づいて前記第一の発話者か前記第二の発話者か否かを判定する第三の判定処理を行ってもよい。
また、上記構成において、前記第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先度に従って、前記第一の発話者か第二の発話者かを判定してもよい。
また、上記構成において、前記通話装置は、前記複数の話者の中の所定の話者の音声を集音する集音部と、前記所定の話者に向けて、他の話者の音声を放音する放音部とを備え、前記音声処理部は、前記所定の話者が、前記第二の発話者であると判定された場合、前記放音部により放音させる音声に対応する音声信号に、語学学習者向けの所定の音声処理を行ってもよい。
また、上記構成において、前記通話装置は、前記所定の話者がハンズフリー通話に使用するハンズフリ−通話装置でもよい。
また、上記構成において、前記第二の発話者であると判定された前記他の話者の電話番号を記憶する記憶部を有し、通話開始時に、前記他の話者の電話番号が前記記憶部に記憶済みの場合、前記判定部が判定を行わずに、前記音声処理部が、前記他の話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行ってもよい。
また、複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置の制御方法において、前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定ステップと、前記判定ステップの判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理ステップと、を実行することを特徴とする。
本発明によれば、手動スイッチ等を使用しなくても母語発話者と非母語発話者とが通話し易くすることができる。
本発明の第一実施形態に係る通話装置を含む通話システムの構成を示した図である。 複数種類の言語と各言語を母語とする者の第0フォルマント周波数との関係の一例を示した図である。 車両側の話者(第一話者X)に対する通話装置の動作を示すフローチャートである。 車両外の話者(第二話者Y)に対する通話装置の動作を示すフローチャートである。 第二実施形態に係る通話装置の動作を説明するフローチャートである。
以下、図面を参照して本発明の実施の形態について説明する。
(第一実施形態)
図1は本発明の第一実施形態に係る通話装置21を含む通話システム10の構成を示した図である。
通話装置21は、自動車等の車両に配置され、車両の乗員であるユーザー(所定の話者)がいわゆるハンズフリー通話を行うために使用するハンズフリー通話装置である。通話装置21は、無線通信機能を備える機器と無線通信するための通信モジュール22を備える。通話装置21は、この通信モジュール22により、ユーザーが所有する携帯電話23(電話端末とも称する)と無線通信することによって、電話網を介して他の電話端末25との間で通信する。これによって、通話装置21と他の電話端末25との間で通話の音声信号が入出力される。
通信モジュール22は、Bluetooth(登録商標)規格に従って近距離無線通信を行うための通信モジュールである。なお、Bluetooth以外の近距離無線通信を行うものでもよい。
携帯電話23は、移動通信網(図示略)を介して他の携帯電話や固定電話と通信する機能を有し、内蔵スピーカー、内蔵マイク、電話通信のための通信部に加え、通話装置21と近距離無線通信を行うための通信モジュールを備えている。なお、携帯電話23と通話装置21とは無線で接続される場合に限らず、有線で接続される構成でもよい。
また、車両内には、車載装置27が配置されており、この車載装置27は、通話装置21と通信可能に接続されている。車載装置27は、ナビゲーション機能、ラジオ受信機能、又はオーディオ再生機能等を具備する装置であり、通話装置21は、例えば車載装置27が有する操作パネルを介して当該通話装置21への各種指示を入力する。なお、通話装置21と車載装置27とが一体に構成されていてもよい。
ここで、携帯電話23及び車載装置27には、各装置23、27の表示等に使用する言語(以下、設定言語)23A、27Aが設定されている。通常、携帯電話23の設定言語23Aは、携帯電話23の所有者によって設定され、車載装置27の設定言語27Aは、車両の所有者によって設定される。なお、携帯電話23の所有者と車両の所有者は、一致する場合もあるし、不一致の場合もある。
図1に示すように、通話装置21において、制御部31は、CPUを備え、この通話装置21の各部を制御するコンピュータとして機能する。また、記憶部32は、制御部31によって実行される制御プログラム、及び各種のデータを記憶する。
マイク33は、通話装置21のユーザーである話者(以下、第一話者Xと言う)の音声(ハンズフリー通話の際の送話音声に相当)を集音する集音部として機能する。スピーカー35は、車両内の第一話者Xに向けて、他の電話端末25のユーザーである話者(以下、第二話者Yと言う)の音声を放音する放音部として機能する。なお、マイク33及びスピーカー35は、通話装置専用のマイク及びスピーカーでもよいし、車載装置27等が音声の入出力に使用するマイク及びスピーカーを兼用したものでもよい。
第一検出部41は、マイク33を介して入力した第一話者Xの音声から、この話者Xの母語を特定可能な周波数として、フォルマント周波数を検出する。より具体的には、フォルマント周波数のうちの最も低い第0フォルマント周波数(第一フォルマント周波数、又は基底周波数と言う場合もある)を検出する。例えば、第一検出部41は、線形予想分析(LPC)の後にピークピッキングでピークを抽出し、バンドパスフィルタにて後述する図2に記載のバンド毎にピークの有無を検出する。これにより、バンド毎にフォルマント周波数の有無を検出し、検出結果を第一演算部43又は制御部31に出力する。なお、フォルマント周波数の検出方法は、公知の方法を広く適用可能である。
図2は、複数種類の言語と、各言語を母語とする者(母語発話者)の第0フォルマント周波数との関係の一例を示した図である。なお、図2は音声帯域に相当する0〜15kHzまでの周波数帯を9つのバンドに区切り、言語毎に第0フォルマント周波数のバンドを暗部で表記している。
また、図2は成人の場合の一例を示している。この図に示すように、日本語を母語とする者は相対的に第0フォルマント周波数が低い範囲となり、英語やイタリア語を母語とする者は相対的に第0フォルマント周波数が高い範囲となる傾向がある。
このように、言語と第0フォルマント周波数とは相関関係がある。このため、例えば、日本語を母語とする者が英語を話した場合、その英語音声の第0フォルマント周波数は、日本語の周波数帯域である低い範囲(図2中、0〜1.25kHz)になり易い。また、イギリス英語を母語とする者が日本語を話した場合、日本語音声の第0フォルマント周波数は、イギリス英語の周波数帯域である高い範囲(図2中、2kHz〜15kHz)の範囲になり易い。
本構成では、この相関関係(第0フォルマント周波数が母語に影響されること)を利用して、第一演算部43が、制御部31の制御の下、第一話者Xの音声の第0フォルマント周波数から、第一話者Xの母語を判定し、判定結果に基づき第一話者Xが母語発話者(第一の発話者に相当)か語学学習者(第二の発話者に相当)か否かを判定する第一の判定処理を行う。
なお、記憶部32には、図2に記載の傾向に基づき、複数種類の言語と、各言語を母語とする者のフォルマント周波数とを関係付けた言語別周波数情報32Aが記憶され、この言語別周波数情報32Aを利用することによって、第0フォルマント周波数から母語を容易に特定可能である。
携帯電話23は、第一話者Xが常に使用する事が前提であるため、ユーザー固定の装置である。このため、携帯電話23の設定言語23Aは母語に設定されていることが多い。
一方、車載装置27の設定言語27Aは、必ずしも母語に設定されてはいない。なぜなら、実際の道路標識が母語以外の場合、車載装置27の設定言語27Aを母語に設定していると、実際の道路標識の文字を車載装置27側で正確に認識できず、ナビゲーション処理や地図等の表示に不備を招くおそれがあるからである。このため、車載装置27の設定言語27Aは、実際の道路標識の言語に設定されていることが多い。
そこで、本構成では、母語判定精度を更に向上させるために、第一演算部43が、制御部31の制御の下、少なくとも携帯電話23の設定言語23Aに基づいて、携帯電話23のユーザーである第一話者Xの母語を特定し、特定した結果に基づき第一話者Xが母語発話者か語学学習者か否かを判定する第二の判定処理を行う。
また、通話は、母語発話者同士の通話の次に、母語発話者と語学学習者の通話が比較的多いと考えられる。母語発話者が発話した場合は一回の文章が長く途切れる回数が少ないが、語学学習者の場合は、単語や文法を考えながら発話する為、どうしても無音区間が多くなる傾向となる。
そこで、本構成では、母語判定精度を更に向上させるために、第一演算部43が、制御部31の制御の下、第一話者Xの音声の無音部分の情報を取得し、取得した情報に基づき第一話者Xが母語発話者か語学学習者か否かを判定する第三の判定処理を行う。
エコーキャンセラー45は、マイク33からの音声信号に対し、エコーキャンセル処理を施すことにより、スピーカー35から発する音をマイク33でひろってしまうことで発生するエコーをキャンセルする。
また、制御部31は、第二話者Yが語学学習者の場合、マイク33から入力した音声信号(送話音声の信号に相当)に対し、語学学習者向けの所定の音声処理を行う。具体的には、制御部31は、所定の音声処理として、音声をスロー再生させる処理(再生速度を遅くする処理に相当)を行う。つまり、マイク33と第一演算部43との間には、サンプリング・レート・コンバーター(以下、SRC47)が配置され、制御部31は、マイク33から入力した音声信号に対するサンプリング周波数をn倍にし、且つ、サンプリング後のデータを適宜に間引くことによって、スロー再生される音声信号に変換する。
この音声信号は、通信モジュール22を介して他の電話端末25に送信され、他の電話端末25からスロー再生された音声が放音される。なお、サンプリング周波数等をデフォルト値にすることで、他の電話端末25から実速度で音声が放音される。
このようにして、SRC47は、スロー再生させる音声処理を行う第一スロー再生部として機能する。この場合、再生速度を段階的に遅くすることによって、聞く側(第二話者Y側)の違和感を抑えることが好ましい。なお、スロー再生させる構成はSRC47に限定されない。また、語学学習者向けの所定の音声処理は、スロー再生に限定しなくてもよく、語学学習者が聞き取り易くなる音声処理(語学学習者向けの音声処理に相当)を広く適用可能である。
通話装置21において、第二検出部51は、通信モジュール22を介して入力した第二話者Yの音声(ハンズフリー通話の際の受話音声に相当)から、この話者Yの母語を特定可能な周波数として、フォルマント周波数(本構成では第0フォルマント周波数)を検出する。この第二検出部51には、第一検出部41と同様のものを適用可能である。
第二演算部53は、制御部31の制御の下、第二話者Yの音声の第0フォルマント周波数から、第二話者Yの母語を判定し、判定結果に基づき第二話者Yが母語発話者(第一の発話者に相当)か語学学習者(第二の発話者に相当)か否かを判定する第一の判定処理を行う。
また、第二演算部53は、母語判定精度を更に向上させるために、制御部31の制御の下、第二話者Yの音声の無音部分の情報を取得し、取得した情報に基づき第二話者Yが母語発話者か語学学習者か否かを判定する第三の判定処理を行う。
ところで、第一演算部43は、第一話者Xが使用する携帯電話23の設定言語23Aに基づいて、第一話者Xの母語を判定し、判定結果に基づき第一話者Xが母語発話者か語学学習者か否かを判定する第二の判定処理を行っていたが、通話装置21側では、第二話者Yが使用する他の電話端末25の設定言語等は判らないため、第二演算部53では第二の判定処理は実行されない。
但し、通話装置21と他の電話端末25との間の通信によって、第二話者Yが使用する他の電話端末25の設定言語が判るようにした場合、通話装置21側(第二演算部53)にて、その設定言語に基づき第二話者Yが母語発話者か語学学習者か否かを判定する第二の判定処理を行ってもよい。
なお、上述した第二及び第三の判定処理は制御部31が行ってもよい。
制御部31は、第一話者Xが語学学習者の場合、通信モジュール22を介して入力した第二話者Yの音声信号に対し、語学学習者向けの所定の音声処理を行う。この所定の音声処理は、音声をスロー再生させる処理である。
つまり、通信モジュール22には、サンプリング・レート・コンバーター(以下、SRC57)が接続され、制御部31は、SRC57を利用して上述と同様にして、第二話者Yの音声信号を、スロー再生される音声信号に選択的に変換する。この場合も、スロー再生される音声信号は、再生速度を段階的に遅くすることによって、聞く側(第一話者X側)の違和感を抑えるものであることが好ましい。また、図1中、符号58はSRC57の出力側に配置されるローパルフィルタ(LPF)である。
なお、スロー再生させる構成はSRC57に限定されない。また、語学学習者向けの所定の音声処理は、スロー再生させる音声処理に限定されず、語学学習者向けの音声処理を広く適用可能である。
図3は車両側の話者(第一話者X)に対する通話装置21の動作を示すフローチャートである。
通話装置21は、第一検出部41によって、マイク33に発話音声が入力されたことを検出すると(ステップS1A)、第一演算部43によって、上述した第一の判定処理(ステップS2A)と、第二の判定処理(ステップS3A)と、第三の判定処理(ステップS4A)とを実行する。
第一の判定処理では、第一演算部43は、第一話者Xの音声の第0フォルマント周波数を特定した後、記憶部32に記憶される言語別周波数情報32Aを参照することによって、第一話者Xの母語を特定する。次いで、特定した母語から第一話者Xが母語発話者か語学学習者か否かを判定する。
母語から母語発話者か語学学習者か否かを判定する方法には、様々な方法を適用可能である。例えば、母語が、この通話装置21が利用される国の公用語と同じ言語であった場合に第一話者Xを母語発話者と判定し、別の言語の場合に語学学習者と判定してもよい。また、音声認識技術を適用して第一話者Xの音声の言語を特定し、母語が特定した言語と同じ言語の場合、第一話者Xを母語発話者と判定し、別の言語の場合に語学学習者と判定する方法を適用してもよい。
第二の判定処理では、第一演算部43は、携帯電話23及び車載装置27の設定言語23A、27Aを比較して母語を特定し、特定した母語から第一話者Xが母語発話者か語学学習者か否かを判定する。設定言語23A、27Aが一致する場合は、その言語を母語と特定し、一致しない場合は、携帯電話23の設定言語23Aを母語と特定する。また、車載装置27の設定言語27Aを特定できない場合に、携帯電話23の設定言語23Aを母語と特定してもよい。また、特定した母語から母語発話者か語学学習者か否かを判定する方法は、第一判定処理と同様の判定方法でもよいし、異なる判定方法でもよい。
第三の判定処理では、第一演算部43は、マイク33を介して入力した第一話者Xの音声から、無音部分の回数を計数し、計数結果に基づいて第一話者Xが母語発話者か語学学習者か否かを判定する。この判定方法にも複数の方法が挙げられる。例えば、無音部分の回数が、所定時間内で予め定めた閾値よりも大の場合に語学学習者と判定し、小の場合に母語発話者と判定する方法でもよい。
また、母語発話者と語学学習者の通話が比較的多いことを踏まえて、第一話者Xの音声の無音部分の回数と、通信モジュール22を介して入力される第二話者Yの音声の無音部分の回数とを比較し、回数が多い方を語学学習者と判定する方法でもよい。
第一演算部43は、第一から第三の判定処理を並列的に行うことによって、それぞれの判定結果を取得した後、これら判定結果に基づき第一話者Xが母語発話者か語学学習者か否かを判定する(ステップS5A)。これらステップS2A〜S5Aまでの処理が判定ステップに相当する。
第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先順位が高い判定結果を優先する。本構成では、第一の判定結果を最優先とする。なお、第一の判定結果を取得できなかった場合(例えば、図2中の1kHz〜1.5kHzのような複数の母語に含まれる第0フォルマント周波数の場合も含む)、第二及び第三判定処理の判定結果を利用することで、1つの母語を特定し易くなる。なお、優先順位は変更してもよい。
ステップS5Aの判定で第一話者Xが母語発話者である(つまり、語学学習者でない)と判定した場合(ステップS5A;NO)、通話装置21は、制御部31によって当該処理(車両側の話者(第一話者X)に対する動作に相当)を終了する。
一方、ステップS5Aの判定で第一話者Xが語学学習者であると判定した場合(ステップS5A;NO)、通話装置21は、SRC57を利用して、受話音声である第二話者Yの音声信号をスロー再生させる(ステップS6A、音声処理ステップに相当)。これにより、語学学習者と判定された第一話者Xには、第二話者Yの音声がゆっくり聞こえ、音声を聞き取り易くなる。
なお、ステップS1A〜S5Aまでの処理は数秒程度の短時間で終了し、スロー再生は短時間で開始される。また、第一話者Xが母語発話者である(つまり、語学学習者でない)と判定された場合、ステップS6Aの処理が実行されないので、母語発話者である第一話者Xには、第二話者Yの音声が実速度で聞こえることになる。
図4は車両外の話者(第二話者Y)に対する通話装置21の動作を示すフローチャートである。
通話装置21は、第二検出部51によって、通信モジュール22を介して携帯電話23から受話音声(第二話者Yの音声)が入力されたことを検出すると(ステップS1B)、第二演算部53によって、上述した第一の判定処理(ステップS2B)と、第三の判定処理(ステップS4B)とを実行する。
この第一の判定処理では、第二演算部53は、第二話者Yの音声の第0フォルマント周波数を特定した後、記憶部32に記憶される言語別周波数情報32Aを参照することによって、第二話者Yの母語を特定する。次いで、特定した母語から第二話者Yが母語発話者か語学学習者か否かを判定する。なお、この第一の判定処理は、第二話者Yの音声を利用する点を除いて、第一演算部43によって実行される第一の判定処理と同様の処理である。
第三の判定処理では、第一演算部43は、第二話者Yの音声から、無音部分の回数を計数し、計数結果に基づいて第二話者Yが母語発話者か語学学習者か否かを判定する。なお、この第三の判定処理は、第二話者Yの音声を利用する点を除いて、第一演算部43によって実行される第三の判定処理と同様の処理である。
第一演算部43は、第一及び第三の判定処理を並列的に行うことによって、それぞれの判定結果を取得した後、これら判定結果に基づき第二話者Yが母語発話者か語学学習者か否かを判定する(ステップS5B)。これらステップS2B〜S5Bまでの処理が判定ステップに相当する。
第一及び第三の判定処理の判定結果が異なる場合、予め定めた優先順位が高い判定結果を優先する。本構成では、第一の判定結果を最優先とする。なお、優先順位は変更してもよい。
ステップS5Bの判定で第二話者Yが母語発話者である(つまり、語学学習者でない)と判定した場合(ステップS5B;NO)、通話装置21は、制御部31によって当該処理(車両外の話者(第二話者Y)に対する動作に相当)を終了する。
一方、ステップS5Bの判定で第二話者Yが語学学習者であると判定した場合(ステップS5B;YES)、通話装置21は、SRC47を利用して、送話音声である第一話者Xの音声信号をスロー再生させる(ステップS6B、音声処理ステップに相当)。これにより、語学学習者と判定された第二話者Yには、第一話者Xの音声がゆっくり聞こえ、音声を聞き取り易くなる。なお、ステップS1B〜S5Bまでの処理は数秒程度の短時間で終了し、スロー再生は短時間で開始される。
また、第二話者Yが母語発話者である(つまり、語学学習者でない)と判定された場合、ステップS6Bの処理が実行されないので、母語発話者である第二話者Yには、第一話者Xの音声が実速度で聞こえることになる。
また、図4に示すフローチャートにおいて、ステップS4Bの処理(第3の判定処理)を省略してもよい。
以上説明したように、本実施形態では、第一検出部41、第一演算部43及び制御部31によって、第一話者Xの少なくとも音声に基づいて、第一話者Xが、母語発話者か語学学習者か否かを判定する判定部が構成される。
また、制御部31及びSRC57によって、判定部の判定結果に基づき、語学学習者であると判定された第一話者Xに向けて出力される音声信号(第二話者Yの音声)に対し、スロー再生処理(語学学習者向けの所定の音声処理に相当)を行う音声処理部が構成される。
これにより、手動スイッチ等を使用しなくても、第一話者Xが母語発話者か語学学習者か否かを自動的に特定し、第一話者Xが語学学習者であっても第二話者Yと通話し易くなる。
また、第二検出部51、第二演算部53及び制御部31によって、第二話者Yの少なくとも音声に基づいて、第二話者Yが、母語発話者か語学学習者か否かを判定する判定部が構成される。
また、制御部31及びSRC47によって、判定部の判定結果に基づき、語学学習者であると判定された第二話者Yに向けて出力される音声信号(第一話者Xの音声)に対し、スロー再生処理(語学学習者向けの所定の音声処理に相当)を行う音声処理部が構成される。
これにより、手動スイッチ等を使用しなくても、第二話者Yが母語発話者か語学学習者か否かを自動的に特定し、第二話者Yが語学学習者であっても第一話者Xと通話し易くなる。
本実施形態において、母語発話者は、厳密な意味の母語発話者に限定しなくてもよく、母語発話者に似た発話を行う者を含んでもよい。また、語学学習者についても、厳密な意味の語学学習者に限定しなくてもよく、語学学習者に似た発話を行う者を含んでもよい。
例えば、高齢者の場合、母語発話者であっても無音区間が多い場合があり、この場合は、第三の判定処理で語学学習者と判定される場合が生じる。また、個体差によって、母語発話者であっても、第一の判定処理等で語学学習者と判定される場合もある。いずれも判定基準を適宜に調整することによって、母語発話者又は語学学習者と判定される範囲を調整可能である。
すなわち、第一〜第三の判定処理において、母語発話者相当の第一の発話者か語学学習者相当の第二の発話者か否かを判定すればよい。
また、第一の発話者か第二の発話者か否かを判定する方法として、第一の判定処理を行うので、つまり、第一話者X及び第二話者Yの音声から、各話者X、Yの母語を特定可能な所定の周波数情報である第0フォルマント周波数を取得し、取得した第0フォルマント周波数に基づいて母語を特定し、特定した母語を利用して第一の発話者か第二の発話者か否かを判定するので、言語と第0フォルマント周波数との相関関係を利用して、高精度に各話者X、Yの母語を特定できる。
なお、第一の判定処理において、第0フォルマント周波数を利用する場合を説明したが、第0フォルマント周波数に限定しなくてもよい。例えば、第0フォルマント周波数以外のフォルマント周波数から話者X、Yの母語を特定可能であれば、そのフォルマント周波数を利用してもよい。さらに、フォルマント周波数以外に、話者X、Yの母語を特定可能な周波数情報があれば、その周波数情報を利用してもよい。
また、本実施形態では、複数種類の言語と、各言語を母語とする者のフォルマント周波数とを関係付けた言語別周波数情報32Aを記憶し、この言語別周波数情報32Aに基づき母語を特定するので、母語の特定が容易である。
また、本実施形態では、第二の判定処理を行うので、つまり、通話装置21が通話に使用するユーザー固定の装置である携帯電話23に設定された設定言語23Aを利用して、その携帯電話23のユーザーとみなせる第一話者Xが第一の発話者か第二の発話者か否かを判定するので、第一話者Xが第一の発話者か第二の発話者か否かの判定精度を向上し易くなる。
さらに、第二の判定処理では、携帯電話23の設定言語23Aが、この通話装置21に接続される車載装置27の設定言語27Aと一致する場合は、その言語を母語と特定し、一致しない場合は、携帯電話23の設定言語23Aを母語と特定し、特定した母語を利用して第一話者Xが第一の発話者か第二の発話者か否かを判定する。これにより、第一の発話者か第二の発話者か否かの判定精度を向上し易くなる。なお、この第二の判定処理は、第一話者Xについてのみ行うので、第一話者Xの方が、第二話者Yよりも判定精度が向上し易くなる。
また、本実施形態では、第三の判定処理を行うので、つまり、第一話者X及び第二話者Yの音声から、各話者X、Yの音声の無音部分の情報を取得し、取得した情報に基づいて各話者X、Yが第一の発話者か第二の発話者かを判定するので、各話者X、Yが第一の発話者か第二の発話者か否かの判定精度をより向上し易くなる。
また、第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先度に従って第一の発話者か第二の発話者か否かを判定するので、これによっても判定精度を向上し易くなる。
また、通話装置21は、複数の話者X、Yの中の第一話者Xの音声を集音する集音部として機能するマイク33と、第一話者X(所定の話者に相当)に向けて第二話者Yの音声を放音する放音部として機能するスピーカー35とを備える。そして、第一話者Xが、語学学習者相当の第二の発話者と判定された場合、スピーカー35により放音させる音声に対応する音声信号に、スロー再生処理(語学学習者向けの所定の音声処理に相当)を行う。これにより、マイク33とスピーカー35を利用する第一話者Xが通話を聞き取り易くなる。
マイク33及びスピーカー35が別体の場合は、通話装置21は、集音部として、マイク33からの音声を入力する音声入力部を備え、放音部として、スピーカー35に向けて音声を出力する音声出力部を備えればよい。
また、この通話装置21は、第一話者Xがハンズフリー通話に使用するハンズフリ−通話装置であるので、通話装置21の直接のユーザーである第一話者Xが通話を聞き取り易くなる。
なお、第一話者X及び第二話者Yが第一の発話者か第二の発話者か否かを判定し、各話者X、Yが第二の発話者である場合に各話者が通話を聞き取り易くする場合を説明したが、これに限定されず、いずれか一方(例えば、第一話者X)だけについて、第一の発話者か第二の発話者か否かを判定し、第二の発話者である場合に、その一方の話者が通話を聞き取り易くするようにしてもよい。
(第二実施形態)
図5は第二実施形態に係る通話装置21の動作を説明するフローチャートであり、車両外の話者(第二話者Y)に対する通話装置21の動作を示している。
第二実施形態では、通話装置21の記憶部32に、語学学習者と判定された通話相手(第二話者Y)の電話番号が記憶される点、及び、通話相手の電話番号が記憶部32に記憶される場合は、判定処理を行うことなく、ステップS6Aの処理に移行する点が第一実施形態と異なる。
以下、第一実施形態と重複する説明は省略する。
図5に示すように、通話装置21は、携帯電話23から受話音声(第二話者Yの音声)が入力されると(ステップS1B)、通話相手である第二話者Yの電話番号が、語学学習者の電話番号として記憶部32に記憶されているか否かを判定する(ステップS11B)。
なお、電話番号の取得方法は、通話装置21側(携帯電話23)からの発信時は、その発信に使用した電話番号を取得すればよく、他の電話端末25からの着信時は、他の電話端末25から電話網を介して通知される電話番号を取得すればよい。
ここで、通話装置21において、通話相手である第二話者Yとの通話が初めての場合、又は、同じ第二話者Yとの過去の通話時において、第二話者Yが母語発話者であると判定されている場合、この第二話者Yの電話番号は記憶部32に記憶されていない。このため、ステップS11Bの判定は否定結果となり(ステップS11B;NO)、次のステップS2Bの処理に移行する。
その後、ステップS5Bの判定で第二話者Yが語学学習者と判定した場合(ステップS5B;YES)、通話装置21は、第一話者Xの音声信号をスロー再生させると共に(ステップS6B)、第二話者Yの電話番号を、語学学習者の電話番号として記憶部32に記憶する(ステップS12B)。
このため、以降、同じ第二話者Yと通話する場合、ステップS11Bの判定が肯定結果となり(ステップS11B;YES)、図5に示すように、ステップS6Bの処理に移行する。これにより、第一及び第三の判定処理(判定ステップに相当)を省略することができ、ステップS6Bのスロー再生の開始をより早めることが可能になる。
なお、ステップS12Bにおいて、同じ電話番号が既に記憶部32に記憶済みの場合、その電話番号は新たに記憶されない。これにより、同じ電話番号が記憶部32に二重登録される事態が回避される。
このように、本実施の形態では、記憶部32に、語学学習者(第二の発話者)と判定された第二話者Yの電話番号を記憶し、通話開始時に、第二話者Yの電話番号が記憶部32に記憶済みの場合、第一及び第三の判定処理を行わずに、第一話者Xの音声信号をスロー再生させる。これにより、速やかにスロー再生させることができる。
上述の実施形態は、あくまでも本発明の一実施の態様を例示するものであって、本発明の趣旨を逸脱しない範囲で任意に変形、及び応用が可能である。
例えば、図1に示す通話装置21、及びその制御方法に本発明を適用する場合を説明したが、これに限定されない。例えば、車載に限定されない通話装置、及びその制御方法に本発明を適用してもよい。さらに、一対一で通話する通話装置21に限定されず、特許文献1に記載した会議支援装置といった、3人以上で通話可能な通話装置に本発明を適用してもよい。
また、上述の実施形態では、制御プログラムを記憶部32に予め記憶しておく場合について説明したが、この制御プログラムを、磁気記録媒体、光記録媒体、半導体記録媒体等のコンピュータが読み取り可能な記録媒体に格納し、コンピュータが記録媒体からこの制御プログラムを読み取って実行するようにしてもよい。また、この制御プログラムを電気通信回線を介して通信ネットワーク上の配信サーバー等からダウンロードできるようにしてもよい。
10 通話システム
21 通話装置
22 通信モジュール
23 携帯電話
23A、27A 設定言語
25 他の電話端末
27 車載装置
31 制御部(判定部、音声処理部)
32 記憶部
32A 言語別周波数情報
33 マイク(集音部)
35 スピーカー(放音部)
41 第一検出部(判定部)
43 第一演算部(判定部)
45 エコーキャンセラー
47、57 SRC(音声処理部)
51 第二検出部(判定部)
53 第二演算部(判定部)
58 ローパスフィルタ(LPF)
X 第一話者
Y 第二話者

Claims (11)

  1. 複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置において、
    前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定部と、
    前記判定部の判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理部と、
    を備えることを特徴とする通話装置。
  2. 前記判定部は、前記話者の音声から、前記話者の母語を特定可能な所定の周波数情報を取得し、取得した周波数情報に基づいて母語を特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定する第一の判定処理を行うこと特徴とする請求項1に記載の通話装置。
  3. 前記所定の周波数情報は、第0フォルマント周波数であり、
    前記判定部は、複数種類の言語と、各言語を母語とする者の第0フォルマント周波数とを関係付けた言語別周波数情報に基づき、母語を特定することを特徴とする請求項2に記載の通話装置。
  4. 当該通話装置が通話に使用するユーザー固定の装置に設定された言語を利用して、そのユーザー固定の装置のユーザーとみなせる話者が前記第一の発話者か前記第二の発話者か否かを判定する第二の判定処理を行うことを特徴とする請求項2又は3のいずれかに記載の通話装置。
  5. 前記第二の判定処理では、前記ユーザー固定の装置に設定された言語が、当該通話装置に接続される車載装置に設定された言語と一致する場合、その言語を母語と特定し、一致しない場合、前記ユーザー固定の装置に設定された言語を母語と特定し、特定した母語を利用して前記第一の発話者か前記第二の発話者か否かを判定することを特徴とする請求項4に記載の通話装置。
  6. 前記判定部は、前記話者の音声から、音声の無音部分の情報を取得し、取得した情報に基づいて前記第一の発話者か前記第二の発話者か否かを判定する第三の判定処理を行うことを特徴とする請求項4又は5のいずれかに記載の通話装置。
  7. 前記第一〜第三の判定処理の判定結果が異なる場合、予め定めた優先度に従って、前記第一の発話者か第二の発話者かを判定することを特徴とする請求項6に記載の通話装置。
  8. 前記通話装置は、前記複数の話者の中の所定の話者の音声を集音する集音部と、前記所定の話者に向けて、他の話者の音声を放音する放音部とを備え、
    前記音声処理部は、前記所定の話者が、前記第二の発話者であると判定された場合、前記放音部により放音させる音声に対応する音声信号に、語学学習者向けの所定の音声処理を行うことを特徴とする請求項1〜7のいずれかに記載の通話装置。
  9. 前記通話装置は、前記所定の話者がハンズフリー通話に使用するハンズフリ−通話装置であることを特徴とする請求項8に記載の通話装置。
  10. 前記第二の発話者であると判定された前記他の話者の電話番号を記憶する記憶部を有し、
    通話開始時に、前記他の話者の電話番号が前記記憶部に記憶済みの場合、前記判定部が判定を行わずに、前記音声処理部が、前記他の話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行うことを特徴とする請求項8又は9に記載の通話装置。
  11. 複数の話者が互いに通話可能に、各話者の音声に対応する音声信号を入出力する通話装置の制御方法において、
    前記話者の少なくとも音声に基づいて、その話者が、母語発話者相当の第一の発話者か、語学学習者相当の第二の発話者かを判定する判定ステップと、
    前記判定ステップの判定結果に基づき、前記第二の発話者であると判定された話者に向けて出力される音声信号に対し、語学学習者向けの所定の音声処理を行う音声処理ステップと、
    を実行することを特徴とする通話装置の制御方法。
JP2018029387A 2018-02-22 2018-02-22 通話装置、及び通話装置の制御方法 Active JP6948275B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018029387A JP6948275B2 (ja) 2018-02-22 2018-02-22 通話装置、及び通話装置の制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018029387A JP6948275B2 (ja) 2018-02-22 2018-02-22 通話装置、及び通話装置の制御方法

Publications (2)

Publication Number Publication Date
JP2019146055A JP2019146055A (ja) 2019-08-29
JP6948275B2 true JP6948275B2 (ja) 2021-10-13

Family

ID=67774035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018029387A Active JP6948275B2 (ja) 2018-02-22 2018-02-22 通話装置、及び通話装置の制御方法

Country Status (1)

Country Link
JP (1) JP6948275B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304392A (ja) * 2001-04-04 2002-10-18 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
JP3741025B2 (ja) * 2001-10-30 2006-02-01 株式会社デンソー 電話システム、電話機およびコンピュータプログラム
KR100457974B1 (ko) * 2002-01-31 2004-11-18 강영식 무선 네트워크 오디오 단말기
JP2009251388A (ja) * 2008-04-08 2009-10-29 Denso Corp 母国語発話装置
JP2011087196A (ja) * 2009-10-16 2011-04-28 Nec Saitama Ltd 電話機、及び電話機の話速変換方法
JP2013034057A (ja) * 2011-08-01 2013-02-14 Nec Casio Mobile Communications Ltd 電子機器、音響再生方法、及びプログラム
JP5889162B2 (ja) * 2012-10-23 2016-03-22 日本電信電話株式会社 会議支援装置、会議支援システム、その方法及びプログラム

Also Published As

Publication number Publication date
JP2019146055A (ja) 2019-08-29

Similar Documents

Publication Publication Date Title
US11044369B2 (en) Method and apparatus for adjusting volume of user terminal, and terminal
KR101327112B1 (ko) 주변 소리 정보를 이용하여 다양한 사용자 인터페이스를 제공하는 단말기 및 그 제어방법
KR20230136707A (ko) 공유된 음성 작동 디바이스상의 호출 핸들링
US20090023479A1 (en) Method and system for routing phone call audio through handset or headset
US8223961B2 (en) Method and device for answering an incoming call
JP4520596B2 (ja) 音声認識方法および音声認識装置
JP2011227199A (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
WO2019228329A1 (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
JPH1152976A (ja) 音声認識装置
KR102350890B1 (ko) 휴대용 청력검사장치
JPH1117779A (ja) 音声認識通話装置の音声認識率向上方法
JP6948275B2 (ja) 通話装置、及び通話装置の制御方法
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
US11735187B2 (en) Hybrid routing for hands-free voice assistant, and related systems and methods
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
CN111694539A (zh) 在听筒和扬声器之间切换的方法、装置及介质
US20150201057A1 (en) Method of processing telephone voice output and earphone
JP2015002386A (ja) 通話装置、音声変更方法、及び音声変更プログラム
JP7571111B2 (ja) 通信端末、情報処理装置、通信方法及びプログラム
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
JP2023168010A (ja) 音声信号処理装置および音声信号処理方法
JPH11109987A (ja) 音声認識装置
CN114979896A (zh) 一种音量控制方法、装置及蓝牙耳机
JPH11298382A (ja) ハンズフリー装置
JP2012217125A (ja) 車載用ハンズフリー通話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201217

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210825

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210917

R150 Certificate of patent or registration of utility model

Ref document number: 6948275

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150