JP6598323B1

JP6598323B1 - 補聴器及びプログラム

Info

Publication number: JP6598323B1
Application number: JP2018105935A
Authority: JP
Inventors: 英明長沼
Original assignee: Kitasato Institute
Current assignee: Kitasato Institute
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2019-10-30
Anticipated expiration: 2038-06-01
Also published as: JP2019213001A

Abstract

【課題】使用者にとってクリアで聞き取りやすい補聴音声を提供可能な補聴器を提供する。【解決手段】補聴器は、音声サンプリングデータを取得する音声サンプリングデータ取得部と、前記音声サンプリングデータに対する音声認識処理を行ってテキストデータに変換する音声認識処理部と、前記テキストデータに基づく音声合成処理を行って合成音声データを生成する音声合成処理部と、前記合成音声データを再生して出力する再生処理部と、を備える。【選択図】図１

Description

本発明は、補聴器及びプログラムに関する。

マイクで集音した音声を増幅して出力することで使用者（難聴者）を補助する補聴器が知られている。

特許文献１には、実時間で音声加工が可能で、フォルマント強調効果の高く、不自然な残留雑音の少ない音声加工装置を得ること、及び、フォルマント強調と音声信号スペクトルを難聴者の可聴範囲にいれる信号処理とを両方とも効率的に行う補聴器が開示されている。

また、特許文献２には、使用者に応じて音声を変換して出力するための音声出力装置、及び、これを適用した補聴器について記載されている。当該音声出力装置は、受信した音声を、当該使用者が認識できる音声に変換する変換部を有している。変換部は、受信した音声のうちの特定の単語を、使用者が認識できる音声に変換して出力する。

平６−０７５５９５号公報特開２０１３−１２７５３６号公報

現在使用され、又は、市販されている補聴器は、基本的にはマイクで集音された音を使用者に少しでも聞き取りやすい音にするために、主に周波数をもとに変化させること、かつ音量を変化させることがなされている。いずれにしても“マイクで集音された音”を加工して出力している。マイクで集音された音には発話者の声（シグナル）のほかに背景に存在する雑音（ノイズ）が含まれている。このノイズの成分の多くはシグナルと同様の音声であるため、集音した音に如何なる加工を施したとしてもシグナルとノイズとを完全に分離することが困難であった。そのため、使用者にとって真にクリアで聞き取りやすい補聴音声を提供することができなかった。

本発明は、このような課題に鑑みてなされたものであって、使用者にとってクリアで聞き取りやすい補聴音声を提供可能な補聴器及びプログラムを提供する。

本発明の第１の態様によれば、補聴器は、音声サンプリングデータを取得する音声サンプリングデータ取得部と、前記音声サンプリングデータに対する音声認識処理を行ってテキストデータに変換する音声認識処理部と、前記テキストデータに基づく音声合成処理を行って合成音声データを生成する音声合成処理部と、前記合成音声データを再生して出力する再生処理部と、を備える。

また、本発明の第２の態様によれば、上述の補聴器は、前記テキストデータをディスプレイに表示させる表示処理部を更に備える。

また、本発明の第３の態様によれば、上述の補聴器は、使用者の操作に従って、前記合成音声データの音量、再生速度、及び、声種、についての設定の少なくとも何れか一つを変更する設定部を更に備える。

また、本発明の第４の態様によれば、前記音声合成処理部は、事前に登録された発話者の音声に基づいて前記合成音声データを生成する。

また、本発明の第５の態様によれば、前記音声合成処理部は、予め取得しておいた使用者の聴覚機能検査結果に基づいた最適な声種で前記合成音声データを生成する。

また、本発明の第６の態様によれば、プログラムは、補聴器のコンピュータに、音声サンプリングデータを取得するステップと、前記音声サンプリングデータに対する音声認識処理を行ってテキストデータに変換するステップと、前記テキストデータに基づく音声合成処理を行って合成音声データを生成するステップと、前記合成音声データを再生して出力するステップと、を実行させる。

上述の補聴器及びプログラムによれば、使用者にとってクリアで聞き取りやすい補聴音声を提供できる。

第１の実施形態に係る補聴器の全体構成を示す図である。第１の実施形態に係る補聴器本体の機能構成を示す図である。第１の実施形態に係るＣＰＵの使用者補助時の処理フローを示す図である。第１の実施形態に係る素片データテーブルの例を示す図である。第１の実施形態に係る補聴器本体の設定画面の例を示す図である。第２の実施形態に係る補聴器本体の機能構成を示す図である。第２の実施形態に係るＣＰＵの声種登録時の処理フローを示す図である。第２の実施形態に係る素片データテーブルの例を示す図である。第２の実施形態に係るＣＰＵの使用者補助時の処理フローを示す図である。第３の実施形態に係るＣＰＵの声種登録時の処理フローを示す図である。

＜第１の実施形態＞
以下、第１の実施形態に係る補聴器について、図１〜図５を参照しながら説明する。

（全体構成）
図１は、第１の実施形態に係る補聴器の全体構成を示す図である。
図１を参照しながら、補聴器１全体の構成について詳しく説明する。

図１に示すように、補聴器１は、発話者Ｔの胸元等に取り付けられるピンマイク１０と、補聴器１の補助を受ける使用者Ｌ（難聴者）が保持する補聴器本体１１と、を有してなる。

ピンマイク１０は、内部にＡ／Ｄ変換器を有し、発話者Ｔによる発話音声を集音してサンプリングする。以下、発話者Ｔの発話音声をサンプリングして得られた情報を「音声サンプリングデータ」とも記載する。更に、ピンマイク１０は、内部に近距離無線通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）等）用のトランスミッタを具備し、取得した音声サンプリングデータを、近距離無線通信を介して補聴器本体１１に送信する。
なお、本実施形態に係るピンマイク１０は集音の指向性が高く設定されており、装着した発話者Ｔより発話される音声が主としてサンプリングされるようになっている。

補聴器本体１１は、イヤホン１１１と、ディスプレイ１１２とを有している。

補聴器本体１１は、ピンマイク１０から受信した音声サンプリングデータに基づいて所定の補助音声を生成するとともに、当該補助音声を再生してイヤホン１１１から出力する。使用者Ｌは、イヤホン１１１から出力される補助音声を聞き取ることで、補聴器１からの補助を受ける。
また、補聴器本体１１は、音声サンプリングデータに基づくテキストデータをディスプレイ１１２に表示する。使用者Ｌは、ディスプレイ１１２に表示されるテキストデータを視認することで、補聴器１から更なる補助を受ける。

（補聴器本体の機能構成）
図２は、第１の実施形態に係る補聴器本体の機能構成を示す図である。
図２を参照しながら、補聴器１の補聴器本体１１の機能構成について詳しく説明する。

図２に示すように、補聴器本体１１は、ＣＰＵ１１０と、イヤホン１１１と、ディスプレイ１１２と、メモリ１１３と、ストレージ１１４とを備えている。

ＣＰＵ１１０は、補聴器本体１１の動作全体の制御を司るプロセッサである。ＣＰＵ１１０は、予め用意されたプログラムに従って動作することで後述する種々の機能を発揮する。

イヤホン１１１は、補聴器１の使用者Ｌの耳に装着され、使用者Ｌにとって聞き取りやすい補助音声を出力する。イヤホン１１１は、一般的なノイズキャンセリング機能を具備するものであってもよい。

ディスプレイ１１２は、情報を視認可能に表示可能なデバイスであって、例えば、液晶ディスプレイや有機ＥＬディスプレイなどである。また、ディスプレイ１１２は、いわゆるタッチパネルであって、表示画面における画像情報を表示するとともに、当該表示画面に対する使用者Ｌのタッチ操作を受け付ける。

メモリ１１３は、いわゆる主記憶装置であって、ＣＰＵ１１０がプログラムに基づいて動作するための命令及びデータが展開される。

ストレージ１１４は、いわゆる補助記憶装置であって、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等であってよい。なお、ストレージ１１４には、音声合成処理に必要な素片データテーブルＶ１が記録されている。素片データテーブルＶ１については後述する。

近距離無線通信モジュール１１５は、ピンマイク１０との間で情報をやり取りするための通信インタフェースである。

次に、ＣＰＵ１１０の具体的な機能について説明する。
ＣＰＵ１１０は、予め用意されたプログラムに従って動作することで、音声サンプリングデータ取得部１１００、音声認識処理部１１０１、音声合成処理部１１０２、再生処理部１１０３、表示処理部１１０４及び設定部１１０５としての機能を発揮する。

音声サンプリングデータ取得部１１００は、ピンマイク１０及び近距離無線通信モジュール１１５を通じて、発話者Ｔの発話音声がサンプリングされて作成された音声サンプリングデータを取得する。
音声認識処理部１１０１は、音声サンプリングデータ取得部１１００によって取得された音声サンプリングデータに対する音声認識処理（Speech to Text）を行ってテキストデータに変換する。
音声合成処理部１１０２は、音声認識処理部１１０１によって得られたテキストデータに基づく音声合成処理（Text to Speech）を行って合成音声データを生成する。
再生処理部１１０３は、音声合成処理部１１０２によって生成された合成音声データを再生してイヤホン１１１から出力する。
表示処理部１１０４は、音声認識処理部１１０１が生成したテキストデータをディスプレイに表示させる。
設定部１１０５は、使用者Ｌの操作に従って、合成音声データの音量、再生速度、及び、声種についての設定を変更する。

（使用者補助時の処理フロー）
図３は、第１の実施形態に係るＣＰＵの使用者補助時の処理フローを示す図である。
図４は、第１の実施形態に係る素片データテーブルの例を示す図である。
図３〜図４を参照しながら、第１の実施形態に係る補聴器１が実行する処理フローについて詳しく説明する。

まず、ピンマイク１０は、発話者Ｔが発話した音声を入力（集音）する（ステップＳ０１）。このとき、ピンマイク１０は、内部に具備されたＤＳＰにより、入力された音声をサンプリングして音声サンプリングデータＤ１を取得する。そして、ピンマイク１０は、取得した音声サンプリングデータＤ１を、補聴器本体１１の近距離無線通信モジュール１１５に向けて送信する。このようにして、補聴器本体１１のＣＰＵ１１０（音声サンプリングデータ取得部１１００）は、音声サンプリングデータＤ１を取得する。

次に、ＣＰＵ１１０（音声認識処理部１１０１）は、音声サンプリングデータＤ１に対する音声認識処理（Speech to Text）を行う（ステップＳ０２）。この音声認識処理の結果、テキストデータＤ２に変換される。

次に、ＣＰＵ１１０（音声合成処理部１１０２）は、音声認識処理によって生成されたテキストデータＤ２に基づいて音声合成処理（Text to Speech）を行う（ステップS０３）。この合成音声処理においては、ＣＰＵ１１０は、波形接続型音声合成処理を行う。すなわち、ＣＰＵ１１０は、予め用意された複数の波形データである素片データＤ３を組み合わせて（接続して）合成音声データＤ４を生成する。この素片データＤ３については、図４を参照しながら詳しく説明する。

図４は、ストレージ１１４に記録された素片データテーブルＶ１の例を示している。
図４に示すように素片データテーブルＶ１には、声種（例えば、“アナウンサー（男性）”、“一般（女性）”、“子供（男の子）”、・・）ごとに、発音の音素（“ａ”、“ｉ”、“ｕ”、・・）の波形データである素片データＤ３が記録されている。ＣＰＵ１１０は、テキストデータＤ２に示される文字（例えば、“おはよう”）に対応する素片データＤ３（例えば、音素“ｏ”、“ｈａ”、“ｙｏ”をに対応する素片データＤ３）を素片データテーブルＶ１から抽出するとともに、これらを接続して合成音声データＤ４を生成する。

また、図３において、ＣＰＵ１１０（表示処理部１１０４）は、ステップＳ０３の処理と並行して、テキストデータＤ２のディスプレイ１１２への表示処理を行う（ステップＳ０４）。

音声合成処理（ステップＳ０３）を通じて合成音声データＤ４を生成すると、ＣＰＵ１１０（再生処理部１１０３）は、生成された合成音声データＤ４（補助音声）を再生してイヤホン１１１から出力する（ステップＳ０５）。
以上で、ＣＰＵ１１０の一連の処理が完了する。

（設定画面の例）
図５は、第１の実施形態に係る補聴器本体の設定画面の例を示す図である。
ＣＰＵ１１０（設定部１１０５）は、使用者Ｌから所定の操作を受け付けると、図５に示す設定画面をディスプレイ１１２に表示させる。
設定画面には、例えば、再生される音声（合成音声データＤ４）の声種、再生速度、音量などの設定変更用画像が表示される。使用者Ｌは、ディスプレイ１１２をタッチ操作してこれらの設定を変更する。これにより、使用者Ｌは、本人にとって好みの（聞き取りやすい）、声種、再生速度、音量に所望に変更することができる。

（作用、効果）
以上に説明した構成によれば、第１の実施形態に係る補聴器１は、発話者Ｔが発声した音声に対し、音声認識処理を施してテキストデータに変換した後、再度、テキストデータに基づく音声合成処理によって音声を再生する。ここで、テキストデータには、発話者Ｔが発声した言語情報のみが抽出されるものであり、周囲のノイズを含むものではない。このように、一旦テキストデータに変換することで、ノイズが全く含まれない補助音声を提供することができる。また、音声合成処理において、使用者Ｌの聴覚機能に適合した補助音声を最適な声種、再生速度、音量で提供することができる。

なお、第１の実施形態に係る素片データテーブルＶ１には、“アナウンサー”、“一般”、“子供”、・・等の声種（素片データ）が事前に登録されているものとして説明した。これらの声種は、特に、当てはまる人間の肉声に基づくものであることが好ましい。例えば、“アナウンサー”に対応する素片データは、実際のアナウンサーの肉声の録音データから作成されることが好ましい。

また、第１の実施形態に係る補聴器１によれば、テキストデータからの合成音声を再生するので、再生させる音声（補助音声）の自由度を高めることができる。例えば、集音した声、音、スピードにとらわれる必要がなく、自由に合成可能である。また、ＡＩ技術を搭載することで、会話の状況に応じた、発音の抑揚、きめ細かなスピードの調整（一つの単語の中でもスピードを変化させることなど）、感情の表現なども可能になる。台本を棒読みするのではなく、役者が台詞を言うように、感情をこめて話すことも可能になる。

なお、第１の実施形態に係る補聴器１は、発話者Ｔと使用者Ｌとが一対一で会話を行うものとして説明したが、他の実施形態においてはこの態様に限られない。例えば、他の実施形態に係る補聴器１は、複数の発話者Ｔそれぞれにピンマイク１０を装着させるとともに、各ピンマイク１０から受信する音声サンプリングデータＤ１を区別して、声種等を変えて使用者Ｔに聞かせる態様としてもよい。また、この場合、ディスプレイ１１２に表示させるテキストも区別できるように表示してもよい。

また、使用者Ｌ又は医師等による特定の操作に従って、特定の声種（例えば、アナウンサー（男性）等）につき、その歯切れの声を、より使用者Ｌにとって聞き取りやすい音声になるように編集、加工することも可能である。

＜第２の実施形態＞
次に、第２の実施形態に係る補聴器について、図６〜図９を参照しながら説明する。

（補聴器本体の機能構成）
図６は、第２の実施形態に係る補聴器本体の機能構成を示す図である。
図６を参照しながら、第２の実施形態に係る補聴器１の補聴器本体１１の機能構成について詳しく説明する。
図６に示すように、第２の実施形態に係るＣＰＵ１１０は、第１の実施形態の各機能に加え、更に、登録部１１０６としての機能を発揮する。
登録部１１０６は、特定の発話者Ｔの音声を再現するための素片データを取得して、ストレージ１１４の素片データテーブルＶ２に登録する。

（声種登録時の処理フロー）
図７は、第２の実施形態に係るＣＰＵの声種登録時の処理フローを示す図である。
図８は、第２の実施形態に係る素片データテーブルの例を示す図である。
図７〜図８を参照しながら、第２の実施形態に係る補聴器１が実行する処理フローについて詳しく説明する。

図７に示す処理フローは、新たな素片データの登録（声種登録）を行うための処理フローである。この声種登録処理の処理フローが開始されると、まず、ＣＰＵ１１０（登録部１１０６）は、登録用テキストをディスプレイ１１２に表示させる（ステップＳ１１）。登録用テキストとは、発話者Ｔに読み上げさせることで、当該発話者Ｔの肉声に基づいた素片データを過不足なく取得可能に予め用意されたテキストである。登録用テキストは、“あ”、“い”、・・等の１文字のみからなるテキストであってもよいし、“あした”、“こんにちは”、・・等の単語の文字列であってもよいし、このような単語を組み合わせた文章からなるものであってもよい。
ＣＰＵ１１０は、発話者Ｔに対し、ディスプレイ１１２に表示した登録用テキストを読み上げるように指示する。

次に、ＣＰＵ１１０（登録部１１０６）は、登録用テキストについて読み上げられた音声を録音（サンプリング）する（ステップＳ１２）。

次に、ＣＰＵ１１０（登録部１１０６）は、録音された音声サンプリングデータを、表示された登録用テキストの内容に基づいて分解し、各音素（“ａ”、“ｉ”、“ｕ”、・・）に対応する素片データを抽出する（ステップＳ１３）。

次に、ＣＰＵ１１０（登録部１１０６）は、抽出した素片データを素片データテーブルＶ２に登録する（ステップＳ１４）。

図８は、ステップＳ１１〜ステップＳ１４の処理を経て生成された素片データテーブルＶ２の例を示している。図８に示すように素片データテーブルＶ２には、特定の発話者Ｔを示す発話者ＩＤごとに、発音の音素（“ａ”、“ｉ”、“ｕ”、・・等）の波形データである素片データＤ３が記録されている。発話者ＩＤは、例えば、ピンマイク１０の個体識別情報等であってよい。

（使用者補助時の処理フロー）
図９は、第１の実施形態に係るＣＰＵの使用者補助時の処理フローを示す図である。
図９に示す処理フローは、第１の実施形態（図３）と比較して、ステップＳ０６の処理を含むことで相違する。以下、ステップＳ０６の処理について詳しく説明する。

発話者Ｔの音声の入力を受け付けると、ＣＰＵ１１０（音声合成処理部１１０２）は、ピンマイク１０から受信した音声サンプリングデータＤ１に紐付けられた発話者ＩＤ（ピンマイク１０の個体識別情報）を取得する。そして、ＣＰＵ１１０は、取得した発話者ＩＤに対応する素片データＤ３を素片データテーブルＶ２から特定する。
ＣＰＵ１１０は、ステップＳ０６で特定した素片データＤ３を組み合わせて音声合成処理（ステップＳ０３）を行う。

このように、ＣＰＵ１１０は、例えばピンマイク１０に紐づく発話者ＩＤに基づいて、発話者Ｔの肉声に基づく素片データＤ３を自動的に特定する。これにより、例えば、複数人の発話者Ｔが存在する場合であっても、自動的に各発話者Ｔに対応する声種の補助音声が再生される。

（作用、効果）
以上に説明した構成によれば、第２の実施形態に係る補聴器１は、事前に登録された発話者Ｔ自身の音声に基づいて合成音声データを生成する。これにより、使用者Ｌは、発話者Ｔ本人の声と同種の補助音声を聞くことができる。したがって、発話者Ｔとの会話において、使用者Ｌにとってより違和感のない補助音声を提供することができる。

なお、第２の実施形態に係る補聴器１は、事前にステップＳ１１〜ステップＳ１７（図７）の声種登録処理を実施するものとして説明したが、他の実施形態においてはこの態様に限定されない。例えば、使用者Ｌとの実際の会話中に、その場で取得された音声サンプリングデータＤ１に基づいて、新たな発話者を登録しながら声種に加える機能を有していてもよい。これにより、新たな（初見の）発話者の音声を登録しながら、その音声を補助音声に組み入れることができる。

また、使用者Ｌ又は医師等による特定の操作に従って、ステップＳ１１〜ステップＳ１７を経て登録された声種につき、その歯切れの声を、より使用者Ｌにとって聞き取りやすい音声になるように編集、加工することも可能である。

＜第３の実施形態＞
次に、第３の実施形態に係る補聴器について、図１０を参照しながら説明する。

（声種登録時の処理フロー）
図１０は、第３の実施形態に係るＣＰＵの声種登録時の処理フローを示す図である。
第３の実施形態に係る補聴器１の機能構成は、第２の実施形態（図６）と同様であるため、詳細な説明を省略する。
第３の実施形態に係る補聴器１のＣＰＵ１１０（登録部１１０６）は、図１０に示す処理フローを実行して、新たな素片データを素片データテーブルに登録する。

図１０に示すように、ＣＰＵ１１０は、まず、使用者Ｌの聴覚機能検査結果を取得する（ステップＳ２０）。聴覚機能検査結果とは、医師による使用者Ｌの聴覚の診断結果であって、例えば、音の周波数帯域ごとにその音を聞き取れる最小レベル（ｄＢ）等が示される（純音聴力検査）。なお、純音聴力検査以外の聴覚機能検査結果も含まれても良い。例えば、・・・。

次に、ＣＰＵ１１０は、種々の聴覚機能検査結果に基づいて、最も聞き取りやすい周波数を取り入れた素片データを生成する（ステップＳ２１）。このとき、ＣＰＵ１１０は、例えば、第１の実施形態の素片データテーブルＶ１、又は、第２の実施形態の素片データテーブルＶ２にて事前に登録されている素片データを、種々の聴覚機能検査結果に基づく適切な周波数に変換（加工）することで、新たな素片データを生成してもよい。

次に、ＣＰＵ１１０は、ステップＳ２１で生成した素片データを素片データテーブルＶ２に登録する。

（作用、効果）
以上に説明した構成によれば、第３の実施形態に係る補聴器１は、種々の聴覚機能検査の結果に基づく最適な（使用者が最も聞き取りやすい）補助音声を提供することができる。

＜その他の実施形態＞
以上、第１〜第３の実施形態に係る補聴器１について詳細に説明したが、補聴器１の具体的な態様は、上述のものに限定されることはなく、要旨を逸脱しない範囲内において種々の設計変更等を加えることは可能である。

たとえば、第１〜第３の実施形態に係る補聴器１は、発話者Ｔにピンマイク１０が取り付けられる態様として説明したが、他の実施形態においてはこの態様に限定されない。他の実施形態に係る補聴器１は、補聴器本体１１に集音センサ（マイク）が具備される態様であってもよい。

また、第１〜第３の実施形態に係る補聴器１は、テキストデータに基づいて、予め登録された素片データを繋ぎ合わせて合成音声データを生成する波形接続型音声合成処理を行うものとして説明したが、他の実施形態においてはこの態様に限定されない。
他の実施形態に係る補聴器１は、基底周波数、音色、雑音レベルなどのパラメータを調整して波形を作り、人工的な音声を作るフォルマント合成処理を行うものであってもよい。

また、第１〜第３の実施形態に係る補聴器１は、いずれも、テキストデータをディスプレイ１１２に表示させるものとして説明したが他の実施形態においてはこの態様に限定されない。ディスプレイ１１２へのテキストデータの表示はあくまで補助的な機能であって、他の実施形態に係る補聴器１は具備していなくともよい。

また、補聴器１のＣＰＵ１１０が実行する音声認識処理、音声合成処理においては、人工知能（ＡＩ）を適用して各変換精度を向上させる機能を有していてもよい。
特に、第２の実施形態に係る補聴器１の場合、例えば、以下のような機能を有していてもよい。即ち、ＣＰＵ１１０は、発話者Ｔが発声した音声の内容と、音声認識処理（ステップＳ０２）を経て取得したテキストデータの内容とが一致していたかどうかの判定入力を受け付ける。両者が一致していた場合、ＣＰＵ１１０は、発話者Ｔの肉声が記録された音声サンプリングデータを、音声認識処理後のテキストデータに基づいて音素に分解し、素片データを抽出する。このようにすることで、発話者Ｔによって発声がなされる度に、音声合成処理（ステップＳ０３）にて生成される合成音声を発話者Ｔ本人の肉声に近づけることができる。

上述の各実施形態において、上述したＣＰＵ１１０の各種処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって上記各種処理が行われる。また、コンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。

上記プログラムは、上述した機能の一部を実現するためのものであってもよい。更に、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上のとおり、本発明に係るいくつかの実施形態を説明したが、これら全ての実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これらの実施形態及びその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１補聴器
１０ピンマイク
１１補聴器本体
１１０ＣＰＵ
１１００音声サンプリングデータ取得部
１１０１音声認識処理部
１１０２音声合成処理部
１１０３再生処理部
１１０４表示処理部
１１０５設定部
１１０６登録部
１１１イヤホン
１１２ディスプレイ
１１３メモリ
１１４ストレージ
１１５近距離無線通信モジュール
Ｔ発話者
Ｌ使用者

Claims

音声サンプリングデータを取得する音声サンプリングデータ取得部と、
前記音声サンプリングデータに対する音声認識処理を行ってテキストデータに変換する音声認識処理部と、
前記テキストデータに基づく音声合成処理を行って合成音声データを生成する音声合成処理部と、
前記合成音声データを再生して出力する再生処理部と、
を備え、
前記音声合成処理部は、
発話者を識別する識別情報を取得し、事前に登録された複数の発話者の音声のうち当該識別情報に対応する発話者の音声を用いて生成した前記合成音声データを再生し、
前記識別情報は、前記音声サンプリングデータの送信元であるマイクの個体識別情報である
補聴器。
前記テキストデータをディスプレイに表示させる表示処理部を更に備える
請求項１に記載の補聴器。
使用者の操作に従って、前記合成音声データの音量、再生速度、及び、声種についての設定の少なくとも何れか一つを変更する設定部を更に備える
請求項１又は請求項２に記載の補聴器。
前記音声合成処理部は、予め取得しておいた使用者の聴覚機能検査結果に基づいた最適な声種で前記合成音声データを生成する
請求項１から請求項３の何れか一項に記載の補聴器。
予め用意された登録用テキストに従って読み上げられた音声を、前記識別情報と対応付けて登録する登録部をさらに備える
請求項１から請求項４のいずれか一項に記載の補聴器。
補聴器のコンピュータに、
音声サンプリングデータを取得するステップと、
前記音声サンプリングデータに対する音声認識処理を行ってテキストデータに変換するステップと、
前記テキストデータに基づく音声合成処理を行って合成音声データを生成するステップと、
前記合成音声データを再生して出力するステップと、
を実行させ、
前記合成音声データを再生して出力するステップでは、更に、
発話者を識別する識別情報を取得し、事前に登録された複数の発話者の音声のうち当該識別情報に対応する発話者の音声を用いて生成した前記合成音声データを再生し、
前記識別情報は、前記音声サンプリングデータの送信元であるマイクの個体識別情報である
プログラム。