JP6599828B2

JP6599828B2 - 音処理方法、音処理装置、及びプログラム

Info

Publication number: JP6599828B2
Application number: JP2016166989A
Authority: JP
Inventors: 博小野
Original assignee: Techno Link Co Ltd
Current assignee: Techno Link Co Ltd
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2019-10-30
Anticipated expiration: 2036-08-29
Also published as: JP2018036320A

Description

本発明は、音処理方法、音処理装置、及びプログラムに関する。

現在、市販されている補聴器は、アンプ及びフィルタ等で構成されるものがほとんどである。このような補聴器は、安全に音量を大きくすることはできるが、音声の明瞭性を高める機能を持っていない。そのため、1500万人いると言われている加齢による感音性難聴者は、病院や補聴器販売店等で補聴器を試聴しても、「あまり役立たない」と感じて補聴器を買わない人が多く、また、補聴器を買っても使わない難聴者が多いのが現状である。

他方、この現状を改善するため、スペクトル強調処理における不要なゲイン変動を抑制し、フォルマント周波数を適切に強調して音声の明瞭度の向上を図る補聴器が知られている（例えば、特許文献１参照）。

特開２０１４−１５５０５９号公報

しかしながら、特許文献１に記載の技術では、難聴者の難聴レベルによって聞き取りにくい単語の種類や数が異なるが、この多様な難聴レベルに対して、補聴処理が柔軟に対応できているとは言えなかった。

そこで、本発明は、前述した課題に鑑みてなされたものであり、難聴者の難聴レベルに応じて、音声の聞き取り向上を図ることができる。

本発明の態様に係る音処理方法は、コンピュータが、音信号が入力された場合に、入力された音信号を音声認識し、音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かを判定し、前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行する。

本発明によれば、難聴者の難聴レベルに応じて、音声の聞き取り向上を図ることができる。

実施形態における音処理装置のハードウェア構成の一例を示す図である。実施形態における情報処理装置の機能構成の一例を示すブロック図である。実施形態に用いられる辞書の一例を示す図である。合成音声の具体例を示す図である。実施形態における音処理の一例を示すフローチャートである。実施形態における判定処理の一例を示すフローチャートである。実施形態における合成処理の一例を示すフローチャートである。第１実施例における音処理システムの概要を説明するための図である。第２実施例における音処理システムの概要を説明するための図である。第３実施例における音処理システムの概要を説明するための図である。第４実施例における音処理システムの概要を説明するための図である。図５に示す音処理の変形例（音声分析再合成・音質変換方式、以下、音質変換処理方式という）を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。

［実施形態］
以下、本発明の実施形態における音処理装置、音処理方法、及びプログラム等を、図面を用いて説明する。なお、以下に説明する音処理装置等は、話者の音声等の聞き取りを向上させるために適用することを例にするが、これに限られず、音楽等の歌詞の聞き取り等にも適用することが可能である。

まず、実施形態における音処理の概要としては、音声認識を行い、利用者の難聴レベルに応じて聞き取り難い単語を判定し、この判定された単語に対して聞き取りやすい合成音声を用いて出力する。これにより、難聴者の難聴レベルに応じて、聞き取りやすい合成音声を出力することが可能になる。ここで、合成音声とは、人工的に作られた音声をいう。聞き取りやすい合成音声とは、例えばアナウンサーが発声した音声のような、抑揚があり、明瞭であり、第２フォルマント以上が強調されているような音声である。次に、この音処理を可能にする音処理装置のハードウェアについて説明する。

＜ハードウェア＞
図１は、実施形態における音処理装置１０のハードウェア構成の一例を示す図である。図１は、音処理装置１０は、ＣＰＵ（Central Processing Unit）１０２と、ＲＡＭ（Random Access Memory）１０４と、ＲＯＭ（Read only Memory）１０６と、ドライブ装置１０８と、ネットワークＩ／Ｆ（Interface）１１０と、入力装置１１２と、表示装置１１４とを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。

ＣＰＵ１０２は、コンピュータの中で、各装置の制御やデータの演算、加工を行う制御部である。また、ＣＰＵ１０２は、ＲＡＭ１０４又はＲＯＭ１０６に記憶された、音処理を行うアプリケーションプログラムを実行する演算装置である。ＣＰＵ１０２は、入力装置１１２やネットワークＩ／Ｆ１１０などからデータを受け取り、演算、加工した上で、演算結果を表示装置１１４や記憶装置などに出力する。

ＲＡＭ１０４は、例えば主記憶部などである。ＲＡＭ１０４は、ＣＰＵ１０２が実行する基本ソフトウェアであるＯＳ（Operating System）やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

ＲＯＭ１０６は、例えばアプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

ドライブ装置１０８は、記録媒体１１６、例えばＣＤ−ＲＯＭやＳＤカードなどからプログラムやデータを読み出し、記憶装置にインストールしたりダウンロードしたりする。

また、記録媒体１１６に、所定のプログラムを格納し、この記録媒体１１６に格納されたプログラムはドライブ装置１０８を介して音処理装置１０にインストールされる。インストールされた所定のプログラムは、音処理装置１０により実行可能となる。

ネットワークＩ／Ｆ１１０は、通信機能を有する周辺機器と音処理装置１０とのインターフェースである。また、ネットワークＩ／Ｆ１１０は、例えば、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などのネットワークを介して接続される。

入力装置１１２は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示装置１１４の表示画面上でキーの選択等を行うためのマウスやスライドパッド等を有する。また、入力装置１１２は、ユーザがＣＰＵ１０２に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。

表示装置１１４は、ＬＣＤ（Liquid Crystal Display）等により構成され、ＣＰＵ１０２から入力される表示データに応じた表示が行われる。なお、入力装置１１２や表示装置１１４は、音処理装置１０の外部に設けられてもよく、ドライブ装置１０８は、音処理装置１０の構成に必ずしも必要ではない。

＜機能＞
次に、音処理を実行するための音処理装置１０の機能について説明する。図２は、実施形態における情報処理装置１０の機能構成の一例を示すブロック図である。図２に示す音処理装置１０は、記憶部２０２、入力部２０４、認識部２０６、判定部２０８、合成部２１０、出力部２１２、設定部２１４、及び追加部２１６を少なくとも有する。

記憶部２０２は、辞書Ａ〜Ｅや音声処理に関するデータを少なくとも記憶する。辞書の数は、適宜変更することができる。辞書は、例えば音声認識で用いられる音響的特徴に関するデータが保持される。

辞書Ａは、例えば、スマートホンなどで現在搭載されている音声認識に用いられる辞書である。この辞書は、不特定多数の音声から音響的特徴を抽出し、任意の音声に対して音声認識を可能にするための辞書である。

辞書Ｂは、例えば、難聴者グループ１用に用いられる辞書である。難聴者グループ１は、平均聴力レベル２５ｄＢ以上４０ｄＢ以内の難聴者グループであり、軽度の難聴者が属するグループである。

辞書Ｃは、例えば、難聴者グループ２用に用いられる辞書である。難聴者グループ２は、平均聴力レベル４０ｄＢ以上７０ｄＢ以内の難聴者グループであり、中等度の難聴者が属するグループである。

辞書Ｄは、例えば、難聴者グループ３用に用いられる辞書である。難聴者グループ３は、平均聴力レベル７０ｄＢ以上９０ｄＢ以内の難聴者グループであり、高度の難聴者が属するグループである。

辞書Ｅは、例えば、難聴者グループ４用に用いられる辞書である。難聴者グループ４は、平均聴力レベル９０ｄＢ以上の難聴者グループであり、重度の難聴者が属するグループである。以下、辞書Ｂ〜Ｅをまとめて第１辞書とも称す。第１辞書には、各難聴グループ内の難聴者にとって、聞き取りにくい単語が識別されて保持される。

また、辞書Ａ〜Ｅには、例えば、音響モデル、音声辞書（以下、第２辞書とも称す。）、及び言語モデルが含まれる。音響モデルは、例えば音素を単位として、その音響的特徴を定義したモデルであり、このモデルには例えばＨＭＭ（Hidden Markov Model）が用いられる。音声辞書は、所定分野の全単語に対する、各単語の「読み」を記述した音素の並びを定義したものである。言語モデルは、単語の並びと、その出願確率とを定義したものである。また、長さの長い単語の組み合わせは無限に近くなるので、実際には、言語モデルとして、単語の２つ組（バイグラム）ないしは３つ組（トライグラム）が用いられる。この言語モデルの作成には、膨大な例文が集められ、その例文が機械処理して求められる。

例えば、バイアグラムの確率は、Ｐ（ｗ２｜ｗ１）で表され、ｗ１の単語が出現した後に、次にｗ２の単語が出現する条件付き確率として計算される。

入力部２０４は、他の機器（例えばマイク）や記憶部２０２から音信号を入力する。音信号は、例えば会話の音声がアナログ変換又はデジタル変換された信号である。入力部２０４は、音信号を認識部２０６等に出力する。

認識部２０６は、入力部２０４から取得した音信号に対して音声認識の処理を行う。音声認識は、例えば、記憶部２０２に記憶された辞書を用いて行われる。具体的には、認識部２０６は、音響モデルと、音信号の波形とのマッチングを行い、音声辞書を用いて単語を認識する。認識部２０６は、ある単語を認識すると、次に出現する可能性のある単語を言語モデルから把握する。

認識部２０６は、その単語と、入力された音信号の音響的特徴の近さを、ＨＭＭを用いて計算し、この計算結果を音響的な尤度とする。また、認識部２０６は、言語モデルに定義された確率から、言語的な尤度を求める。認識部２０６は、この２つの尤度を合わせて、これまで認識された単語列に、直前に認識された単語を追加した単語列の尤度とする。

認識部２０６は、候補となる単語列について上述した処理を行い、文末を検出したら、最も尤度が高い単語列を認識結果として出力する。文末の検出は、例えば、無音区間が所定時間続いた場合に、文末と判定すればよい。また、単語は、必ずしも意味のある文字列に限られず、音素の組み合わせの文字列でもよい。

判定部２０８は、認識部２０６による認識結果を取得し、認識された単語が利用者にとって聞き取りにくい単語であるか否かを判定する。例えば、判定部２０８は、音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かを判定する。具体的には、難聴レベルごとに辞書が準備され、レベルごとの辞書には、その難聴レベルに属する難聴者が聞き取りにくい単語が識別されて保持される。例えば、聞き取りにくい単語にはタグが付与される。

判定部２０８は、難聴者のレベルに応じた辞書から、単語を認識し、その単語にタグが付与されていれば、聞き取りにくい単語であると判定する。なお、判定部２０８は、聞き取りにくい単語を認識する際に、辞書内の単語に付されたタグを用いて認識する以外にも、難聴レベルごとの、聞き取りにくい単語を集めた単語群を用いて、認識された単語とのマッチングにより認識を行ってもよい。

また、判定部２０８は、辞書Ａを用いて音声認識された単語と、利用者の難聴レベルに応じて設定された辞書Ｂ〜Ｅのいずかの辞書を用いて音声認識した単語とを比較してもよい。この両方の辞書を用いて認識された単語の比較結果に応じて、後述する合成音声の内容が変更されてもよい。

合成部２１０は、入力部２０４により入力された音信号のうち、聞き取りにくい所定単語に該当すると判定された単語の音信号に対し、この所定単語に対応付けられた合成音の音信号を合成する。例えば、合成音として、聞き取りやすいアナウンサーが発声した単語の合成音声が用いられる。この合成音声は、抑揚があり、第２フォルマント以上が強調されたような人工的に作られた音声を一例とする。

このように合成部２１０は、利用者の難聴レベルに応じた、聞き取りにくい単語に対して、聞き取りやすい合成音声を元の音声信号に合成する。

出力部２１２は、合成部２１０により合成された後の音信号を出力する。音信号の出力先は、例えば、音処理装置１０の外部の機器や、記憶部２０２などである。これにより、利用者は、利用者の難聴レベルに応じて判定された話者の聞き取り難い単語が、聞き取りやすい単語に音声合成された音声を聞くことができる。よって、難聴者の音声の聞き取りが向上する。

また、判定部２０８は、マッチング部２０８２を有してもよい。マッチング部２０８２は、認識部２０６により認識された各単語と、利用者の難聴レベルに応じて設定された第１辞書に含まれる各所定単語とのマッチングを行う。例えば、マッチング部２０８２は、認識された単語ごとに、第１辞書（例えば辞書Ｂ）を用いて認識された単語と一致するか否かを判定する。

これにより、言語モデルの単語のテキストデータ同士のマッチングを容易に行うことができる。また、第１辞書は、単に単語を記述したテキストデータを保持する辞書でもよい。これにより、音声認識処理が辞書Ａに対する1回で済み、処理負荷を軽減することができる。

また、設定部２１４は、それぞれ異なる複数の第１辞書の中から、利用者の難聴レベルに応じて１つの辞書を設定してもよい。これにより、利用者の難聴レベルごとに第１辞書を準備しておき、利用者の難聴レベルを測定し、測定された難聴レベルに応じて適切な辞書を設定することができる。なお、第１辞書は、都度カスタマイズ可能であれば、１つの辞書が用いられてもよい。

また、合成部２１０は、強調部２１０２と、切替部２１０４とを有してもよい。強調部２１０２は、子音の強調、抑揚強調、フォルマント強調の少なくとも１つの処理を行う。これにより、聞き取りやすいように音響的特徴を強調した音声を出力することができ、聞き取り向上を図ることができる。なお、強調処理の具体例については後述する。

切替部２１０４は、聞き取りにくい単語として判定された単語のみに対して合成音を用いる第１モードと、聞き取りにくい単語として判定された単語以降の単語に対しても合成音を用いる第２モードとを切替可能とする。すなわち、第１モードでは、聞き取いにくい単語だけが合成音声で出力されるのに対し、第２モードでは、聞き取りにくい単語以降の文章（例えば、聞き取りにくい単語から文末まで）が合成音声で出力される。

この第１モード及び第２モードに関し、発明者らは以下の実験を行った。その実験は、補聴器としてどのような聞こえ方が難聴者に好まれるかの調査研究である。その調査の方法は、スピーカから合成音声（会話文）を流し、同時にイヤホンから２０ｍｓｅｃ，５０ｍｓｅｃ，１００ｍｓｅｃの時間遅れで、以下のａ〜ｃのいずれかを流す。
ａ．会話文全体
ｂ．個別の難聴者が聞き取れないと想定される単語だけ
ｃ．認識できなかった単語以降の全文

このうち、どれが一番聞きやすいか、疲れないか、違和感がないかなどを発明者らは調査した。その結果、難聴者のレベルによって、具体的には難聴者の分類で難聴グループ１及び２の人は、聞き取れない単語だけ、あるいは聞き取れない単語以降の会話文の出力を行ってもよく、難聴者の分類で難聴グループ３及び４の人には、会話文全体を出力してもよいことがわかった。また、時間遅れについては、２０ｍｓｅｃは許容できるが、難聴者の分類で難聴グループ１及び２の人について５０ｍｓｅｃ以上の遅延は違和感が大きいことがわかった。

そこで、上述したとおり、本発明では、第１モードと、第２モードとを設け、利用者に選択可能にする。これにより、利用者は、様々な用途に合わせてモードを切り替えることができる。例えば、１つの文が短くゆっくりと話す会話であれば、単語のみを合成音にしても、合成音にするためのタイムラグによる次の単語への影響が小さいため、利用者は第１モードに設定してもよい。また、１つの文が比較的長く次の単語との間も短い講演会などであれば、単語のみを合成音にすると、そのタイムラグにより次の単語に影響を与える可能性があるため、利用者は第２モードに設定してもよい。

上述したとおり、合成部２１０は、第２モードとして、一度合成音の音信号を合成すると、聞き取りにくい単語として判定された単語以降に認識された単語に対しても合成音の音信号を合成することができる機能を有する。これにより、単語のみが合成音声として出力されるのではなく、単語のまとまった単位で合成音声が出力されるため、合成音に対する聞き手の違和感を和らげることができる。

なお、記憶部２０２は、例えばＲＡＭ１０４やＲＯＭ１０６等により実現され得る。入力部２０４及び出力部２１２は、例えばネットワークＩ／Ｆ１１０やＣＰＵ１０２、ワークメモリとしてのＲＡＭ１０４等を用いて実現され得る。認識部２０６、判定部２０８及び合成部２１０は、例えばＣＰＵ１０２、ワークメモリとしてのＲＡＭ１０４等を用いて実現され得る。

＜具体例＞
次に、音声認識に用いられる辞書、聞き取りにくい単語の判定結果と出力結果との関係、合成音声、及び強調処理の具体例について説明する。

≪辞書≫
図３は、実施形態に用いられる辞書の一例を示す図である。なお、図３の一例であって辞書毎の斜線部分は一例であって、例えば、斜線部分は辞書Ｂで５％程度、辞書Cで４０％程度、辞書Ｄで７０％程度、辞書Ｅ９５％程度であってもよい。まず、難聴者用の音声認識システムに利用する辞書Ｂ〜Ｅの開発には、大量の加齢による難聴者を対象に、既存の音声認識システムで認識できる（辞書Ａで認識可能な）音声を難聴者が正しく聞き取れるかの検査が実施される。

この統計処理によって難聴者グループが１〜４の４つのグループに分けられる。このグループごとに聞き取り難い・聞き取れないと予想される音声（単語）のサンプルがグループ化され、それらの収集、蓄積から難聴レベル別の４段階の辞書が作成される。

音処理装置１０を含むシステムは、上述したとおり、入力した音信号から認識できる単語が、そのシステムの難聴者別の辞書Ｂ〜Ｅにあるかをマッチングし、辞書に単語があれば、その単語（音声データとテキストファイル）は聞き取り難い、又は聞き取れないと判定する。次に、システムは、予め辞書Ａで認識したテキストデータの単語の音声を、難聴者が聞き取りやすい合成音声を用いて再現する。

難聴者への聞き取り検査で辞書Ｂ〜Ｅが完成すると、個別の難聴者に対して、合成音声を利用した語音検査により、その難聴レベルに応じた１つの辞書が設定される。入力音声（単語）が、その難聴者に設定された辞書内にあった場合、システムは、その難聴者が聞き取りにくい、又は聞き取れない音声（単語）と判定し、予め用意された聞き取りやすい合成音声を出力する。合成音声は、例えばアナウンサーのような、また、聞き取りやすいように音響的特徴が強調された音声である。

例えば、既存の音声認識システムの辞書Ａと、本発明のように難聴レベル別の辞書Ｂ〜Ｅとは、いずれも音響モデル、音声辞書、及び言語モデルで構成される。図３に示す例では、辞書Ｂ〜Ｅの各斜線部分は、各難聴レベル別の難聴者が聞き取りにくい、又は聞き取れない単語にタグを付けたものである。

単語へのタグ付けは、開発者が予め行っていてもよいし、利用者が経験等に基づき行ってもよい。また、音処理装置１０が利用者の利用状況を学習することにより、自動的にタグ付けしてもよい。同様に、開発者、利用者又は音処理装置１０が、経験や学習により、既に単語に付けられているタグを外すことができるようにしてもよい。タグ付けの方法としては、特に限定されないが、以下の方法等が挙げられる。

（タグ付けの第１の方法）
開発者等が、先頭語として子音と母音を含む単語、及び、先頭語としてその子音と異調がし易い子音とその母音と同一の母音を含む単語のペアにタグを付ける。
この単語のペアの一例としては、佐藤（ｓａｔｏ）と加藤（ｋａｔｏ）のペア、パン（ｐａｎ）とカン（ｋａｎ）のペア、さかな（ｓａｋａｎａ）とたかな（ｔａｋａｎａ）のペア、西瓜（ｓｕｉｃａ）と追加（ｔｕｉｋａ）のペア、広い（ｈｉｒｏｉ）と白い（ｓｈｉｒｏｉ）のペア等が挙げられる。

（タグ付けの第２の方法）
開発者等が、先頭語として子音と母音を含む単語、及び、先頭語として子音が無くその母音と同一の母音を含む単語のペアにタグを付ける。
この単語のペアの一例としては、七（ｓｉｃｈｉ）と一（ｉｃｈｉ）のペア、笑う（ｗａｒａｕ）と洗う（ａｒａｕ）のペア等が挙げられる。

≪合成音声の例≫
次に、合成音声について具体例を用いて説明する。図４は、合成音声の具体例を示す図である。図４に示す例では、話者が、音処理装置１０を所持する聞き手に対し、「今日、私はあなたと話をする」と話したとする。

このとき、音処理装置１０は、音声認識を行い、「きょうわたしはあなたとはなしをする」と認識できたとする。

次に、音処理装置１０は、聞き手の難聴レベルに応じて設定された辞書（例えば辞書Ｃ）を用いて音声認識を行い、「はなし」の単語にタグ付けされており、「はなし」がこの聞き手にとって聞き取りにくい単語であると判定したとする。（例えば、この難聴者には「あなし」に聞き取れる。）

次に、音処理装置１０は、モードＡ（第１モード）が設定されていれば、聞き取りやすい合成音声の「はなし」という音声データを合成して出力する。これにより、聞き取りにくい単語のみを聞き取りやすくすることができる。

また、音処理装置１０は、モードＢ（第２モード）が設定されていれば、「はなし」以降の文末までの単語について合成音声を用いて出力する。これにより、合成処理にかかるタイムラグなどに影響されず、その後聞き取りやすい音声を出力することができる。

ここで、日常的にコミュニケーションを取る家族や友人等の場合、合成音声であってもその人に近い音声で話してくれることが望ましい。そこで、家族や友人等の音声合成に使う音響分析用の音声から音素を収集する際には、普段の話し方（難聴者にわかり難いこともある）の音声に加え、「少し大きな声で、少しゆっくり、少しはっきり」話すよう練習させ、練習後の音声からえられた音素が登録されるとよい。多くの老婦人の場合、このように意識して聞き取りやすい音声を話そうとすると疲れる傾向にあることが分かっているので、本発明の音声認識技術を有効的に利用するには、事前に特定話者にはっきりしゃべっていただいた音声の音素が登録されていることが重要である。

≪強調処理≫
次に、難聴者用の補聴器に適した音声合成方法について考える。近年、音声合成システムの発展は目覚しいものがあり、現在ではパソコン、スマホ内でテキスト信号から音声合成を行うことも可能である。例えば、「こんにちは」を合成しようとテキストデータを音声合成システムに入力させると、この音声合成システムは、大規模音声辞書（音声コーパス）の中から「こんにちは」を引き出し、「こんにちは」を構成する音素「ｋ」「ｏ」「ｎ」「ｎ」「ｉ」「ｃｈ」「ｉ」「ｗ」「ａ」を呼び出し、全ての音素データを波形として接続し、音声を出力する。

また、発声をなるべく自然な合成音声とするため、イントネーション調整機能等を働かせることもできる。

現在は、難聴者が聞き取りやすいと言われる特定の話者（例えば、男女アナウンサーなど）の音声データを分析し、そのデータに基づく合成音声用の個別の辞書や個別の音素を登録する。これにより、多くの難聴者が聞き取りやすいと言うアナウンサーの音声を合成音声として出力することが可能である。

本発明では、難聴者用に聞き取りにくい成分を補償することを考えているが、従来の音声合成の考えの中に、合成音声をさらに強調処理するような概念はない。すわなち、音響モデルの音声を忠実に再現することを基本としている。そのため、音素を結合する際に、加工処理、例えば、「ｋ」と「ｏ」の間に1０ｍｓｅｃの無音時間を挿入した上で、「ｋ」の音圧を「ｏ」に比べ１０ｄＢ大きくするよう加工することは、従来技術では考えられていない。

そこで、本発明では、音声合成の際に、強調部２１０２が、聞き取りやすいように音声を強調する。例えば、強調部２１０２は、予め定めた平均的な第１加工ルールや個別の難聴者への検査に基づく第２加工ルールに従って音声合成の際に音声の強調のための追加処理を行う。

（第１加工ルールの例）
・破裂子音ｐ，ｋ，ｔと母音の組み合わせの場合、破裂子音と母音の間に１０ｍｓｅｃの無音時間を挿入し、破裂音の音圧を母音に比べ１０ｄＢ大きくする。
・ｎ，ｍなどの鼻子音と母音の組み合わせの場合、鼻子音部分を２回繰り返すことで鼻子音部分を伸長した上に鼻音の音圧を母音に比べ１０ｄＢ大きくする。

（第２加工ルールの例）
・破裂子音と母音の間に１０ｍｓｅｃの無音時間を挿入し、破裂子音の音圧を母音に比べ１０ｄＢ大きくする。
・また、ｎ，ｍなどの鼻子音と母音の組み合わせの場合、鼻音を２回繰り返し返すことによって鼻子音部分を長くし、その上、鼻子音の音圧を母音に比べ１０ｄＢ大きくする。

上述した処理により、難聴者には、よりはっきりとした音声として聞き取れる合成音声を作ることができる。また、抑揚強調が効果的であることが知られており、強調部２１０２は、この機能を追加してもよい。難聴者がそちらの方が聞き取りやすいと言う場合には、破裂子音について、子音と母音の間に20〜30secの無音時間を挿入し、母音に比べ子音を15〜20dB音圧を高くしても良い。また、鼻子音の場合の3〜5回繰り返しても良い。

＜動作＞
次に、実施形態における音処理の各動作について説明する。図５は、実施形態における音処理の一例を示すフローチャートである。図５に示すステップＳ１０２で、入力部２０４は、音声の音信号を入力する。

ステップＳ１０４で、認識部２０６は、入力された音信号に対して音声認識処理を行い、音声の各単語を抽出する。

ステップＳ１０６で、判定部２０８は、音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かの判定処理を行う。すなわち、判定部２０８は、認識された単語が、利用者にとって聞き取りにくい単語であるか否かを判定する。

ステップＳ１０８で、判定部２０８は、認識された単語が所定の単語であれば（ステップＳ１０８−ＹＥＳ）、処理はステップＳ１１０に進み、認識された単語が所定単語でなければ（ステップＳ１０８−ＮＯ）、処理はステップＳ１１２に進む。なお、認識された単語が所定単語でなければ（ステップＳ１０８−ＮＯ）、処理はステップＳ１１２に進まず、終了してもよい。

ステップＳ１１０で、合成部２１０は、所定単語に対応する合成音声の音声信号を、元の音声信号に合成する。

ステップＳ１１２で、出力部２１２は、合成後の音声信号、又は合成が必要でなければ元の音声信号を出力する。

この処理により、難聴者の難聴レベルに応じて、聞き取りにくい単語を聞き取りやすい音声に合成して出力することができる。

図６は、実施形態における判定処理の一例を示すフローチャートである。図６に示すステップＳ２０２で、判定部２０８は、認識部２０６において音声認識された単語を取得する。

ステップＳ２０４で、判定部２０８は、難聴者の難聴者レベルに応じて設定された辞書を用いて音声認識し、認識された単語を取得する。なお、音声認識は、認識部２０６により処理されてもよい。

ステップＳ２０６で、判定部２０８は、辞書Ａを用いて認識された単語と、難聴者に応じて設定された辞書を用いて認識された単語とのマッチングを行う。設定された辞書には、難聴者にとって聞き取りにくい単語にタグが付与されている。

なお、マッチングについては、例えば辞書Ａに対して、その難聴者にとって聞き取りにくい単語にタグを付けることで、聞き取りにくい単語を判定するようにしてもよい。また、辞書Ｂ〜Ｅには、聞き取りにくい単語のテキストデータを含む単語群としてもよい。これにより、判定処理において、音声認識処理が、辞書Ａを用いた１回で済み、処理負荷を軽減することができる。

図７は、実施形態における合成処理の一例を示すフローチャートである。ステップＳ３０２で、合成部２１０は、聞き取りにくい単語に対応する合成音の音信号を記憶部２０２から取得する。

ステップＳ３０４で、合成部２１０は、取得された合成音の音信号を、元の単語の位置に置き換えて合成する。なお、合成部２１０は、設定されたモードに応じて、単語のみを合成するか、該当の単語以降を合成するかを判定し、モードに対応する処理を行う。また、合成部２１０は、必要に応じて強調処理を行い、さらに聞き取りやすい音声にしてもよい。

以上の処理により、難聴者にとって聞き取りにくい単語が聞き取りやすくなって出力される。次に、上記実施形態における音処理を実施する実施例について説明する。

＜第１実施例＞
図８は、第１実施例における音処理システムの概要を説明するための図である。図８に示す音処理システムは、音処理装置１０Ａと、携帯端末装置２０と、補聴器３０とを備える。

音処理装置１０Ａは、例えば、クラウド上のサーバであり、携帯端末装置２０とネットワークを介してデータ通信可能に接続される。また、音処理装置１０Ａは、図１に示すハードウェアと、図２に示す機能とを有し、上述した音処理を行う。

携帯端末装置２０は、利用者が所持する携帯型の情報処理装置であり、例えば、スマートホンなどの携帯端末やタブレット端末などである。携帯端末装置２０は、音処理装置１０Ａと接続される以外にも、補聴器３０と有線又は無線を用いてネットワークを介して接続される。

補聴器３０は、例えば無線のＢｌｕｅｔｏｏｔｈ（登録商標）により、携帯端末装置２０から音信号を取得し、取得した音信号を増幅し、増幅した音信号を内蔵スピーカから出力する。

≪処理の流れ≫
（１）音の入力
携帯端末装置２０は、会話などの音声を入力し、アナログ変換又はデジタル変換された音信号を取得する。

（２）合成前の音信号の送信
携帯端末装置２０は、ネットワークを介して、取得した音信号を音処理装置１０Ａに送信する。

（３）音処理
音処理装置１０Ａは、実施形態において説明した音処理を行う。この音処理は、例えば図５に示す処理である。これにより、携帯端末装置２０を所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。

（４）合成後の音信号の送信
音処理装置１０Ａは、ネットワークを介して、合成された音信号を携帯端末装置２０に送信する。

（５）合成後の音信号の転送
携帯端末装置２０は、音処理装置１０Ａから受信した音信号を、補聴器３０に転送する。

（６）音声の出力
補聴器３０は、利用者の聴力レベルに応じてフィッティングされたパラメータに基づいて、取得した音信号を増幅し、内蔵スピーカから出力する。

なお、補聴器３０は、増幅機能を有するスピーカでもよく、利用者の耳元周辺で音声を出力することができるものであればよい。例えば、利用者の胸ポケットに携帯端末装置２０が収容され、この携帯端末装置２０にスティック状のスピーカが装着され、このスピーカが耳元周辺から音声を出力するようにしてもよい。

この第１実施例によれば、利用者が所持する携帯端末装置２０を用いて、実質的な音処理をネットワーク上にある音処理装置１０に行わせることで、本発明を容易に実現することができる。

＜第２実施例＞
図９は、第２実施例における音処理システムの概要を説明するための図である。図９に示す音処理システムは、補聴器１０Ｂと、携帯端末装置２０Ｂとを備える。補聴器１０Ｂと携帯端末装置２０Ｂとは、有線又は無線を用いて接続される。補聴器１０Ｂは、図１に示すハードウェアと、図２に示す機能とを有し、上述した音処理を行う。

≪処理の流れ≫
（１）音の入力
携帯端末装置２０Ｂは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。

（２）音信号の送信
携帯端末装置２０Ｂは、例えばＢｌｕｅｔｏｏｔｈ（登録商標）などを用いて、音信号を補聴器１０Ｂに送信する。

（３）音処理
補聴器１０Ｂは、実施形態において説明した音処理を行う。この音処理は、例えば図５に示す処理である。これにより、補聴器１０Ｂを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。

（４）音声の出力
補聴器１０Ｂは、利用者の聴力レベルに応じてフィッティングされたパラメータに基づいて、変換された音信号を増幅し、内蔵スピーカから出力する。

これにより、ネットワーク上の処理装置に音処理を行わせずに済むため、処理遅延を防ぐことができる。

＜第３実施例＞
図１０は、第３実施例における音処理システムの概要を説明するための図である。図１０に示す音処理システムは、携帯端末装置１０Ｃと、スピーカ４０とを備える。携帯端末装置１０Ｃとスピーカ４０とは、有線又は無線を用いて接続される。携帯端末装置１０Ｃは、図１に示すハードウェアと、図２に示す機能とを有し、上述した音処理を行う。

≪処理の流れ≫
（１）音の入力
携帯端末装置１０Ｃは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。

（２）音処理
携帯端末装置１０Ｃは、実施形態において説明した音処理を行う。この音処理は、例えば図５に示す処理である。これにより、携帯端末装置１０Ｃを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。

（３）音信号の送信
携帯端末装置１０Ｃは、例えばＢｌｕｅｔｏｏｔｈ（登録商標）などを用いて、音信号をスピーカ４０に送信する。

（４）音声の出力
スピーカ４０は、携帯端末装置１０Ｃから取得した音信号を増幅し、出力する。なお、このスピーカ４０は、耳周辺で音声を出力するものであればよく、上述したスティック状のスピーカや、肩に乗せるタイプの鳥型のスピーカ機器や、補聴器などでもよい。

これにより、ネットワーク上の処理装置に音処理を行わせずに済むため、処理遅延を防ぎつつ、携帯端末装置に既搭載された音声認識処理を用いて本発明を実装することができる。

＜第４実施例＞
図１１は、第４実施例における音処理システムの概要を説明するための図である。図１１に示す音処理システムは、補聴器１０Ｄを備える。補聴器１０Ｄは、図１に示すハードウェアと、図２に示す機能とを有し、上述した音処理を行う。

≪処理の流れ≫
（１）音の入力
補聴器１０Ｄは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。

（２）音処理
補聴器１０Ｄは、実施形態において説明した音処理を行う。この音処理は、例えば図５に示す処理である。これにより、補聴器１０Ｄを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。

（４）音声の出力
補聴器１０Ｄは、変換した音信号を増幅し、出力する。

これにより、ネットワーク上の処理装置に音処理を行わせずに済むため、処理遅延を防ぎつつ、補聴器で音声認識処理を行うことで、本発明を補聴器単体で実装することができる。

以上、本発明の実施形態や実施例について説明したが、本発明は、上記した実施形態や実施例に限定されるものではない。このため、上記実施形態や実施例はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。

例えば、上記実施形態において図５に示す音処理は、利用者の難聴レベルに係らず実行される場合を説明したが、利用者の難聴レベルに応じて、図５に示す音処理（以下、「音声合成方式」という。）、及び、入力された音信号をそれぞれ音質変換して出力する処理（「音質変換処理方式」｝の何れか一方の処理が実行されてもよい。

音質変換処理方式の一例は、人間の音声を（１）基本周波数、（２）スペクトログラム、（３）励起信号の三要素に分解し、この三要素から音声を再合成する手法である。難聴者にとってアナウンサーの音声が聞き取り易い点に着目し、再合成したい音声として予めアナウンサーの音声の分析結果を用意し、入力音声を分析結果に近づけるように音質変換することによって難聴者の聴き取りの改善ができる。また、TVのインタビューを考えると、質問するアナウンサーの音声をアナウンサー音声１、回答者の音声を音質変換によってアナウンサーの音声に近づけた音声をアナウンサー音声２とする。実際の仕組みは、TV主音声で健聴者用にアナウンサー１の音声とインタビューを受けている人の生の音声をそのまま流す。難聴者用のTVの副音声では、アナウンサー１の音声と、インタビュー受けている人の音声をアナウンサー２の音声に音質変換した音声を流し、軽度難聴者はその副音声をそのままか補助スピーカで拡大して聞く。中等度以上の難聴者は自分で装用する補聴器にＢｌｕｅｔｏｏｔｈ機能を利用して音声信号を送り、補聴器の出力音声を聞く。ＴＶの出力音声の場合、画面との同期が重要であり、すでにＮＨＫ等が開発している話速変換を組み込むことが有効である。

上記の具体例を、図１２を用いて説明する。図１２は、図５に示す音処理の変形例を示すフローチャートである。

ステップＳ４０２で、判定部２０８は、入力部２０４に音信号の入力が有るか否かを判定する。そして、音信号の入力が有れば（ステップＳ４０２−ＹＥＳ）、処理はステップＳ４０４に進み、音信号の入力が無ければ（ステップＳ４０２−ＮＯ）、処理はステップＳＰ４０２に戻る。

ステップＳ４０４で、判定部２０８は、音信号の入力元がマイクか否かを判定する。そして、入力元がマイクであれば（ステップＳ４０４−ＹＥＳ）、処理はステップＳ４０６に進み、入力元がマイクでなければ（ステップＳ４０４−ＮＯ）、処理はステップＳＰ４１０に進む。なお、入力元がマイクでない場合とは、例えば入力元が、電話の着信やテレビの受信を行う通信装置である場合が挙げられる。

ステップＳ４０６で、判定部２０８は、利用者の難聴レベルが１又は２か否か、具体的には利用者が難聴者の分類で難聴グループ１又は２の人か否かを判定する。そして、利用者の難聴レベルが１又は２であれば（ステップＳ４０６−ＹＥＳ）、処理はステップＳ４０８に進み、利用者の難聴レベルが１又は２でなければ（ステップＳ４０６−ＮＯ）、処理はステップＳＰ４１０に進む。

ステップＳ４０８で、音処理装置１０は、上述した図５に示される、音声合成処理を含む音処理を実行する。

ステップＳ４１０で、判定部２０８は、音信号が示す音を発する話者が、記憶部２０２に予め登録していた話者か否かを判定する。この予め登録していた話者とは、例えば、友人や家族、仕事仲間等である。

ステップＳ４１２で、音処理装置１０（音質変換部）は、判定部２０８による判定の結果、話者が予め登録していた話者である場合は、当該話者により「少し大きな声で、少しゆっくり、少しはっきり」予め発っせられ、記憶部２０２に登録されている音声の音声分析に基づいて、音信号の音を利用者がより聞き取りやすい音に音質変換する。また、音処理装置１０（音質変換部）は、判定部２０８による判定の結果、話者が予め登録していた話者でない場合は、話者の性別を特定し、特定した性別に応じたアナウンサーの音声に基づいて、音信号の音を利用者がより聞き取りやすい音に音質変換する。

ステップＳ４１４で、出力部２１２は、音処理装置１０により音質変換された後の音信号を出力する。

以上のステップを経ることにより、音信号の入力元及び利用者の難聴レベルに応じて、音声認識合成方式及び音質変換処理方式の何れか一方の処理が実行される。この結果、利用者に対して適切な音処理を実施することができる。

具体的には、音信号の入力元がマイクの場合で、補聴器１０Ｂを介して上述の音処理が実施される場合を説明する。この場合、音処理（音質変換又は音声認識・音声合成）に時間を要するため、利用者は、補聴器１０Ｂを装着している耳と、補聴器１０Ｂを装着していない裸耳との間で、音声の聞き取りにタイムラグが生じ得る。このタイムラグは、難聴レベルが１又は２等の難聴レベルが低い利用者にとっては、不快なものとなり得る。したがって、上記ステップでは、利用者の難聴レベルが１又は２の場合、聞き取れないと想定される音声（単語）だけに対して音声合成を実施ことで、単語の確認になるがタイムラグが生じる回数を抑制し、不快感を低減できる。一方で、タイムラグは、難聴レベルが３又は４等の難聴レベルが高い利用者にとっては、裸耳からは音声が聞こえてこないので、問題とならず、不快とならない。したがって、上記ステップでは、利用者の難聴レベルが３又は４の場合、全ての音声に対して音質変換を実施し、利用者に対して音声をより聞き取れるようにすることができる。テレビや電話等の音声は、先に裸耳に入ることなく音処理装置１０に入力されるため、上記のようなタイムラグを生じることがないので、音処理に時間を要しても、利用者にとって不快とならない。したがって、上記ステップでは、マイク以外の場合には、全ての音声に対して音質変換を実施し、利用者に対して音声をより聞き取れるようにすることができる。

また、上記実施形態では、音処理装置１０に入力される音信号が示す音声の大きさに係らず、利用者の難聴レベルに応じた１つの辞書が設定・利用される場合を説明したが、音処理装置１０に入力される音信号が示す音声の大きさが基準値より例えば２０ｄＢ程度小さくなった場合には、音処理装置１０は、現在設定されている辞書を１段階等の所定段階高い難聴レベルに応じた辞書に自動的に切り替えるようにしてもよい。その結果、タグ付きの単語が多くなり、音処理装置１０から出力される音声の数が増え、話者が小さな音声で喋る場合でもスムーズなコミュニケーションが取れるようになる。

また、上記実施形態では、話者を特定せずに、合成部２１０は、入力部２０４により入力された音信号のうち、聞き取りにくい所定単語に該当すると判定された単語の音信号に対し、アナウンサーが発声した単語の合成音声の音信号を合成する場合を説明した。しかしながら、音質変換処理方式と同様、図１２のステップＳ４１０で説明したように、話者を特定し、聞き取りにくい所定単語に該当すると判定された単語の音信号に対し、特定した話者が発した単語の合成音声の音信号を合成してもよい。このように、音声合成方式又は音質変換処理方式において話者を特定する場合には、その方法として、以下の（１）〜（３）の方法が挙げられる。音処理装置１０には、これらの方法のうち何れか１つを採用してもよいし、全ての方法を採用し、例えば（１）〜（３）の順序で特定を進めてもよい。
（１）会話の機会が多い特定話者（家族、友人、仕事仲間、その他）の音声の特徴を示す音素を予め記憶部２０２に登録しておき、この登録された情報に基づき、入力された音信号が示す音声を自動的に分析する方法
（２）音声認識システムを利用し、例えば利用者が「○○さんの発声」と発声し、その音声の音声認識によって選択する方法
（３）手動で選択する方法

また、音声認識・音声合成型補聴方式を利用した補聴器については、アナウンサーや会話の機会が多い特定話者（家族、友人、仕事仲間、その他）の音声の特徴を示す音素を予め音声合成システムに登録しておいてもよい。その際、音声がよりはっきりするために、収録前に、話者に「少し大きな声で、少しはっきり、少しゆっくり」しゃべるような練習を依頼し、練習後に収録した音声から音素を取り出し登録することにより、より聞き取り易い合成音声を作ることができる。
また、音質変換に際し、同様に変換する目標の音声のモデルのデータを作成する際の収録に際し、同様に、通常の喋る方よりも「少しゆっくり、少しはっきり、少し大きな声で」しゃべった音声の分析データをモデルとすることにより、より聞きやすい音声を作成することができる。

１０，１０Ａ，１０Ｂ、１０Ｃ、１０Ｄ：音処理装置
１０２：ＣＰＵ
１０４：ＲＡＭ
２０２：記憶部
２０４：入力部
２０６：認識部
２０８：判定部
２１０：合成部
２１２：出力部

Claims

コンピュータが、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、
合成後の音信号を出力する処理を実行する音処理方法であって、
前記判定することは、
前記各単語と、前記難聴レベルに応じて設定された第１辞書に含まれる各所定単語とのマッチングを行うことを含み、
前記音信号を合成することは、
一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成することを含む、音処理方法。
コンピュータが、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、
合成後の音信号を出力する処理を実行する音処理方法であって、
前記難聴レベルに応じて、前記処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、音処理方法。
それぞれ異なる複数の第１辞書の中から、前記難聴レベルに応じて１つの辞書を設定することを、前記コンピュータがさらに実行する、請求項１に記載の音処理方法。
前記音声認識において、音素を単位とする音響モデル、単語の音素の並びを記述する第２辞書、及び前記単語の並びと出現確率とから定義される言語モデルを用いて、前記音信号が認識される、請求項１から３のいずれか一項に記載の音処理方法。
前記音信号を合成することは、
子音の強調、抑揚強調、フォルマント強調の少なくとも１つの処理を行うことを含む、請求項１から４のいずれか一項に記載の音処理方法。
前記音信号を合成することは、
前記マッチングされた単語のみに対して合成音を用いる第１モードと、前記マッチングされた単語以降の文章に対して合成音を用いる第２モードとを切替可能とする、請求項１に記載の音処理方法。
音信号を入力する入力部と、
入力された音信号を音声認識する認識部と、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する判定部と、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成する合成部と、
合成後の音信号を出力する出力部と、
を備える音処理装置であって、
前記判定部は、更に、
前記各単語と、前記難聴レベルに応じて設定された第１辞書に含まれる各所定単語とのマッチングを行い、
前記合成部は、更に、
一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成する、音処理装置。
音信号を入力する入力部と、
入力された音信号を音声認識する認識部と、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する判定部と、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成する合成部と、
合成後の音信号を出力する出力部と、
を備える音処理装置であって、
前記難聴レベルに応じて、前記合成後の音信号を出力する処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、音処理装置。
前記合成後の音信号を含む音信号を増幅する増幅部をさらに備え、
前記出力部は、
増幅後の音信号を出力する、請求項７又は８に記載の音処理装置。
コンピュータに、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行させるプログラムであって、
前記判定することは、
前記各単語と、前記難聴レベルに応じて設定された第１辞書に含まれる各所定単語とのマッチングを行うことを含み、
前記音信号を合成することは、
一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成することを含む、プログラム。
コンピュータに、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された１又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行させるプログラムであって、
前記難聴レベルに応じて、前記処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、プログラム。