JP6599828B2 - 音処理方法、音処理装置、及びプログラム - Google Patents

音処理方法、音処理装置、及びプログラム Download PDF

Info

Publication number
JP6599828B2
JP6599828B2 JP2016166989A JP2016166989A JP6599828B2 JP 6599828 B2 JP6599828 B2 JP 6599828B2 JP 2016166989 A JP2016166989 A JP 2016166989A JP 2016166989 A JP2016166989 A JP 2016166989A JP 6599828 B2 JP6599828 B2 JP 6599828B2
Authority
JP
Japan
Prior art keywords
sound
sound signal
word
synthesized
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016166989A
Other languages
English (en)
Other versions
JP2018036320A (ja
Inventor
博 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Techno Link Co Ltd
Original Assignee
Techno Link Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Techno Link Co Ltd filed Critical Techno Link Co Ltd
Priority to JP2016166989A priority Critical patent/JP6599828B2/ja
Publication of JP2018036320A publication Critical patent/JP2018036320A/ja
Application granted granted Critical
Publication of JP6599828B2 publication Critical patent/JP6599828B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音処理方法、音処理装置、及びプログラムに関する。
現在、市販されている補聴器は、アンプ及びフィルタ等で構成されるものがほとんどである。このような補聴器は、安全に音量を大きくすることはできるが、音声の明瞭性を高める機能を持っていない。そのため、1500万人いると言われている加齢による感音性難聴者は、病院や補聴器販売店等で補聴器を試聴しても、「あまり役立たない」と感じて補聴器を買わない人が多く、また、補聴器を買っても使わない難聴者が多いのが現状である。
他方、この現状を改善するため、スペクトル強調処理における不要なゲイン変動を抑制し、フォルマント周波数を適切に強調して音声の明瞭度の向上を図る補聴器が知られている(例えば、特許文献1参照)。
特開2014−155059号公報
しかしながら、特許文献1に記載の技術では、難聴者の難聴レベルによって聞き取りにくい単語の種類や数が異なるが、この多様な難聴レベルに対して、補聴処理が柔軟に対応できているとは言えなかった。
そこで、本発明は、前述した課題に鑑みてなされたものであり、難聴者の難聴レベルに応じて、音声の聞き取り向上を図ることができる。
本発明の態様に係る音処理方法は、コンピュータが、音信号が入力された場合に、入力された音信号を音声認識し、音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行する。
本発明によれば、難聴者の難聴レベルに応じて、音声の聞き取り向上を図ることができる。
実施形態における音処理装置のハードウェア構成の一例を示す図である。 実施形態における情報処理装置の機能構成の一例を示すブロック図である。 実施形態に用いられる辞書の一例を示す図である。 合成音声の具体例を示す図である。 実施形態における音処理の一例を示すフローチャートである。 実施形態における判定処理の一例を示すフローチャートである。 実施形態における合成処理の一例を示すフローチャートである。 第1実施例における音処理システムの概要を説明するための図である。 第2実施例における音処理システムの概要を説明するための図である。 第3実施例における音処理システムの概要を説明するための図である。 第4実施例における音処理システムの概要を説明するための図である。 図5に示す音処理の変形例(音声分析再合成・音質変換方式、以下、音質変換処理方式という)を示すフローチャートである。
以下、添付図面を参照しながら本発明の実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。
[実施形態]
以下、本発明の実施形態における音処理装置、音処理方法、及びプログラム等を、図面を用いて説明する。なお、以下に説明する音処理装置等は、話者の音声等の聞き取り を向上させるために適用することを例にするが、これに限られず、音楽等の歌詞の聞き取り等にも適用することが可能である。
まず、実施形態における音処理の概要としては、音声認識を行い、利用者の難聴レベルに応じて聞き取り難い単語を判定し、この判定された単語に対して聞き取りやすい合成音声を用いて出力する。これにより、難聴者の難聴レベルに応じて、聞き取りやすい合成音声を出力することが可能になる。ここで、合成音声とは、人工的に作られた音声をいう。聞き取りやすい合成音声とは、例えばアナウンサーが発声した音声のような、抑揚があり、明瞭であり、第2フォルマント以上が強調されているような音声である。次に、この音処理を可能にする音処理装置のハードウェアについて説明する。
<ハードウェア>
図1は、実施形態における音処理装置10のハードウェア構成の一例を示す図である。図1は、音処理装置10は、CPU(Central Processing Unit)102と、RAM(Random Access Memory)104と、ROM(Read only Memory)106と、ドライブ装置108と、ネットワークI/F(Interface)110と、入力装置112と、表示装置114とを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
CPU102は、コンピュータの中で、各装置の制御やデータの演算、加工を行う制御部である。また、CPU102は、RAM104又はROM106に記憶された、音処理を行うアプリケーションプログラムを実行する演算装置である。CPU102は、入力装置112やネットワークI/F110などからデータを受け取り、演算、加工した上で、演算結果を表示装置114や記憶装置などに出力する。
RAM104は、例えば主記憶部などである。RAM104は、CPU102が実行する基本ソフトウェアであるOS(Operating System)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
ROM106は、例えばアプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置108は、記録媒体116、例えばCD−ROMやSDカードなどからプログラムやデータを読み出し、記憶装置にインストールしたりダウンロードしたりする。
また、記録媒体116に、所定のプログラムを格納し、この記録媒体116に格納されたプログラムはドライブ装置108を介して音処理装置10にインストールされる。インストールされた所定のプログラムは、音処理装置10により実行可能となる。
ネットワークI/F110は、通信機能を有する周辺機器と音処理装置10とのインターフェースである。また、ネットワークI/F110は、例えば、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続される。
入力装置112は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示装置114の表示画面上でキーの選択等を行うためのマウスやスライドパッド等を有する。また、入力装置112は、ユーザがCPU102に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示装置114は、LCD(Liquid Crystal Display)等により構成され、CPU102から入力される表示データに応じた表示が行われる。なお、入力装置112や表示装置114は、音処理装置10の外部に設けられてもよく、ドライブ装置108は、音処理装置10の構成に必ずしも必要ではない。
<機能>
次に、音処理を実行するための音処理装置10の機能について説明する。図2は、実施形態における情報処理装置10の機能構成の一例を示すブロック図である。図2に示す音処理装置10は、記憶部202、入力部204、認識部206、判定部208、合成部210、出力部212、設定部214、及び追加部216を少なくとも有する。
記憶部202は、辞書A〜Eや音声処理に関するデータを少なくとも記憶する。辞書の数は、適宜変更することができる。辞書は、例えば音声認識で用いられる音響的特徴に関するデータが保持される。
辞書Aは、例えば、スマートホンなどで現在搭載されている音声認識に用いられる辞書である。この辞書は、不特定多数の音声から音響的特徴を抽出し、任意の音声に対して音声認識を可能にするための辞書である。
辞書Bは、例えば、難聴者グループ1用に用いられる辞書である。難聴者グループ1は、平均聴力レベル25dB以上40dB以内の難聴者グループであり、軽度の難聴者が属するグループである。
辞書Cは、例えば、難聴者グループ2用に用いられる辞書である。難聴者グループ2は、平均聴力レベル40dB以上70dB以内の難聴者グループであり、中等度の難聴者が属するグループである。
辞書Dは、例えば、難聴者グループ3用に用いられる辞書である。難聴者グループ3は、平均聴力レベル70dB以上90dB以内の難聴者グループであり、高度の難聴者が属するグループである。
辞書Eは、例えば、難聴者グループ4用に用いられる辞書である。難聴者グループ4は、平均聴力レベル90dB以上の難聴者グループであり、重度の難聴者が属するグループである。以下、辞書B〜Eをまとめて第1辞書とも称す。第1辞書には、各難聴グループ内の難聴者にとって、聞き取りにくい単語が識別されて保持される。
また、辞書A〜Eには、例えば、音響モデル、音声辞書(以下、第2辞書とも称す。)、及び言語モデルが含まれる。音響モデルは、例えば音素を単位として、その音響的特徴を定義したモデルであり、このモデルには例えばHMM(Hidden Markov Model)が用いられる。音声辞書は、所定分野の全単語に対する、各単語の「読み」を記述した音素の並びを定義したものである。言語モデルは、単語の並びと、その出願確率とを定義したものである。また、長さの長い単語の組み合わせは無限に近くなるので、実際には、言語モデルとして、単語の2つ組(バイグラム)ないしは3つ組(トライグラム)が用いられる。この言語モデルの作成には、膨大な例文が集められ、その例文が機械処理して求められる。
例えば、バイアグラムの確率は、P(w2|w1)で表され、w1の単語が出現した後に、次にw2の単語が出現する条件付き確率として計算される。
入力部204は、他の機器(例えばマイク)や記憶部202から音信号を入力する。音信号は、例えば会話の音声がアナログ変換又はデジタル変換された信号である。入力部204は、音信号を認識部206等に出力する。
認識部206は、入力部204から取得した音信号に対して音声認識の処理を行う。音声認識は、例えば、記憶部202に記憶された辞書を用いて行われる。具体的には、認識部206は、音響モデルと、音信号の波形とのマッチングを行い、音声辞書を用いて単語を認識する。認識部206は、ある単語を認識すると、次に出現する可能性のある単語を言語モデルから把握する。
認識部206は、その単語と、入力された音信号の音響的特徴の近さを、HMMを用いて計算し、この計算結果を音響的な尤度とする。また、認識部206は、言語モデルに定義された確率から、言語的な尤度を求める。認識部206は、この2つの尤度を合わせて、これまで認識された単語列に、直前に認識された単語を追加した単語列の尤度とする。
認識部206は、候補となる単語列について上述した処理を行い、文末を検出したら、最も尤度が高い単語列を認識結果として出力する。文末の検出は、例えば、無音区間が所定時間続いた場合に、文末と判定すればよい。また、単語は、必ずしも意味のある文字列に限られず、音素の組み合わせの文字列でもよい。
判定部208は、認識部206による認識結果を取得し、認識された単語が利用者にとって聞き取りにくい単語であるか否かを判定する。例えば、判定部208は、音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する。具体的には、難聴レベルごとに辞書が準備され、レベルごとの辞書には、その難聴レベルに属する難聴者が聞き取りにくい単語が識別されて保持される。例えば、聞き取りにくい単語にはタグが付与される。
判定部208は、難聴者のレベルに応じた辞書から、単語を認識し、その単語にタグが付与されていれば、聞き取りにくい単語であると判定する。なお、判定部208は、聞き取りにくい単語を認識する際に、辞書内の単語に付されたタグを用いて認識する以外にも、難聴レベルごとの、聞き取りにくい単語を集めた単語群を用いて、認識された単語とのマッチングにより認識を行ってもよい。
また、判定部208は、辞書Aを用いて音声認識された単語と、利用者の難聴レベルに応じて設定された辞書B〜Eのいずかの辞書を用いて音声認識した単語とを比較してもよい。この両方の辞書を用いて認識された単語の比較結果に応じて、後述する合成音声の内容が変更されてもよい。
合成部210は、入力部204により入力された音信号のうち、聞き取りにくい所定単語に該当すると判定された単語の音信号に対し、この所定単語に対応付けられた合成音の音信号を合成する。例えば、合成音として、聞き取りやすいアナウンサーが発声した単語の合成音声が用いられる。この合成音声は、抑揚があり、第2フォルマント以上が強調されたような人工的に作られた音声を一例とする。
このように合成部210は、利用者の難聴レベルに応じた、聞き取りにくい単語に対して、聞き取りやすい合成音声を元の音声信号に合成する。
出力部212は、合成部210により合成された後の音信号を出力する。音信号の出力先は、例えば、音処理装置10の外部の機器や、記憶部202などである。これにより、利用者は、利用者の難聴レベルに応じて判定された話者の聞き取り難い単語が、聞き取りやすい単語に音声合成された音声を聞くことができる。よって、難聴者の音声の聞き取りが向上する。
また、判定部208は、マッチング部2082を有してもよい。マッチング部2082は、認識部206により認識された各単語と、利用者の難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行う。例えば、マッチング部2082は、認識された単語ごとに、第1辞書(例えば辞書B)を用いて認識された単語と一致するか否かを判定する。
これにより、言語モデルの単語のテキストデータ同士のマッチングを容易に行うことができる。また、第1辞書は、単に単語を記述したテキストデータを保持する辞書でもよい。これにより、音声認識処理が辞書Aに対する1回で済み、処理負荷を軽減することができる。
また、設定部214は、それぞれ異なる複数の第1辞書の中から、利用者の難聴レベルに応じて1つの辞書を設定してもよい。これにより、利用者の難聴レベルごとに第1辞書を準備しておき、利用者の難聴レベルを測定し、測定された難聴レベルに応じて適切な辞書を設定することができる。なお、第1辞書は、都度カスタマイズ可能であれば、1つの辞書が用いられてもよい。
また、合成部210は、強調部2102と、切替部2104とを有してもよい。強調部2102は、子音の強調、抑揚強調、フォルマント強調の少なくとも1つの処理を行う。これにより、聞き取りやすいように音響的特徴を強調した音声を出力することができ、聞き取り向上を図ることができる。なお、強調処理の具体例については後述する。
切替部2104は、聞き取りにくい単語として判定された単語のみに対して合成音を用いる第1モードと、聞き取りにくい単語として判定された単語以降の単語に対しても合成音を用いる第2モードとを切替可能とする。すなわち、第1モードでは、聞き取いにくい単語だけが合成音声で出力されるのに対し、第2モードでは、聞き取りにくい単語以降の文章(例えば、聞き取りにくい単語から文末まで)が合成音声で出力される。
この第1モード及び第2モードに関し、発明者らは以下の実験を行った。その実験は、補聴器としてどのような聞こえ方が難聴者に好まれるかの調査研究である。その調査の方法は、スピーカから合成音声(会話文)を流し、同時にイヤホンから20msec,50msec,100msecの時間遅れで、以下のa〜cのいずれかを流す。
a.会話文全体
b.個別の難聴者が聞き取れないと想定される単語だけ
c.認識できなかった単語以降の全文
このうち、どれが一番聞きやすいか、疲れないか、違和感がないかなどを発明者らは調査した。その結果、難聴者のレベルによって、具体的には難聴者の分類で難聴グループ1及び2の人は、聞き取れない単語だけ、あるいは聞き取れない単語以降の会話文の出力を行ってもよく、難聴者の分類で難聴グループ3及び4の人には、会話文全体を出力してもよいことがわかった。また、時間遅れについては、20msecは許容できるが、難聴者の分類で難聴グループ1及び2の人について50msec以上の遅延は違和感が大きいことがわかった。
そこで、上述したとおり、本発明では、第1モードと、第2モードとを設け、利用者に選択可能にする。これにより、利用者は、様々な用途に合わせてモードを切り替えることができる。例えば、1つの文が短くゆっくりと話す会話であれば、単語のみを合成音にしても、合成音にするためのタイムラグによる次の単語への影響が小さいため、利用者は第1モードに設定してもよい。また、1つの文が比較的長く次の単語との間も短い講演会などであれば、単語のみを合成音にすると、そのタイムラグにより次の単語に影響を与える可能性があるため、利用者は第2モードに設定してもよい。
上述したとおり、合成部210は、第2モードとして、一度合成音の音信号を合成すると、聞き取りにくい単語として判定された単語以降に認識された単語に対しても合成音の音信号を合成することができる機能を有する。これにより、単語のみが合成音声として出力されるのではなく、単語のまとまった単位で合成音声が出力されるため、合成音に対する聞き手の違和感を和らげることができる。
なお、記憶部202は、例えばRAM104やROM106等により実現され得る。入力部204及び出力部212は、例えばネットワークI/F110やCPU102、ワークメモリとしてのRAM104等を用いて実現され得る。認識部206、判定部208及び合成部210は、例えばCPU102、ワークメモリとしてのRAM104等を用いて実現され得る。
<具体例>
次に、音声認識に用いられる辞書、聞き取りにくい単語の判定結果と出力結果との関係、合成音声、及び強調処理の具体例について説明する。
≪辞書≫
図3は、実施形態に用いられる辞書の一例を示す図である。なお、図3の一例であって辞書毎の斜線部分は一例であって、例えば、斜線部分は辞書Bで5%程度、辞書Cで40%程度、辞書Dで70%程度、辞書E95%程度であってもよい。まず、難聴者用の音声認識システムに利用する辞書B〜Eの開発には、大量の加齢による難聴者を対象に、既存の音声認識システムで認識できる(辞書Aで認識可能な)音声を難聴者が正しく聞き取れるかの検査が実施される。
この統計処理によって難聴者グループが1〜4の4つのグループに分けられる。このグループごとに聞き取り難い・聞き取れないと予想される音声(単語)のサンプルがグループ化され、それらの収集、蓄積から難聴レベル別の4段階の辞書が作成される。
音処理装置10を含むシステムは、上述したとおり、入力した音信号から認識できる単語が、そのシステムの難聴者別の辞書B〜Eにあるかをマッチングし、辞書に単語があれば、その単語(音声データとテキストファイル)は聞き取り難い、又は聞き取れないと判定する。次に、システムは、予め辞書Aで認識したテキストデータの単語の音声を、難聴者が聞き取りやすい合成音声を用いて再現する。
難聴者への聞き取り検査で辞書B〜Eが完成すると、個別の難聴者に対して、合成音声を利用した語音検査により、その難聴レベルに応じた1つの辞書が設定される。入力音声(単語)が、その難聴者に設定された辞書内にあった場合、システムは、その難聴者が聞き取りにくい、又は聞き取れない音声(単語)と判定し、予め用意された聞き取りやすい合成音声を出力する。合成音声は、例えばアナウンサーのような、また、聞き取りやすいように音響的特徴が強調された音声である。
例えば、既存の音声認識システムの辞書Aと、本発明のように難聴レベル別の辞書B〜Eとは、いずれも音響モデル、音声辞書、及び言語モデルで構成される。図3に示す例では、辞書B〜Eの各斜線部分は、各難聴レベル別の難聴者が聞き取りにくい、又は聞き取れない単語にタグを付けたものである。
単語へのタグ付けは、開発者が予め行っていてもよいし、利用者が経験等に基づき行ってもよい。また、音処理装置10が利用者の利用状況を学習することにより、自動的にタグ付けしてもよい。同様に、開発者、利用者又は音処理装置10が、経験や学習により、既に単語に付けられているタグを外すことができるようにしてもよい。タグ付けの方法としては、特に限定されないが、以下の方法等が挙げられる。
(タグ付けの第1の方法)
開発者等が、先頭語として子音と母音を含む単語、及び、先頭語としてその子音と異調がし易い子音とその母音と同一の母音を含む単語のペアにタグを付ける。
この単語のペアの一例としては、佐藤(sato)と加藤(kato)のペア、パン(pan)とカン(kan)のペア、さかな(sakana)とたかな(takana)のペア、西瓜(suica)と追加(tuika)のペア、広い(hiroi)と白い(shiroi)のペア等が挙げられる。
(タグ付けの第2の方法)
開発者等が、先頭語として子音と母音を含む単語、及び、先頭語として子音が無くその母音と同一の母音を含む単語のペアにタグを付ける。
この単語のペアの一例としては、七(sichi)と一(ichi)のペア、笑う(warau)と洗う(arau)のペア等が挙げられる。
≪合成音声の例≫
次に、合成音声について具体例を用いて説明する。図4は、合成音声の具体例を示す図である。図4に示す例では、話者が、音処理装置10を所持する聞き手に対し、「今日、私はあなたと話をする」と話したとする。
このとき、音処理装置10は、音声認識を行い、「きょう わたし は あなた と はなし を する」と認識できたとする。
次に、音処理装置10は、聞き手の難聴レベルに応じて設定された辞書(例えば辞書C)を用いて音声認識を行い、「はなし」の単語にタグ付けされており、「はなし」がこの聞き手にとって聞き取りにくい単語であると判定したとする。(例えば、この難聴者には「あなし」に聞き取れる。)
次に、音処理装置10は、モードA(第1モード)が設定されていれば、聞き取りやすい合成音声の「はなし」という音声データを合成して出力する。これにより、聞き取りにくい単語のみを聞き取りやすくすることができる。
また、音処理装置10は、モードB(第2モード)が設定されていれば、「はなし」以降の文末までの単語について合成音声を用いて出力する。これにより、合成処理にかかるタイムラグなどに影響されず、その後聞き取りやすい音声を出力することができる。
ここで、日常的にコミュニケーションを取る家族や友人等の場合、合成音声であってもその人に近い音声で話してくれることが望ましい。そこで、家族や友人等の音声合成に使う音響分析用の音声から音素を収集する際には、普段の話し方(難聴者にわかり難いこともある)の音声に加え、「少し大きな声で、少しゆっくり、少しはっきり」話すよう練習させ、練習後の音声からえられた音素が登録されるとよい。多くの老婦人の場合、このように意識して聞き取りやすい音声を話そうとすると疲れる傾向にあることが分かっているので、本発明の音声認識技術を有効的に利用するには、事前に特定話者にはっきりしゃべっていただいた音声の音素が登録されていることが重要である。
≪強調処理≫
次に、難聴者用の補聴器に適した音声合成方法について考える。近年、音声合成システムの発展は目覚しいものがあり、現在ではパソコン、スマホ内でテキスト信号から音声合成を行うことも可能である。例えば、「こんにちは」を合成しようとテキストデータを音声合成システムに入力させると、この音声合成システムは、大規模音声辞書(音声コーパス)の中から「こんにちは」を引き出し、「こんにちは」を構成する音素「k」「o」「n」「n」「i」「ch」「i」「w」「a」を呼び出し、全ての音素データを波形として接続し、音声を出力する。
また、発声をなるべく自然な合成音声とするため、イントネーション調整機能等を働かせることもできる。
現在は、難聴者が聞き取りやすいと言われる特定の話者(例えば、男女アナウンサーなど)の音声データを分析し、そのデータに基づく合成音声用の個別の辞書や個別の音素を登録する。これにより、多くの難聴者が聞き取りやすいと言うアナウンサーの音声を合成音声として出力することが可能である。
本発明では、難聴者用に聞き取りにくい成分を補償することを考えているが、従来の音声合成の考えの中に、合成音声をさらに強調処理するような概念はない。すわなち、音響モデルの音声を忠実に再現することを基本としている。そのため、音素を結合する際に、加工処理、例えば、「k」と「o」の間に10msecの無音時間を挿入した上で、「k」の音圧を「o」に比べ10dB大きくするよう加工することは、従来技術では考えられていない。
そこで、本発明では、音声合成の際に、強調部2102が、聞き取りやすいように音声を強調する。例えば、強調部2102は、予め定めた平均的な第1加工ルールや個別の難聴者への検査に基づく第2加工ルールに従って音声合成の際に音声の強調のための追加処理を行う。
(第1加工ルールの例)
・破裂子音p,k,tと母音の組み合わせの場合、破裂子音と母音の間に10msecの無音時間を挿入し、破裂音の音圧を母音に比べ10dB大きくする。
・n,mなどの鼻子音と母音の組み合わせの場合、鼻子音部分を2回繰り返すことで鼻子音部分を伸長した上に鼻音の音圧を母音に比べ10dB大きくする。
(第2加工ルールの例)
・破裂子音と母音の間に10msecの無音時間を挿入し、破裂子音の音圧を母音に比べ10dB大きくする。
・また、n,mなどの鼻子音と母音の組み合わせの場合、鼻音を2回繰り返し返すことによって鼻子音部分を長くし、その上、鼻子音の音圧を母音に比べ10dB大きくする。
上述した処理により、難聴者には、よりはっきりとした音声として聞き取れる合成音声を作ることができる。また、抑揚強調が効果的であることが知られており、強調部2102は、この機能を追加してもよい。難聴者がそちらの方が聞き取りやすいと言う場合には、破裂子音について、子音と母音の間に20〜30secの無音時間を挿入し、母音に比べ子音を15〜20dB音圧を高くしても良い。また、鼻子音の場合の3〜5回繰り返しても良い。
<動作>
次に、実施形態における音処理の各動作について説明する。図5は、実施形態における音処理の一例を示すフローチャートである。図5に示すステップS102で、入力部204は、音声の音信号を入力する。
ステップS104で、認識部206は、入力された音信号に対して音声認識処理を行い、音声の各単語を抽出する。
ステップS106で、判定部208は、音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かの判定処理を行う。すなわち、判定部208は、認識された単語が、利用者にとって聞き取りにくい単語であるか否かを判定する。
ステップS108で、判定部208は、認識された単語が所定の単語であれば(ステップS108−YES)、処理はステップS110に進み、認識された単語が所定単語でなければ(ステップS108−NO)、処理はステップS112に進む。なお、認識された単語が所定単語でなければ(ステップS108−NO)、処理はステップS112に進まず、終了してもよい。
ステップS110で、合成部210は、所定単語に対応する合成音声の音声信号を、元の音声信号に合成する。
ステップS112で、出力部212は、合成後の音声信号、又は合成が必要でなければ元の音声信号を出力する。
この処理により、難聴者の難聴レベルに応じて、聞き取りにくい単語を聞き取りやすい音声に合成して出力することができる。
図6は、実施形態における判定処理の一例を示すフローチャートである。図6に示すステップS202で、判定部208は、認識部206において音声認識された単語を取得する。
ステップS204で、判定部208は、難聴者の難聴者レベルに応じて設定された辞書を用いて音声認識し、認識された単語を取得する。なお、音声認識は、認識部206により処理されてもよい。
ステップS206で、判定部208は、辞書Aを用いて認識された単語と、難聴者に応じて設定された辞書を用いて認識された単語とのマッチングを行う。設定された辞書には、難聴者にとって聞き取りにくい単語にタグが付与されている。
なお、マッチングについては、例えば辞書Aに対して、その難聴者にとって聞き取りにくい単語にタグを付けることで、聞き取りにくい単語を判定するようにしてもよい。また、辞書B〜Eには、聞き取りにくい単語のテキストデータを含む単語群としてもよい。これにより、判定処理において、音声認識処理が、辞書Aを用いた1回で済み、処理負荷を軽減することができる。
図7は、実施形態における合成処理の一例を示すフローチャートである。ステップS302で、合成部210は、聞き取りにくい単語に対応する合成音の音信号を記憶部202から取得する。
ステップS304で、合成部210は、取得された合成音の音信号を、元の単語の位置に置き換えて合成する。なお、合成部210は、設定されたモードに応じて、単語のみを合成するか、該当の単語以降を合成するかを判定し、モードに対応する処理を行う。また、合成部210は、必要に応じて強調処理を行い、さらに聞き取りやすい音声にしてもよい。
以上の処理により、難聴者にとって聞き取りにくい単語が聞き取りやすくなって出力される。次に、上記実施形態における音処理を実施する実施例について説明する。
<第1実施例>
図8は、第1実施例における音処理システムの概要を説明するための図である。図8に示す音処理システムは、音処理装置10Aと、携帯端末装置20と、補聴器30とを備える。
音処理装置10Aは、例えば、クラウド上のサーバであり、携帯端末装置20とネットワークを介してデータ通信可能に接続される。また、音処理装置10Aは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
携帯端末装置20は、利用者が所持する携帯型の情報処理装置であり、例えば、スマートホンなどの携帯端末やタブレット端末などである。携帯端末装置20は、音処理装置10Aと接続される以外にも、補聴器30と有線又は無線を用いてネットワークを介して接続される。
補聴器30は、例えば無線のBluetooth(登録商標)により、携帯端末装置20から音信号を取得し、取得した音信号を増幅し、増幅した音信号を内蔵スピーカから出力する。
≪処理の流れ≫
(1)音の入力
携帯端末装置20は、会話などの音声を入力し、アナログ変換又はデジタル変換された音信号を取得する。
(2)合成前の音信号の送信
携帯端末装置20は、ネットワークを介して、取得した音信号を音処理装置10Aに送信する。
(3)音処理
音処理装置10Aは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、携帯端末装置20を所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
(4)合成後の音信号の送信
音処理装置10Aは、ネットワークを介して、合成された音信号を携帯端末装置20に送信する。
(5)合成後の音信号の転送
携帯端末装置20は、音処理装置10Aから受信した音信号を、補聴器30に転送する。
(6)音声の出力
補聴器30は、利用者の聴力レベルに応じてフィッティングされたパラメータに基づいて、取得した音信号を増幅し、内蔵スピーカから出力する。
なお、補聴器30は、増幅機能を有するスピーカでもよく、利用者の耳元周辺で音声を出力することができるものであればよい。例えば、利用者の胸ポケットに携帯端末装置20が収容され、この携帯端末装置20にスティック状のスピーカが装着され、このスピーカが耳元周辺から音声を出力するようにしてもよい。
この第1実施例によれば、利用者が所持する携帯端末装置20を用いて、実質的な音処理をネットワーク上にある音処理装置10に行わせることで、本発明を容易に実現することができる。
<第2実施例>
図9は、第2実施例における音処理システムの概要を説明するための図である。図9に示す音処理システムは、補聴器10Bと、携帯端末装置20Bとを備える。補聴器10Bと携帯端末装置20Bとは、有線又は無線を用いて接続される。補聴器10Bは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
≪処理の流れ≫
(1)音の入力
携帯端末装置20Bは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。
(2)音信号の送信
携帯端末装置20Bは、例えばBluetooth(登録商標)などを用いて、音信号を補聴器10Bに送信する。
(3)音処理
補聴器10Bは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、補聴器10Bを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
(4)音声の出力
補聴器10Bは、利用者の聴力レベルに応じてフィッティングされたパラメータに基づいて、変換された音信号を増幅し、内蔵スピーカから出力する。
これにより、ネットワーク上の処理装置に音処理を行わせずに済むため、処理遅延を防ぐことができる。
<第3実施例>
図10は、第3実施例における音処理システムの概要を説明するための図である。図10に示す音処理システムは、携帯端末装置10Cと、スピーカ40とを備える。携帯端末装置10Cとスピーカ40とは、有線又は無線を用いて接続される。携帯端末装置10Cは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
≪処理の流れ≫
(1)音の入力
携帯端末装置10Cは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。
(2)音処理
携帯端末装置10Cは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、携帯端末装置10Cを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
(3)音信号の送信
携帯端末装置10Cは、例えばBluetooth(登録商標)などを用いて、音信号をスピーカ40に送信する。
(4)音声の出力
スピーカ40は、携帯端末装置10Cから取得した音信号を増幅し、出力する。なお、このスピーカ40は、耳周辺で音声を出力するものであればよく、上述したスティック状のスピーカや、肩に乗せるタイプの鳥型のスピーカ機器や、補聴器などでもよい。
これにより、ネットワーク上の処理装置に音処理を行わせずに済むため、処理遅延を防ぎつつ、携帯端末装置に既搭載された音声認識処理を用いて本発明を実装することができる。
<第4実施例>
図11は、第4実施例における音処理システムの概要を説明するための図である。図11に示す音処理システムは、補聴器10Dを備える。補聴器10Dは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
≪処理の流れ≫
(1)音の入力
補聴器10Dは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。
(2)音処理
補聴器10Dは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、補聴器10Dを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
(4)音声の出力
補聴器10Dは、変換した音信号を増幅し、出力する。
これにより、ネットワーク上の処理装置に音処理を行わせずに済むため、処理遅延を防ぎつつ、補聴器で音声認識処理を行うことで、本発明を補聴器単体で実装することができる。
以上、本発明の実施形態や実施例について説明したが、本発明は、上記した実施形態や実施例に限定されるものではない。このため、上記実施形態や実施例はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。
例えば、上記実施形態において図5に示す音処理は、利用者の難聴レベルに係らず実行される場合を説明したが、利用者の難聴レベルに応じて、図5に示す音処理(以下、「音声合成方式」という。)、及び、入力された音信号をそれぞれ音質変換して出力する処理(「音質変換処理方式」}の何れか一方の処理が実行されてもよい。
音質変換処理方式の一例は、人間の音声を(1)基本周波数、(2)スペクトログラム、(3)励起信号の三要素に分解し、この三要素から音声を再合成する手法である。難聴者にとってアナウンサーの音声が聞き取り易い点に着目し、再合成したい音声として予めアナウンサーの音声の分析結果を用意し、入力音声を分析結果に近づけるように音質変換することによって難聴者の聴き取りの改善ができる。また、TVのインタビューを考えると、質問するアナウンサーの音声をアナウンサー音声1、回答者の音声を音質変換によってアナウンサーの音声に近づけた音声をアナウンサー音声2とする。実際の仕組みは、TV主音声で健聴者用にアナウンサー1の音声とインタビューを受けている人の生の音声をそのまま流す。難聴者用のTVの副音声では、アナウンサー1の音声と、インタビュー受けている人の音声をアナウンサー2の音声に音質変換した音声を流し、軽度難聴者はその副音声をそのままか補助スピーカで拡大して聞く。中等度以上の難聴者は自分で装用する補聴器にBluetooth機能を利用して音声信号を送り、補聴器の出力音声を聞く。TVの出力音声の場合、画面との同期が重要であり、すでにNHK等が開発している話速変換を組み込むことが有効である。
上記の具体例を、図12を用いて説明する。図12は、図5に示す音処理の変形例を示すフローチャートである。
ステップS402で、判定部208は、入力部204に音信号の入力が有るか否かを判定する。そして、音信号の入力が有れば(ステップS402−YES)、処理はステップS404に進み、音信号の入力が無ければ(ステップS402−NO)、処理はステップSP402に戻る。
ステップS404で、判定部208は、音信号の入力元がマイクか否かを判定する。そして、入力元がマイクであれば(ステップS404−YES)、処理はステップS406に進み、入力元がマイクでなければ(ステップS404−NO)、処理はステップSP410に進む。なお、入力元がマイクでない場合とは、例えば入力元が、電話の着信やテレビの受信を行う通信装置である場合が挙げられる。
ステップS406で、判定部208は、利用者の難聴レベルが1又は2か否か、具体的には利用者が難聴者の分類で難聴グループ1又は2の人か否かを判定する。そして、利用者の難聴レベルが1又は2であれば(ステップS406−YES)、処理はステップS408に進み、利用者の難聴レベルが1又は2でなければ(ステップS406−NO)、処理はステップSP410に進む。
ステップS408で、音処理装置10は、上述した図5に示される、音声合成処理を含む音処理を実行する。
ステップS410で、判定部208は、音信号が示す音を発する話者が、記憶部202に予め登録していた話者か否かを判定する。この予め登録していた話者とは、例えば、友人や家族、仕事仲間等である。
ステップS412で、音処理装置10(音質変換部)は、判定部208による判定の結果、話者が予め登録していた話者である場合は、当該話者により「少し大きな声で、少しゆっくり、少しはっきり」予め発っせられ、記憶部202に登録されている音声の音声分析に基づいて、音信号の音を利用者がより聞き取りやすい音に音質変換する。また、音処理装置10(音質変換部)は、判定部208による判定の結果、話者が予め登録していた話者でない場合は、話者の性別を特定し、特定した性別に応じたアナウンサーの音声に基づいて、音信号の音を利用者がより聞き取りやすい音に音質変換する。
ステップS414で、出力部212は、音処理装置10により音質変換された後の音信号を出力する。
以上のステップを経ることにより、音信号の入力元及び利用者の難聴レベルに応じて、音声認識合成方式及び音質変換処理方式の何れか一方の処理が実行される。この結果、利用者に対して適切な音処理を実施することができる。
具体的には、音信号の入力元がマイクの場合で、補聴器10Bを介して上述の音処理が実施される場合を説明する。この場合、音処理(音質変換又は音声認識・音声合成)に時間を要するため、利用者は、補聴器10Bを装着している耳と、補聴器10Bを装着していない裸耳との間で、音声の聞き取りにタイムラグが生じ得る。このタイムラグは、難聴レベルが1又は2等の難聴レベルが低い利用者にとっては、不快なものとなり得る。したがって、上記ステップでは、利用者の難聴レベルが1又は2の場合、聞き取れないと想定される音声(単語)だけに対して音声合成を実施ことで、単語の確認になるがタイムラグが生じる回数を抑制し、不快感を低減できる。一方で、タイムラグは、難聴レベルが3又は4等の難聴レベルが高い利用者にとっては、裸耳からは音声が聞こえてこないので、問題とならず、不快とならない。したがって、上記ステップでは、利用者の難聴レベルが3又は4の場合、全ての音声に対して音質変換を実施し、利用者に対して音声をより聞き取れるようにすることができる。テレビや電話等の音声は、先に裸耳に入ることなく音処理装置10に入力されるため、上記のようなタイムラグを生じることがないので、音処理に時間を要しても、利用者にとって不快とならない。したがって、上記ステップでは、マイク以外の場合には、全ての音声に対して音質変換を実施し、利用者に対して音声をより聞き取れるようにすることができる。
また、上記実施形態では、音処理装置10に入力される音信号が示す音声の大きさに係らず、利用者の難聴レベルに応じた1つの辞書が設定・利用される場合を説明したが、音処理装置10に入力される音信号が示す音声の大きさが基準値より例えば20dB程度小さくなった場合には、音処理装置10は、現在設定されている辞書を1段階等の所定段階高い難聴レベルに応じた辞書に自動的に切り替えるようにしてもよい。その結果、タグ付きの単語が多くなり、音処理装置10から出力される音声の数が増え、話者が小さな音声で喋る場合でもスムーズなコミュニケーションが取れるようになる。
また、上記実施形態では、話者を特定せずに、合成部210は、入力部204により入力された音信号のうち、聞き取りにくい所定単語に該当すると判定された単語の音信号に対し、アナウンサーが発声した単語の合成音声の音信号を合成する場合を説明した。しかしながら、音質変換処理方式と同様、図12のステップS410で説明したように、話者を特定し、聞き取りにくい所定単語に該当すると判定された単語の音信号に対し、特定した話者が発した単語の合成音声の音信号を合成してもよい。このように、音声合成方式又は音質変換処理方式において話者を特定する場合には、その方法として、以下の(1)〜(3)の方法が挙げられる。音処理装置10には、これらの方法のうち何れか1つを採用してもよいし、全ての方法を採用し、例えば(1)〜(3)の順序で特定を進めてもよい。
(1)会話の機会が多い特定話者(家族、友人、仕事仲間、その他)の音声の特徴を示す音素を予め記憶部202に登録しておき、この登録された情報に基づき、入力された音信号が示す音声を自動的に分析する方法
(2)音声認識システムを利用し、例えば利用者が「○○さんの発声」と発声し、その音声の音声認識によって選択する方法
(3)手動で選択する方法
また、音声認識・音声合成型補聴方式を利用した補聴器については、アナウンサーや会話の機会が多い特定話者(家族、友人、仕事仲間、その他)の音声の特徴を示す音素を予め音声合成システムに登録しておいてもよい。その際、音声がよりはっきりするために、収録前に、話者に「少し大きな声で、少しはっきり、少しゆっくり」しゃべるような練習を依頼し、練習後に収録した音声から音素を取り出し登録することにより、より聞き取り易い合成音声を作ることができる。
また、音質変換に際し、同様に変換する目標の音声のモデルのデータを作成する際の収録に際し、同様に、通常の喋る方よりも「少しゆっくり、少しはっきり、少し大きな声で」しゃべった音声の分析データをモデルとすることにより、より聞きやすい音声を作成することができる。
10,10A,10B、10C、10D:音処理装置
102:CPU
104:RAM
202:記憶部
204:入力部
206:認識部
208:判定部
210:合成部
212:出力部

Claims (11)

  1. コンピュータが、
    音信号が入力された場合に、入力された音信号を音声認識し、
    音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
    前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、
    合成後の音信号を出力する処理を実行する音処理方法であって、
    前記判定することは、
    前記各単語と、前記難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行うことを含み、
    前記音信号を合成することは、
    一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成することを含む、音処理方法
  2. コンピュータが、
    音信号が入力された場合に、入力された音信号を音声認識し、
    音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
    前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、
    合成後の音信号を出力する処理を実行する音処理方法であって、
    前記難聴レベルに応じて、前記処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、音処理方法。
  3. それぞれ異なる複数の第1辞書の中から、前記難聴レベルに応じて1つの辞書を設定することを、前記コンピュータがさらに実行する、請求項に記載の音処理方法。
  4. 前記音声認識において、音素を単位とする音響モデル、単語の音素の並びを記述する第2辞書、及び前記単語の並びと出現確率とから定義される言語モデルを用いて、前記音信号が認識される、請求項1から3のいずれか一項に記載の音処理方法。
  5. 前記音信号を合成することは、
    子音の強調、抑揚強調、フォルマント強調の少なくとも1つの処理を行うことを含む、請求項1から4のいずれか一項に記載の音処理方法。
  6. 前記音信号を合成することは、
    前記マッチングされた単語のみに対して合成音を用いる第1モードと、前記マッチングされた単語以降の文章に対して合成音を用いる第2モードとを切替可能とする、請求項に記載の音処理方法。
  7. 音信号を入力する入力部と、
    入力された音信号を音声認識する認識部と、
    音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する判定部と、
    前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成する合成部と、
    合成後の音信号を出力する出力部と、
    を備える音処理装置であって、
    前記判定部は、更に、
    前記各単語と、前記難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行い、
    前記合成部は、更に、
    一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成する、音処理装置
  8. 音信号を入力する入力部と、
    入力された音信号を音声認識する認識部と、
    音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する判定部と、
    前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成する合成部と、
    合成後の音信号を出力する出力部と、
    を備える音処理装置であって、
    前記難聴レベルに応じて、前記合成後の音信号を出力する処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、音処理装置。
  9. 前記合成後の音信号を含む音信号を増幅する増幅部をさらに備え、
    前記出力部は、
    増幅後の音信号を出力する、請求項7又は8に記載の音処理装置。
  10. コンピュータに、
    音信号が入力された場合に、入力された音信号を音声認識し、
    音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
    前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行させるプログラムであって、
    前記判定することは、
    前記各単語と、前記難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行うことを含み、
    前記音信号を合成することは、
    一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成することを含む、プログラム
  11. コンピュータに、
    音信号が入力された場合に、入力された音信号を音声認識し、
    音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
    前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行させるプログラムであって、
    前記難聴レベルに応じて、前記処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、プログラム。

JP2016166989A 2016-08-29 2016-08-29 音処理方法、音処理装置、及びプログラム Expired - Fee Related JP6599828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016166989A JP6599828B2 (ja) 2016-08-29 2016-08-29 音処理方法、音処理装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016166989A JP6599828B2 (ja) 2016-08-29 2016-08-29 音処理方法、音処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018036320A JP2018036320A (ja) 2018-03-08
JP6599828B2 true JP6599828B2 (ja) 2019-10-30

Family

ID=61565749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016166989A Expired - Fee Related JP6599828B2 (ja) 2016-08-29 2016-08-29 音処理方法、音処理装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6599828B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7180127B2 (ja) * 2018-06-01 2022-11-30 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム
JP6598323B1 (ja) * 2018-06-01 2019-10-30 学校法人北里研究所 補聴器及びプログラム
US20230038118A1 (en) * 2020-02-07 2023-02-09 SPACE LIVE. Inc. Correction method of synthesized speech set for hearing aid
CN115312067B (zh) * 2022-10-12 2022-12-27 深圳市婕妤达电子有限公司 基于人声的声音信号识别方法、装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56160200A (en) * 1980-04-22 1981-12-09 Sony Corp Hearing aid
JP2740866B2 (ja) * 1988-10-04 1998-04-15 セイコーエプソン株式会社 電子機器
JPH1083193A (ja) * 1996-09-09 1998-03-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声素片作成方法
JP3670180B2 (ja) * 1999-02-16 2005-07-13 有限会社ジーエムアンドエム 補聴器
JP2013127536A (ja) * 2011-12-19 2013-06-27 Sharp Corp 音声出力装置、当該音声出力装置を備える通信端末、当該音声出力装置を備える補聴器、音声出力装置を制御するためのプログラム、音声出力装置の使用者に応じた音声を提供するための方法、および、音声出力装置の変換データを更新するためのシステム
JP2015007683A (ja) * 2013-06-25 2015-01-15 日本電気株式会社 音声処理器具、音声処理方法

Also Published As

Publication number Publication date
JP2018036320A (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JP6599828B2 (ja) 音処理方法、音処理装置、及びプログラム
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
CN102903361A (zh) 一种通话即时翻译系统和方法
JP2007264126A (ja) 音声処理装置、音声処理方法および音声処理プログラム
US11587547B2 (en) Electronic apparatus and method for controlling thereof
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
KR20160060335A (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US20160210982A1 (en) Method and Apparatus to Enhance Speech Understanding
Rekimoto WESPER: Zero-shot and realtime whisper to normal voice conversion for whisper-based speech interactions
CN116110370A (zh) 基于人机语音交互的语音合成系统及相关设备
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
JP2020197629A (ja) 音声テキスト変換システムおよび音声テキスト変換装置
JP2003122395A (ja) 音声認識システム、端末およびプログラム、並びに音声認識方法
KR102457822B1 (ko) 자동 통역 장치 및 그 방법
US11783813B1 (en) Methods and systems for improving word discrimination with phonologically-trained machine learning models
US20230038118A1 (en) Correction method of synthesized speech set for hearing aid
Ikeno et al. The role of prosody in the perception of US native English accents.
JP2003233389A (ja) アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法
JP7296214B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190403

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190403

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191003

R150 Certificate of patent or registration of utility model

Ref document number: 6599828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees