JP6599828B2 - 音処理方法、音処理装置、及びプログラム - Google Patents
音処理方法、音処理装置、及びプログラム Download PDFInfo
- Publication number
- JP6599828B2 JP6599828B2 JP2016166989A JP2016166989A JP6599828B2 JP 6599828 B2 JP6599828 B2 JP 6599828B2 JP 2016166989 A JP2016166989 A JP 2016166989A JP 2016166989 A JP2016166989 A JP 2016166989A JP 6599828 B2 JP6599828 B2 JP 6599828B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound signal
- word
- synthesized
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
以下、本発明の実施形態における音処理装置、音処理方法、及びプログラム等を、図面を用いて説明する。なお、以下に説明する音処理装置等は、話者の音声等の聞き取り を向上させるために適用することを例にするが、これに限られず、音楽等の歌詞の聞き取り等にも適用することが可能である。
図1は、実施形態における音処理装置10のハードウェア構成の一例を示す図である。図1は、音処理装置10は、CPU(Central Processing Unit)102と、RAM(Random Access Memory)104と、ROM(Read only Memory)106と、ドライブ装置108と、ネットワークI/F(Interface)110と、入力装置112と、表示装置114とを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
次に、音処理を実行するための音処理装置10の機能について説明する。図2は、実施形態における情報処理装置10の機能構成の一例を示すブロック図である。図2に示す音処理装置10は、記憶部202、入力部204、認識部206、判定部208、合成部210、出力部212、設定部214、及び追加部216を少なくとも有する。
a.会話文全体
b.個別の難聴者が聞き取れないと想定される単語だけ
c.認識できなかった単語以降の全文
次に、音声認識に用いられる辞書、聞き取りにくい単語の判定結果と出力結果との関係、合成音声、及び強調処理の具体例について説明する。
図3は、実施形態に用いられる辞書の一例を示す図である。なお、図3の一例であって辞書毎の斜線部分は一例であって、例えば、斜線部分は辞書Bで5%程度、辞書Cで40%程度、辞書Dで70%程度、辞書E95%程度であってもよい。まず、難聴者用の音声認識システムに利用する辞書B〜Eの開発には、大量の加齢による難聴者を対象に、既存の音声認識システムで認識できる(辞書Aで認識可能な)音声を難聴者が正しく聞き取れるかの検査が実施される。
開発者等が、先頭語として子音と母音を含む単語、及び、先頭語としてその子音と異調がし易い子音とその母音と同一の母音を含む単語のペアにタグを付ける。
この単語のペアの一例としては、佐藤(sato)と加藤(kato)のペア、パン(pan)とカン(kan)のペア、さかな(sakana)とたかな(takana)のペア、西瓜(suica)と追加(tuika)のペア、広い(hiroi)と白い(shiroi)のペア等が挙げられる。
開発者等が、先頭語として子音と母音を含む単語、及び、先頭語として子音が無くその母音と同一の母音を含む単語のペアにタグを付ける。
この単語のペアの一例としては、七(sichi)と一(ichi)のペア、笑う(warau)と洗う(arau)のペア等が挙げられる。
次に、合成音声について具体例を用いて説明する。図4は、合成音声の具体例を示す図である。図4に示す例では、話者が、音処理装置10を所持する聞き手に対し、「今日、私はあなたと話をする」と話したとする。
次に、難聴者用の補聴器に適した音声合成方法について考える。近年、音声合成システムの発展は目覚しいものがあり、現在ではパソコン、スマホ内でテキスト信号から音声合成を行うことも可能である。例えば、「こんにちは」を合成しようとテキストデータを音声合成システムに入力させると、この音声合成システムは、大規模音声辞書(音声コーパス)の中から「こんにちは」を引き出し、「こんにちは」を構成する音素「k」「o」「n」「n」「i」「ch」「i」「w」「a」を呼び出し、全ての音素データを波形として接続し、音声を出力する。
・破裂子音p,k,tと母音の組み合わせの場合、破裂子音と母音の間に10msecの無音時間を挿入し、破裂音の音圧を母音に比べ10dB大きくする。
・n,mなどの鼻子音と母音の組み合わせの場合、鼻子音部分を2回繰り返すことで鼻子音部分を伸長した上に鼻音の音圧を母音に比べ10dB大きくする。
・破裂子音と母音の間に10msecの無音時間を挿入し、破裂子音の音圧を母音に比べ10dB大きくする。
・また、n,mなどの鼻子音と母音の組み合わせの場合、鼻音を2回繰り返し返すことによって鼻子音部分を長くし、その上、鼻子音の音圧を母音に比べ10dB大きくする。
次に、実施形態における音処理の各動作について説明する。図5は、実施形態における音処理の一例を示すフローチャートである。図5に示すステップS102で、入力部204は、音声の音信号を入力する。
図8は、第1実施例における音処理システムの概要を説明するための図である。図8に示す音処理システムは、音処理装置10Aと、携帯端末装置20と、補聴器30とを備える。
(1)音の入力
携帯端末装置20は、会話などの音声を入力し、アナログ変換又はデジタル変換された音信号を取得する。
携帯端末装置20は、ネットワークを介して、取得した音信号を音処理装置10Aに送信する。
音処理装置10Aは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、携帯端末装置20を所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
音処理装置10Aは、ネットワークを介して、合成された音信号を携帯端末装置20に送信する。
携帯端末装置20は、音処理装置10Aから受信した音信号を、補聴器30に転送する。
補聴器30は、利用者の聴力レベルに応じてフィッティングされたパラメータに基づいて、取得した音信号を増幅し、内蔵スピーカから出力する。
図9は、第2実施例における音処理システムの概要を説明するための図である。図9に示す音処理システムは、補聴器10Bと、携帯端末装置20Bとを備える。補聴器10Bと携帯端末装置20Bとは、有線又は無線を用いて接続される。補聴器10Bは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
(1)音の入力
携帯端末装置20Bは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。
携帯端末装置20Bは、例えばBluetooth(登録商標)などを用いて、音信号を補聴器10Bに送信する。
補聴器10Bは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、補聴器10Bを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
補聴器10Bは、利用者の聴力レベルに応じてフィッティングされたパラメータに基づいて、変換された音信号を増幅し、内蔵スピーカから出力する。
図10は、第3実施例における音処理システムの概要を説明するための図である。図10に示す音処理システムは、携帯端末装置10Cと、スピーカ40とを備える。携帯端末装置10Cとスピーカ40とは、有線又は無線を用いて接続される。携帯端末装置10Cは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
(1)音の入力
携帯端末装置10Cは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。
携帯端末装置10Cは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、携帯端末装置10Cを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
携帯端末装置10Cは、例えばBluetooth(登録商標)などを用いて、音信号をスピーカ40に送信する。
スピーカ40は、携帯端末装置10Cから取得した音信号を増幅し、出力する。なお、このスピーカ40は、耳周辺で音声を出力するものであればよく、上述したスティック状のスピーカや、肩に乗せるタイプの鳥型のスピーカ機器や、補聴器などでもよい。
図11は、第4実施例における音処理システムの概要を説明するための図である。図11に示す音処理システムは、補聴器10Dを備える。補聴器10Dは、図1に示すハードウェアと、図2に示す機能とを有し、上述した音処理を行う。
(1)音の入力
補聴器10Dは、内蔵マイクを用いて会話の音などを入力し、音信号に変換する。
補聴器10Dは、実施形態において説明した音処理を行う。この音処理は、例えば図5に示す処理である。これにより、補聴器10Dを所持する利用者にとって、聞き取りにくい音声の音信号が、聞き取りやすい音声の音信号に変換されて出力される。
補聴器10Dは、変換した音信号を増幅し、出力する。
(1)会話の機会が多い特定話者(家族、友人、仕事仲間、その他)の音声の特徴を示す音素を予め記憶部202に登録しておき、この登録された情報に基づき、入力された音信号が示す音声を自動的に分析する方法
(2)音声認識システムを利用し、例えば利用者が「○○さんの発声」と発声し、その音声の音声認識によって選択する方法
(3)手動で選択する方法
また、音質変換に際し、同様に変換する目標の音声のモデルのデータを作成する際の収録に際し、同様に、通常の喋る方よりも「少しゆっくり、少しはっきり、少し大きな声で」しゃべった音声の分析データをモデルとすることにより、より聞きやすい音声を作成することができる。
102:CPU
104:RAM
202:記憶部
204:入力部
206:認識部
208:判定部
210:合成部
212:出力部
Claims (11)
- コンピュータが、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、
合成後の音信号を出力する処理を実行する音処理方法であって、
前記判定することは、
前記各単語と、前記難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行うことを含み、
前記音信号を合成することは、
一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成することを含む、音処理方法。 - コンピュータが、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、
合成後の音信号を出力する処理を実行する音処理方法であって、
前記難聴レベルに応じて、前記処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、音処理方法。 - それぞれ異なる複数の第1辞書の中から、前記難聴レベルに応じて1つの辞書を設定することを、前記コンピュータがさらに実行する、請求項1に記載の音処理方法。
- 前記音声認識において、音素を単位とする音響モデル、単語の音素の並びを記述する第2辞書、及び前記単語の並びと出現確率とから定義される言語モデルを用いて、前記音信号が認識される、請求項1から3のいずれか一項に記載の音処理方法。
- 前記音信号を合成することは、
子音の強調、抑揚強調、フォルマント強調の少なくとも1つの処理を行うことを含む、請求項1から4のいずれか一項に記載の音処理方法。 - 前記音信号を合成することは、
前記マッチングされた単語のみに対して合成音を用いる第1モードと、前記マッチングされた単語以降の文章に対して合成音を用いる第2モードとを切替可能とする、請求項1に記載の音処理方法。 - 音信号を入力する入力部と、
入力された音信号を音声認識する認識部と、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する判定部と、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成する合成部と、
合成後の音信号を出力する出力部と、
を備える音処理装置であって、
前記判定部は、更に、
前記各単語と、前記難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行い、
前記合成部は、更に、
一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成する、音処理装置。 - 音信号を入力する入力部と、
入力された音信号を音声認識する認識部と、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定する判定部と、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成する合成部と、
合成後の音信号を出力する出力部と、
を備える音処理装置であって、
前記難聴レベルに応じて、前記合成後の音信号を出力する処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、音処理装置。 - 前記合成後の音信号を含む音信号を増幅する増幅部をさらに備え、
前記出力部は、
増幅後の音信号を出力する、請求項7又は8に記載の音処理装置。 - コンピュータに、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行させるプログラムであって、
前記判定することは、
前記各単語と、前記難聴レベルに応じて設定された第1辞書に含まれる各所定単語とのマッチングを行うことを含み、
前記音信号を合成することは、
一度合成音の音信号を合成すると、前記所定単語に該当すると判定された単語以降に認識された単語に対しても合成音の音信号を合成することを含む、プログラム。 - コンピュータに、
音信号が入力された場合に、入力された音信号を音声認識し、
音声認識された各単語が、利用者の難聴レベルに応じて設定された1又は複数の所定単語に該当するか否かを判定し、
前記入力された音信号のうち、前記所定単語に該当すると判定された単語の音信号に対し、当該所定単語に対応付けられた合成音の音信号を合成し、合成後の音信号を出力する処理を実行させるプログラムであって、
前記難聴レベルに応じて、前記処理、及び、入力された音信号をそれぞれ音質変換して出力する処理の何れか一方の処理を実行する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016166989A JP6599828B2 (ja) | 2016-08-29 | 2016-08-29 | 音処理方法、音処理装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016166989A JP6599828B2 (ja) | 2016-08-29 | 2016-08-29 | 音処理方法、音処理装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018036320A JP2018036320A (ja) | 2018-03-08 |
JP6599828B2 true JP6599828B2 (ja) | 2019-10-30 |
Family
ID=61565749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016166989A Expired - Fee Related JP6599828B2 (ja) | 2016-08-29 | 2016-08-29 | 音処理方法、音処理装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6599828B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7180127B2 (ja) * | 2018-06-01 | 2022-11-30 | 凸版印刷株式会社 | 情報提示システム、情報提示方法及びプログラム |
JP6598323B1 (ja) * | 2018-06-01 | 2019-10-30 | 学校法人北里研究所 | 補聴器及びプログラム |
US20230038118A1 (en) * | 2020-02-07 | 2023-02-09 | SPACE LIVE. Inc. | Correction method of synthesized speech set for hearing aid |
CN115312067B (zh) * | 2022-10-12 | 2022-12-27 | 深圳市婕妤达电子有限公司 | 基于人声的声音信号识别方法、装置及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56160200A (en) * | 1980-04-22 | 1981-12-09 | Sony Corp | Hearing aid |
JP2740866B2 (ja) * | 1988-10-04 | 1998-04-15 | セイコーエプソン株式会社 | 電子機器 |
JPH1083193A (ja) * | 1996-09-09 | 1998-03-31 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声素片作成方法 |
JP3670180B2 (ja) * | 1999-02-16 | 2005-07-13 | 有限会社ジーエムアンドエム | 補聴器 |
JP2013127536A (ja) * | 2011-12-19 | 2013-06-27 | Sharp Corp | 音声出力装置、当該音声出力装置を備える通信端末、当該音声出力装置を備える補聴器、音声出力装置を制御するためのプログラム、音声出力装置の使用者に応じた音声を提供するための方法、および、音声出力装置の変換データを更新するためのシステム |
JP2015007683A (ja) * | 2013-06-25 | 2015-01-15 | 日本電気株式会社 | 音声処理器具、音声処理方法 |
-
2016
- 2016-08-29 JP JP2016166989A patent/JP6599828B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2018036320A (ja) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
JP6599828B2 (ja) | 音処理方法、音処理装置、及びプログラム | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
CN102903361A (zh) | 一种通话即时翻译系统和方法 | |
JP2007264126A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US11587547B2 (en) | Electronic apparatus and method for controlling thereof | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
KR20160060335A (ko) | 대화 분리 장치 및 이에서의 대화 분리 방법 | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
WO2011151956A1 (ja) | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
US20160210982A1 (en) | Method and Apparatus to Enhance Speech Understanding | |
Rekimoto | WESPER: Zero-shot and realtime whisper to normal voice conversion for whisper-based speech interactions | |
CN116110370A (zh) | 基于人机语音交互的语音合成系统及相关设备 | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
JP2020197629A (ja) | 音声テキスト変換システムおよび音声テキスト変換装置 | |
JP2003122395A (ja) | 音声認識システム、端末およびプログラム、並びに音声認識方法 | |
KR102457822B1 (ko) | 자동 통역 장치 및 그 방법 | |
US11783813B1 (en) | Methods and systems for improving word discrimination with phonologically-trained machine learning models | |
US20230038118A1 (en) | Correction method of synthesized speech set for hearing aid | |
Ikeno et al. | The role of prosody in the perception of US native English accents. | |
JP2003233389A (ja) | アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法 | |
JP7296214B2 (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190403 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190403 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6599828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |