JP6730651B1 - 音声変換装置、音声変換システム及びプログラム - Google Patents

音声変換装置、音声変換システム及びプログラム Download PDF

Info

Publication number
JP6730651B1
JP6730651B1 JP2019037889A JP2019037889A JP6730651B1 JP 6730651 B1 JP6730651 B1 JP 6730651B1 JP 2019037889 A JP2019037889 A JP 2019037889A JP 2019037889 A JP2019037889 A JP 2019037889A JP 6730651 B1 JP6730651 B1 JP 6730651B1
Authority
JP
Japan
Prior art keywords
voice
unit
synthesis
conversion
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019037889A
Other languages
English (en)
Other versions
JP2020140178A (ja
Inventor
靖士 藪内
靖士 藪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Client Computing Ltd
Original Assignee
Fujitsu Client Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Client Computing Ltd filed Critical Fujitsu Client Computing Ltd
Priority to JP2019037889A priority Critical patent/JP6730651B1/ja
Priority to US16/745,684 priority patent/US20200279550A1/en
Application granted granted Critical
Publication of JP6730651B1 publication Critical patent/JP6730651B1/ja
Publication of JP2020140178A publication Critical patent/JP2020140178A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

【課題】咽頭摘出者等であっても、健常者に近い声質で音声出力を行うことにより聞き取り性を向上する。【解決手段】音声変換装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、音声変換と並行して入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、テキストデータを記憶する記憶部と、テキストデータの指定及び出力指示の入力がなされる入力操作部と、指定されたテキストデータに基づく音声合成信号を出力する音声合成部と、音声変換信号に基づいて音声出力を行うとともに、テキストデータが指定され、出力が指示された場合に、音声合成信号に基づく音声出力を行う音声出力部と、を備える。【選択図】図1

Description

本発明は、音声変換装置、音声変換システム及びプログラムに関する。
ささやき声や騒音下における音声は、周囲音と比較して音声のレベルが相対的に低くなるため、話し相手にとって聞き取り難い状態となる。
これは、電話やトランシーバにおいても音声を入力するためのマイクに入力される音声レベルが周囲音のレベルと比較して小さいため、聞き取り難い状態は同様であった。
また、咽頭摘出者の場合には、電気式人工咽頭(Electro artificial Larynx:以下、EL)や、食道発声法等の声帯を使用しない発声で会話を行うが、健常者との声質に大きな差があり、聞き取り相手に違和感をもたれることが多く、コミュニケーションに支障がでる虞があった。
特開2000−99100号公報
これらを解決するための仕組みとして、従来音声を変換する音声変換装置(いわゆる、ボイスチェンジャ)という方法がある。
現在のコンピュータを用いたボイスチェンジャにおいては、音声変換対象の人物の本来の音声に近づけることが可能となっているが、ささやき声や、ELによる変換音声は、通常の音声とは、音程や声色が異なるため、聞き取り性を向上させるのが難しいという問題点があった。
そこで、本発明は、咽頭摘出者等であっても、健常者に近い声質で音声出力を行うことにより聞き取り性を向上することが可能な音声変換装置、音声変換システム及びプログラムを提供することを目的としている。
上記課題を解決するため、本発明の第1態様にかかる音声変換装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、前記テキストデータの指定及び出力指示の入力がなされる入力操作部と、指定された前記テキストデータに基づく音声合成信号を出力する音声合成部と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う音声出力部と、を備える。
また、上記構成において、前記入力音声の音声分析を行い、前記音声合成用のパラメータを前記音声合成部に出力する音声分析部を備えるようにしてもよい。
また、前記入力音声の話者に対応する人物の表情を撮影した撮影画像の画像認識を行う画像認識部と、前記画像認識の結果に基づいて感情を推定し、前記音声合成用の第2のパラメータを前記音声合成部に出力する感情推定部と、を備えるようにしてもよい。
また、複数の前記テキストデータをリスト表示可能な表示部と、前記表示部に表示されているテキストデータを指定して、発話を指示する操作部と、を備えるようにしてもよい。
本発明の第2態様にかかる音声変換システムは、携帯端末装置と、前記携帯端末装置と通信ネットワークを介して接続された音声処理サーバと、を備えた音声変換システムであって、前記携帯端末装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記入力音声を前記通信ネットワークを介して送信するとともに、前記音声処理サーバから音声合成データを受信する第1通信部と、前記音声変換信号に基づいて音声出力を行うとともに、入力された音声合成データに基づいて音声出力を行う音声出力部と、を備え、前記音声処理サーバは、前記通信ネットワークを介して前記入力音声の受信及び前記音声合成データを送信する第2通信部と、受信した前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、指定された前記テキストデータに基づき前記音声合成データを生成する音声合成部と、を備える。
本発明の第3態様に係るプログラムは、入力音声を変換して出力する音声変換装置をコンピュータにより制御するためのプログラムであって、コンピュータを、入力音声の音声変換を行って音声変換信号を出力する手段と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する手段と、前記テキストデータを記憶する手段と、前記テキストデータの指定及び出力指示の入力がなされる手段と、指定された前記テキストデータに基づく音声合成信号を出力する手段と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う手段と、して機能させる。
本発明の上記態様によれば、健常者に近い声質で音声出力を行うことにより聞き取り性を向上することができる。
図1は、第1実施形態の音声変換装置の概要構成ブロック図である。 図2は、実施形態の概要動作説明図である。 図3は、音声変換装置の外観正面図の一例の説明図である。 図4は、第2実施形態の音声変換システムの概要構成ブロック図である。
以下、図面を参照して本中継装置および情報処理システムに係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
[1]第1実施形態
図1は、第1実施形態の音声変換装置の概要構成ブロック図である。
音声変換装置10は、大別すると、音声入力部11と、音声変換部12と、音声認識部13と、テキスト化部14と、音声分析部15と、表情撮影部16と、画像認識部17と、感情推定部18と、音声合成部19と、音声出力部20と、操作部21と、表示部22と、制御部23と、を備えている。
ここで、音声変換装置10は、実体的には、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、SDDなどの外部記憶装置と、ディスプレイ装置などの表示装置と、タッチパネル、メカニカルボタンなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっており、当該ハードウェア上で実行されるプログラムにより、上記各部(各手段)の機能を実現している。
音声入力部11は、マイク及びマイクアンプを備え、発話者であるユーザの入力音声(例えば、ELを用いて生成した音声)を入力音声信号に変換して出力する。
音声変換部12は、入力音声信号に対応する音声の音声変換(音程変更及びフォルマント変更)を行って音声変換信号を出力する。
音声認識部13は、入力音声信号に対応する音声の音声認識を行って音声認識データを出力する。
テキスト化部14は、音声認識データに基づいて音声のテキスト化を行い、テキストデータとして記憶する。
音声分析部15は、入力音声信号に対応する音声の音声分析(速さ、音程、大きさ等)を行って、第1音声合成用パラメータを生成し、出力する。
表情撮影部16は、カメラを備え、発話者であるユーザの表情を推定可能な画像を含む撮像画像(顔画像等)を取得し、出力する。
画像認識部17は、入力された撮像画像の画像認識を行い、感情推定に必要とされる各部(眼、口等)の画像を抽出する。
感情推定部18は、画像認識部17により抽出された画像に基づいて、撮像対象であり、発話者であるユーザの感情(喜怒哀楽等)を推定し、推定した感情に基づいて、第2音声合成用パラメータを生成し、出力する。
音声合成部19は、入力されたテキストデータ、対応する第1音声合成用パラメータ及び第2音声合成用パラメータに基づいて音声合成データを生成し、記憶するとともに、音声合成データに基づき、音声合成を行い音声合成信号を出力する。
音声出力部20は、音声変換部12が出力した音声変換信号及び音声合成部19が出力した音声合成信号に基づいて音声出力(発話)を行う。
操作部21は、ユーザが各種操作を行う操作子が配置された操作パネル等として構成され、所望の音声出力を行わせるための選択操作等をふくむ各種操作をユーザが行う。
表示部22は、ユーザに各種操作情報を提示(表示)するとともに、音声合成出力対象の候補情報等を提示する。
制御部23は、音声変換装置10を構成する各部の制御並びに音声変換装置10全体の制御を行う。
上記構成において、音声変換部12は、入力音声に対し、リアルタイムで出力可能であるが、音声合成部19は、入力音声に対し、処理に要する時間の経過後以降に出力可能であり、入力音声に対し、若干の遅れが発生する。
次に実施形態の動作を説明する。
まず実施形態の概要動作を説明する。
図2は、実施形態の概要動作説明図である。
以下の説明においては、理解の容易のため、音声変換装置のユーザであるととともに、ELの利用者である人物Aが、人物Bと二人で会話している場合を想定するものとする。
人物Bが時刻t0から発話を開始し、何らかの質問(例えば、「これは、○○ですか?」)を時刻t1までの期間行ったとすると、人物Aは、その間、人物Bの発話を傾聴する。
そして、時刻t1から回答思案を行い、時刻t2からELを利用して発話を行い音声C21(例えば、「これは、△△です。」)が出力されると、音声変換装置10は、音声入力手段として機能し、音声入力処理を実行して、時刻t3から音声変換による声質変換後の音声C22(上述の例の場合、「これは、△△です。」)が、リアルタイムで生成されて出力される。
この音声変換による音声C22の出力と並行して、音声変換装置10は、音声認識手段、音声分析手段及び画像認識手段として機能し、時刻t4から音声認識処理、音声分析処理及び画像認識処理を行うとともに、音声変換装置10は、テキスト化手段、音声分析手段としても機能し、時刻t5から発話準備処理を行う。
この発話準備処理は、入力音声のテキスト化、声の高さ、速さ、大きさ等に対応する音声合成に用いられる各種パラメータの調整等の音声合成の準備を行う。
その後、時刻t6において、人物Bが音声C21あるいは音声C22による回答が聞き取れずに時刻t0においてした質問の再質問を行った場合には、時刻t7において、音声変換装置10に対して、音声合成による発話指示を行うと、音声変換装置10は、音声合成手段として機能し、発話準備が完了する時刻t8において音声合成処理を開始し、時刻t9から音声合成出力C23を行う。
このような構成とすることにより、常時音声合成に必要な処理を行いつつ、音声C21あるいは音声C22による発話により意思疎通が図れた場合には、リアルタイムで会話を行えるとともに、聞き返された場合には、音声合成出力C23による発話を行うことで、聞き取り性を向上させることができる。
このように必要性及び時間的に余裕があると考えられる場合についてのみ音声合成出力を会話に用いることにより、スムーズなコミュニケーションを図りつつ、複雑な会話も可能となるとともに、危険回避要求などの緊急性の高い発話等に関しては、リアルタイム性を確保することも可能となる。
さらには音声認識結果に基づいて機械操作、翻訳、情報提示(情報検索)等の補助的な動作を行わせることも可能となり、よりレベルの高いコミュニケーションを図ることも可能となる。
次に第1実施形態のより具体的な動作について説明する。
ユーザにより(例えば、ELを利用した)発話が開始されると、音声変換装置10の音声入力部11は、ユーザの入力音声信号を入力音声信号に変換して音声変換部12、音声認識部13及び音声分析部15に出力する。
これにより音声変換部12は、入力音声信号に対応する音声の音声変換(音程変更及びフォルマント変更)を行ってリアルタイムに音声変換信号を音声出力部20に出力する。
この結果、音声出力部20からは、音声変換がなされた音声が出力される。
これと並行して音声認識部13は、入力音声信号に対応する音声の音声認識を開始し、音声認識結果としての音声認識データをテキスト化部14に出力する。
テキスト化部14は、入力された音声認識データに基づいて音声のテキスト化を行い、テキストデータとして入力音声信号の入力タイミングに対応するタイムスタンプととともに記憶する。
また、音声認識部13の処理と並行して、音声分析部15は、入力音声信号に対応する音声の音声分析(速さ、音程、大きさ等)を行って、第1音声合成用パラメータ(発話速度、音程、発話音量等の音声合成基本パラメータ)を生成し、入力音声信号の入力タイミングに対応するタイムスタンプととともに音声合成部19に出力する。
一方、表情撮影部16は、カメラにより、発話者であるユーザの顔画像を含む撮像画像を取得し、撮像画像の取得タイミングに対応するタイムスタンプとともに画像認識部17に出力する。
画像認識部17は、入力された撮像画像の画像認識を行い、感情推定に必要とされる各部(眼、口等)の画像を抽出して、感情推定部18に出力する。
これらの結果、感情推定部18は、画像認識部17により抽出された画像に基づいて、撮像対象であり、発話者であるユーザの感情(喜怒哀楽等)を推定し、推定した感情に基づいて、対応する撮像画像の取得タイミングに対応するタイムスタンプとともに第2音声合成用パラメータ(感情に応じた声質、発話速度、発話音量等の音声合成補正用パラメータ)を生成し音声合成部19に出力する。
音声合成部19は、それぞれのタイムスタンプに基づいて、入力されたテキストデータ、このテキストデータに対応する第1音声合成用パラメータ及び第2音声合成用パラメータを取得して音声合成データを生成し、記憶する。
さらに制御部23は、ユーザにより操作部21を介して音声合成対象の所望の音声出力の選択操作及び音声出力指示操作がなされると、当該選択操作に対応する音声合成を音声合成部19に指示する。
ここで、音声合成対象の所望の音声出力の選択操作及び音声出力指示操作について詳細に説明する。
図3は、音声変換装置の外観正面図の一例の説明図である。
音声変換装置10の筐体には、操作部21及び表示部22として機能するタッチパネルディスプレイTPと、音声入力部11を構成するマイクMCと、表情撮影部16を構成するカメラらCMと、音声出力部20を構成するスピーカSPと、が設けられている。
図3の例では、タッチパネルディスプレイTPの上部には、表示部22として、音声合成処理済みの発話履歴、すなわち、音声合成出力が可能な発話履歴のテキスト情報一覧がリストLSTとして表示されている。
リストLSTとしては、前々回の音声合成処理結果である「こんにちは」がテキスト情報L1として表示され、前回の音声合成処理結果である「こちらこそよろしくお願いします。」がテキスト情報L2として表示され、今回の音声合成処理結果である「はい。それは、○○です。」がテキスト情報L3として表示されている。
さらに、現在選択している音声合成処理結果がテキスト情報L3に対応するものであることを示すための選択マークCR(図中、右向き黒三角で表示)及び選択フレームSFL(図中、太線枠で表示)が表示されている。
また、図3の例では、タッチパネルディスプレイTPの下部には、操作部としての操作ボタンB1〜B5が表示され、タッチ操作により操作可能となっている。
操作ボタンB1は、選択マークCR及び選択フレームSFLをリストLSTの上方側に移動させるための操作子である。
操作ボタンB2は、選択マークCR及び選択フレームSFLをリストLSTの下方側に移動させるための操作子である。
操作ボタンB3は、選択マークCR及び選択フレームSFLの表示に対応するテキスト情報を音声合成対象として選択確定するための選択確定ボタンとして機能する操作子である。
操作ボタンB4は、選択マークCR及び選択フレームSFLの表示に対応するテキスト情報を音声合成対象から解除するための選択解除ボタンとして機能する操作子である。
操作ボタンB5は、選択マークCR及び選択フレームSFLの表示に対応するテキスト情報に対応する音声合成を行わせて発話を行う発話ボタンとして機能する操作子である。
したがって、リストLST上で、操作ボタンB1及び操作ボタンB2を操作して、所望のテキスト情報に対応する位置に選択マークCR及び選択フレームSFLを表示させた状態で、選択確定ボタンとしての操作ボタンB3を押圧し、さらに発話ボタンとしての操作ボタンB5を押圧することで、音声合成部19は、当該選択操作に対応する音声合成データ(図3の例の場合、「はい。それは、○○です。」に対応)に基づき、音声合成を行い音声合成信号を音声出力部20に出力する。
これにより、音声出力部20は、音声合成部19が出力した音声合成信号に基づいて音声出力(発話)を行う。
以上の説明のように、本第1実施形態によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能であるとともに、聞き返された場合には、音声合成による発話を行うことで、聞き取り性を向上させることができる。
このように必要性及び時間的に余裕があると考えられる場合についてのみ音声合成出力を会話に用いることにより、コミュニケーションが滞ること無く、より理解を深めた会話を行うことができる。
[2]第2実施形態
図4は、第2実施形態の音声変換システムの概要構成ブロック図である。
図4において、図1と同様の部分には、同一の符号を付すものとする。
音声変換システム100は、大別すると、音声変換装置100Aと、音声変換装置100Aと通信ネットワークを介して接続された音声変換サーバ100Bと、を備えている。
音声変換装置100Aは、大別すると、音声入力部11と、音声変換部12と、表情撮影部16と、音声合成部19と、音声出力部20と、操作部21と、表示部22と、制御部23と、通信処理部31と、を備えている。
上記構成において、音声入力部11、音声変換部12、表情撮影部16、音声合成部19、音声出力部20、操作部21、表示部22及び制御部23の構成については、第1実施形態と同様であるので、詳細な説明を援用する。
音声変換装置100Aの通信処理部31は、音声入力部11を介して入力された入力音声信号のアナログ/デジタル変換した入力音声データ及び表情撮影部16が出力した撮像画像データを音声変換サーバ100Bに送信するとともに、音声変換サーバ100Bから受信した音声合成データを音声合成部19に出力する。
音声変換サーバ100Bは、音声認識手段としても音声認識部13Aと、テキスト化手段としてのテキスト化部14Aと、音声分析手段としての音声分析部15Aと、画像認識手段としての画像認識部17Aと、感情推定部18Aと、通信処理部41と、制御部42と、データ格納部43と、を備えている。
ここで、音声変換装置100A及び音声変換サーバ(音声処理サーバ)100Bは、実体的には、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、SDD、HDDなどの外部記憶装置と、ディスプレイ装置などの表示装置と、タッチパネル、メカニカルボタン、キーボード、マウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっており、当該ハードウェア上で実行されるプログラムにより、上記各部(各手段)の機能を実現している。
上記構成において、音声認識部13A、テキスト化部14A、音声分析部15A、画像認識部17A及び感情推定部18Aは、第1実施携帯の音声変換装置10における音声認識部13、テキスト化部14、音声分析部15、画像認識部17及び感情推定部18と処理能力が複数の音声変換装置100Aに対応するものとなっているだけで、処理内容は同様であるので、その詳細な説明を援用するものとする。
音声変換サーバ100Bの通信処理部41は、音声変換装置100Aの通信処理部31から受信した入力音声データのデジタル/アナログ変換を行って音声認識部13A及び音声分析部15Aに出力し、受信した撮像画像データを画像認識部17Aに出力するとともに、データ格納部43に格納された音声合成用データを音声変換装置100Aの通信処理部31に送信する。
制御部42は、音声変換サーバ100B全体を制御する。
データ格納部43は、テキスト化部14A、音声分析部15A及び感情推定部18Aの処理結果に対応する音声合成用データを格納する。
次に第2実施形態の動作について説明する。
ユーザにより(ELを利用した)発話が開始されると、音声変換装置10の音声入力部11は、ユーザの入力音声信号を入力音声信号に変換して音声変換部12及び通信処理部31に出力する。
これにより音声変換部12は、入力音声信号に対応する音声の音声変換(音程変更及びフォルマント変更)を行ってリアルタイムに音声変換信号を音声出力部20に出力する。
この結果、音声出力部20からは、音声変換がなされた音声が出力される。
また、表情撮影部16は、カメラにより、発話者であるユーザの顔画像を含む撮像画像を取得し、撮像画像の取得タイミングに対応するタイムスタンプとともに通信処理部31に出力する。
通信処理部31は、入力された入力音声信号のアナログ/デジタル変換した入力音声データ及び表情撮影部16が出力した撮像画像データを音声変換サーバ100Bに送信する。
これにより、音声変換サーバ100Bの通信処理部41は、音声変換装置100Aの通信処理部31から受信した入力音声データのデジタル/アナログ変換を行って入力音声信号として音声認識部13A及び音声分析部15Aに出力し、受信した撮像画像データを画像認識部17Aに出力する。
これにより音声認識部13Aは、入力音声信号に対応する音声の音声認識を開始し、音声認識結果としての音声認識データをテキスト化部14Aに出力する。
テキスト化部14Aは、入力された音声認識データに基づいて音声のテキスト化を行い、テキストデータとして入力音声信号の入力タイミングに対応するタイムスタンプととともにデータ格納部43に記憶する。
また、音声認識部13Aの処理と並行して、音声分析部15は、入力音声信号に対応する音声の音声分析(速さ、音程、大きさ等)を行って、第1音声合成用パラメータ(発話速度、音程、発話音量等の音声合成基本パラメータ)を生成し、入力音声信号の入力タイミングに対応するタイムスタンプととともにデータ格納部43に記憶する。
画像認識部17Aは、入力された撮像画像の画像認識を行い、感情推定に必要とされる各部(眼、口等)の画像を抽出して、感情推定部18Aに出力する。
これらの結果、感情推定部18Aは、画像認識部17により抽出された画像に基づいて、撮像対象であり、発話者であるユーザの感情(喜怒哀楽等)を推定し、推定した感情に基づいて、対応する撮像画像の取得タイミングに対応するタイムスタンプとともに第2音声合成用パラメータ(感情に応じた声質、発話速度、発話音量等の音声合成補正用パラメータ)を生成しデータ格納部43に記憶する。
これにより、音声変換サーバ100Bの制御部42は、音声合成の対象となるデータをデータ格納記憶部43に格納している旨をテキストデータとともに、通信処理部41を介して、音声変換装置100Aに通知する。
この結果、音声変換装置100Aの制御部23は、表示部23に図3に示した様な画面を表示させ、ユーザにより操作部21を介して音声合成対象の所望の音声出力の選択操作及び音声出力指示操作がなされると、当該選択操作に対応する音声合成データ(=テキストデータ、このテキストデータに対応する第1音声合成用パラメータ及び第2音声合成用パラメータ)を音声変換サーバ100Bから受信する。なお、通信能力及び音声変換装置100Aの記憶容量に余裕があるのであれば、当該音声変換装置100Aに対応する全ての音声合成データを音声変換装置100Aに予めダウンロードしておくようにすることも可能である。
通信処理部31を介して音声合成データを受信した音声合成部19は、それぞれのタイムスタンプに基づいて、入力されたテキストデータ、このテキストデータに対応する第1音声合成用パラメータ及び第2音声合成用パラメータを取得して音声合成を行い音声合成信号を音声出力部20に出力する。
これにより、音声出力部20は、音声合成部19が出力した音声合成信号に基づいて音声出力(発話)を行う。
以上の説明のように、本第2実施形態によれば、第1実施形態の効果に加えて、音声変換装置100Aの処理負荷を低減することができ、装置の小型化及び製造コストの低減を図ることが可能となる。
以上の各実施形態の説明においては、入力音声として、ELを用いて生成した音声を例として説明したが、入力音声としては、食道発声法等により生成した音声、健常者による通常音声(囁き声、騒音環境下の音声を含む)等任意に適用が可能である。
本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、USBメモリ、メモリカード等の半導体記憶装置、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
[3]実施形態の他の態様
以上の実施形態に関し、さらに他の態様について記載する。
[3.1]第1の他の態様
実施形態の第1の他の態様の音声変換装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、前記テキストデータの指定及び出力指示の入力がなされる入力操作部と、指定された前記テキストデータに基づく音声合成信号を出力する音声合成部と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う音声出力部と、を備える。
上記構成によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能である。さらに実際のユーザの発話あるいは音声変換処理による発話では、理解が不十分であった場合などには、音声合成による発話を行うことで、聞き取り性を向上させることができる。
[3.2]第2の他の態様
実施形態の第2の他の態様の音声変換装置は、前記入力音声の音声分析を行い、前記音声合成用のパラメータを前記音声合成部に出力する音声分析部を備える。
上記構成によれば、音声分析結果を音声合成に用いることで、より自然な発話が行える。
[3.3]第3の他の態様
実施形態の第3の他の態様の音声変換装置は、前記入力音声の話者に対応する人物の表情を撮影した撮影画像の画像認識を行う画像認識部と、前記画像認識の結果に基づいて感情を推定し、前記音声合成用の第2のパラメータを前記音声合成部に出力する感情推定部と、を備える。
上記構成によれば、話者の表情から得られる感情状態を音声合成に反映することができ、話者の感情も含めたより自然な発話が行える。
[3.4]第4の他の態様
実施形態の第4の他の態様の音声変換装置は、複数の前記テキストデータをリスト表示可能な表示部と、前記表示部に表示されているテキストデータを指定して、発話を指示する操作部と、を備える。
上記構成によれば、繰り返し同一の発話を行ったり、必要な発話のみを行うことで、よりスムーズなコミュニケーションを図ることができる。
[3.5]第5の他の態様
実施形態の第5の他の態様の音声変換システムは、携帯端末装置と、前記携帯端末装置と通信ネットワークを介して接続された音声処理サーバと、を備えた音声変換システムであって、前記携帯端末装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記入力音声を前記通信ネットワークを介して送信するとともに、前記音声処理サーバから音声合成データを受信する第1通信部と、前記音声変換信号に基づいて音声出力を行うとともに、入力された音声合成データに基づいて音声出力を行う音声出力部と、を備え、前記音声処理サーバは、前記通信ネットワークを介して前記入力音声の受信及び前記音声合成データを送信する第2通信部と、受信した前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、指定された前記テキストデータに基づき前記音声合成データを生成する音声合成部と、を備えた音声変換システムである。
上記構成によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能である。さらに実際のユーザの発話あるいは音声変換処理による発話では、理解が不十分であった場合などには、音声合成による発話を行うことで、聞き取り性を向上させることができるとともに、携帯端末装置側の処理負荷を低減して容易にシステム構築及び運用が行える。
[3.6]第6の他の態様
実施形態の第5の他の態様のプログラムは、入力音声を変換して出力する音声変換装置をコンピュータにより制御するためのプログラムであって、前記コンピュータを、入力音声の音声変換を行って音声変換信号を出力する手段と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する手段と、前記テキストデータを記憶する手段と、前記テキストデータの指定及び出力指示の入力がなされる手段と、指定された前記テキストデータに基づく音声合成信号を出力する手段と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う手段と、して機能させるプログラムである。
上記構成によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能である。さらに実際のユーザの発話あるいは音声変換処理による発話では、理解が不十分であった場合などには、音声合成による発話を行うことで、聞き取り性を向上させることができる。
10 音声変換装置
11 音声入力部
12 音声変換部
13、13A 音声認識部
14、14A テキスト化部
15、15A 音声分析部
16 表情撮影部
17、17A 画像認識部
18、18A 感情推定部
19 音声合成部
20 音声出力部
21 操作部
22 表示部
23、42 制御部
31 通信処理部(第1通信部)
41 通信処理部(第2通信部)
43 データ格納部

Claims (6)

  1. 入力音声の音声変換を行って音声変換信号を出力する音声変換部と、
    前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、
    前記テキストデータを記憶する記憶部と、
    前記テキストデータの指定及び出力指示の入力がなされる入力操作部と、
    指定された前記テキストデータに基づく音声合成信号を出力する音声合成部と、
    前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う音声出力部と、
    を備えた音声変換装置。
  2. 前記入力音声の音声分析を行い、前記音声合成用のパラメータを前記音声合成部に出力する音声分析部を備えた、
    請求項1記載の音声変換装置。
  3. 前記入力音声の話者に対応する人物の表情を撮影した撮影画像の画像認識を行う画像認識部と、
    前記画像認識の結果に基づいて感情を推定し、前記音声合成用の第2のパラメータを前記音声合成部に出力する感情推定部と、
    を備えた請求項1又は請求項2記載の音声変換装置。
  4. 複数の前記テキストデータをリスト表示可能な表示部と、
    前記表示部に表示されているテキストデータを指定して、発話を指示する操作部と、
    を備えた請求項1乃至請求項3のいずれか一項記載の音声変換装置。
  5. 携帯端末装置と、前記携帯端末装置と通信ネットワークを介して接続された音声処理サーバと、を備えた音声変換システムであって、
    前記携帯端末装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、
    前記入力音声を前記通信ネットワークを介して送信するとともに、前記音声処理サーバから音声合成データを受信する第1通信部と、
    前記音声変換信号に基づいて音声出力を行うとともに、入力された音声合成データに基づいて音声出力を行う音声出力部と、を備え、
    前記音声処理サーバは、
    前記通信ネットワークを介して前記入力音声の受信及び前記音声合成データを送信する第2通信部と、
    受信した前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、
    前記テキストデータを記憶する記憶部と、
    指定された前記テキストデータに基づき前記音声合成データを生成する音声合成部と、
    を備えた音声変換システム。
  6. 入力音声を変換して出力する音声変換装置をコンピュータにより制御するためのプログラムであって、
    前記コンピュータを、
    入力音声の音声変換を行って音声変換信号を出力する手段と、
    前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する手段と、
    前記テキストデータを記憶する手段と、
    前記テキストデータの指定及び出力指示の入力がなされる手段と、
    指定された前記テキストデータに基づく音声合成信号を出力する手段と、
    前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う手段と、
    して機能させるプログラム。
JP2019037889A 2019-03-01 2019-03-01 音声変換装置、音声変換システム及びプログラム Expired - Fee Related JP6730651B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019037889A JP6730651B1 (ja) 2019-03-01 2019-03-01 音声変換装置、音声変換システム及びプログラム
US16/745,684 US20200279550A1 (en) 2019-03-01 2020-01-17 Voice conversion device, voice conversion system, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019037889A JP6730651B1 (ja) 2019-03-01 2019-03-01 音声変換装置、音声変換システム及びプログラム

Publications (2)

Publication Number Publication Date
JP6730651B1 true JP6730651B1 (ja) 2020-07-29
JP2020140178A JP2020140178A (ja) 2020-09-03

Family

ID=71738544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019037889A Expired - Fee Related JP6730651B1 (ja) 2019-03-01 2019-03-01 音声変換装置、音声変換システム及びプログラム

Country Status (2)

Country Link
US (1) US20200279550A1 (ja)
JP (1) JP6730651B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267352B (zh) * 2021-12-24 2023-04-14 北京信息科技大学 一种语音信息处理方法及电子设备、计算机存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099100A (ja) * 1998-09-25 2000-04-07 Technol Res Assoc Of Medical & Welfare Apparatus 音声変換装置
JP3670180B2 (ja) * 1999-02-16 2005-07-13 有限会社ジーエムアンドエム 補聴器
JP2004205624A (ja) * 2002-12-24 2004-07-22 Megachips System Solutions Inc 音声処理システム
JP6028289B2 (ja) * 2013-02-27 2016-11-16 東日本電信電話株式会社 中継システム、中継方法及びプログラム

Also Published As

Publication number Publication date
US20200279550A1 (en) 2020-09-03
JP2020140178A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN104991754B (zh) 录音方法及装置
US20150149169A1 (en) Method and apparatus for providing mobile multimodal speech hearing aid
CN110944143A (zh) 视频会议装置以及视频会议方法
EP2380170B1 (en) Method and system for adapting communications
US11699043B2 (en) Determination of transcription accuracy
CN110730360A (zh) 视频上传、播放的方法、装置、客户端设备及存储介质
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US10607625B2 (en) Estimating a voice signal heard by a user
CN110943908A (zh) 语音消息发送方法、电子设备及介质
JP2008085421A (ja) テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ
CN113194203A (zh) 一种用于听障人士的沟通系统、接听拨打方法及通讯系统
JP6730651B1 (ja) 音声変換装置、音声変換システム及びプログラム
CN109754816B (zh) 一种语音数据处理的方法及装置
CN113259701B (zh) 个性化音色的生成方法、装置及电子设备
WO2022091426A1 (ja) 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム
CN114356068B (zh) 一种数据处理方法、装置和电子设备
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
JP2006235102A (ja) 音声処理装置および音声処理方法
JP2018165805A (ja) 対話装置、対話装置の制御方法およびプログラム
WO2020089961A1 (ja) 音声処理装置、およびプログラム
JP2022016997A (ja) 情報処理方法、情報処理装置及び情報処理プログラム
JP2000333150A (ja) テレビ会議システム
CN108364631B (zh) 一种语音合成方法和装置
JP6596913B2 (ja) スケジュール作成装置、スケジュール作成方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6730651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees