JP3552200B2 - 音声信号伝送装置および音声信号伝送方法 - Google Patents

音声信号伝送装置および音声信号伝送方法 Download PDF

Info

Publication number
JP3552200B2
JP3552200B2 JP09296799A JP9296799A JP3552200B2 JP 3552200 B2 JP3552200 B2 JP 3552200B2 JP 09296799 A JP09296799 A JP 09296799A JP 9296799 A JP9296799 A JP 9296799A JP 3552200 B2 JP3552200 B2 JP 3552200B2
Authority
JP
Japan
Prior art keywords
information
unit
speech
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09296799A
Other languages
English (en)
Other versions
JP2000284799A (ja
Inventor
哲朗 知野
正浩 押切
博史 金澤
孝章 新居
宗彦 笹島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP09296799A priority Critical patent/JP3552200B2/ja
Publication of JP2000284799A publication Critical patent/JP2000284799A/ja
Application granted granted Critical
Publication of JP3552200B2 publication Critical patent/JP3552200B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号を通信する音声伝達装置および音声伝達方法に関する。
【0002】
【従来の技術】
近年、計算機技術および通信技術の進歩により、インターネットに代表されるコンピュータネットワーク網が整備されてきている。また、GUI(グラフィカル・ユーザ・インタフェース)技術の進歩などにより、一般ユーザがネットワークに接続されたコンピュータを利用するようになってきている。
【0003】
このような背景のもと、音声、画像、動画などを含むマルチメディア情報の伝達が活発となってきており、通信の高速化や高能率化、あるいはコスト削減が求められている。
【0004】
そこで、自動車電話や携帯電話などの移動体通信や企業内通信において、電波の有効利用や通信コストの削減を図る必要があり、これらにおいて、音声信号を低ビットレートで高能率に符号化する技術は重要である。
【0005】
そして、そのために8[kHz]でサンプリングされた電話帯域の音声信号の符号化技術として、これまで様々な方式が提案されている。
【0006】
例えば、音声波形の振幅値を対数変換して符号化を行うμ‐law PCMやA‐law PCM、隣接する信号を用いて予測を行い誤差信号を符号化するADPCM方式などがある。
【0007】
これらは、音声波形を直接符号化するので波形符号化とも呼ばれ、32乃至64[kbps]でほぼ原音声と差異のない圧縮音声を得ることができる。
【0008】
これとは別に、2[kbps]程度の低ビットレートで音声信号を表すことができるパラメトリック符号化がある。
【0009】
パラメトリック符号化では、音声信号の音韻情報をLPC係数やPARCOR係数などの線形予測係数で構成されるディジタルフィルタで表し、パルス列もしくは白色雑音系列を駆動音源とする。また、波形符号化とパラメトリック符号化のハイブリッド的な方式で、8[kbps]程度のビットレートで品質の優れた圧縮音声を得ることが可能な分析合成符号化がある。
【0010】
そして、この分析合成符号化の代表的な手法としては、CELP(Code Excited Linear Prediction)方式が知られている。このCELP方式は、AT&T社ベル研究所のM.R.Schroeder氏と、B.S.Atal氏により、“Code−Excited Linear Prediction(CELP) High−Quality Speech at Very low Bit Rates”、Proc.ICASSP;1985、pp.937−939”(文献1)で発表されて以来、高品質な音声が合成できる方式として注目されてきた。
【0011】
CELP方式は、短区間音声信号の特徴量をAnalysis by Synthesis的手法により、効率よく求めることができる。ここでいう特徴量は、スペクトル包絡を表す短期予測係数、基本周波数を表す長期予測係数、雑音源の種類(Code)およびゲインである。
【0012】
CELP方式は、音声波形を直接符号化するのではなく、音声の特徴量を符号化することにより、8[kbps]以下の非常に小さなビットレートで音声信号を表すことが可能になる。
【0013】
また、音声認識技術および音声合成技術を手用した知的符号化による情報圧縮および通信方法が提案されている。
【0014】
<従来の音声認識>
ここで従来の音声認識を説明する。現在、音声認識における基本的な方式として、HMM(Hidden Markov Mode1:隠れマルコフモデル)を用いた認識方式がある。
【0015】
これは、入力音声の各時刻での音響的な特徴を確率事象としてとらえ、各音韻ごとに作成したHMMに基づき、その音響特徴の出現確率を求め、確率値を時間方向に累積してゆき、発声終了時点で最終的に最も高い累積値(=確率値)を持つカテゴリを認識結果とする方法である。
【0016】
照合の際には、動的計画法などを用いて効率良く最適な累積経路を求めることが可能である。
【0017】
<従来の音声合成>
一方、従来の音声合成技術について振り返ってみると、当該音声合成技術としては、任意の文章あるいは単語の文字(テキスト)を音声信号に変換する技術の開発が行われてきている。
【0018】
通常、音声合成システムとしては、言語処理部、音韻処理部、音声波形生成部から構成されている。そして、入力されたテキストは、言語処理部において形態素解析、構文解析、意味解析などを行うことにより、音韻処理で必要な情報、すなわち、語文節の境界、漢字の読み、単語のアクセント、かかり受け、品詞活用形などの言語情報が生成され、次に音韻処理部により、音韻規則に従って、音韻記号列や基本周波数パターンやパワー、継続時間、ポーズの位置などの音韻情報が生成される。
【0019】
そして、最後に、音声波形生成部において、音韻記号列を合成単位に分解し、合成単位に対応する音源パラメータや伝達特性パラメータなどの音声単位情報を元に、音韻情報に従って制御し、音声信号を生成する。
【0020】
従来の音声認識技術および音声合成技術としては以上の如きのものがある。
【0021】
<知的符号化通信>
そして、一つの動きとして、以上の如きの音声認識技術および音声合成技術を用いることによって、送信側で入力された音声信号に対して認識処理を行い、入力された音声信号より通信時のデータ量が小さい、例えば、文字列である認識結果情報や、あるいは音韻列などの中間パラメータ情報を通信路を通して伝送し、受信側で受け取った認識結果情報や中間パラメーダ情報に基づき、合成音声を生成し、出力することにより、従来の符号化による方法より高い圧縮率を実現しようという、知的圧縮通信手法が検討されている。
【0022】
<従来方式の問題点>
ところが、従来の圧縮通信技術には以下に示す問題点がある。
【0023】
すなわち、従来の圧縮通信技術の問題点は、前述したように従来の圧縮通信技術におけるμ‐law PCMやA‐law PCMおよびADPCMなどの波形符号化においては、ビットレートが32〜64[kbps]のときに非常に高品質な圧縮音声を得ることができるが、ビットレートを低くすると、圧縮音声の品質が急激に劣化するという問題である。
【0024】
また、パラメトリック符号化では、2[kbps]程度の低ビットレートでも音声信号を表すことができるが、その圧縮音声の品質は一応の了解性が得られる程度であって品質は十分でなく、パラメトリック符号化のビットレートを高く設定しても、大きな品質の改善は得られないと云う点である。
【0025】
また、CELP方式に代表される分析合成符号化では、ビットレートが8[kbps]程度で十分な品質を得ることができるが、例えば、4[kbps]程度までビットレートを低下させると、品質劣化が知覚されてしまうという問題である。
【0026】
つまり、これらのことを考えると、従来の符号化による圧縮通信では、伝達できる音声の品質と圧縮度の間にトレードオフがあるため、可能な圧縮比率に限界があるという大きな問題点があると云うことがわかる。
【0027】
<従来の知的符号化技術の問題点>
一方、知的符号化技術を利用した方法に関しても以下に示す問題点がある。
【0028】
すなわち、従来の音声認識技術の問題点とは、話者、環境雑音、認識言語、発声様式などの影響により、同じ言葉であっても音声パターンは大きく異なり、認識誤りは避けられないという点である。
【0029】
<従来の音声合成技術の問題点>
また、従来の音声合成技術に関しての問題点としては、各処理部での誤りや、規則の不備、音声単位情報の精度などにより、合成音声が不自然となったり、内容の理解が容易でない、音質が低下するなどの点である。例えば、言語処理部では、形態素解析の誤りによるや読み・アクセント間違い、構文解析、意味解析などの誤りによる、係り受け先の間違いや、品詞文節境界などの間違いなどが考えられる。
【0030】
これらの間違いにより、音韻処理部などの音韻規則で生成される音韻情報が正しく生成されず、最終的に生成される音声信号での読み上げ内容の相違や不自然さなどへ影響を与える。
【0031】
また、合成音声では音声単位の接続や継続時間、あるいはピッチの変化などを規則として表現し、入力された文字列の解析結果から音韻規則に基づいて音声を合成するため、アクセント・イントネーションを制御する音韻規則の不備により音質の低下を招く原因となる。
【0032】
例えば、日本語の平叙文や疑問文などのイントネーションの制御方式として音節ごとの点ピッチ情報を線形に補間して韻律制御する方式“(箱田「文章音声合成におけるピッチパラメータ制御法の検討」日本音響学会音声研究会資料、SP88−7 (1988))”の検討がなされているが、これは平叙文を考慮した規則リにより生後制御されるため、会話文や案内調などのイントネーションの制御に対しては、対応した規則がないため、不自然となる場合がある。
【0033】
また、音声単位情報の精度が低いと、生成される合成音声の音質が低下する。
【0034】
以上のように、従来の知的符号化通信においては、まず音声認識処理に於いては、誤認識の発声を完全に排除することが非常に困難であるため、知的情報圧縮によって通信される情報から、誤りを完全に排除することは非常に困難であり、その情報に基づいて音声合成を行うと、入力された音声信号と相違した誤った音声が出力されるという問題があった。
【0035】
また、仮に音声認識処理が正しく行われたとしても、上述のように、従来の音声合成技術に関しても、各処理部での誤りや、規則の不備や、あるいは音声単位情報の精度不足などにより、出力される合成音声が、内容の理解が容易でないものとなったり、音質が低下したり、読み上げ内容の相違を発生したり、アクセント・イントネーションの低下などのため不自然となったりするなどのおそれがあるため、知的符号化を用いる通信方法の効果を有用なものとすることが出来なかった。
【0036】
さらに、音声認識技術と音声合成技術を用いた知的情報圧縮による通信の従来の方式では、単に音声入力の認識結果を元に単に音声合成をおこなうものであるため、音声の持つ声質、あるいはリズムやイントネーションやアクセント、あるいは口調といった音声の持つ個性が伝達の過程で消えてしまうこととなるが、このような個性を反映する情報はできるだけ維持できるようにしたいところである。
【0037】
【発明が解決しようとする課題】
このように従来は、音声符号化、音声認識、音声合成の点で問題があった。すなわち、音声符号化に関しては音声信号を圧縮処理する際、ビットレートが高い時には非常に高品質な圧縮音声を得ることができるが、ビットレートを低くすると、圧縮音声の品質が急激に劣化するという問題であり、また、パラメトリック符号化では、2[kbps]程度の低ビットレートでも音声信号を表すことができるが、その圧縮音声の品質は一応の了解が得られる程度でその品質は十分でないという問題と、パラメトリック符号化のビットレートは高く設定しても、大きな品質の改善は得ることができないという問題である。
【0038】
また、CELP方式に代表される分析合成符号化では、ビットレートが8[kbps]程度で十分な品質を得ることができるが、例えば、4[kbps」程度までビットレートを低下させると品質劣化が知覚されてしまうという問題である。
【0039】
つまり、従来の符号化による圧縮通信では、伝達できる音声の品質と圧縮度の間にトレードオフがあるため、可能な圧縮比率に限界があるという問題点があることである。
【0040】
また、音声認識処理に関する問題は、話者、環境雑音、認識語彙、発声様式などの影響により、同じ言葉であっても音声パターンは大きく異なり、認識誤りは避けられないという点である。
【0041】
また、従来の音声合成技術に関する問題は、各処理部での誤りや、規則の不備、音声単位情報の精度などにより、合成音声が不自然となったり、内容の理解が容易でない、音質が低下するといった点である。例えば、言語処理部では、形態素解析の誤りによるや読み・アクセント間違い、構文解析、意味解析などの誤りによる、係り受け先の間違いや、品詞文節境界などの間違いなどが考えられ、これらの間違いにより、音韻処理部などの音韻規則で生成される音韻情報が正しく生成されず、最終的に生成される音声信号での読み上げ内容の相違や不自然さなどヘ影響を与えるという問題を残していることである。
【0042】
また、合成音声では音声単位の接続や継続時間、あるいはピッチの変化などを規則として表現し、入力された文字列の解析結果から音韻規則に基づいて音声を合成するため、アクセント・イントネーションを制御する音韻規則の不備により音質の低下を招く原因となるという問題を残している。
【0043】
また、音声単位情報の精度が低いと、生成される合成音声の音質が低下するという問題を残すことになる。
【0044】
以上のように、まず音声認識処理に於いては、誤認識の発声を完全に排除することが非常に困難である。そのため、知的情報圧縮によって通信される情報から、誤りを完全に排除することは非常に困難であり、その情報に基づいて音声合成を行うと、入力された音声信号と相違した誤った音声が出力されることになってしまう。
【0045】
また、仮に音声認識処理が正しく行われたとしても、上述のように、従来の音声合成技術に関しても、各処理部での誤りや、規則の不備や、あるいは音声単位情報の精度不足などにより、出力される合成音声の内容の理解が容易でないものとなったり、音質が低下したり、読み上げ内容の相違を発声したり、アクセント・イントネーションの低下などのため不自然となったりするなどの恐れがあるため、知的符号化を用いる通信方法の効果を有用なものとすることが出来ない。
【0046】
そこで、この発明の第1の目的とするところは、従来の符号化による圧縮通信では、伝達できる音声の品質と圧縮度の間にトレードオフがあるため、可能な圧縮比率に限界があるという問題点を解決し、より効率の高い音声伝送を実現することにある。
【0047】
また、この発明の第2の目的とするところは、従来の知的符号化による通信では避けることの出来なかった、音声認識処理での誤認識に起因する伝送内容の誤りを、避けることが出来る音声伝送を実現することにある。
【0048】
また、この発明の第3の目的とするところは、従来の知的符号化による通信では避けることの出来なかった、音声合成処理での誤生成に起因する伝送内容の誤りを、避けることが出来る音声伝送を実現することにある。
【0049】
また、以上によって、従来の符号化による圧縮通信より高い効率の伝送を、伝送内容に誤りを起こさずに実現することにある。
【0050】
【課題を解決するための手段】
上記目的を達成するために、本発明は次のように構成する。
【0051】
[1] 第一には、入力音声信号を受けてこれを入力音声情報として出力する音声入力手段と、該入力音声情報を受けて認識処理を施し、その結果を認識結果情報として出力する音声認識手段と、該入力音声情報を受けとり、圧縮処理を施し、その結果を圧縮結果情報として出力する音声圧縮手段と、該概認識結果情報および、圧縮結果情報を受けとり、どちらか一方をそれぞれの種別記号と共に、選択伝達情報として出力する送信制御手段と、該選択伝達情報を受けとり、種別記号に基づいて、音声合成手段あるいは音声伸長手段に、該選択伝達情報を、送る受信制御手段と、該選択伝達情報として受けとった認識結果情報に対して、音声合成処理を行うことによって、合成音声出力情報を生成する音声合成手段と、該選択伝達情報として受けとった圧縮結果情報に対して、音声信号伸長処理を行うことによって、伸長音声出力情報を出力する音声伸長手段と、
該合成音声出力情報および該伸長音声出力情報を受けとり、音声信号として出力する音声出力手段とを具備することを特徴とするものである。
【0052】
この[1]項に示した構成の本発明にかかる音声伝達装置は、送信部に入力される音声信号に対して、音声認識処理および音声圧縮処理とを施し、認識処理の成否の目標であるスコア情報を参照して、音声認識処理が正しくなされていると考えられる部分については音声認識結果としてのテキストデータを種別記号と共に伝送し、一方、音声認識処理が正しくなされていない可能性があると考えられる部分については、音声圧縮結果を種別記号と共に伝送する。
【0053】
そして、受信部では、伝送された情報の種別記号に基づいて、音声合成処理あるいは音声伸長処理を実施し、各対応部分の入力された時刻情報にしたがって、音声信号として出力することによって、高い圧縮率で、かつ伝送誤りの無い音声通信を実現するものである。すなわち、音声認識できた語彙については音声に比べてデータ数の遙かに少ないテキストデータ化できるのでテキストデータで送信し、音声認識が旨くいかない部分については音声圧縮したデータを送信することで、トータルとして高い圧縮率で、かつ伝送誤りの無い音声通信を実現する。
【0054】
[2] 本発明は第二には、音声合成のための規則あるいは知識である合成規則情報を保持する合成規則記憶手段と、該合成規則記憶手段、および音声合成規則を学習するための情報である学習対情報を参照し、合成規則情報を生成し、合成規則記憶手段に保持する学習手段と、選択伝達情報を受けとり、該合成規則記憶手段を参照し、合成音声出力情報を生成する音声合成手段と、認識結果情報、および圧縮結果情報、および学習状況情報記憶手段の少なくとも一つを参照し、認識結果情報と、圧縮結果情報あるいは入力音声信号情報から、学習対情報を生成し出力するか、あるいは選択伝達情報を出力する送信制御手段と、該学習対情報を受けとり、学習状況情報として記録する学習状況記憶手段とを、具備したことを特徴とする。
【0055】
この[2]項に記載の本発明にかかる音声伝達装置は、上述の[1]項の音声伝送装置の機能に加えてえて以下の機能を持つ。
【0056】
つまり、送信部に入力される音声信号に対して、認識処理の成否の指標であるスコア情報を参照して、認識処理が正しくなされていると考えられる部分について、学習状況記憶手段を参照し、該認識結果の情報によって受信部において合成音声が正しく生成できるかどうかを調べ、正しく生成できると考えられる場合には、認識結果の情報を伝送し、正しく生成できない可能性があると考えられる場合には、認識結果の情報と圧縮結果の情報の組に基づいて作成した、学習対の情報を識男記号と共に伝送する。
【0057】
そして、受信部では、学習対の情報が伝達されてきた場合には、該学習対の情報を参照し、学習手段を用いて音声合成のための規則を修正あるいは新規に追加するなどにより学習を行うことによって、入力された音声に対して内容誤りがなくかつ不自然でなく高能率な音声通信や、あるいは声質の一致した高能率な音声通信を実現する。
【0058】
[3] 本発明は第三には、音声認識信号を受けとり、音声合成手段と同様の音声合成処理を行い、検証用合成音声情報を出力する検証用合成手段と、該検証用合成音声情報および音声入力情報を受けとり、比較検証処理を施し、検証結果を表す検証結果情報を出力する検証手段と、概検証結果情報を参照して認識結果情報あるいは圧縮結果情報を選択し、選択伝達情報として出力する送信制御手段とを具備したことを特徴とする。
【0059】
この[3]項に示す構成の本発明にかかる音声伝達装置は、送信部において音声認識結果に基づき、一旦、音声合成処理を行い、入力音声との比較を行い、その結果に応じて、受信部に伝送する信号の種別を決定する。これにより、受信部に於ける合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現するものである。
【0060】
[4] 本発明は第四には、音声認識信号を受けとり、音声合成手段に比較してより高精度の音声合成処理を行い、高精度合成音声情報を出力する高精度音声合成手段と、該検証用合成音声情報および高精度合成音声情報を受けとり、比較検証処理を施し、検証結果を表す検証結果情報を出力する検証手段とを具備したことを特徴とする。
【0061】
この[4]項記載の本発明にかかる音声伝達装置は、送信部において音声認識結果に基づき、高精度な音声合成処理を行い、また、受信部における音声合成処理と同様の音声合成処理を行い、双方の音声合成処理出力を比較して、その結果に応じて送信部から受信部に伝送する信号の種別を決定する。
【0062】
これによって、受信部に於ける合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現するものである。
【0063】
すなわち、認識結果を送信した場合に受信部で正しく合成できるかどうかを認識結果の送信前に送信装置側で判定した上で、正しく合成できそうな場合は認識結果を送るようにし、そうでない場合には圧縮結果を送るようにすることにより、受信装置側での合成誤りを抑制する。
【0064】
これによって、受信部に於ける合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現するものである。
【0065】
[5] 本発明は第五には、入力音声情報に対して、話者照合処理を行い、話者照合情報として出力する話者照合手段と、該話者照合情報を受けとり、出力する送信制御手段と、該話者照合情報を受けとり、出力する受信制御制御手段と、該話者照合情報を受けとり、話者認識結果に応じて、生成する合成音声の種類を変更する合成音声手段を具備したことを特徴とする。
【0066】
この[5]項の構成による音声伝達装置は、話者照合手段によって、発声者が誰であるかを特定し、話者情報を通信路を介して送し、合成手段において音声に変換する場合に、話者の声に近い音声を出力することを実現する。
【0067】
[6] 本発明は第六には、入力音声情報に対して音声信号種別判定処理を行い、音声種別情報として出力する音声種別判定手段と、該音声種別情報を参照し、圧縮処理の方法を変更し圧縮結果情報として出力する音声圧縮手段と、選択伝達情報として受けとった該圧縮結果情報の圧縮処理の方法に応じて、音声伸長処理を行う音声伸長手段とを具備することを特徴とする。
【0068】
この[6]項記載の音声伝達装置は、入力される音声の種別に応じて圧縮処理の種類を変更することにより、高い伝送効率を実現する。
【0069】
[7] 第七には本発明は、入力音声信号を受けとり入力音声情報として出力する音声入力ステップと、該入力音声情報を受けとり、認識処理を施し、その結果を認識結果情報として出力する音声認識ステップと、該入力音声情報を受けとり、圧縮処理を施し、その結果を圧縮結果情報として出力する音声圧縮ステップと、該概認識結果情報および、圧縮結果情報を受けとり、どちらか一方をそれぞれの種別記号と共に、選択伝達情報として出力する送信制御ステップと、該選択伝達情報を受けとり、種別記号に基づいて、音声合成ステップあるいは音声伸長ステップに、該選択伝達情報を送る受信制御ステップと、該選択伝達情報として受けとった認識結果情報に対して、音声合成処理を行うことによって、合成音声出力情報を生成する音声合成ステップと、該選択伝達情報として受けとった圧縮結果情報に対して、音声信号伸長処理を行うことによって、伸長音声出力情報を出力する音声伸長ステップと、該合成音声出力情報および該伸長音声出力情報を受けとり、音声信号として出力する音声出力ステップとを具備することを特徴とする。
【0070】
本発明にかかる音声伝達方法は、装置として実現する上述の第一の構成と、同様の効果を実現する。
【0071】
[8] 第八には本発明は、音声合成のための規則あるいは知識である合成規則情報を保持する合成規則記憶ステップと、該合成規則記憶手段、および音声合成規則を学習するための情報である学習対情報を参照し、合成規則情報を生成し、合成規則記憶手段に保持する学習ステップと、選択伝達情報を受けとり、該合成規則記憶情報を参照し、合成音声出力情報を生成する音声合成ステップと、認識結果情報、および圧縮結果情報、および学習状況情報記憶情報の少なくとも一つを参照し、認識結果情報と、圧縮結果情報あるいは入力音声信号情報から、学習対情報を生成し出力するか、あるいは選択伝達情報を出力する送信制御ステップと、該学習対情報を受けとり、学習状況情報として記録する学習状況記憶ステップとを具備したことを特徴とする。
【0072】
本発明にかかる音声伝達方法は、装置として実現する上述の第二の構成と、同様の効果を実現する。
【0073】
[9] 第九には本発明は、音声認識信号を受けとり、音声合成ステップと同様の音声合成処理を行い、検証用合成音声情報を出力する検証用合成ステップと、該検証用合成音声情報および音声入力情報を受けとり、比較検証処理を施し、検証結果を表す検証結果情報を出力する検証ステップと、概検証結果情報を参照して認識結果情報あるいは圧縮結果情報を選択し、選択伝達情報として出力する送信制御ステップとを具備することを特徴とする。
【0074】
この[9]項の本発明にかかる音声伝達方法は、装置として実現するようにした上記[3]項に示す第三の構成と、同様の効果を実現する方法である。
【0075】
[10] 第十には本発明は、音声認識信号を受けとり、音声合成ステップに比較してより高精度の音声合成処理を行い、高精度合成音声情報を出力する高精度音声合成ステップと、該検証用合成音声情報および高精度合成音声情報を受けとり、比較検証処理を施し、検証結果を表す検証結果情報を出力する検証ステップとを、具備したことを特徴とする。
【0076】
この[10]項の本発明にかかる音声伝達方法は、装置として実現するようにした上記[4]項に示す第四の構成と、同様の効果を実現する方法である。
【0077】
[11] 第十一には本発明は、入力音声情報に対して、話者照合処理を行い、話者照合情報として出力する話者照合ステップと、該話者照合情報を受けて出力する送信制御ステップと、該話者照合情報を受けとり、出力する受信制御制御ステップと、該話者照合情報受けとり、話者認識結果に応じて、生成する合成音声の種類を変更する合成音声ステップとを具備したことを特徴とする。
【0078】
この[11]項の本発明にかかる音声伝達方法は、装置として実現するようにした上記[5]項に示す第五の構成と、同様の効果を実現する方法である。
【0079】
[12] 第十二には本発明は、入力音声情報に対して、音声信号種別判定処理を行い、音声種別情報として出力する音声種別判定ステップと、該音声種情報を参照し、圧縮処理の方法を変更し圧縮結果情報として出力する音声圧縮ステップと、選択伝達情報として受けとった該圧縮結果情報の圧縮処理の方法に応じて、音声伸長処理を行う音声伸長ステップとを具備したことを特徴とするものである。
【0080】
この[12]項の本発明にかかる音声伝達方法は、装置として実現するようにした上記[6]項に示す第六の構成と、同様の効果を実現する方法である。
【0081】
【発明の実施の形態】
[第一の実施例]
以下、図面を参照して本発明の第一の実施例に係る音声伝達装置につき説明する。この第一の実施例は基本構成を示しており、上記[1]および[7]に対応する実施例である。この実施例では、音声信号を入力するとこの入力された音声信号を認識処理し、入力音声信号のうちの音声認識処理に成功した語彙の部分については、音声認識した結果としての言葉をテキストデータとして伝達するようにし、これによって高い圧縮率による通信コスト軽減を図るようにし、音声認識処理に失敗した語彙部分や、背景雑音に相当する部分については、音声信号の圧縮処理により通信するようにして、誤りのない通信を実現するものである。
【0082】
(構成の説明)
図1は、本発明の第一の実施例にかかる音声伝達装置の構成の概要を表しており、図に示すように本装置は、入力部101、認識部102、圧縮部103、送信制御部104、受信制御部105、合成部106、伸長部107、および出力部108から構成される。
【0083】
図1における入力部101は、マイク、A/D(アナログ/ディジタル)変換器などによって構成され、利用者から本装置への音声入力信号を受け付け、本装置で処理可能な形式への変換を施し時問情報などと共に、入力音声情報として、認識部102および圧縮部103などへ出力するように構成している。
【0084】
図1における認識部102は、前記入力部101から得られる入力音声情報を受けとり、当該受け取った入力音声情報について認識処理を行い、その認識結果および認識スコア、および本認識部の動作状況などに関する情報のうち少なくとも一つを含む認識結果情報を出力するようにしている。
【0085】
ここで、音声入力の従来手法に触れておく。
まず、音声入力部101において、発声された音声はA/D変換され、ディジタル時系列信号の音声データに変換される。こうして得られた音声データに対して、固定時間(例えば、8ミリ秒:以後この単位をフレームと呼ぶ)ごとに音声がワーを計算し、パワーの時系列を用いて、発声された音声の始終端の時刻を検出する。
【0086】
この始終端区間内の音声データを分析して認識処理に供する。分析では、例えば高速フーリエ変換などを用いて、周波数分析を行い、時系列信号を周波数がラメータの時系列データに変換する。
【0087】
例えば、256ポイントの高速フーリエ変換を行い、得られた128次元のパワースペクトルを、Barkスケールにより、16次元のバンドパスフィルタ出力に圧縮して、各フレームあたり16次元の特徴ベクトルからなる音声パターンを生成する。
【0088】
こうして求められた音声パターンは認識部へ送られ、認識語彙リストに格納されている認識対象語彙について、音声パターンとHMMとのViterbi照合により、尤度を計算し、例えば、上位N位までのスコアを与える語彙と、その語彙を構成する音韻の区間を求める。
【0089】
<認識結果の例>
図4は、認識結果情報の内容の例を表しており、また本図は、認識結果情報が、始端情報A、終端情報B、認識内容情報C、およびスコア情報Dなどと分類されて記録されるようにしていることも表している。
【0090】
各認識結果情報において、始端情報Aおよび終端情報Bや、それぞれ対応する入力音声信号区間の開始点および終了点の時刻を記録している。また、認識内容情報Cには、対応する入力音声信号の認識処理結果が、例えば、文字列やあるいは音韻列などの形で記録されるようにしている(なお、図4など於いて、記号 “<”と記号“>”で囲まれた部分は、その中に記載された文字列に対応する入力音声信号の認識処理結果の情報を表すものとする。)。
【0091】
また、スコア情報Dには、対応する入力音声の認識処理結果の信頼性などを表す尺度である、類似度などのスコア情報が記録されるようにしてある。
【0092】
図1に示す圧縮部103は、前記入力部101から得られる入力音声情報を受けとってこれを圧縮処理し、圧縮結果を圧縮結果情報として順次出力するようにしてある。
【0093】
音声圧縮の従来手法について説明しておく。
圧縮部103は、入力部101から得られる入力音声情報を受けとり、CELPなどの方法によって、圧縮処理を行い、圧縮結果を圧縮結果情報として出力端子102から順次出力する。本実施例では、CELP符号化を用いて説明するが、本発明はこれに限定されるわけではない。
【0094】
図2は、CELP符号化のエンコーダ部の一例としてのブロック構成図を表している。CELP符号化は、スペクトル包絡符号帳探索部103a、適応符号帳探索部103b、雑音符号帳探索部103c、ゲイン符号帳探索部103dより構成される。各符号帳探索部で探索されたインデックス情報は音声符号化データとして多重化部103eへ出力される。
【0095】
次に、音声符号化部103の個々の機能について説明する。
【0096】
スペクトル包絡符号帳探索部103aは成分分離部からの音声信号が主体の成分をフレーム毎に入力し、予め用意しているスペクトル包絡符号帳を探索して、入力された信号のスペクトル包絡をより良く表現することのできる符号帳のインデックスを選択し、このインデックスを多重化部103eへ出力する。
【0097】
通常、CELP方式ではスペクトル包絡を符号化する際に用いるパラメータとしてLSP(Line Spectrum Pair)パラメータを用いるが、これに限られるものではなく、スペクトル包絡を表現できるパラメータであれば他のパラメータも有効である。
【0098】
適応符号帳探索部103bは音源の中のピッチ周期で繰り返す成分を表現するために用いる。CELP方式では、符号化された過去の音源信号を所定の長さだけ適応符号帳として格納し、これを音声符号化部と音声復号化部の両方で持つことにより、指定されたピッチ周期に対応して繰り返す信号を適応符号帳から引き出すことができる構造になっている。
【0099】
適応符号帳では符号帳からの出力信号とピッチ周期が一対一に対応するため、ピッチ周期を適応符号帳のインデックスに対応させることができる。
【0100】
このような構造の下、適応符号帳探索部103bでは、符号帳からの出力信号を合成フィルタで合成したときの合成信号と目標とする音声信号との歪みを聴覚重み付けしたレベルで評価し、その歪みが小さくなるようなピッチ周期を探索する。
【0101】
そして、探索されたインデックスを多重化部103eへ出力する。雑音符号帳探索部103cは音源の中の雑音的な成分を表現するために用いる。CELP方式では、音源の雑音成分は雑音符号帳を用いて表される。指定された雑音インデックスに対応して雑音符号帳から様々な雑音信号を引き出すことができる構造になっている。
【0102】
このような構造の下、雑音符号帳探索部103cでは、符号帳からの出力信号を用いて再生される合成音声信号と雑音符号帳探索部5において目標となる音声信号との歪みを聴覚重み付けしたレベルで評価し、その歪みが小さくなるような雑音インデックスを探索する。
【0103】
そして、探索された雑音インデックスを多重化部103eへ出力する。ゲイン符号帳探索部103dは音源のゲイン成分を表現するために用いる。
【0104】
CELP方式では、ピッチ成分に用いるゲインと雑音成分に用いるゲインの2種類のゲインをゲイン符号帳探索部で符号化する。符号帳探索においては、符号帳から引き出されるゲイン候補を用いて再生される合成音声信号と目標とする音声信号との歪みを聴覚重み付けしたレベルで評価し、その歪みが小さくなるようなゲインインデックスを探索する。
【0105】
そして、探索されたゲインインデックスを多重化部103eへ出力する。多重化部103eでは、スペクトル包絡のインデックス、適応符号帳のインデックス、雑音符号帳のインデックスおよびゲイン符号帳のインデックスを多重化し、圧縮結果情報として出力端子102fから順次出力する。
【0106】
<圧縮結果の例>
図5は、圧縮結果情報の内容の例を表しており、また本図は、圧縮結果情報が、始端情報A、終端情報B、および圧縮内容清報Cなどと分類され記録されるようにしていることも表している。
【0107】
各圧縮結果情報において、始端情報Aおよび終端情報Bや、それぞれ対応する入力音声信号区間の開始点および終了点の時刻を記録している。
【0108】
また、圧縮内容情報Cには、対応する入力音声信号の圧縮処理結果が記録されるようにしている(なお、図5など於いて、記号“(”と記号“)”で囲まれた部分は、その中に記載された文字列に対応する入力音声信号の圧縮処理結果の情報を表すものとする。また、記号“.”は、背景雑音等の無音声区間を表すものとする。)。
【0109】
再び図1に戻って構成の説明を続ける。図1における送信制御部104は、認識部102から得られる認識結果情報、および圧縮部103から得られる圧縮結果情報を受けとり、後述の処理に応じてそのどちらかを選択伝達情報として選択し、通信路を通じて受信制御部104へ出力するようにしている。
【0110】
なお、本送信制御部104は、本発明の効果の実現において重要な役割を担うものであるため、その詳細は後ほど示すこととする。
【0111】
<選択伝達情報の内容の例の説明>
図6は、送信制御部104の出力する選択伝達情報の内容の例を表しており、また、本図は選択伝達情報が種別情報A、および伝達内容情報Bなどと分類され、記録されることも表している。各選択伝達情報において、種別情報Aには、対応する選択伝達情報の種別を表す記号が記録されている。
【0112】
ここで、記号「C」は対応する選択伝達情報が圧縮結果情報であることを表し、また、記号「R」は対応する選択伝達情報が認識結果情報であることを表している。また、各選択伝達情報において、伝達内容情報Bの欄には、種別情報Aに対応して、認識結果情報あるいは圧縮結果情報が記録されるようにしている。
【0113】
再び図1に戻って構成の説明を続ける。図1における受信制御部105は、通信路を通じて送信制御部104から得られる選択伝達情報を受けとり、種別情報Aの内容が認識結果情報を表す記号「R」である場合には、伝達内容情報Bの内容を合成部106に渡し、種別情報Aの内容が圧縮結果情報を表す記号「C」である場合には、伝達内容情報Bの内容を、伸長部107へ渡す機能を持つ構成としている。
【0114】
また、図1における合成部106は、受信制御部105から認識結果情報を受けとり、以下に示す方法などによって、音声合成処理を行い、合成音声出力情報として出力部108へ渡す機能を持つ構成としている。
【0115】
<従来の音声合成処理の概要>
図7は、合成部106の構成を示したものである。合成部106は、言語解析部106a、言語辞書記憶部106b、音韻処理部106c、音韻規則記憶部106d、音声波形生成部106e、音声単位情報記憶部106fで構成される。
【0116】
入力されたテキストは、言語解析部106aにより、言語辞書記憶部106dの情報を参照して形態素解析や構文解析、意味解析を行う事により、音韻処理で必要な言語情報が抽出される。
【0117】
例えば、図6の情報の「<わたしは>」の部分は、「読み:(わたし)、アクセント:(O型)、品詞:代名詞/読み:(わ)、アクセント:(O型)、品詞:(助詞)」などのように解析される。また、始端、終端情報は音韻処理部106cに送られる。
【0118】
次に音韻処理部106cでは、音韻規則記憶部106eに格納されている音韻規則に従い、言語情報から、音韻記号列やピッチ周波数パターンやパワー、継続時間、ポーズの位置などの音韻情報を生成する。
【0119】
音韻規則は、例えば、読みから対応する音韻記号との対応、読みの並ぴと音韻継続時間との対応、品詞情報、係り受けなどの情報とピッチ周波数パターン・ポーズ位置との対応などを規則として格納している。ここで、音韻の継続時間長を決定する場合、言語処理部106aから送られた始端、終端情報を用いて、時間長を決定する。
【0120】
最後に、音声波形生成部106cは、音韻記号列を合成単位に分解し、音声単位記憶部106fから、合成単位に対応する音源パラメータや伝達特性パラメータなどの音声単位情報を抽出し、音韻情報にしたがって制御することにより音声信号を生成する。
【0121】
<合成音声出力情報>
図8は、合成部105によって生成され、出力部108へ渡される合成音声出力情報の内容の例を示しており、また本図は、合成音声出力情報が、始端情報A、終端情報B、および合成音声波形情報Cなどと分類され記録されることも表している。
【0122】
各合成音声出力情報に於いて、始端情報Aおよび終端情報Bは、対応する入力音声区間の始点および終点の時刻を記録しており、また合成音声波形情報Cの欄には、対応する合成音声の波形情報が例えばPCM(Pulse Code Modulation)ディジタル波形信号などの形で記録されるようにしている。(なお、図8などに於いて、記号“{”と記号“}”で囲まれた部分は、その中に記載された文字列に対応する合成音声の波形情報を表すものとする。
【0123】
再び図1に戻って構成の説明を続ける。図1における伸長部107は、受信制御部105から圧縮結果情報を受けとり、以下の従来方法等による音声伸長処理を行い、音声伸長情報として出力部108へ渡す様にしている。
【0124】
<音声伸長処理>
伸長部107は、受信制御部105から圧縮結果情報を受けとり、CELPなどの方法によって、音声伸長処理を行い、音声伸長情報として出力部108ヘ渡す。本実施例では、CELP方式を用いて説明を行うが、本発明はこれに限定されるわけではない。
【0125】
図3は、CELP符号化のデコーダ部のブロック図の例を表している。逆多重化部107hは符号化部から送られてきた上述した所定の時問単位毎に圧縮結果情報を分離し、スペクトル包絡のインデックス、適応符号帳のインデックス、雑音符号帳のインデックス、ゲインのインデックスを出力する。スペクトル包絡復号部107dではスペクトル包絡のインデックスと予め用意しているスペクトル包絡符号帳とからスペクトル包絡の情報を再生し、これを合成フィルタ107fに送る。また、適応音源復号部107aで適応符号帳のインデックスを入力し、これに対応するピッチ周期で繰り返す信号を適応符号帳から引き出し、これを音源再生部107eに出力する。
【0126】
雑音音源復号部107bは雑音符号帳のインデックスを入力し、これに対応する雑音信号を雑音符号帳から引き出し、これを音源再生部107eに出力する。
【0127】
ゲイン復号部5107cはゲインのインデックスを入力し、これに対応するピッチ成分に用いるゲインと雑音成分に用いるゲインの2種類のゲインをゲイン符号帳から引き出し、これを音源再生部107eに出力する。音源再生部107eは、適応音源復号部107aからのピッチ周期で繰り返す信号(ベクトル)Epと、雑音音源復号部107bからの雑音信号(ベクトル)Enとゲイン復号部107cからの2種類のゲインGp,Gnを用いて音源ベクトルExを以下のようにして再生する。
【0128】
Ex=GpEp+GnEn
合成フイルタ107fはスペクトル包絡の情報を用いて音声を合成するための合成フィルタのパラメータを設定し、音源再生部107eからの音源信号を入力することにより合成音声信号を生成する。
【0129】
さらにポストフィルタ107gで、この合成音声信号に含まれる符号化歪みを整形し、聞きやすい音となるようにしてから出力部108より出力する。
【0130】
<伸長音声出力情報>
図9は、伸長部106によって生成され、出力部108へ渡される伸長音声出力情報の内容の例を示しており、かつ、本図9は伸長音声出力情報が始端情報A、終端情報B、および伸長音声波形情報Cなどと分類され記録されることも表している。
【0131】
各伸長音声出力情報に於いて、始端情報Aおよび終端情報Bは、対応する入力音声区間の始点および終点の時刻を記録しており、また伸長音声波形情報Cの欄には、対応する伸長音声の波形情報が例えば、PCM(Pulse Code Modulation)デジタル波形信号などの形で記録されるようにしている。(なお、図9などに於いて、記号“{”と記号“}”で囲まれた部分は、その中に記載された文字列に対応する伸長音声の波形情報を表すものとする。
【0132】
図1における出力部108は、例えば、D/A(デイジタル/アナログ)変換器、あるいはアンプ、あるいはスピーカなどから構成され、合成部106から受けとる合成音声情報Oq、および伸長部107から受けとる伸長音声情報Odを、それぞれに含まれる始端情報Aの値Taおよび終端情報Bの値Tbを参照し、現在時刻Tにあらかじめ定めた値Hdを足した時刻(T+Hd)とを比較し、時区間[(Ta+Hd),(Tb+Hd)]に、対応するOqの合成音声波形情報Bの内容Wgあるいは、対応するOdの伸長音声波形情報Bの内容Wdを、利用者への音声信号として出力する構成としている。
【0133】
以上が、本発明の第一の実施例にかかる音声伝達装置を構成する各モジュールの概要であるが、これらの内、入力部101、および認識部102、および圧縮部103、および送信制御部104が送信装置を構成し、受信制御部105、および合成部106、および伸長部107、および出力部108が受信装置を構成している。そして、両装置を、通信路によって接続することによって、本発明にかかる音声伝達装置が実現される。
【0134】
以上が、本発明の第一の実施例にかかる音声伝達装置を構成する各モジュールの概要であるが、これらの内、入力部101、および認識部102、および圧縮部103、および送信制御部104が送信装置を構成し、受信制御部105、および合成部106、および伸長部107、および出力部108が受信装置を構成し、両装置を、例えば、欧州規格であるGSMや日本規格のPDC、米国規格の1S−95などの無線通信システム、さらにインターネットなどのコンピュータネットワークといった通信路によって接続することにより、本発明にかかる音声伝達装置が実現される。
【0135】
つづいて、本発明の効果の実現において主要な役割を担う送信制御部104の動作について詳しく説明する。
【0136】
なお、ここでは、本装置の本質的な機能および効果と無関係な要因によって、不必要に複雑となることを避けるため、圧縮部103おける入力音声情報に対する音声圧縮処理は、認識部102における音声認識処理より十分に早く行われ、同じ音声入力に対する、圧縮結果情報は、対応する認識結果情報と、少なくとも同時かあるいは先行して通信制御部104に到着するものと仮定する。この仮定とは反対に、認識結果情報が圧縮結果状況より先行して到着する状況や、あるいはその両者の通信制御部104への到着順序が変わる状況に対しても同様の効果を実現するよう本装置を構成することも可能であり、上述の仮定によって、一般性を失うことはない。
【0137】
図10は、送信制御部104の内部構成の例を示しており、また送信制御部104が制御部104a、および認識情報キュー104a、および圧縮情報キュー104b、および送信部104c、および制御処理部104dによって構成されていることも示している。
【0138】
図10において104aは、音声認識部102から出力される認識情報キュー(First‐in‐First‐out)を表しており、認識結果情報を随時受けとり、図4に例を示した様に各種情報を分類し入力された順序にしたがって随時記録し、制御処理部104dから入力された順に参照できるようにしている。
【0139】
図10における圧縮情報キュー(First‐in‐First‐out)104bは、音声圧縮部103から出力される圧縮結果情報を随時受けとり、図5に例を示した様に各種情報を分類し、入力される順序にしたがって随時記録し、制御処理部104dから入力された順に参照できるようにしている。
【0140】
また、図10における送信部104cは、制御処理部104dからの制御によって、通信路に選択伝達情報などを出力するようにしている。また、制御処理部104dは、以下に示す“処理手順A”および“処理手順B”にしたがった動作をして本装置の構成要素を制御することで、本発明の効果を実現する。
【0141】
すなわち、送信部に入力される音声信号に対して、音声認識処理および音声圧縮処理とを施し、認識処理の成否の目標であるスコア情報を参照して、認識処理が正しくなされていると考えられる部分については音声認識結果を種別記号と共に伝送するようにし、一方、認識処理が正しくなされていない可能性があると考えられる部分については、音声圧縮結果を種別記号と共に伝送し、そして、受信部では、伝送された情報の種別記号に基づいて、音声合成処理あるいは音声伸長処理を実施し、各対応部分の入力された時刻情報にしたがって、音声信号として出力することによって、高い圧縮率で、かつ伝送誤りの無い音声通信を実現するものである。すなわち、音声認識できた語彙については音声に比べてデータ数の遙かに少ないテキストデータ化できるのでテキストデータで送信し、音声認識が旨くいかない部分については音声圧縮したデータを送信することで、トータルとして高い圧縮率で、かつ伝送誤りの無い音声通信を実現する。
【0142】
なお、図11は、“処理手順A”を説明するフローチャートである。
【0143】
<“処理手順A”での処理>
ステップS1: 圧縮情報キュー104bと、認識情報キュー104aと、種別レジスタVと、内容レジスタwをクリアし、圧縮結果情報の圧縮情報キュー104bへの随時記録と、認識結果情報の認識情報キュー104aへの随時記録を開始する。
【0144】
ステップS2: 認識情報キュー104aが空ならば、ステップA21へ進み、そうでない場合はステップS3へ進む。
【0145】
ステップS3: 認識情報キュー104aの先頭のエントリRiを参照し、その始端情報Aの値Tis、および終端情報Bの値Tie、および認識内容情報Cの値Xiおよびスコア情報Dの値Siを得る。
【0146】
ステップS4: 現在の時間Tからあらかじめ設定したタイムアウト時間Htを引いた値(T−Ht)と、エントリRiの始端の時刻Tisを比較し、(T−Ht)<=Tisである場合はステップA5へ進み、そうでない場合はステップS20へ進む。
【0147】
ステップS5: スコアSiとあらかじめ設定した閾値Hsを比較し、HS<=Siである場合はステップA6へ進み、そうでない場合はステップA20へ進む。
【0148】
ステップS6: 圧縮情報キュー104bが空である場合はステップA2へ進み、そうでない場合はステップS7へ進む。
【0149】
ステップS7: 圧縮情報キュー104bの先頭のエントリCjを参照し、その始点情報Aの値Ujs、および終端情報Bの値Uje、および圧縮内容情報Yjを得る。
【0150】
ステップS8: エントリCjの終端の時刻UjeとエントリRiの始端の時刻Tisを比較し、Uje<=Tisである場合はステップS9へ進み、そうでない場合はステップS11ヘ進む。
【0151】
ステップS9: 種別レジスタVに記号「C」を記録し、内容レジスタwにエントリCjを複写し、“処理手順B”に基づく処理を行う。
【0152】
ステップS10: 圧縮情報キュー104bからエントリCjを取り除き、ステップS6へ進む。
【0153】
ステップS11: エントリCjの始端の時刻Ujsおよび終端の時刻Ujeと、エントリRiの始端の時刻Tjsを比較し、Ujs<=Tjsである場合はステップS12へ進み、そうでない場合はステップS15へ進む。
【0154】
ステップS12: 種別レジスタVに記号「C」を記録し、内容レジスタwにエントリCjを複写する。
【0155】
ステップS13: 内容レジスタwの圧縮内容情報Cの時区間[Ujs,Tis]に対応するデータを抽出し、内容レジスタwの圧縮内容情報Cに保存し、内容レジスタwの終端情報BにTisを記録し、“処理手順B”に基づく処理を行う。
【0156】
ステップS14: エントリCjの圧縮内容情報Cの時間Tisから終端 (Uje)に対応するデータを抽出し、エントリCjの圧縮内容情報Cに保存し、エントリCjの終端情報BにTisを記録する。
【0157】
ステップS15: 種別レジスタVに記号「R」を記録し、内容レジスタwにエントリRiを複写し、“処理手順B”に基づく処理を行う。
【0158】
ステップS16: エントリRiの始端の時刻Tis、および終端の時刻Tie、およびエントリCjの始端の時刻Ujsおよび終端の時刻Ujeを比較し、Tis<=UjsかつUje<=Tieである場合はステップS17へ進み、そうでない場合はステップS18へ進む。
【0159】
ステップS17: 圧縮情報キュー104bからエントリCjを取り除き、ステップS16へ進む。
【0160】
ステップS18: エントリRiの始端の時刻Tis、および終端の時刻Tie、およびエントリC5の始端の時刻Ujsおよび終端の時刻U5eを比較し、TiS<=UjsかつTie<=Ujeである場合はステップA19へ進み、そうでない場合はステップS20へ進む。
【0161】
ステップS19: エントリCjの圧縮内容情報Cの時区間[Tie,Uje]分のデータを抽出し、エントリCjの圧縮内容情報Cに保存し、エントリCjの始端情軒LにTieを記録する。
【0162】
ステップS20: 認識情報キュー104aからエントリRiを取り除く。
【0163】
ステップS21: 圧縮情報キュー104bが空ならば、ステップS2へ進み、そうでない場合はステップS22へ進む。
【0164】
ステップS22: 現在の時間Tから、あらかじめ設定したタイムアウト時間Htを引いた値(T−Ht)と、エントリCjの終端の時刻Ujeを比較し、Uje<=(T−Ht)である場合はステップS23へ進み、そうでない場合はステップS2へ進む。
【0165】
ステップS23: 種別レジスタVに記号 C」を記録し、内容レジスタwに1ントリCjを複写し、“処理手順B”に基づく処理を行う。
【0166】
ステップS24: 圧縮情報キュー104bからエントリCjを取り除き、ステップS22へ進む。
【0167】
次に“処理手順B”を説明する。
【0168】
“処理手順B”
ステップB1: 種別情報として種別レジスタVの内容を持ち、かつ内容情報として、内容情報レジスタWの内容を持つ選択伝達情報を、送信部104cから出力する。
【0169】
ステップB2: 種別レジスタV、および内容情報レジスタWをクリアする。
【0170】
以上が本装置の構成とその機能である。次に具体的な処理例を説明する。
【0171】
<具体的処理例の説明>
ここで先ず上述した音声伝達装置の処理について、図を参照して更に詳しく説明する。
【0172】
(1) まず、“処理手順A”のステップS1によって、送信制御部104の、圧縮情報キュー104bと、認識情報キュー104aと、種別レジスタVと、内容レジスタWがクリアされ、また圧縮結果情報の圧縮情報キュー104bへの随時記録と、認識結果情報の認識情報キュー104aへの随時記録が開始される。
【0173】
(2) ここで、送信側の利用者が「私は佐藤七郎です (わたしはさとうしちろうです)」と発声し、入力部101から入力されたものとする。
【0174】
(3) この音声入力は入力部101によって取り込まれ、音声入力情報とし て、認識部102および圧縮部103へと渡される。
【0175】
(4) この入力音声情報は、認識部102で音声認識処理され、図4に示した認識結果情報I1〜I4に出力され、送信制御部104へ随時渡されたものとする。
【0176】
(5) これら認識結果情報I1〜I4が、認識情報キュー104aに随時記録される。
【0177】
(6) また同時に、圧縮部103で圧縮処理され、図5に示した圧縮結果情報J1〜J3が出力され、送信制御部104に随時渡されるものとする。
【0178】
(7) これら圧縮結果情報J1〜J3が、圧縮結果キュー104bに随時記録さる。
【0179】
ここでは、以上の認識結果情報I1〜I4および圧縮結果情報J1〜J3の始端および終端が図12に示した様な時間的な前後関係を持っているものとし、それぞれの情報はその終端の時刻(Tle,T2e,T3e,T4e,Ule,U2e,U3e)に通信制御部104に到達するものとする。
【0180】
なお、閾値HtおよびHdは、認識結果情報11〜14および圧縮結果情報J1〜J3に対応する時区間の長さと比較して十分に大きな値が設定されているものとする。また、認識結果情報11,12,14のスコア情報Dの値S1,S2,S4は音声認識処理の新表性を判断するための閾値Hsを上回り、認識結果情報13のスコア情報Dの値S3は閾値HSを下回っていたものとする。
【0181】
(t<Tleの場合)
(8) 最初の認識結果情報が到達する時刻Tleまでの間は、認識情報キュー104aおよ圧縮情報キュー104bが双方とも空であるので、“処理手順A”のステップS2およびステップS21が構成するループにより、本装置は待機状態となる。
【0182】
(t=Tleの場合)
(9) 時刻Tleにおいて、認識結果情報I1が送信制御部104へ到達し、認識情報キュー104aに記録される。
【0183】
(10) ステップS2からステップS3へ進む。
【0184】
(11) ステップS3で、現在の時刻Tから閾値Htを引いた値と、認識結果I1の始端の時刻Tlsが比較されるが、Htは十分に大きな値であるので、(T−Ht)<=Tlsであり、ステップS5へ進む。
【0185】
(12) ステップS5で、認識結果情報I1のスコアS1が閾値Hsと比較されるが、ここでは、HS<=S1であるので、ステップS6へ進む。
【0186】
(13) この時点では、圧縮情報キュー104bは空であるので、ステップA6からステップS2へ戻る。
【0187】
(Tle<t<Uleの場合)
以上のステップA2〜ステップA6のループによって、圧縮結果情報J1到達するまでの、Tle<T<U2s(=Ule)なるTの間、本装置は待機することになる。
【0188】
(t=Uleの場合)
(14) 時刻U2s(=Ule)に於いて、最初の圧縮結果情報J1が送信制御部104にもたらされ、圧縮情報キュー104bに記録される。
【0189】
(15) これにより、上記のステップS2〜S6のループの中のステップS6での分岐条件が成立し、ステップA7へ進む。
【0190】
(16) ステップS7において、圧縮結果情報J1の始端の時刻U1sおよび終端の時刻Uleなどを得る。
【0191】
(17) ステップS8において、Ule<=Tlsが成立しないので、ステップS11へ進む。
【0192】
(18) ステップS11において、Uls<=Tlsが成り立つので、ステップS12へ進む。
【0193】
(19) ステップS12において、種別レジスタVに記号「C」が記録され、内容レジスタwに1ントリCjの内容が複写される。
【0194】
(20) ステップS13において、内容レジスタwの圧縮内容″情報Cの時区間[Uls,Tls]に対応するデータが抽出され、内容レジスタwの圧縮内容情報Cに保存され、内容レジスタWの終端情報BにTlsが記録され、“処理手順B”に基づく処理によって、図6の1D=K1のエントリに示した選択伝達情報が、送信部104cから送信される。
【0195】
以上の処理によって、時区間[Uls,Tls]に対応する音声信号の圧縮結果情報を含む選択伝達情報(図6のK1)のエントリが送信されることとなる。
【0196】
(21) ステップS14において、圧縮結果情報J1(=J1′)の圧縮内容情報Cの時区間[Tle,Ule]に対応するデータ「(..)」が抽出され、圧縮結果情報J1の圧縮内容情報Cに保存され、また終端情報BにTlsが記録されることによって、図5の1D=J1の1ントリは、1D=σ1′のエントリの如きに書き換えられる。
【0197】
(22) ステップS15において、種別レジスタVに記号「R」が記録され、内容レジスタwに認識結果情報I1が記録され、“処理手順B”に基づく処理によって、送信部から、図6の1D=K2のエントリに示した選択伝達情報が、送信部104cから送信される。
【0198】
以上の処理によって、時区間[Tls,Tle]に対応する音声信号の認識結果情報を含む選択伝達情報(図6のK2のエントリ)が送信されることとなる。
【0199】
(23) ステップS16において、認識結果情報I1の始端の時刻Tisおよび終端の時刻Tle、および圧縮結果情報J1′の始端の時刻Ulsおよび終端の時刻U1eが比較され、Tls<=Tls、かつ、Ule<=Tleが成り立たないため、ステップS18へ進む。
【0200】
(24) ステップS18において、認識結果情報I1の始端の時刻Tls、および終端の時刻Tle、および圧縮結果情報J1′の始端の時刻Ulsおよび終端の時刻U1eが比較され、Tls<=TlsかつTle<=Uleが成り立つため、ステップS19へ進む。
【0201】
(25) ステップS19において、圧縮結果情報J1′の圧縮内容情報Cの時区間[Tle,Ule]分のデータが抽出され、圧縮結果情報J1′の圧縮内容情報Cに保存され、圧縮結果情報J1′の始端情報AにTleが記録されることによって、図5の1D=J1′のエントリは、1D=J1″のエントリの様に書き換えられる。
【0202】
(26) ステップS20において、認識情報キュー104aから、認識結果情報I1が取り除かれる。
【0203】
(27) ステップS21において、圧縮情報キュー104bは空でないので、ステップS22ヘ進む。
【0204】
(28) ステップS22において、現在の時間Tからあらかじめ設定したタイムアウト時間Htを引いた値(T−Ht)と、圧縮結果情報Jl″の終端の時刻U1eが比較され、その結果、Ule<=(T−Ht)でないので、ステップS2へ進む。
【0205】
(29) ステップS2において、認識情報キュー104aが空であるので、ステップS21ヘ進む。
【0206】
(U2s<T<T2eの場合)
ここから、上記(27)〜(28)と同様の処理によって本装置は待機状態となり、次の認識結果情報I2が到達するまでの、U2s<T<T2eなるTの間、本装置は待機することとなる。
【0207】
t=T2e
(30) 時刻T2eにおいて、認識結果情報I2が送信制御部104へ到達し、認識情報キュー104aに記録される。
【0208】
(31) (10)〜(12)と同様の処理によって、ステップS2から、ステップS3、ステップS4、およびステップS5の処理をへて、ステップS6へ進む。
【0209】
(32) ステップS6において、圧縮情報キュー104bは空でないので、ステップS7へ進む。
【0210】
(33) ステップS7において、圧縮情報キュー104bの先頭のエントリ圧縮結果情報J1”を参照し、その始点情報Aの値Tle、および終端情報Bの値Uleなどを得る。
【0211】
(34) ステップS8において、Tle<=T2sであるのでステップS9へ進む。
【0212】
(35) ステップS9においては、種別レジスタVに記号「C」を記録し、内容レジスタwに圧縮結果情報J1″複写し、処理手順Bに基づく処理を行うことで、図6のID=K3のエントリに示した選択伝達情報が送信部104cから送信される。
【0213】
以上の処理によって、時区間[Tle,Ule]に対応する音声信号の圧縮結果情報を含む選択伝達情報(図6のK3のエントリ)が送信されることとなる。
【0214】
(36) ステップS10において、圧縮情報キュー104bから圧縮結果情報J1”が取り除かれ、ステップS6へ進む。
【0215】
(37) ステップS6において、圧縮情報キュー104bが空である場合なのでステップS2ヘ進む。
【0216】
(T2e<t<U2e)
ここから、(10)〜(13)と同様の処理によって、ステップS2からステップS6のループによって、次の圧縮結果情報J2が到達するまでの、T2e<T<U2eなるTの間、本装置は待機することとなる。
【0217】
(t=U2e)
(38) 時刻U3s(=U2e)に於いて、二つめの圧縮結果情報J2が送信制御部104にもたらされ、圧縮情報キュー104bに記録される。
【0218】
(39) (15)〜(20)と同様の処理によって、ステップS13において、内容レジスタwの圧縮内容情報Cの時区間[U2s,T2s]に対応するデータが抽出され、内容レジスタwの圧縮内容情報Cに保存され、内容レジスタwの終端情報BにT2sが記録され、“処理手順B”に基づく処理によって、図6の1D=K4のエントリに示した選択伝達情報が、送信部104cより送信されることとなる。
【0219】
以上の処理によって、時区間[U2s,T2s]に対応する音声信号の圧縮結果情報を含む選択伝達情報(図6のK4のエントリ)が送信されることとなる。
【0220】
(40) (21)〜(22)と同様の処理によって、ステップS15において、種別レジスタVに記号「R」が記録され、内容レジスタwに認識結果情報が記録され、“処理手順B”に基づく処理によって、送信部から、図6の1D=K5のエントリに示した選択伝達情報が、送信部104cより送信される。
【0221】
以上の処理によって、時区間[T2s,T2e]に対応する音声信号の認識結果情報を含む選択伝達情報(図6のK5のエントリ)が送信されることとなる。
【0222】
(41) 上記(23)〜(25)と同様の処理によって、ステップS19において、圧縮結果情報J2′の圧縮内容情報Cの時区間[T2e,U2e]分のデータが抽出され、圧縮結果情報J2′の圧縮内容情報Cに保存され、圧縮結果情報J2′の圧縮結果情報J2′の始端情報AにT2eが記録されることによって、図5の1D=J2′のエントリは、1D=J2″のエントリの如きに書き換えられる。
【0223】
(42) 上記(26)〜(29)と同様の処理によって、ステップS21へと進む。
【0224】
(U3s<t<T3e)
ここから、上記(27)〜(28)と同様の処理によって本装置は待機状態となり、次の認識結果情報I3に到達するまでの、U3s<T<13eなるTの間、本装置は待機することとになる。
【0225】
t=T3e
(43) 時刻T3eにおいて、認識結果情報I3が送信制御部104へ到達し、認識情報キュー104aに記録される。
【0226】
(44) 上記(10)〜(11)と同様の処理によって、ステップS5へ進む。
【0227】
(45) ステップS5において、認識結果情報I3のスコアS3が閾値Hsと比較されるが、ここでは、Hs<=S3が成り立たないため、ステップS20へ進む。
【0228】
(46) ステップS20において、認識情報キュー104aから、認識結果情報I3が取り除かれる。
【0229】
以上の処理によって、信頼性が不十分であると判定された音声認識結果(I3)は破棄されることとなる。
【0230】
(T3e<t<T4e)
ここから、上記(27)〜(28)と同様の処理によって本装置は待機状態となり、次の認識結果情報I4が到達するまでの、T3e<T<T4eなるTの間、本装置は待機することとになる。
【0231】
t=T4e
(47) 時刻T4eにおいて、認識結果情報I4が送信制御部104へ到達し、認識情報キュー104aに記録される。
【0232】
(48) 上記(31)〜(35)と同様の処理によって、ステップS9において、種別レジスタVに記号「C」を記録し、内容レジスタwに圧縮結果情報J2″複写し、“処理手順B”に基づく処理を行うことで、図6のID=K6のエントリに示した選択伝達情報が送信部104cから送信される。
【0233】
以上の処理によって、時区間1T2e,U2e]に対応する音声信号の圧縮結果情報を含む選択伝達情報(図6のK6のエントリ)が送信されることになる。
【0234】
(49) 上記(36)〜(37)と同様の処理によってステップS2に進む。
【0235】
(T3e<t<U4e)
ここから、上記(10)〜(13)と同様の処理によってステップS2からステップS6のループによる次の圧縮結果情報J3が到着するまでの、T3e<t<U3eなるTの間、本装置は待機することとなる。
【0236】
(t=U3e)
(50) 時刻U3eにおいて、三つ目の圧縮結果情報J3が送信制御部104にもたらされ、圧縮情報キュー104bに記録される。
【0237】
(51) 上記(15)〜(20)と同様の処理によって、ステップS13において、内容レジスタwの圧縮内容惰報Cの時区間[U3s,T4s]に対応するデータが抽出され、内容レジスタwの圧縮内容情報Cに保存され、内容レジスタwの終端情報BにT4sが記録され、“処理手順B”に基づく処理によって、図6のID=K7のエントリに示した選択伝達情報が送信部104cから送信される。
【0238】
以上の処理によって、時区間[U3s,T4s]に対応する音声信号の圧縮結果情報を含む選択伝達情報(図6のK7のエントリ)が送信されることとなる。(52) 上記(21)〜(22)と同様の処理によって、ステップS15において、種別レジスタVに記号「R」が記録され、内容レジスタwに認識結果情報I4が記録され、“処理手順B”に基づく処理によって、送信部から図6のID=K8のエントリに示した選択伝達情報が送信部104cから送信される。
【0239】
以上の処理によって、時区間[T4s,T4e]に対応する音声信号の認識結果情報を含む選択伝達情報(図6のK8のエントリ)が送信されることとなる。
【0240】
(53) 上記(23)〜(25)と同様の処理によって、ステップS19において、圧縮結果情報J3′の圧縮内容情報Cの時区間[T4e,U4e]分のデータが抽出され、圧縮結果情報J3′の圧縮内容情報Cに保存され、圧縮結果情報J3′の圧縮結果情報J3′の始端情報AにT4eが記録されることによって、図5のID=J3′のエントリは、ID=J3″のエントリの如きに書き換えられる。
【0241】
(54) 上記(26)〜(29)と同様の処理によって、ステッブA2エへと進む。
【0242】
(U3e<t<U3e+Ht)
ここから、上記(27)〜(28)と同様の処理によって本装置は待機状態となり、最後の圧縮結果情報J3が到達してから、あらかじめ定めたタイムアウト時間Htが経過するまでの、U3e<T<U3e+HtなるTの間、ステップS2およびステップS21およびステップS22が構成するループによって、本装置は待機することとになる。
【0243】
(t=U3e+Ht)
(55) 時刻T=U3e+Htを過ぎた後、ステップS22において、現在の時間Tからあらかじめ設定したタイムアウト時間Htを引いた値(U3e−Ht)と、圧縮結果情報J3″の終端の時刻U3eが比較され、その結果、U3e<=(T−Ht)であるので、ステップS23へ進む。
【0244】
(56) ステップA23において、種別レジスタVに記号「C」を記録し、内容レジスタwに圧縮結果情報J3″が複写され、“処理手順B”に基づく処理によって、図6のID=K9のエントリに示した選択伝達惰報が送信部104cから送信される。
【0245】
以上の処理によって時区間[T4e,U3e]に対応する音声信号の圧縮結果情報を含む選択伝達情報(図6のK7のエントリ)が送信されることとなる。
【0246】
(57) ステップS24において、圧縮情報キュー104bから取り除き、ステップS22ヘ進む。
【0247】
ここから本装置は待機状態となる。
【0248】
以上に具体例を示した処理によって、本発明の送信制御部104から、図6に示した選択伝達情報が受信制御部105へ順次伝達される。
【0249】
さらに、この選択伝達情報はその種別情報Aの内容に応じて分配され、音声合成部106および音声伸長部107で処理されることによって、それぞれから、図8に示した合成音声出力情報および図9に示した伸長音声出力情報が得られ、出力部108へもたらされ、これらの情報がそれぞれの時間情報に基づいて、順次出力されることによって、図9のID=N1のエントリ、図8のID=M1のエントリ、図9のID=N2のエントリ、図9のID=N3のエントリ、図8のID=M2のエントリ、図9のID=N4のエントリ、図9のID=N5のエントリ、図8のID=M3のエントリ、および図9のID=N6のエントリの順で出力されることになる結果、
「{..}{わたしは}{..}{..}{さとう} {..ひち}{ろう..}{です}{..}」
という音声出力がなされる。
【0250】
ここでは、本装置に入力された音声信号のうち、音声認識処理に成功した「わたしは」、「さとう」、および「です」の部分については、音声認識結果を伝達することによって、高い圧縮率によって通信コストを軽減することに成功しており、一方、音声認識処理に失敗した「ひちろう」に相当する部分や、背景雑音に相当する部分については、音声圧縮処理による通信が行われることによって、誤りのない通信を実現している。
【0251】
すなわち、この実施例では、音声信号を入力するとこの入力された音声信号を認識処理し、入力音声信号のうちの音声認識処理に成功した語彙の部分については、音声認識した結果としての言葉をテキストデータとして伝達するようにし、これによって高い圧縮率による通信コスト軽減を図るようにし、音声認識処理に失敗した語彙部分や、背景雑音に相当する部分については、音声信号の圧縮処理により音声信号の圧縮データを通信するようにして、誤りのない通信を実現するものである。
【0252】
従って、このような本システムによれば、従来の符号化による圧縮通信では、伝達できる音声の品質と圧縮度の間にトレードオフがあるため、可能な圧縮比率に限界があったという問題点を解決し、より効率の高い音声伝送が可能となる。また、従来の知的符号化による通信では避けることの出来なかった音声認識処理での誤認識に起因する伝送内容の誤り発生を避けることが出来る音声伝送が可能となる。また、従来の知的符号化による通信では避けることの出来なかった、音声合成処理での誤生成に起因する伝送内容の誤りを、避けることが出来る音声伝送が可能となる。また、以上によって、従来の符号化による圧縮通信より高い効率の伝送で、かつ伝送内容に誤りを起こさない音声伝送が可能となる。
【0253】
尚、本発明にかかる音声伝達装置は上述した例に限定されるものではない。例えば、上述の例では、音声入力が利用者からマイクロホンなどによってなされ、また音声出力がスピーカなどによってなされる例が示されているが、入力音声あるいは出力音声として、例えば、磁気記録装置などに記録されている音声データを用いたり、あるいはネットワークを介して得られるデータとしても良い。
【0254】
また、あるいは、上述の例では結果認識情報の認識内容情報として、文字列や音韻列などによって、書き下された情報を伝達する例を挙げたが、ここで例えば一意の認識結果ではなく、複数の認識候補をパラメータ情報と共に伝達したり、あるいは認識処理の中間データを伝達するように構成し、音声認識処理における不必要な詳細化を避けて効率化を図るようにすることも可能である。
【0255】
またあるいは、上述では、音声認識処理の認識単位が単語である場合の例を示したが、例えば、音韻レベルの認識を行ったり、あるいは文(発話)レベルの認識を行うようにして本発明を構成することも可能である。
【0256】
またあるいは、上述の例では、音声信号の開始時点と終了時点の情報を伝送することによって、途切れのない音声出力を実現しているが、さらに入力音声を分析し、基本周波数成分などを分析することによって、入力音声のイントネーション情報などもを送信部から合わせて伝達し、受信部においてこの情報に基づいて合成する合成音声の基本周波数の変化を適宜制御することにより、合成音声波形と、伸長音声波形をイントネーションに関してもスムーズに結合しつつ、元の入力音声の持つイントネーションを保存して伝達できるよう構成することも可能である。
【0257】
次に、上記構成のシステムに、学習機能を持たせることによって肉声の持つ個性までも正しく伝達できるようする例を第二の実施例として説明する。
【0258】
[第二の実施例]
以下、図面を参照して本発明の第二の実施例に係る音声伝達装置につき説明する。第一の実施例によれば、肉声による発話内容を誤りがなく、かつ、高い圧縮率で伝達できる音声伝達装置が実現されるが、音声信号には、例えば、声質など個性を表す情報が含まれており、これもまた、音声を用いたコミュニケーションで重要な役割を担っている。
【0259】
本第二の実施例では、合成音声を生成するための規則などに学習機能を追加することによって、音声の持つ個性までもを正しく伝達でき、かつ高い伝送効率が実現でき、また使用していく過程で学習が進み、次第に伝送効率が向上するといった利点を実現するものである。
【0260】
[構成の説明]
図13は、本発明の第二の実施例にかかる音声伝達装置の構成の概要を表している。図からわかるように、本装置は図1に示した第一の実施例の構成要素に、学習状況記憶部209、および学習部210および合成規則記憶部211を追加した構成としたものである。
【0261】
なお、本実施例では、簡単のため、音声認識処理および音声合成処理が音素を最少単位として行われ、かつ、音声認識処理の時区間単位と、音声圧縮処理の時区間単位が同期して行われるものとして説明する。
【0262】
図13において、201は入力部であって、第一の実施例での入力部101と同様の機能を持つ。また、202は認識部であり、第一の実施例での認識部102と同様の機能を持ち、入力音声情報に対して音声認識処理を行い、図14に例を示した如きの認識結果情報を出力する構成としてある。
【0263】
すなわち、認識部202の出力する認識結果情報は図14に例示した如く、認識結果情報報が、始点情報A、終点情報B、ラベル情報C、スコア情報D、およびF0情報Eなどと分類されて記録される。
【0264】
ここで、始点情報A、終点情報B、スコア情報Dは、図4に示した第一の実施例での認識結果情報の場合と同様である。
【0265】
また、ラベル情報Cは対応する音声信号の認識結果である音声素片の名前を表しており、またF0情報Eは、対応する音声信号の基本周波数の代表値などを表しており、これらは、図4に示した第一の実施例での認識内容情報Cに相当するものである。(なお、音声素片は、しばしば母音と子音の組合せなどによって表現されるが、ここでは、記号“/”および“/”で囲まれた記述が中に記載された文字に対応する音声素片の識別記号を表現しているものとする。)
図13に戻って構成を説明する。図13における構成要素である圧縮部203は、第一の実施例での圧縮部103と同様の機能を持ち、入力音声情報に対して圧縮処理を行い、図15に例示した如きの圧縮結果情報を出力する構成としてある。
【0266】
圧縮部203の出力する図15に示した圧縮結果情報の例は、圧縮結果情報が、始点情報A、終点情報B、圧縮内容情報Cなどと分類されて記録されることも表している。ここで、始点情報A、終点情報B、圧縮内容情報Cは、図5に示した第一の実施例での圧縮結果情報の場合と同様である。
【0267】
図13に戻って構成を説明する。図13における構成要素である送信制御部204は送信制御を司るものであり、また、受信制御部205は受信制御を司るものであって、これら送信制御部203の動作、および受信制御部204の動作も本実施例の効果の実現にあたって主要な役割を果たしているため、後ほど詳しく説明することとする。
【0268】
図13における合成部206は、第一の実施例の合成部106と同様の機能を持ち、受信制御部204から与えられる選択伝達情報の中の認識内容情報を受け取り、例えば、生成すべき文字列に対応するラベルの系列、あるいは基本周波数の制御信号、あるいは各音素の継続時間の制御信号などを生成し、合成規則記憶部211の内容を参照して、ラベル系列の各要素に対して、ラベル名が一致し、かつ基本周波数F0および継続時間長が最も類似したエントリを集め、例えば、ピッチ同期などの手法を用いて接続したりすることによって音声合成処理を行い、合成音声出力情報を生成し、出力部208へ渡す機能を有するものである。
【0269】
また、伸長部207は、第一の実施例の伸長部107と同様の機能を持ち、受信制御部204から与えられる選択伝達情報の中の圧縮内容情報を受け取り、音声伸長処理を行い、伸長音声出力情報を生成し、出力部208と学習部210に渡す機能を有する。
【0270】
また、伸長部207は、学習部210から圧縮された音声素片の情報を受けとり、その伸長処理結果を学習部210に返す機能を有する。また、出力部208は、第一の実施例の出力部108ど同様の機能を持ち、合成部206および、伸長部207から、合成音声出力情報および伸長音声出力情報を受け取り、音声出力を行うようにしている。また、学習状況記憶部209は、送信部から受信部へ、これまでに送付した学習対情報に関する情報を保持するものであり、ある入力音声の認識結果情報あるいは圧縮結果情報と照合することによって、それらの情報に基づく学習対情報を受信部に送るべきか否かを判断するために利用されるようにしている。
【0271】
図16は、学習状況記憶部209の記憶内容の例を表しており、これまでに送付した学習対情報に関する情報が、ラベル情報A、F0情報B継続時間長情報C、および音声素片情報Dなどと分類され記録されるようにしている。
【0272】
なお、図16などで、記号“/”および記号“/”で囲まれた部分は、中に記載された文字に対応する音声の音声素片を表す記号である。
【0273】
なお、通常音声素片は、しばしば子音と母音の順序を持った組合せによって表現されることが多いが、ここでは、簡単のため、表層文字で表現することとする。
【0274】
学習状況情報記憶部209の各エントリにおいて、ラベル情報Aは、対応する音声素片の識別記号であるラベルが記録される。また、F0情報B、および継続時間長情報Cの欄には、対応する音声素片の音声合成処理での利用を決定する際の基準となる、基本周波数の代表値、および継続時間長の情報が記録されるようにしている。また、音声素片情報Dの欄には、対応する音声素片の波形情報あるいはその圧縮結果などを記録するようにしている。
【0275】
図13における学習部210は、受信制御部205から受け取る学習対情報を参照して音声合成のための合成規則を生成し、合成規則記憶部211に適宜記録する機能を有する。また、合成規則記憶部211は、あらかじめ用意した音声合成の為の規則や、学習部210から得られる新規あるいは修正された音声合成のための規則を保持する機能を有する。
【0276】
図17は、合成規則記憶部211の内容の例を示しているが、図16に示した、学習状況記憶部209の内容の例と同様の情報が記録されることが示されている。
【0277】
また、図18は、合成部206および学習部210および合成規則記憶部211の内部構成の例を表している。ここでは、合成部206が、言語処理部206a、韻律処理部206b、および音声波形生成部206cから構成されることと、合成規則記憶部211が、言語辞書記憶部206a、韻律規則記憶部211b、音声単位情報記憶部211cから構成されることと、学習部210が、音声分析部210a、韻律規則学習部210b、および音声単位学習部201cから構成されることも示されている。
【0278】
ここで、言語処理部206a、韻律処理部206b、音声波形生成部206c、言語辞書記憶部211a、韻律規則記憶部211b、および音声単位情報記憶部211cは、それぞれ、図7に示した第一の実施例の言語処理部106a、韻律処理部106b、音声波形生成部106c、言語辞書記憶部106d、韻律規則記憶部106e、および音声単位情報記憶部106fと同様の働きを持つ。
【0279】
学習部210では、認識結果と対応する音声信号の伸長された波形信号の組を受け取り、音声分析処理、韻律規則学習処理、および音声単位情報学習処理がなされ、音声合成のための音韻規則および音声単位情報が抽出され、合成規則記憶部210に記録するようにしている。
【0280】
音声分析部210aは、伸長部207から得られる伸長音声出力情報の音声信号を分析して、発声区間中のピッチ周波数パターンや、合成単位の特徴パラメータなどの音声単位情報を抽出する。なお、ここで特徴パラメータとして、ホルマントやケプストラム、LPC係数・残差波形対などがある。
【0281】
韻律規則学習部201bは、音声分析部210aで分析した分析情報と認識結果から、韻律規則を新たに学習したり、または既存の韻律規則を修正するようにしている。
【0282】
音声単位学習部201cは、音声分析部211bの処理で分析して得られた特徴パラメータと合成単位情報記憶部に記憶されている特徴パラメータとを比較して、音声単位情報記憶部211cの情報を学習、または修正するようにしている。
【0283】
<学習処理>
ここで、学習部210における学習処理の方法の概要について説明する。
従来、音声合成装置において、アクセン卜・イントネーションなどを制御する音韻規則や、音声波形を生成するための音声単位・情報などは、大量の音声データを学習データとし、学習することにより規則や制御に用いるパラメータ値が適切になるように求めている。
【0284】
例として、音韻継続時間長を決定する規則の学習について述べる。
【0285】
音韻継続時間長を決定する規則の一つとして、統計的手法を用いて複数の制御要因に対する計算モデルの最適部を数量化1類を用いて行う方式“(酒寄「規則合成のための数量化1類を用いた韻律制御」日本音響学会講演論文集、3−4−17(1986))”がある。
【0286】
これは、音韻種類や音韻環境、発話区分長などの制御要因と、計算モデルにおける継続時間長を求める式における制御要素の寄与度を示す係数を、同式により予測された音韻継続時間長と実測された時間長との平均2乗誤差を最小化するように求めるものである。このような手法では、制御要因をもつ音声データが多いほど、適切な係数を得ることができる。
【0287】
従って、音声データを多く与えるほど、最適な規則が学習される。また、その他の手法として、回帰木を用いた手法や、出現頻度により最適なものを選択するなどの方法もある。ここでの音韻種類や音韻環境、発話区分長などの制御要因をもつ音声データは、予め用意するか、または、音声認識や音声分析の技術により、所望の制御要因を生成することができる。
【0288】
ここでは、規則の学習として音韻継続時問長を決定する規則について述べたが、ピッチパターンや、パワー制御などもの規則も同様な手法で学習することができる。
【0289】
次に、音声波形を生成するための特徴パラメータなどの音声単位・情報も、同様に学習データとして与え、学習により最適な音声単位・情報を求めることができる。
【0290】
例えば、音声データベースから音声単位を自動的に生成する方法“(中嶋「音韻環境に基づくクラスタリングによる規則合成法」電子情報通信学会論文集D−II、vool、J72−D−II、No.8、pp.1174−1179(1989))”では、スペクトルパラメータの分散に基づいて音韻環境の拘束条件下で音声単位をクラスタリングし、各クラスタのセントロイドを代表の音声単位とするものであり、多くの音声データを与えるほど、最適な音声単位が得られる。
【0291】
ここで、音声データベースは、予め用意するか、または、音声認識や音声分析の技術により、音声単位ごとのスペクトルパラメータなどの特徴パラメータを随時生成することができる。
【0292】
つづいて、送信制御部204の機能について説明する。
【0293】
送信制御部204は、基本的に第一の実施例の送信制御部104と同様の方法によって、同様の機能を実現した上に、以下に示す“処理手順C”に従った制御によって合成規則の学習のためのデータである学習対情報を送信する機能を実現するものである。
【0294】
なお、本送信制御部204および受信制御部204などでは、音声認識処理の行われれない無音区間については、上述の第一の実施例と同様の処理がなされるものとし、音声認識が行われた部分についてのみ説明を行うこととする。
【0295】
図19は、学習対情報の例を示しており、学習対情報がラベル情報A、F0情報B、継続時間情報C、および音声素片波形情報Dなど分類され、記録されていることも示している。なお、これらのは、ラベル情報A、F0情報B、継続時間情報Cは、図17に例を示した合成規則記憶部211のエントリと同様の意味を持つものとする。また、音声素片波形情報Dは、合成規則記憶部211のエントリの音声素片情報Dの内容に対応する音声素片の波形情報が記録されるようにしている。
【0296】
“処理手順C”の内容を説明する。
【0297】
“処理手順C”
ステップC1: 認識部202から認識結果情報Riを受けとる。
【0298】
ステップC2: 圧縮部203から、認識結果Riと時間的に対応する圧縮結果情報Cjを得る。
【0299】
ステップC3: 認識結果情報Riの始点情報Aの値Tis′および終点情報Bの値Tie′から、式Li=Tie′−Tis′によって、継続時間Diを得る。
【0300】
ステップC4: 認識結果情報Riのスコア情報の値Siと、予め定めた閾値Hs′とを比較し、Si>=Hs′である場合はステップC5へ進み、そうでない場合はステップC8へ進む。
【0301】
ステップC5: 学習状況記録部209を参照し、ラベル情報Aの値Lxが、認識結果情報Riのラベル情報Cの値Liと一致し、かつ、F0情報Bの値Fx2:認識結果情報RiのFO情報Eの値Fiの差があらかじめ定めた閾値Hf以下であり、かつ、継続時間情報Cの値と継続時間Diとの差があらかじめ定めた閾値Hd以下であり、かつ、その差が最も小さい学習状況記録部209のエントリXを探索し、そのようなエントリXが存在する場合は、ステップC6へ進みそうでない場合はステップC7へ進む。
【0302】
ステップC6: ステップC5の処理の結果、エントリXが得られたということは、対応する音声信号を合成部206において、合成出力するための合成規則が、合成規則記憶部211に既に登録済みであるということを意味するので、認識結果情報を伝達することとし、第一の実施例と同様の方法によって、認識結果Riに対応する選択伝達情報を送信し、ステップC8へ進む。
【0303】
ステップC7: 一方、ステップC5での処理の結果、エントリXが得られなかったということは、対応する音声信号を合成部206において、合成出力するための合成規則が合成規則記憶部211に登録されていないことを意味するので、“処理手順D”によって、対応する音声信号を合成に用いる合成規則を学習部210において学習するための情報である学習対情報を送信し、ステップC1へ戻る。
【0304】
ステップC8: 選択伝達情報として、圧縮結果情報を伝達することとし、第一の実施例と同様の方法によって、圧縮結果情報Cjに対応する選択伝達情報を送信し、ステップC1ヘ戻る。
【0305】
以上が“処理手順C”での処理である。
【0306】
次に学習対情報を生成する“処理手順D”の処理内容を説明する。
【0307】
“処理手順D”
ステップD1: 認識結果情報Riのラベル情報Cの値Li、およびF0情報Eの値Fiと、継続時間Di、および圧縮結果情報Cjの音声素片情報Dの値Wjを、それぞれ、ラベル情報A、および、F0情報B、および継続時間情報C、および音声素片情報Dとして持つ学習対情報Pkを新たに生成する。
【0308】
ステップD2: 学習対情報Pkを送信する。
以上が送信制御部204の構成と機能である。
続いて、受信制御部205の機能について説明する。
【0309】
<受信制御部205の機能>
受信制御部205は、第一の実施例の受信制御部105と同様の方法によって同様の機能を実現した上で、以下に示す“処理手順E”に従った制御により、合成規則の学習のためのデータである学習対情報を受信する機能を実現するものである。
【0310】
“処理手順E”を説明する。
【0311】
“処理手順E”ステップE1: 通信路を通じて送信制御部204から選択伝達情報を受けとった場合はステップE2へ進み、学習対情報Pkを受けとった場合はステップE3へ進む。
【0312】
ステップE2: 選択伝達情報の種別情報Aの内容が、認識結果情報を表す記号「R」である場合には、伝達内容情報Bの内容を合成部206に渡し、種別情報Aの内容が圧縮結果情報を表す記号「C」である場合には、伝達内容情報Bの内容を、伸長部207へ渡し、ステップE1へ戻る。
【0313】
ステップE3: 学習対情報Pkの音声素片情報Dの内容Vkを伸長部207へ送り、その処理結果である音声波形情報Wkを得る。
【0314】
ステップE4: 合成規則記憶部211に新たなエントリRkを生成し、そのラベル情報A、F0情報B、継続時間情報C、および音声素片波形情報Dに、学習対情報Pkのラベル情報Aの値、F0情報Bの値、継続時間情報Cの値、および音声波形情報Wkをそれぞれ記録する。
【0315】
以上の処理によって、学習対情報として伝達された情報を用い、新しい合成規則が生成されることとなる。
【0316】
以上が本装置の第二の実施例の構成とその機能である。
【0317】
かくしてこのように学習機能を設けて構成された本システムによれば、認識結果のスコアが基準以上で、かつ、まだ学習されていない音素を含むことが分かった時に、学習対情報という形で、認識結果と圧縮結果の組を送信し、受信部で受けとって合成規則を学習し、次回以降はこの規則によって合成音で出力を行うことが可能になる。
【0318】
これにより、本装置を使用していく過程で次第に合成音声が入力音声に類似していくことになり、声の個性を保存し、誰が喋っているかわかるようになり、かつ、声が経時変部しても正しく伝送でき、かつ学習によって、従来は知的符号部によって通信できなかった音声が、知的符号部によって送信できるようになることで、徐々に通信効率が向上する音声伝送装置を実現することが出来るようになる。
【0319】
尚、第二の実施例は上述した例に限定されるものではない。例えば、上述の例では基本周波数と、継続時間長に閾値を設けることで、学習の実施あるいは非実施の判断を行う例を示したが、この閾値を調整することによって、圧縮の効果の度合と学習処理の効果の度合等を制御することが出来る。
【0320】
また、上述の例では、音声素片を処理の単位とする例を示したが、例えば、単語などを処理単位とする実現も可能である。
【0321】
また、上述の例では基本周波数と、継続時間長に基づいて、学習の実施あるいは非実施の判断を行う例を示したが、例えば、話者情報や時間情報などを追加し、本装置を通常の利用者でない他者が利用した場合や、合成規則が学習されてから長い時間が経過した際には、同じ音韻に対しても再度学習を行うようにして、利用者の変部や、経時変化に対しても影響を受けない装置を構成することも可能である。
【0322】
また、上述の例では、説明を簡単化するため、音声認識結果と音声圧縮結果が同期して出力される例を示したが、これを非同期として同様の効果を実現することも可能である。
【0323】
また、上述の例では、音声合成規則として、音声素片が学習される例を示したが、言語解析処理に使われる言語辞書情報を学習する様にしても良い。また、上述では、音声素片選択のキーとして、F0,継続時間長を利用する例を示したが、注目している音素の前後の音素のラベルを参照して、音素を選択する合成部のための学習機能を実現することも可能である。
【0324】
また、上述の例では、送信制御部204から送られた全ての学習対情報に基づく学習処理が短時間に正しく実施される学習部を持つ例を示したが、学習状況記憶部209の各エントリに学習の成否などを記録する欄を追加し、かつ、学習部210での学習処理の成否などを通信路を通じて受信部から送信部に通信し、学習が失敗した場合には学習状況記憶部209の対応するエントリを削除するように構成することも可能である。
【0325】
次に第一の実施例の構成要素に、検証機能を追加した構成を第三の実施例として説明する。
【0326】
[第三の実施例]
第三の実施例は、送信部において音声認識結果に基づき、一旦、音声合成処理を行い、入力音声との比較を行い、その結果に応じて、受信部に伝送する信号の種別を決定することにより、受信部における合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現するものである。
【0327】
図20は、このような本発明の第三の実施例にかかる音声伝達装置の構成の概要を表しており、本装置が図1に示した第一の実施例の構成要素に、検証用合成部312、および検証部313を追加した構成を持っていることが示されている。
【0328】
本実施例の特徴は、入力音声を音声認識・音声合成技術により超低ビットレートで圧縮された復号音声と原音声の特徴量の比較を行い、その結果に応じて復号器に伝送するパラメータを切り替える点にある。
【0329】
本実施例によれば、音声認識・音声合成技術により超低ビットレートで圧縮された復号音声と原音声の特徴量の比較を行い、類似している場合には、認識結果情報を伝送パラメータとして復号器に伝送される。
【0330】
この場合、認識結果情報は超低ビットレートで表すことができるため、周波数資源の有効利用に大きく寄与することができる。
【0331】
また、音声認識・音声合成技術により超低ビットレートで圧縮された復号音声と原音声の特徴量が類似していない場合には、音声符号部技術により求められる符号化情報が伝送パラメータとして復号器に伝送される。この場合、認識結果情報を伝送するのではなく、原音声をより忠実に表す音声符号化技術にて求められた符号部パラメータを伝送することにより、品質の向上を図ることが可能となる。
【0332】
以下、図21を用いて説明する。図21は、本実施例の一構成を示すブロック図である。この構成においては、入力端子2101から音声信号が入力され、認識部302に与えられる。パターン認識部302では周波数分析がなされ、時間周波数で表される音声パターンが得られる。
【0333】
その音声パターンと予め作成してある標準パターンとの類似度を時間軸を非線形に伸縮させながら算出し、最も類似度の高い標準パターンの表す音素を認識結果情報として出力する。
【0334】
標準パターンの単位としては、音素の他に音節、単語などの種々のレベルが考えられる。
【0335】
認識部302で求められた認識結果情報は合成音声を生成するための圧縮部303に与えられる。圧縮部303では、認識結果情報から形態素解析、係り受け解析、韻律制御などを経て合成音声を生成し、類似度を算出するための類似度算出部304に与える。
【0336】
類似度算出部304では、圧縮部303で生成した合成音声と入力音声との類似度を算出する。ここでいう類似度とは、合成音声の特徴量と入力音声の特徴量の差を指す。
【0337】
特徴量として、例えば、ピッチパターン、サブバンドパワー、LPCスペクトル、ゼロ交叉比など音響パラメータの1つ以上の組み合わせを用いることができる。類似度算出部304で求めた合成音声と入力音声の類似度の情報を、当該判定合成音声と入力音声との類似度判定をするための判定部305に与え、当該判定部305では認識部302および圧縮部303による合成音声が入力音声に類似しているかを閾値等を用いて判定する。
【0338】
ここで類似していると判定された場合に、スイッチ2103は端子2102と接続し、スイッチ2106をオフ状態とし、認識部302で求められた認識結果情報をマルチプレクサ304aに与える。このとき符号部303aは動作しない。
【0339】
一方、判定部305において、認識部302および圧縮部303による合成音声が入力音声に類似していないと判定した場合には、スイッチ2103を端子2104に接続し、スイッチ2106を端子2105に接続して入力音声を符号部303aに与えて符号部情報を求め、これをマルチプレクサ304aに与える。
【0340】
マルチプレクサ304aでは、認識結果情報または符号部情報の一方と判定部305より得られる判定情報とをビットストリームに変換し、出力端子2107より出力する。
【0341】
次に、本実施例の別の構成を図22を用いて説明する。
【0342】
この構成は、音声認識・音声合成技術により超低ビットレートで圧縮された復号音声と原音声の特徴量の差と、音声符号部技術により圧縮された復号音声と原音声の特徴量の差を比較し、原音声との特徴量の差の小さい技術で求められた情報(認識結果情報または符号部情報)を伝送パラメータとする点に特徴がある。
【0343】
この構成の利点は、常に原音声の特徴量に近い情報(認識結果情報または符号部情報)が選択されるため、高品質で安定した復号音声を得ることが可能となる点にある。
【0344】
以下、図22を用いて説明を行う。図22において、図21と同じ名称が付されている構成要素は同様の機能を有するものとし、ここでは説明を省略する。
【0345】
入力端子2201より音声信号が入力され、認識部302および符号部部303bに与えられる。認識部302では、認識処理を行い認識結果情報を求め合成部312bに与える。合成部312bでは合成音声を生成し類似度算出部313cに与える。類似度算出部313cでは、合成音声と入力音声の類似度を求め、その結果を比較部313eに与える。
【0346】
これと並行して、符号部303bでは入力信号をCELPなどの技術を用いて符号部情報を求め、この符号部情報を復号部303cに与えて復号音声を求める。次に類似度算出部313dでは、復号部5303cから与えられる復号音声と入力音声との類似度を、類似度算出部313cと同様の手法により求め、その結果を比較部313eに与える。
【0347】
比較部313eでは類似算出部313cから選られる類似度と類似度算出部5 313dから得られる類似度の比較を行い、どちらの類似度が大きいかを判定し、その結果に応じてスイッチ2203を切り替える。
【0348】
類似度算出部313cからの類似度が大きい場合には、スイッチ2203は端子2202と接続して認識部302で求められた認識結果情報がマルチプレクサ304bに与えられる。
【0349】
類似度算出部313dからの類似度が大きい場合には、スイッチ2203は端子2204と接続して符号部303bで求められた符号化情報がマルチプレクサ304bに与えられる。マルチプレクサ304bでは、認識結果情報もしくは符号化情報のいずれか一方と、比較部313eで求められた比較結果が与えられ、ビットストリームに変換した後に出力端子2205より出力する。
【0350】
なお、本発明は上述した例に限定されるものではない。たとえば、本装置による通信は、双方向通信としても実現することが可能であるが、その際、伝達する認識結果情報の検証のために利用する検証用合成手段と、選択伝達情報として伝達されてきた認識結果情報に基づく音声合成処理を行う音声合成手段とを一つの合成装置によって実現することにより、装置の小型化、簡素化を図ることも可能である。すなわち、双方向通信にした場合の資源の共有ことにより、装置の小型化、簡素化を図ることが可能である。
【0351】
以上、第三の実施例で説明した本発明にかかる音声伝達装置は、送信部において音声認識結果に基づき一旦音声合成処理を行い、入力音声との比較を行い、その結果に応じて、受信部に伝送する信号の種別を決定するようにしたことにより、受信部における合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現することができるものである。
【0352】
次に第四の実施例を説明する。
【0353】
[第四の実施例]
第四の実施例では、送信部において音声認識結果に基づく高精度な音声合成処理と、受信部において行われる音声合成処理の双方の出力を比較し、その結果に応じて、送信部側から受信部に伝送する信号の種別を決定することで、受信部における合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現する。すなわち、認識結果を送信した場合に受信部で正しく合成できるかどうかを認識結果の送信前に送信装置側で判定した上で、正しく合成できそうな場合は認識結果を送るようにし、そうでない場合には圧縮結果を送るようにすることにより、受信装置側での合成誤りを抑制する。
【0354】
これによって、受信部に於ける合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現するものである。
【0355】
以下、図面を参照して本発明の第四の実施例に係る音声伝達装置につき説明する。図23は、本発明の第四の実施例にかかる音声伝達装置の構成の概要を表しており、本装置が図1に示した第一の実施例の構成要素に、検証用合成部412、および検証部413および高品位合成部414を追加した構成を持っていることが示されている。すなわち、第一の実施例の構成要素に、高性能合成器を用いての検証機能を付加した構成である。
【0356】
ここで、入力部401、認識部402、圧縮部403、受信制御部405、合成部406、伸長部407、および出力部408は、第一の実施例の入力部401、認識部102、圧縮部103、受信制御部1045、合成部106、伸長部107、出力部108と同様の機能を持つ。
【0357】
検証用合成部412は、認識部402の出力する認識結果情報を受けとり、合成部406と同様の音声合成処理の少なくとも一部の処理を行い、形態素解析結果、あるいは係り受け解析結果、あるいは音素ラベル系列、あるいは韻律制御指令、あるいは合成音声出力波形などといった音声合成処理のための中間データあるいは音声合成処理結果の少なくとも一つを検証用出力情報として出力し、検証部413に渡すようにしている。
【0358】
高品位合成部414は、認識部402の出力する認識結果情報を受けとり、大規模な言語解析規則や、韻律決定規則や、音声素片の情報を用いることなどによって、合成部406より高精度な音声合成処理の少なくとも一部の処理を行い、形態素解析結果、あるいは係り受け解析結果、あるいは音素ラベル系列、あるいは韻律制御指令、あるいは合成音声出力波形などといった音声合成処理所ための中間データあるいは音声合成処理結果の少なくとも一つを基準出力情報として出力し、検証部413に渡すようにしている。
【0359】
検証部413は、検証用合成部412から得られる検証用出力情報と、高品位合成部414から得られる基準出力情報を比較し、両者にあらかじめ定めた基準以上の相違がある場合には、送信制御部404に対応する音声入力は圧縮結果情報を選択伝達情報として送信させるよう制御し、そうでない場合には、送信制御部404で行われる従来の基準にしたがって、対応する音声入力を、圧縮結果情報あるいは認識結果情報を選択伝達情報として送信させるよう構成する。
【0360】
つづいて具体的に処理内容を説明する。
【0361】
いま、入力部401から「寝台車頼む」という音声入力がなされたとする。
【0362】
この音声信号が認識部402において認識処理され、認識結果情報として例えば「/し/ん/だ/い/しゃ/た/の/む/」という音素ラベル列が得られ、検証用合成部412および高品位合成部414に渡されたとする。
【0363】
この認識結果情報に対し、検証用合成部412での処理によって、「読み: (しんだ)、アクセント:(0型)、品詞:動詞/読み:(いしゃ)、アクセント:(0型)、品詞:名詞/読み:(たのむ)、アクセント:(2型)、品詞:動詞」という検証用出力情報が得られ、検証部413に渡されたものとする。 (これは入力が「死んだ医者頼む」と誤って解析されたことに対応する。)
一方、同じ認識結果情報に対して、高品位合成部414での処理によっては、「読み:(寝台)、アクセント:(3型)、品詞:名詞/読み:(たのむ)、アクセン卜:(2型)、品詞:動詞」という基準出力情報が得られ、検証部413に渡されたものとする。(これは入力が「寝台車頼む」と正しく解析されたことに対応する。)
検証部413では、上述の検証用出力情報と、基準出力情報を受けとり比較を行うが、これらの間に形態素解析による品詞の割り振りに相違があり、その結果アクセント指令にも相違が生じていることが判明する。
【0364】
仮に、この認識結果情報を選択伝達情報として伝送すると合成部406において誤った合成がなされ、フレージングおよびアクセン卜に関して問題のある出力がなされることを事前に検知したので、送信制御部404を制御して、入力音声に対応する圧縮結果情報を含む選択伝達情報が送信される。
【0365】
これによって、合成処理の誤りに起因する音声の伝達誤りを起こさない音声伝達装置を構成することが出来る。
【0366】
このように、第四の実施例では、送信部において音声認識結果に基づき、高精度な音声合成処理を行い、また、受信部において音声合成処理を行い、これら送信部および受信部での音声処理出力を比較し、その結果に応じて、受信部に伝送する信号の種別を決定するようにした。これにより、受信部における合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現することができるようになる。
【0367】
すなわち、認識結果を送信した場合に受信部で正しく合成できるかどうかを認識結果の送信前に送信装置側で判定した上で、正しく合成できそうな場合は認識結果を送るようにし、そうでない場合には圧縮結果を送るようにしたことにより、受信部に於ける合成誤りの発生を未然に防ぎ、より信頼性の高い高能率な音声伝送を実現することができるようになる。
【0368】
次に、話者照合手段によって、発声者が誰であるかを特定し、話者情報を通信路を介して送し、合成手段において音声に変換する場合に、話者の声に近い音声を出力することができるようにした実施例を第五の実施例として説明する。
【0369】
[第五の実施例〕
以下、図面を参照して本発明の第五の実施例に係る話者照合機能追加の音声伝達装置につき説明する。
【0370】
図24は、本発明の第五の実施例にかかる音声伝達装置の構成の概要を表しており、本装置が図1に示した第一の実施例の構成要素に、話者を認証する話者認証部515を追加し、また、受信側の合成部506にはこの話者認証情報を元に話者の声に近い音声を生成する機能を持たせている。
【0371】
ここで、送信部側に設けた話者認証部515では、予め作成してある話者ごとの特徴を示す話者特徴辞書を有しており、これを用いて発声者が誰であるかを特定し、話者情報を通信路を介して送る機能を有している。すなわち、話者認証部515には入力された音声データを周波数分析し、時間周波数パターンで表される音声パターンが得、その音声パターンと、予め作成してある話者ごとの特徴を示す話者特徴辞書との照合を行い、各話者ごとにどのくらい似ているかを表すスコアを計算し、最も高いスコアを示す話者を照合結果(話者認証情報)として出力する機能を持たせてある。また、合成部506は話者の素片辞書を有しており、送られてきた上記話者情報に対応する話者の素片辞書を選択し、その素片を用いて音声合成処理を行う。
【0372】
これにより、受信部では送信部から選択伝達情報として送られて来た認識結果情報を合成部506により音声に変換する場合に、話者の声に近い音声を生成することも可能となる。
【0373】
つづいて、具体的に処理内容を説明する。
【0374】
まず、話者認証部515に入力された音声データは、認識部502と同様に、周波数分析がなされ、時間周波数パターンで表される音声パターンが得られる。
【0375】
話者認証部515ではその音声パターンと、予め作成してある話者ごとの特徴を示す話者特徴辞書との照合を行い、各話者ごとにどのくらい似ているかを表すスコアを計算する。そして、最も高いスコアを示す話者が照合結果として出力される。
【0376】
こうして得られた話者情報は通信路を介して話者認証部515から、受信制御部505へと送られる。
【0377】
ここで、合成部506による音声合成処理によって出力する旨の選択がなされた場合、合成部506では送られてきた上記話者情報に対応する話者の素片辞書を選択し、その素片を用いて音声合成処理を行う。これににより、聞き手は話し手の声に近い音声を聞くことができる。
【0378】
ここで、話者照合に用いる話者特徴辞書および音声合成で用いる音声素片辞書は、対応づいている必要があるが、同一人物の声である必要はない。
【0379】
また、上記辞書は発声者の声で作成しておく必要もない。ただし、用意しておく話者の数を増やすことにより、より発声者に近い音声を合成することができる。
【0380】
例えば、話者特徴辞書として5人の特徴を登録しておいた場合に、未知話者が発声した音声から5人のうち、どの話者に近いかを求めて、最も近い人の音声で合成音を生成するよりも、100人登録しておき、その中から最も近い人を選択した方が、発声者により近い合成音になる可能性が高い。
【0381】
また、話者特徴辞書はA〜Eの5人の話者から作成しておき、音声合成素片辞書は話者F〜Jの5人で作成しておき、その間で最も近い話者の対応表を予め作成しておく。これににより、話者A〜Eのいずれかが選択された場合に、対応する人の素片辞書を用いて合成音を生成することで、発声者に近い音声を再現できるようになる。
【0382】
以上の第五の実施例は、話者照合手段によって発声者が誰であるかを特定し、話者情報を通信路を介して伝送して合成手段に渡すようにしたので、合成手段において音声に変換する場合に、話者の声に近い音声を出力することができるようになる。
【0383】
以上、種々の実施例を説明したが、いずれも上述の実施例では、装置として本発明を実現する場合のみを示した。しかし、上述の具体例の中で示した処理手順あるいはフローチャートを、プログラムとして記述し、実装し、汎用の計算機システムに読み込んで実行することによっても、同様の機能と効果を得ることが可能である。
【0384】
すなわち、この場合、図25の汎用コンピュータの構成の例に示したように、入力インタフェース601、出力インタフェース602、CPU603、メモリ604、大容量記憶装置605、および通信インタフェース607からなる汎用コンピュータを、通信路607によって接続し、CPUによるソフトウエア制御により、上述のごとき動作を実現することが出来る。
【0385】
すなわち、上述の実施例に記載した手法は、コンピュータに実行させることの出来るプログラムとして、磁気ディスク(フロッピディスク、ハードディスクなど)、光ディスク(CD−ROM、DVD、MOなど)、半導体メモリなどの記録媒体を用いてコンピュータにプログラムを読み込み、CPU603で実行させれば、本発明の音声伝送装置を実現することが出来ることになる。
【0386】
【発明の効果】
以上説明したように、本発明によれば、従来の符号化による圧縮通信では、伝達できる音声の品質と圧縮度の間にトレードオフがあるため、可能な圧縮比率に限界があるという問題点を解決し、より効率の高い音声伝送を実現する。
【0387】
また、従来の知的符号化による通信では避けることの出来なかった、音声認識処理での誤認識に起因する伝送内容の誤りを、避けることが出来る音声伝送を実現する。
【0388】
また、従来の知的符号化による通信では避けることの出来なかった、音声合成処理での誤生成に起因する伝送内容の誤りを、避けることが出来る音声伝送を実現する。
【0389】
また、以上によって、従来の符号化による圧縮通信より高い効率の伝送を、伝送内容に誤りを起こさずに実現するものである。
【0390】
また、高い通信効率を達成しつつ、本装置を利用する利用者の声の個人性を保存し誰が喋っているかかわかる音声伝達装置を実現する。
【0391】
また、声が経時変化しても随時学習によって追従する音声伝達を実現し、また、随時学習を行うことによって、利用するほどに段々通信効率が上がる音声伝達を実現するものである。また、検証機能によって信頼性の高い知的符号化を実現する等の実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の第一の実施例にかかる音声伝達装置の構成の概要を説明するための図。
【図2】CELP符号化のエンコーダ部を表すブロック図。
【図3】CELP符号化のデコーダ部を表すブロック図。
【図4】認識結果情報の内容の例を示す図。
【図5】圧縮結果情報の内容の例を示す図。
【図6】選択伝達情報の内容の例を示す図。
【図7】合成音部の構成の例を示す図。
【図8】合成音声出力情報の内容の例を示す図。
【図9】伸長音声出力情報の内容の例を示す図。
【図10】送信制御部104の内部構成の例を示す図。
【図11】処理手順Aを説明するフローチャート。
【図12】認識結果情報および圧縮結果情報の時間的関係の例を示す図。
【図13】本発明の第二実施例にかかる音声伝達装置の構成の概要を示す図。
【図14】認識部202の出力する認識結果情報の例を示す図。
【図15】圧縮部203の出力する圧縮結果情報の例を示す図。
【図16】学習状況記憶部209の内容の例を示す図。
【図17】合成規則記憶部211の内容の例を示す図。
【図18】合成部206および学習部210および合成規則記憶部211の内部構成の例を示す図。
【図19】学習対情報の例を示す図。
【図20】本発明の第三実施例にかかる音声伝達装置の構成の概要を示す図。
【図21】検証機能付きの送信部の一つの構成を示す図。
【図22】検証機能付きの送信部の別の構成を示す図。
【図23】本発明の第四実施例にかかる音声伝達装置の構成の概要を示す図。
【図24】本発明の第五実施例にかかる音声伝達装置の構成の概要を示す図。
【図25】汎用コンピュータの構成の例を示す図。
【符号の説明】
101…入力部
102…認識部
103…圧縮部
103a…スペクトル包絡符号帳探索部
103b…適応符号帳探索部
103c…雑音符号帳探索部
103d…ゲイン符号帳探索部
103e…多重化部
1O4…送信制御部
104a…認識情報キュー
104b…圧縮情報キュー
104c…送信部
104d…制御処理部
105…受信制御部
106…合成部
106a…言語処理部
106b…韻律処理部
106c…音声波形生成部
106d…言語辞書記憶部
106e…韻律規則記憶部
106f…音声単位情報記憶部
107…伸長部
107a…適応音源復号部
107b…雑音音源復号部
107c…ゲイン音源復号部
107d…スペクトル包絡復号部
107e…音源再生部
107f…合成フィルタ
107q…ポストフィルタ
107h…逆多重化部
108…出力部
201…入力部
202…認識部
203…圧縮部
204…送信制御部
205…受信制御部
206…合成部
206a…言語処理部
206b…韻律処理部
206c…音声波形生成部
207…伸長部
208…出力部
209…学習状況記憶部
210…学習部
210a…音声分析部
210b…韻律規則学習部
210c…音声単位情報学習部
211…合成規則記憶部
211a…言語辞書記憶部
211b…韻律規則記憶部
211c…音声単位情報記憶部
301…入力部
302…認識部
303…圧縮部
303a…符号化部
303b…符号化部
303c…復号部
304…送信制御部
304a,304b…マルチプレクサ
305…受信制御部
306…合成部
307…伸長部
308…出力部
312…検証用合成部
313…検証部
313a…類似度算出部
313b…判定定部
313c…類似度算出部
313d…類似度算出部
313e…比較部
401…入力部
402…認識部
03…圧縮部
404…送信制御部
405…受信制御部
406…合成部
407…伸長部
408…出力部
412…検証用合成部
413…検証部
414…高品位合成部
501…入力音
502…認言1部
503…圧縮部
504…送信制御部
505…受信制御部
506…合成部
507…伸長部
508…出力部
515…話者照合部
601a,601b…入力インタフェース
602a,602b…出力インタフェース
603a,603b…CPU
604a,604b…メモリ
605a,605b…大容量記憶装置
606a,606b…通信インタフェース
607…通信路
2101…入力端子
2102…端子
2103…スイッチ
2104,2105,2202,2204…端子
2106,2203…スイッチ
2107,2205…出力端子
2201…入力端子。

Claims (6)

  1. 入力音声信号を受けてこれを入力音声情報として出力する音声入力手段と、
    該入力音声情報に対して認識処理を施し、その結果を認識結果情報として出力する音声認識手段と、
    前記入力音声情報を受けてこれを圧縮処理し、その結果を圧縮結果情報として出力する音声圧縮手段と、
    前記認識結果情報および圧縮結果情報を受け、これらのいずれか一方をそれぞれの種別記号と共に選択伝達情報として出力する第1の送信制御手段と、
    前記入力音声信号に対する認識処理のスコアが基準以上であり、かつ前記認識結果情報が未学習の音素を含む場合に、該認識結果情報および該圧縮結果情報の組からなる学習対情報を生成し出力する第2の送信制御手段と、
    前記選択伝達情報を受け、前記種別記号に基づいて、音声合成手段あるいは音声伸長手段に該選択伝達情報を送る受信制御手段と、
    音声合成のための規則あるいは知識である合成規則情報を保持する合成規則記憶手段と、
    前記選択伝達情報として受け取った認識結果情報に対し、前記合成規則情報に従って音声合成処理して合成音声出力情報を生成する音声合成手段と、
    前記選択伝達情報として受け取った圧縮結果情報に対し、音声信号伸長処理して伸長音声出力情報を出力する音声伸長手段と、
    前記合成音声出力情報または前記伸長音声出力情報を受け取り、音声信号として出力する音声出力手段と、
    前記学習対情報を受信したならば、該学習対情報に含まれる前記認識結果情報および前記圧縮結果情報の組に対し音声分析処理、韻律規則学習処理、および音声単位情報学習処理を施すことにより音声合成のための音韻規則および音声単位情報を抽出して新たな合成規則情報を生成し、前記合成規則記憶手段に保持させる学習手段と、
    を具備することを特徴とする音声信号伝送装置。
  2. 前記音声認識信号を受け、高精度の音声合成処理を行って高精度合成音声情報を出力する高精度音声合成手段と、
    前記音声合成手段により生成された検証用合成音声情報と、前記高精度音声合成手段により生成された高精度合成音声情報とに対し比較検証処理を施し、検証結果を表す検証結果情報を出力する検証手段と、
    をさらに具備することを特徴とする請求項1記載の音声信号伝送装置。
  3. 話者毎の特徴を示す話者特徴辞書を有し、入力音声情報に対してこの話者特徴辞書を用いて話者照合処理を行い、話者を特定してこれを話者照合情報として出力する話者照合手段と、
    該話者照合情報を受け取り、話者認識結果に応じて、生成する合成音声の種類を変更する合成音声手段と、
    を具備することを特徴とする請求項1記載の音声信号伝送装置。
  4. 入力音声信号を受けてこれを入力音声情報として出力する音声入力ステップと、
    該入力音声情報に対して認識処理を施し、その結果を認識結果情報として出力する音声認識ステップと、
    前記入力音声情報を受けてこれを圧縮処理し、その結果を圧縮結果情報として出力する音声圧縮ステップと、
    前記認識結果情報および圧縮結果情報を受け、これらのいずれか一方をそれぞれの種別記号と共に選択伝達情報として出力する第1の送信制御ステップと、
    前記入力音声信号に対する認識処理のスコアが基準以上であり、かつ前記認識結果情報が未学習の音素を含む場合に、該認識結果情報および該圧縮結果情報の組からなる学習対情報を生成し出力する第2の送信制御ステップと、
    前記選択伝達情報を受け、前記種別記号に基づいて、音声合成手段あるいは音声伸長手段に該選択伝達情報を送る受信制御ステップと、
    音声合成のための規則あるいは知識である合成規則情報を保持する合成規則記憶ステップと、
    前記選択伝達情報として受け取った認識結果情報に対し、前記合成規則情報に従って音声合成処理して合成音声出力情報を生成する音声合成ステップと、
    前記選択伝達情報として受け取った圧縮結果情報に対し、音声信号伸長処理して伸長音声出力情報を出力する音声伸長ステップと、
    前記合成音声出力情報または前記伸長音声出力情報を受け取り、音声信号として出力する音声出力ステップと、
    前記学習対情報を受信したならば、該学習対情報に含まれる前記認識結果情報および前記圧縮結果情報の組に対し音声分析処理、韻律規則学習処理、および音声単位情報学習処理を施すことにより音声合成のための音韻規則および音声単位情報を抽出して新たな合成規則情報を生成する学習ステップと、
    を具備することを特徴とする音声信号伝送方法。
  5. 音声認識信号を受け取り、音声合成ステップに比較してより高精度の音声合成処理を行い、高精度合成音声情報を出力する高精度音声合成ステップと、
    該検証用合成音声情報および高精度合成音声情報を受け取り、比較検証処理を施し、検証結果を表す検証結果情報を出力する検証ステップと、
    を具備することを特徴とする請求項4記載の音声信号伝送方法。
  6. 入力音声情報に対して、話者照合処理を行い、話者照合情報として出力する話者照合ステップと、
    該話者照合情報を受け取り、出力する送信制御ステップと、
    該話者照合情報を受け取り、出力する受信制御制御ステップと、
    該話者照合情報受け取り、話者認識結果に応じて、生成する合成音声の種類を変更する合成音声ステップと、
    を具備することを特徴とする請求項4記載の音声信号伝送方法。
JP09296799A 1999-03-31 1999-03-31 音声信号伝送装置および音声信号伝送方法 Expired - Fee Related JP3552200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09296799A JP3552200B2 (ja) 1999-03-31 1999-03-31 音声信号伝送装置および音声信号伝送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09296799A JP3552200B2 (ja) 1999-03-31 1999-03-31 音声信号伝送装置および音声信号伝送方法

Publications (2)

Publication Number Publication Date
JP2000284799A JP2000284799A (ja) 2000-10-13
JP3552200B2 true JP3552200B2 (ja) 2004-08-11

Family

ID=14069202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09296799A Expired - Fee Related JP3552200B2 (ja) 1999-03-31 1999-03-31 音声信号伝送装置および音声信号伝送方法

Country Status (1)

Country Link
JP (1) JP3552200B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4542400B2 (ja) * 2004-09-15 2010-09-15 日本放送協会 韻律生成装置及び韻律生成プログラム
JP6028289B2 (ja) * 2013-02-27 2016-11-16 東日本電信電話株式会社 中継システム、中継方法及びプログラム

Also Published As

Publication number Publication date
JP2000284799A (ja) 2000-10-13

Similar Documents

Publication Publication Date Title
CN108899009B (zh) 一种基于音素的中文语音合成系统
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
US6161091A (en) Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
US4912768A (en) Speech encoding process combining written and spoken message codes
CN1121679C (zh) 用于语音合成的运行时声频单元选择方法和系统
US11361753B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
US20070213987A1 (en) Codebook-less speech conversion method and system
CN112767958A (zh) 一种基于零次学习的跨语种音色转换系统及方法
WO2016209924A1 (en) Input speech quality matching
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
NZ243731A (en) Synthesising human speech
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US11600261B2 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
JP2002268660A (ja) テキスト音声合成方法および装置
WO2000058949A1 (en) Low data transmission rate and intelligible speech communication
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
US11282495B2 (en) Speech processing using embedding data
JP3552200B2 (ja) 音声信号伝送装置および音声信号伝送方法
Toledano et al. Initialization, training, and context-dependency in HMM-based formant tracking
Nazir et al. Deep learning end to end speech synthesis: A review
Atal et al. Speech research directions

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees